¿Qué es el “histograma de gradientes orientados” y cómo funciona?

HOG es un método de extracción de características densas para imágenes. Denso significa que extrae características para todas las ubicaciones en la imagen (o una región de interés en la imagen) en lugar de solo el vecindario local de puntos clave como SIFT.

Intuitivamente, trata de capturar la forma de las estructuras en la región mediante la captura de información sobre gradientes. Lo hace dividiendo la imagen en celdas pequeñas (generalmente de 8 × 8 píxeles) y bloques de 4 × 4 celdas. Cada celda tiene un número fijo de contenedores de orientación de gradiente. Cada píxel en la celda vota por un bin de orientación de gradiente con un voto proporcional a la magnitud del gradiente en ese píxel.

Para reducir el alias, los votos de los píxeles se interpolan bilinealmente. Esta interpolación ocurre tanto en la orientación como en la posición. Esta afirmación es importante: significa que un píxel no solo votará por su bandeja de orientación, sino también por las bandejas de orientación vecinas (por ejemplo, si la orientación del gradiente en un píxel es de 45 grados, votará con un peso de 0.5 por el Contenedor de 35 a 45 grados y un peso de 0.5 para el contenedor de 45 a 55 grados). Del mismo modo, votará por estos dos contenedores de orientación no solo en su celda, sino también en las 4 celdas vecinas de su celda. Los pesos aquí se deciden por la distancia del píxel desde los centros celulares.

Los histogramas también se normalizan en función de su energía (norma L2 regularizada) entre bloques. Como los bloques tienen un tamaño de paso de 1 celda, una celda formará parte de 4 bloques. Esto define cuatro versiones normalizadas de manera diferente del histograma de la celda. Estos 4 histogramas se catean para obtener el descriptor de la célula. Típicamente, los elementos de los histogramas también están limitados a algún valor.

Hay algunas campanas y silbatos más, y remito al lector interesado al documento (Página en lear.inrialpes.fr) que también tiene muchas evaluaciones para los parámetros (por ejemplo, estrategia de normalización, tamaños de celda y bloque, celda y bloque geometría, etc.) y también describe cómo usar estas características con un SVM lineal para detectar objetos. El documento es bastante fácil de leer.

Es un descriptor de características. Vea estas respuestas para una breve descripción:
¿Qué es un histograma de direcciones de gradiente en visión artificial?

HOG es una técnica popular para descubrir formas dentro de una imagen. Cómo funciona es muestreando subregiones de la imagen usando un núcleo. Luego comprueba la pendiente, también conocida como gradiente de orientación, y la coloca en un contenedor. Luego muestrea otra región hasta que se muestrea toda la imagen. Luego mira en el contenedor e intenta determinar un consenso de pendientes para determinar dónde están los bordes.
HOG se puede usar para detectar cualquier forma, pero no es robusto. Pero es bastante rápido y hace un trabajo decente.
Ejemplos populares son la detección de círculos y la detección de polígonos.

More Interesting

Algunas características de una población de humanos se distribuyen normalmente; La curva normal se deriva matemáticamente. ¿Cuál es la conexión entre biología y matemáticas en este caso?

Cómo calcular el porcentaje

¿Qué hay de malo en expresar la función de raíz cuadrada como una fracción continua? (imagen en detalles)

¿Cuál es la diferencia entre la prueba de inducción estándar y la inducción estructural?

¿Cuál es la mejor técnica para trazar funciones cúbicas?

¿Cuál es la circunferencia de la tierra a 45 grados norte?

¿Cuál es el valor de 1/3 +1/5 + 1/7 +… + 1/49?

El número 0 es +, entonces ¿por qué no hay -0?

¿Hay una ilustración geométrica de por qué la raíz cuadrada de 10 es aproximadamente [math] \ pi [/ math]?

¿Qué tan bueno es el vocabulario técnico persa? ¿Es posible describir un concepto matemático o científico con facilidad, o es difícil y necesitará que use más palabras de las que normalmente se necesitan si lo estuviera describiendo en otro idioma?

¿Por qué se utilizan fenómenos como palíndromos y secuencias de Fibonacci como problemas estándar en informática?

¿Cuál es el resto cuando 7 ^ 2017 se divide por 25? Explique en un lenguaje fácil de entender.

¿Qué tan difíciles son las preguntas OMO (Olimpiada matemática en línea) y cómo puedo prepararme para ellas?

¿Es posible expandir [matemáticas] (a + b) ^ {\ frac {1} {2}} [/ matemáticas]?

¿En qué punto los números romanos se vuelven inútiles para las matemáticas avanzadas?