HOG es un método de extracción de características densas para imágenes. Denso significa que extrae características para todas las ubicaciones en la imagen (o una región de interés en la imagen) en lugar de solo el vecindario local de puntos clave como SIFT.
Intuitivamente, trata de capturar la forma de las estructuras en la región mediante la captura de información sobre gradientes. Lo hace dividiendo la imagen en celdas pequeñas (generalmente de 8 × 8 píxeles) y bloques de 4 × 4 celdas. Cada celda tiene un número fijo de contenedores de orientación de gradiente. Cada píxel en la celda vota por un bin de orientación de gradiente con un voto proporcional a la magnitud del gradiente en ese píxel.
Para reducir el alias, los votos de los píxeles se interpolan bilinealmente. Esta interpolación ocurre tanto en la orientación como en la posición. Esta afirmación es importante: significa que un píxel no solo votará por su bandeja de orientación, sino también por las bandejas de orientación vecinas (por ejemplo, si la orientación del gradiente en un píxel es de 45 grados, votará con un peso de 0.5 por el Contenedor de 35 a 45 grados y un peso de 0.5 para el contenedor de 45 a 55 grados). Del mismo modo, votará por estos dos contenedores de orientación no solo en su celda, sino también en las 4 celdas vecinas de su celda. Los pesos aquí se deciden por la distancia del píxel desde los centros celulares.
- ¿Cuál es el significado de la compactación Stone-Cech?
- Cómo encontrar el vector [math] \ overrightarrow {B_1B} [/ math] con puntos de triángulo dados: [math] A (4,1, -2), B (2,0,0), C (-2, 3, -5) [/ matemáticas]
- ¿Cuál podría haber sido la intuición detrás del problema de Monty Hall? ¿Cómo se prueban los resultados?
- ¿Cuál es la diferencia entre un logaritmo y un algoritmo?
- ¿Cómo se determina el cálculo de un recuento mínimo de un micrómetro?
Los histogramas también se normalizan en función de su energía (norma L2 regularizada) entre bloques. Como los bloques tienen un tamaño de paso de 1 celda, una celda formará parte de 4 bloques. Esto define cuatro versiones normalizadas de manera diferente del histograma de la celda. Estos 4 histogramas se catean para obtener el descriptor de la célula. Típicamente, los elementos de los histogramas también están limitados a algún valor.
Hay algunas campanas y silbatos más, y remito al lector interesado al documento (Página en lear.inrialpes.fr) que también tiene muchas evaluaciones para los parámetros (por ejemplo, estrategia de normalización, tamaños de celda y bloque, celda y bloque geometría, etc.) y también describe cómo usar estas características con un SVM lineal para detectar objetos. El documento es bastante fácil de leer.