Andrej Karpathy tiene un índice en papel que hace que sea muy fácil navegar a través de diferentes documentos para CVPR 2015. Puede encontrarlo aquí: Documentos aceptados de CVPR 2015
Este año, por lo que he visto hasta ahora, CVPR ha sido nuevamente el lugar para definir y estudiar las fronteras en la visión por computadora. No es sorprendente que se haya dicho que el aprendizaje profundo está en todas partes, tocando todos y cada uno de los problemas de la visión. Personalmente no enumeraré todas estas tendencias de aprendizaje profundo, sino problemas interesantes y soluciones creativas propuestas por diferentes autores, en los campos de resumen de video, análisis de video egocéntrico y estimación de prominencia visual.
Resumen de video
El resumen de video tiene como objetivo resumir largas horas de videos (> .05 horas) en un presupuesto de tiempo limitado (2-3 minutos), para facilitar su navegación y descubrimiento. El enfoque general ha sido dividir el video en diferentes segmentos temporales y asignar un puntaje de importancia a cada segmento, ya sea de forma supervisada (detectores de trenes para detectar segmentos de video importantes ) o sin supervisión (deje que los algoritmos descubran partes importantes de un video). Entonces, el problema se reduce para llegar a una definición de importancia.
- Soy un estudiante universitario encargado de desarrollar un trabajo de investigación de más de 125 páginas sobre cualquier tema en el desarrollo inmobiliario. ¿Cuáles son algunas sugerencias?
- Cómo prepararse para una entrevista en video conferencia del Imperial College y criticar un trabajo de investigación
- ¿Cuál es la mejor manera de archivar enlaces web con fines de investigación?
- ¿Cómo es un trabajo de investigación escrito por un estudiante de BPharm?
- ¿Qué significa tener un doctorado exitoso además de publicar toneladas de artículos?
Este año, he visto dos documentos interesantes de Yahoo Research Labs. La página del proyecto con los detalles sobre sus trabajos se puede encontrar en Una novela, un conjunto de datos diversos para el resumen automático de video
Figura 1. Cuadros de ejemplo del conjunto de datos recopilados por los autores de los siguientes artículos.
- TVSum: Resumen de videos web usando títulos: Este documento enfatiza que, el mejor resumen para un video se esconde detrás de su título. Las personas tienden a encapsular lo que es importante o vale la pena ver en el video cuando preparan el título para su video. Analizan el título de los videos y buscan imágenes relevantes utilizando estos conjuntos como consultas. Luego, los segmentos de video importantes se descubren usando videos, y las imágenes recopiladas del título usando conceptos visuales canónicos entre cuadros e imágenes de video. Enlace: Página en yahoo.com
Figura 2. Vea cómo el título encapsula cosas importantes para captar en el video.
- Co-resumen de video: Resumen de video por co-ocurrencia visual: en este artículo, la importancia se define como la co-ocurrencia visual entre videos: si tantas personas tienden a capturar segmentos temporales similares de videos de las mismas categorías, puede ser importante . Sin embargo, un gran problema con esto es la escasez de coincidencias: incluso si se repiten segmentos temporales similares entre videos, esto es raro. Los autores tratan esto mediante el hallazgo biclique máximo detallado en el artículo. Enlace: Página en cv-foundation.org
Análisis de video egocéntrico
Las cámaras de acción están ganando mayor popularidad hoy en día, como GoPro o Polaroid CUBE. La diferencia entre una cámara tradicional y cámaras de acción es que pueden montarse en su cuerpo, son muy ligeras y resistentes a las grietas. Estas características los hacen adecuados para registrar la vida diaria de una persona o capturar un evento deportivo extremo como paracaidismo o surf. El término académico para los videos capturados por estas cámaras es egocéntrico, y la visión por computadora comienza a tratar cada vez más con este tipo de entradas visuales.
Figura 3. Las cámaras de acción están ganando una mayor popularidad, debido a su diferente uso práctico en áreas de deportes extremos y otras áreas.
Dos de los casos de uso para el análisis de video egocéntrico es la sumarización de video y el reconocimiento de acciones . El resumen de video egocéntrico es necesario ya que los videos son generalmente demasiado largos y aburridos para ver: un registro de una persona de día completo, etc. Los videos tienden a mostrar un conjunto muy diverso de desafíos, en comparación con un video ordinario de Youtube. Esto surge la necesidad de desarrollar diferentes tipos de métodos para hacer frente a estos desafíos.
Otra línea de trabajo es reconocer automáticamente la acción de la primera persona. Aquí, he visto dos artículos del mismo grupo de investigación, donde uno es sobre resumen de video egocéntrico y el otro es reconocimiento de acción.
- Resumen de video egocéntrico habilitado para la mirada a través de la maximización submodular restringida: Aquí, nuevamente, el problema es determinar regiones o segmentos importantes del video en primera persona. En este documento, el truco consiste en utilizar miradas humanas (estimadas) para determinar qué regiones de fotogramas y segmentos de video son importantes, según el usuario de la cámara. También aprovechan la formulación de resumen natural de Optimización submodular, y todo el artículo merece una mirada. Enlace: Resumen de video egocéntrico habilitado para la mirada a través de la maximización submodular restringida
Figura 4. El diagrama de flujo para el método de sumarización de video egocéntrico propuesto.
- Profundizando en las acciones egocéntricas: esta es para detectar la acción del usuario de la cámara, ya sea que esté lavando los platos, cocinando comida o simplemente mirando la televisión. En mi opinión, este es más un documento de análisis de las diferentes señales como las manos, la mirada y el movimiento para el reconocimiento de la acción egocéntrica, ya que estas características ya se han utilizado antes tantas veces para el reconocimiento de la acción, pero nadie declaró realmente la relación entre estas señales como hecho en el periódico. Enlace: página de yinli
Reconocimiento de actividad
- ¿Qué nos dicen 15,000 categorías de objetos acerca de clasificar y localizar acciones? : Este es un documento de análisis que trata el efecto de grandes clases de objetos y su ayuda en el reconocimiento de acciones. La pregunta es: si podemos detectar objetos en una imagen, hasta qué punto esto puede ayudarnos a reconocer también la acción. Enlace: https://staff.fnwi.uva.nl/jcva…
- ActivityNet: un punto de referencia de video a gran escala para la comprensión de la actividad humana: un enorme conjunto de datos de videos (como ImageNet para la detección de objetos) para estudiar la naturaleza del reconocimiento de actividad de los videos y el rendimiento básico de los métodos ya desarrollados.
Enlace: Grupos de Google
Figura 5. Una taxonomía para las acciones en el conjunto de datos del documento.
- Encontrar tubos de acción: Tradicionalmente, las personas buscan objetos en una imagen en todas las ubicaciones y escalas posibles (millones de ventanas por imagen). Gracias a la objetividad genérica, ahora podemos proponer regiones de imagen candidatas y buscar objetos solo en esos lugares. Los tubos de acción tienen el mismo objetivo, pero para los cuadros de video y la búsqueda de acciones: ¿Podemos proponer tubos espacio-temporales candidatos que puedan incluir la acción de interés? Enlace: Tubos de acción
Saliencia visual
Visual Saliency apunta a detectar regiones u objetos que las personas fijarán sus ojos (o prestarán atención visual). He visto dos documentos interesantes este año, donde uno estudia la prominencia visual ascendente (detecta píxeles de interés de una imagen) y el otro detecta objetos sobresalientes de una imagen. Aquí están:
- Recargo de saliencia tradicional: un buen modelo antiguo en nueva forma: este artículo sugiere una pequeña mejora en el método pionero de estimación de saliencia visual de Itti y Koch (’98). Personalmente, apoyo este tipo de documentos, ya que no producen un algoritmo de otro, sino que ofrecen profundizar en los métodos previamente estudiados. Enlace: http://www.iai.uni-bonn.de/~frin…
- Detección de objetos sobresalientes a través de Bootstrap Learning: http://www.cv-foundation.org/ope…