¿Cuáles son los trabajos más interesantes de CVPR 2015?

Andrej Karpathy tiene un índice en papel que hace que sea muy fácil navegar a través de diferentes documentos para CVPR 2015. Puede encontrarlo aquí: Documentos aceptados de CVPR 2015

Este año, por lo que he visto hasta ahora, CVPR ha sido nuevamente el lugar para definir y estudiar las fronteras en la visión por computadora. No es sorprendente que se haya dicho que el aprendizaje profundo está en todas partes, tocando todos y cada uno de los problemas de la visión. Personalmente no enumeraré todas estas tendencias de aprendizaje profundo, sino problemas interesantes y soluciones creativas propuestas por diferentes autores, en los campos de resumen de video, análisis de video egocéntrico y estimación de prominencia visual.

Resumen de video
El resumen de video tiene como objetivo resumir largas horas de videos (> .05 horas) en un presupuesto de tiempo limitado (2-3 minutos), para facilitar su navegación y descubrimiento. El enfoque general ha sido dividir el video en diferentes segmentos temporales y asignar un puntaje de importancia a cada segmento, ya sea de forma supervisada (detectores de trenes para detectar segmentos de video importantes ) o sin supervisión (deje que los algoritmos descubran partes importantes de un video). Entonces, el problema se reduce para llegar a una definición de importancia.

Este año, he visto dos documentos interesantes de Yahoo Research Labs. La página del proyecto con los detalles sobre sus trabajos se puede encontrar en Una novela, un conjunto de datos diversos para el resumen automático de video

Figura 1. Cuadros de ejemplo del conjunto de datos recopilados por los autores de los siguientes artículos.

  • TVSum: Resumen de videos web usando títulos: Este documento enfatiza que, el mejor resumen para un video se esconde detrás de su título. Las personas tienden a encapsular lo que es importante o vale la pena ver en el video cuando preparan el título para su video. Analizan el título de los videos y buscan imágenes relevantes utilizando estos conjuntos como consultas. Luego, los segmentos de video importantes se descubren usando videos, y las imágenes recopiladas del título usando conceptos visuales canónicos entre cuadros e imágenes de video. Enlace: Página en yahoo.com

Figura 2. Vea cómo el título encapsula cosas importantes para captar en el video.

  • Co-resumen de video: Resumen de video por co-ocurrencia visual: en este artículo, la importancia se define como la co-ocurrencia visual entre videos: si tantas personas tienden a capturar segmentos temporales similares de videos de las mismas categorías, puede ser importante . Sin embargo, un gran problema con esto es la escasez de coincidencias: incluso si se repiten segmentos temporales similares entre videos, esto es raro. Los autores tratan esto mediante el hallazgo biclique máximo detallado en el artículo. Enlace: Página en cv-foundation.org

Análisis de video egocéntrico
Las cámaras de acción están ganando mayor popularidad hoy en día, como GoPro o Polaroid CUBE. La diferencia entre una cámara tradicional y cámaras de acción es que pueden montarse en su cuerpo, son muy ligeras y resistentes a las grietas. Estas características los hacen adecuados para registrar la vida diaria de una persona o capturar un evento deportivo extremo como paracaidismo o surf. El término académico para los videos capturados por estas cámaras es egocéntrico, y la visión por computadora comienza a tratar cada vez más con este tipo de entradas visuales.

Figura 3. Las cámaras de acción están ganando una mayor popularidad, debido a su diferente uso práctico en áreas de deportes extremos y otras áreas.

Dos de los casos de uso para el análisis de video egocéntrico es la sumarización de video y el reconocimiento de acciones . El resumen de video egocéntrico es necesario ya que los videos son generalmente demasiado largos y aburridos para ver: un registro de una persona de día completo, etc. Los videos tienden a mostrar un conjunto muy diverso de desafíos, en comparación con un video ordinario de Youtube. Esto surge la necesidad de desarrollar diferentes tipos de métodos para hacer frente a estos desafíos.

Otra línea de trabajo es reconocer automáticamente la acción de la primera persona. Aquí, he visto dos artículos del mismo grupo de investigación, donde uno es sobre resumen de video egocéntrico y el otro es reconocimiento de acción.

  • Resumen de video egocéntrico habilitado para la mirada a través de la maximización submodular restringida: Aquí, nuevamente, el problema es determinar regiones o segmentos importantes del video en primera persona. En este documento, el truco consiste en utilizar miradas humanas (estimadas) para determinar qué regiones de fotogramas y segmentos de video son importantes, según el usuario de la cámara. También aprovechan la formulación de resumen natural de Optimización submodular, y todo el artículo merece una mirada. Enlace: Resumen de video egocéntrico habilitado para la mirada a través de la maximización submodular restringida


Figura 4. El diagrama de flujo para el método de sumarización de video egocéntrico propuesto.

  • Profundizando en las acciones egocéntricas: esta es para detectar la acción del usuario de la cámara, ya sea que esté lavando los platos, cocinando comida o simplemente mirando la televisión. En mi opinión, este es más un documento de análisis de las diferentes señales como las manos, la mirada y el movimiento para el reconocimiento de la acción egocéntrica, ya que estas características ya se han utilizado antes tantas veces para el reconocimiento de la acción, pero nadie declaró realmente la relación entre estas señales como hecho en el periódico. Enlace: página de yinli

Reconocimiento de actividad

  • ¿Qué nos dicen 15,000 categorías de objetos acerca de clasificar y localizar acciones? : Este es un documento de análisis que trata el efecto de grandes clases de objetos y su ayuda en el reconocimiento de acciones. La pregunta es: si podemos detectar objetos en una imagen, hasta qué punto esto puede ayudarnos a reconocer también la acción. Enlace: https://staff.fnwi.uva.nl/jcva…
  • ActivityNet: un punto de referencia de video a gran escala para la comprensión de la actividad humana: un enorme conjunto de datos de videos (como ImageNet para la detección de objetos) para estudiar la naturaleza del reconocimiento de actividad de los videos y el rendimiento básico de los métodos ya desarrollados.
    Enlace: Grupos de Google

Figura 5. Una taxonomía para las acciones en el conjunto de datos del documento.

  • Encontrar tubos de acción: Tradicionalmente, las personas buscan objetos en una imagen en todas las ubicaciones y escalas posibles (millones de ventanas por imagen). Gracias a la objetividad genérica, ahora podemos proponer regiones de imagen candidatas y buscar objetos solo en esos lugares. Los tubos de acción tienen el mismo objetivo, pero para los cuadros de video y la búsqueda de acciones: ¿Podemos proponer tubos espacio-temporales candidatos que puedan incluir la acción de interés? Enlace: Tubos de acción

Saliencia visual
Visual Saliency apunta a detectar regiones u objetos que las personas fijarán sus ojos (o prestarán atención visual). He visto dos documentos interesantes este año, donde uno estudia la prominencia visual ascendente (detecta píxeles de interés de una imagen) y el otro detecta objetos sobresalientes de una imagen. Aquí están:

  • Recargo de saliencia tradicional: un buen modelo antiguo en nueva forma: este artículo sugiere una pequeña mejora en el método pionero de estimación de saliencia visual de Itti y Koch (’98). Personalmente, apoyo este tipo de documentos, ya que no producen un algoritmo de otro, sino que ofrecen profundizar en los métodos previamente estudiados. Enlace: http://www.iai.uni-bonn.de/~frin…
  • Detección de objetos sobresalientes a través de Bootstrap Learning: http://www.cv-foundation.org/ope…

Gracias por el A2A. No he logrado leer el 1% de los documentos, pero trataré de señalar algunos documentos que he leído:

1) No solo escuches, usa tu imaginación:
Aprovechando el sentido común visual para tareas no visuales
Es uno de mis trabajos favoritos, pero eso es porque estoy intentando un problema similar. Este problema analiza la analogía visual si tuviera que decirlo.

2) Convertirse en el experto: enseñanza interactiva de máquinas de varias clases
Un modelo interactivo para que las computadoras aprendan conceptos visuales. Cuan genial es eso ?

3) Reconocimiento visual mediante el aprendizaje de datos web: un enfoque de generalización de dominio débilmente supervisado
Por qué realmente me gusta este artículo es por la adaptación del dominio usando MMD. Creo que un problema basado en MTL también sería mucho más interesante, es decir, mejorar los clasificadores visuales y usar el texto para probablemente la extracción de entidades.

4) Imagen: un lenguaje de programación probabilístico para Scene Perception
Ok, para ser honesto, no he leído este documento, pero me gusta el concepto de programación probabilística para la comprensión de la escena.

Esta lista está bastante sesgada hacia el idioma / material bayesiano, así que espero que más personas puedan agregar más a esta lista.

  1. Alineaciones profundas visual-semánticas para generar descripciones de imágenes Andrej Karpathy Li Fei-Fei
  2. Mostrar y contar: un generador de subtítulos de imágenes neuronales
    Oriol Vinyals
  3. Los modelos de piezas deformables son redes neuronales convolucionales
    Ross Girshick

Los primeros dos son mis papeles favoritos este año. Describen imágenes generando directamente oraciones del modelo.

More Interesting

¿Cuáles son algunos ejemplos de trabajos de investigación inapropiados?

¿Puede (más tarde) escribir trabajos de investigación utilizando el contenido de su propia tesis doctoral?

¿Es un trabajo académico más legible / útil para otras personas si cita trabajos de revisión preferentemente sobre la investigación original?

¿Cuál es el patrón para el trabajo de investigación?

¿Debería un estudiante universitario tratar de escribir un trabajo de investigación o revisión en su primer o segundo año?

En la revisión de la literatura, ¿cuál es la diferencia entre el análisis metodológico y teórico? ¿Cómo los hago?

Estoy empezando con un proyecto y quiero ponerme al día con los últimos avances. A veces me acaban de pasar horas con un papel y no lo entiendo. ¿Cuáles son algunos buenos métodos para leer un trabajo de investigación en informática?

¿Cuándo la investigación es investigación exploratoria o investigación descriptiva?

¿Cuáles son algunos trabajos de investigación sobre etapas de duelo que desafían o apoyan el trabajo de Elizabeth Kubler Ross o son independientes de su trabajo?

¿Existe un nombre para una revisión de literatura que sea unilateral o parcial?

¿Los revisores realmente leen los trabajos de investigación presentados?

¿Cuántos días reservarías para escribir un trabajo universitario de 10,000 palabras?

¿Cuál es el mejor momento durante la graduación para comenzar su trabajo de investigación?

¿Qué tecnologías exitosas han surgido de un trabajo de investigación?

¿Qué debo tener en cuenta al escribir un trabajo de investigación sobre reciclaje?