Riccardo Del Chiaro, Bartlomiej Twardowski, Andrew Bagdanov, & Joost Van de Weijer. (2020). Recurrent attention to transient tasks for continual image captioning. In 34th Conference on Neural Information Processing Systems.
Abstract: Research on continual learning has led to a variety of approaches to mitigating catastrophic forgetting in feed-forward classification networks. Until now surprisingly little attention has been focused on continual learning of recurrent models applied to problems like image captioning. In this paper we take a systematic look at continual learning of LSTM-based models for image captioning. We propose an attention-based approach that explicitly accommodates the transient nature of vocabularies in continual image captioning tasks -- i.e. that task vocabularies are not disjoint. We call our method Recurrent Attention to Transient Tasks (RATT), and also show how to adapt continual learning approaches based on weight egularization and knowledge distillation to recurrent continual learning problems. We apply our approaches to incremental image captioning problem on two new continual learning benchmarks we define using the MS-COCO and Flickr30 datasets. Our results demonstrate that RATT is able to sequentially learn five captioning tasks while incurring no forgetting of previously learned ones.
|
Carme Julia, Angel Sappa, Felipe Lumbreras, & Antonio Lopez. (2008). Recovery of Surface Normals and Reflectance from Different Lighting Conditions. In 5th International Conference on Image Analysis and Recognition (Vol. 5112, 315–325). LNCS.
|
Matthias S. Keil, Gabriel Cristobal, Thorsten Hansen, & Heiko Neumann. (2005). Recovering real-world images from single-scale boundaries with a novel filling-in architecture. Neural Networks 18(10):1319–1331 (IF: 1.665).
|
Jordi Vitria, & J. Llacer. (1993). Recovering Depth from Focus Using Iterative image Estimation Techniques..
|
Jordi Vitria, & J. Llacer. (1995). Recovering brightness and depth from focus using the Expectation-Maximization Algorithm..
|
Oriol Rodriguez-Leon, Josefina Mauri, Eduard Fernandez-Nofrerias, C.Garcia, R.Villuendas, Vicente del Valle, et al. (2003). Reconstruction of a spatio-temporal model of the intima layer from intravascular ultrasound sequences. European Heart Journal, .
|
Karla Lizbeth Caballero, Joel Barajas, & Oriol Pujol. (2007). Reconstructing IVUS Images for an Accurate Tissue Classification. In Proceedings of the Second International Conference on Computer Vision Theory and Applications (Vol. Special Sessions, 113–119).
|
Jordi Vitria, & J. Llacer. (1996). Reconstructing 3D light microscopic images using the EM algorithm. Pattern Recognition Letters, 1491–1498.
|
X. Binefa, Jordi Vitria, & Maria Vanrell. (1992). Reconstruccion tridimensional de imagenes Microscopicas..
|
M.Gomez, Josefina Mauri, Eduard Fernandez-Nofrerias, Oriol Rodriguez-Leon, Carme Julia, Debora Gil, et al. (2002). Reconstrucción de un modelo espacio-temporal de la luz del vaso a partir de secuencias de ecografía intracoronaria. In XXXVIII Congreso Nacional de la Sociedad Española de Cardiología..
|
Enric Marti, Jordi Vitria, & Alberto Sanfeliu. (1998). Reconocimiento de Formas y Análisis de Imágenes. AERFAI.
Abstract: Los sistemas actuales de reconocimiento automático del lenguaje oral se basan en dos etapas básicas de procesado: la parametrización, que extrae la evolución temporal de los parámetros que caracterizan la voz, y el reconocimiento propiamente dicho, que identifica la cadena de palabras de la elocución recibida con ayuda de los modelos que representan el conocimiento adquirido en la etapa de aprendizaje. Tomando como línea divisoria la palabra, dichos modelos son de tipo acústicofonético o gramatical. Los primeros caracterizan las palabras incluidas en el vocabulario de la aplicación o tarea a la que está orientado el sistema de reconocimiento, usando a menudo para ello modelos de unidades de habla de extensión inferior a la palabra, es decir, de unidades subléxicas. Por otro lado, la gramática incluye el conocimiento acerca de las combinaciones permitidas de palabras para formar las frases o su probabilidad. Queda fuera del esquema la denominada comprensión del habla, que utiliza adicionalmente el conocimiento semántico y pragmático para captar el significado de la elocución de entrada al sistema a partir de la cadena (o cadenas alternativas) de palabras que suministra el reconocedor.
|
Joan Carbo, A. Martinez, & Jordi Vitria. (1996). Reconocimiento de caras.
|
V. Chapaprieta. (2000). Reconocimiento de caracteres manuscritos mediante modelos de distribucion de puntos (PDM).
|
David Guillamet. (1999). Reconeixement d´objectes en entorns poc controlats mitjançant metodes estadistics.
|
M. Navarro. (1999). Reconeixement d´objectes amb metodes basats en color: avaluacio en un entorn poc controlat.
|