Charlas

Descifrando emociones desde arte a memes: un sistema multimodal de imágenes y textos

Friday, May 16th, 2025 3:30 p.m.–4 p.m. in Room 310/311

Presented by

Experience Level:

Some experience

Description

El mundo que nos rodea está lleno de información de muchos tipos, y aunque muchas personas nos comunicamos de manera verbal para transmitir información muchas veces perdemos información del contexto o la intención si no va acompañado de imágenes. Lo mismo ocurre con los modelos cuando intentamos solucionar problemas muy complejos con modelos que solo pueden contener información de un tipo específico.

Por ese motivo es necesario soluciones que puedan integrar diferentes tipos de datos, como imágenes, texto, video o audio: los modelos multimodales. Estos sistemas combinan múltiples entradas de tipos de datos y hacen los sistemas más robustos, ayudando en áreas de la salud, seguridad, criminología, comercial, etc.

El objetivo de esta charla es mostrar cómo crear un sistema que sea capaz de identificar emociones de diverso tipo de imágenes, y en paralelo extraer emociones de textos con ese resultado (con diferentes modelos) y asociar textos a las imágenes con los textos extraídos.

En esta charla, los asistentes aprenderán paso a paso cómo implementar un sistema multimodal que incluya imágenes y texto, con datos de libre acceso, y entender cómo los multimodales son una buena opción para solventar problemas complejos. Además, se compartirá el rol de Python del proceso, la aplicación de módulos externos para tener una implementación simple, para facilitar el realizar el proceso de multimodal.