En esta charla, aprenderemos cómo transformar unas gafas comunes en un Asistente Inteligente por menos de 30 dólares, utilizando hardware accesible y modelos Open Source. Aprovecharemos los Vision Language Models (VLM), una tecnología que integra visión por computadora y procesamiento del lenguaje natural para crear inteligencia artificial multimodal, capaz de analizar imágenes y texto simultáneamente y generar respuestas en lenguaje natural.
Exploraremos el origen y desarrollo de los Open VLMs, analizando su impacto, evolución y el enorme potencial que representan. Profundizaremos en su arquitectura, componentes esenciales y aplicaciones prácticas. Los asistentes aprenderán a crear sus propias gafas inteligentes, conociendo los requisitos técnicos necesarios, y podrán interactuar con varios prototipos funcionales disponibles durante la charla. Esto les permitirá probar las gafas en tiempo real y experimentar de primera mano como estos modelos responden y se adaptan a diversos escenarios. Además, se ofrecerá una guía práctica para configurar los modelos, realizar inferencias en sus computadoras y optimizarlos para funcionar con menos de 3 GB de memoria, haciendo esta tecnología más accesible y replicable para todos.
Finalmente, exploraremos los desafíos actuales en la implementación de estos sistemas, incluyendo la optimización del uso de memoria y el desarrollo de técnicas de cuantización más eficientes. A partir de este análisis, reflexionaremos sobre el futuro de estas tecnologías en aplicaciones de inteligencia artificial, subrayando el papel clave de la colaboración en la comunidad Open Source. Concluiremos destacando el potencial transformador de estos dispositivos y su capacidad para redefinir nuestra interacción con el entorno en la vida cotidiana.