Charlas: Estrategias para trabajar con datos a medida que estos crecen.

Presented by:


Description

Hoy en día, los datos son cada vez más grandes, por lo que es casi imposible procesarlos en máquinas de escritorio. Para resolver este problema, han surgido muchas tecnologías para procesar todos datos utilizando múltiples clústeres de computadoras. El desafío es construir soluciones sobre estas tecnologías, requiriendo diseñar complejos pipelines de datos combinando múltiples tecnologías.

Sin embargo, en algunos casos, no disponemos suficiente tiempo o recursos para aprender a usar y configurar una infraestructura completa para ejecutar un par de experimentos. Quizás seas un investigador con recursos muy limitados o una startup con un calendario apretado para lanzar un producto al mercado.

El objetivo de esta charla es presentar diversas estrategias para procesar la data a medida que esta crece y puede ser procesada con los recursos limitados de una sola máquina o con el uso de clusters, utilizando tecnologías como Pandas, Pyspark, Vaex y Modin.