¿Y si lo próximo que automatizas no fuera tu infraestructura, sino el caos de estar on-call?
Mientras Datadog constantemente está estimando métricas en el background y AWS sigue generando servidores como respuesta, el ingeniero tiene que manejar diez tabs - PagerDuty alertando, Slack explotao' y los dashboards subiendo lentamente - solo para tratar de entender qué se rompió y por qué!
En esta sección vamos a enseñarles cómo crear un Agent que responde a incidentes para poder calmar la marea. Usando Retool Agents con custom Python tools, el agente unifica a Datadog, PagerDuty, CloudWatch, Slack y Linear en un solo workflow haciendo que las alertas empiecen a tener contexto y el contexto se convierta en acciones, todo dentro de un Slack thread.
Van a ver un Agente que: - Relaciona alertas, métricas y eventos de AWS en un solo timeline de incidentes - Sugiere probables causas utilizando análisis lightweight de Python - Manda updates accionables en Slack con botones para resolver con un solo click - Sincroniza los resultados del incidente en Linear para mantener un follow-up limpio y postmortems
En general, vamos a disectar cómo funciona y trabaja este Agente explorando múltiples escenarios con incidentes en vivo durante la sección. Todo con la finalidad de aprender cómo convertir este proceso disperso en uno organizado y colaborativo.