Observabilidad para humanos: logs, métricas y alertas útiles

Observabilidad ≠ logs

Tener logs no es tener observabilidad. La observabilidad es la capacidad de entender el estado interno de un sistema a partir de sus outputs. Logs, métricas y traces son las tres patas.

Los tres pilares

Logs estructurados

JSON, con contexto (request ID, usuario, servicio). Centralizados en una herramienta que permita buscar y filtrar fácilmente.

Métricas

Latencia, throughput, error rate, saturación. Los cuatro golden signals que te dicen si tu sistema está sano o no.

Traces distribuidos

En arquitecturas con microservicios, un trace te muestra el camino completo de un request a través de todos los servicios involucrados.

Alertas que sirven

Una alerta útil es accionable: te dice qué pasó, dónde, y qué podés hacer. Si una alerta no lleva a una acción, no debería existir.

Herramientas recomendadas

Grafana + Prometheus para métricas, Loki para logs, Jaeger para traces. Open source, probado en producción, con comunidad activa.