← Proyectos IT

Observabilidad · Métricas

Stack de Observabilidad

Monitorización completa del homelab con Grafana, Prometheus y Loki. Métricas, logs y trazas centralizadas en un solo panel de control.

grafana prometheus loki node exporter alertmanager
6
Dashboards
50+
Métricas
30d
Retención
15s
Scrape interval
01
El Reto

Infraestructura a ciegas.
Cada problema, una sorpresa.

Sin observabilidad, la infraestructura es una caja negra. El disco se llena sin avisar. Un contenedor reinicia en bucle sin que nadie lo note. La memoria sube lentamente hasta que el servidor muere. Todo esto pasa y nadie lo ve.

El objetivo era construir el sistema de observabilidad estándar de la industria —el stack LGTM de Grafana Labs— completamente self-hosted y gratuito. Lo mismo que usan empresas Fortune 500, pero en hardware casero.

No puedes mejorar
lo que no puedes ver.

02
Arquitectura

Prometheus recoge.
Loki agrega. Grafana visualiza.

Tres herramientas con responsabilidades claras y sin solapamiento. Cada una hace una cosa y la hace bien.

// flujo de datos de observabilidad
Métricas sistema
Node Exporter
CPU · RAM · Disco · Red
Métricas Docker
cAdvisor
Contenedores
Logs
Promtail
Journald + Docker
Time-series DB
Prometheus
30d retención
Log aggregation
Loki
Indexado por labels
Visualización
Grafana
6 dashboards
live
03
Dashboards

Seis vistas.
Una verdad.

Cada dashboard está diseñado para un caso de uso específico. No se duplica información entre ellos. El panel de sistema te dice si el hardware está sano; el de contenedores te dice qué proceso está consumiendo recursos.

dashboard 01

System Overview

CPU, memoria, carga y temperatura de ambos nodos en una sola vista comparativa.

dashboard 02

Docker Containers

Estado, CPU y memoria de cada contenedor. Identificación inmediata de fugas de recursos.

dashboard 03

Network & DNS

Tráfico de red, latencia Tailscale entre nodos y estadísticas de bloqueo DNS.

dashboard 04

Logs Explorer

Búsqueda y correlación de logs via Loki. Filtrado por servicio, nivel y ventana temporal.

04
Alertas

AlertManager.
Silencio inteligente.

AlertManager no es solo un router de notificaciones. Su sistema de inhibición y silenciamiento es lo que elimina los falsos positivos. Si un nodo entra en mantenimiento, todas las alertas de sus servicios se silencian automáticamente.

Las alertas están organizadas por severidad: critical (notificación inmediata), warning (agrupación de 5 min) e info (solo visible en dashboard). Esto evita que una alerta de disco lleno a las 3 AM se trate igual que un aviso de actualización pendiente.

  • Reglas de inhibición para mantenimientos programados
  • Agrupación por nodo para reducir spam de notificaciones
  • Integración directa con Telegram Bot vía webhook
  • Resolución automática de alertas cuando la métrica vuelve a rango normal
Grafana Prometheus Loki AlertManager Node Exporter cAdvisor Promtail Docker
← Volver Todos los proyectos IT Siguiente Proyecto · IT Wethereal