Observabilidad · Métricas

Stack de Observabilidad

Monitorización completa del homelab con Grafana, Prometheus y Loki. Métricas, logs y trazas centralizadas en un solo panel de control.

grafana prometheus loki node exporter alertmanager

Dashboards

50+

Métricas

30d

Retención

15s

Scrape interval

El Reto

Infraestructura a ciegas.
Cada problema, una sorpresa.

Sin observabilidad, la infraestructura es una caja negra. El disco se llena sin avisar. Un contenedor reinicia en bucle sin que nadie lo note. La memoria sube lentamente hasta que el servidor muere. Todo esto pasa y nadie lo ve.

El objetivo era construir el sistema de observabilidad estándar de la industria —el stack LGTM de Grafana Labs— completamente self-hosted y gratuito. Lo mismo que usan empresas Fortune 500, pero en hardware casero.

No puedes mejorar
lo que no puedes ver.

Arquitectura

Prometheus recoge.
Loki agrega. Grafana visualiza.

Tres herramientas con responsabilidades claras y sin solapamiento. Cada una hace una cosa y la hace bien.

// flujo de datos de observabilidad

Métricas sistema

Node Exporter

CPU · RAM · Disco · Red

Métricas Docker

cAdvisor

Contenedores

Logs

Promtail

Journald + Docker

→

Time-series DB

Prometheus

30d retención

Log aggregation

Loki

Indexado por labels

→

Visualización

Grafana

6 dashboards

live

Dashboards

Seis vistas.
Una verdad.

Cada dashboard está diseñado para un caso de uso específico. No se duplica información entre ellos. El panel de sistema te dice si el hardware está sano; el de contenedores te dice qué proceso está consumiendo recursos.

dashboard 01

System Overview

CPU, memoria, carga y temperatura de ambos nodos en una sola vista comparativa.

dashboard 02

Docker Containers

Estado, CPU y memoria de cada contenedor. Identificación inmediata de fugas de recursos.

dashboard 03

Network & DNS

Tráfico de red, latencia Tailscale entre nodos y estadísticas de bloqueo DNS.

dashboard 04

Logs Explorer

Búsqueda y correlación de logs via Loki. Filtrado por servicio, nivel y ventana temporal.

Alertas

AlertManager.
Silencio inteligente.

AlertManager no es solo un router de notificaciones. Su sistema de inhibición y silenciamiento es lo que elimina los falsos positivos. Si un nodo entra en mantenimiento, todas las alertas de sus servicios se silencian automáticamente.

Las alertas están organizadas por severidad: critical (notificación inmediata), warning (agrupación de 5 min) e info (solo visible en dashboard). Esto evita que una alerta de disco lleno a las 3 AM se trate igual que un aviso de actualización pendiente.

Reglas de inhibición para mantenimientos programados
Agrupación por nodo para reducir spam de notificaciones
Integración directa con Telegram Bot vía webhook
Resolución automática de alertas cuando la métrica vuelve a rango normal

Grafana Prometheus Loki AlertManager Node Exporter cAdvisor Promtail Docker

← Volver Todos los proyectos IT ↗ Siguiente Proyecto · IT Wethereal →

Stack de Observabilidad

Infraestructura a ciegas.Cada problema, una sorpresa.

Prometheus recoge.Loki agrega. Grafana visualiza.

Seis vistas.Una verdad.