Todas las guías

Filtra por categoría, dificultad o texto libre para encontrar el material que encaja con tu equipo.

Logs~40 min

Construir timelines de incidentes con logs, métricas y trazas sin inventarte la película

Creada: 2 de mayo de 2026 · Publicada: 2 de mayo de 2026

Aprende a reconstruir un incidente real a partir de Prometheus, Loki y trazas distribuidas sin perderte en ruido, relojes desalineados ni teorías creativas.

LinuxDocker
Intermedio
Leer guía
Logs~40 min

Depurar pipelines de Vector antes de que retries y buffers tapen el cuello real

Creada: 1 de mayo de 2026 · Publicada: 1 de mayo de 2026

Una guía práctica para usar métricas internas de Vector, validación de configuración y pruebas de aislamiento cuando los logs llegan tarde, se reintentan demasiado o desaparecen.

LinuxDocker
Intermedio
Leer guía
Metrics~40 min

Reducir picos de cardinalidad en Prometheus sin dejar ciegas tus alertas

Creada: 30 de abril de 2026 · Publicada: 30 de abril de 2026

Una guía práctica para detectar cuándo Prometheus se infla por labels inestables, recortar la cardinalidad en el sitio correcto y validar que las alertas siguen cubriendo el incidente real.

LinuxDocker
Avanzado
Leer guía
Logs~40 min

Arreglar la explosión de labels en Loki sin romper las búsquedas que sí importan

Creada: 29 de abril de 2026 · Publicada: 29 de abril de 2026

Una guía práctica para identificar labels de alta cardinalidad en Loki, sacarlas de la ruta crítica y validar que las búsquedas sigan siendo útiles.

LinuxDocker
Avanzado
Leer guía
Tracing~45 min

Ajustar sampling distribuido sin quedarte ciego cuando llega el incidente

Creada: 28 de abril de 2026 · Publicada: 28 de abril de 2026

Una guía práctica para detectar sesgos de sampling, aplicar tail sampling útil y validar que sigues viendo justo las trazas que importan.

LinuxDocker
Avanzado
Leer guía
Logs~40 min

Diagnosticar hot shards en OpenSearch antes de que se disparen la latencia y las colas de indexación

Creada: 27 de abril de 2026 · Publicada: 27 de abril de 2026

Aprende a confirmar un hot shard en OpenSearch, localizar el índice y nodo problemáticos, corregir la causa y validar que la recuperación es real.

LinuxDocker
Avanzado
Leer guía
Metrics~40 min

Entender las métricas de memoria de Kubernetes sin disparar falsas alertas de OOM

Creada: 26 de abril de 2026 · Publicada: 26 de abril de 2026

Guía práctica para diagnosticar memoria de contenedores en Kubernetes con Prometheus y Grafana sin confundir usage, working set, RSS ni page cache recuperable.

LinuxDocker
Intermedio
Leer guía
Metrics~35 min

Montar golden signals útiles para APIs en Kubernetes sin disparar la cardinalidad de Prometheus

Creada: 26 de abril de 2026 · Publicada: 26 de abril de 2026

Una guía práctica para definir tráfico, latencia, errores y saturación en APIs sobre Kubernetes sin llenar Prometheus de series inútiles ni romper alertas.

LinuxDocker
Intermedio
Leer guía
OpenTelemetry~35 min

Diagnosticar backpressure en OpenTelemetry Collector antes de perder señales

Creada: 25 de abril de 2026 · Publicada: 25 de abril de 2026

Una guía de troubleshooting avanzada para aislar si el atasco está en el exporter, la red, el backend o el propio Collector antes de empezar a perder telemetría.

DockerLinux
Avanzado
Leer guía
Reliability~36 min

Diseñar alertas de burn rate que no despierten a nadie por gusto

Creada: 22 de abril de 2026 · Publicada: 22 de abril de 2026

Las releases recientes de Prometheus, OpenTelemetry Collector, Loki y Alloy dejan una lección bastante poco romántica: las alertas atadas a métricas crudas y labels frágiles se rompen o se vuelven ruidosas con facilidad. Esta guía muestra cómo aterrizar burn-rate alerts sobre recording rules estables, validarlas con promtool y desplegarlas sin convertir cada pico corto en una falsa urgencia.

LinuxDocker
Intermedio
Leer guía
Metrics~38 min

Limpiar ruido de kube-state-metrics para que tus dashboards vuelvan a decir algo

Creada: 20 de abril de 2026 · Publicada: 20 de abril de 2026

kube-state-metrics sigue siendo útil, pero en 2026 llega con más superficie, más métricas estables y cambios recientes como EndpointSlices por defecto. Si tus paneles se llenaron de series irrelevantes, joins frágiles o estados duplicados, esta guía te enseña a reducir ruido en la fuente, corregir consultas y validar que el recorte no rompe alertas ni troubleshooting.

LinuxDocker
Intermedio
Leer guía
Tracing~42 min

Ajustar sampling distribuido sin quedarte ciego cuando más duele

Creada: 19 de abril de 2026 · Publicada: 19 de abril de 2026

Las señales recientes del ecosistema apuntan al mismo problema: el sampling mal planteado sigue rompiendo diagnósticos justo en incidentes reales. Entre cambios recientes del OpenTelemetry Collector, nuevas validaciones más estrictas y backends de trazas todavía sensibles a series, colas y exemplars, esta guía propone un enfoque práctico para bajar coste sin perder las trazas que sí importan.

LinuxDocker
Avanzado
Leer guía
Logs~42 min

Construir timelines de incidentes con logs, métricas y trazas sin inventarte la película

Creada: 19 de abril de 2026 · Publicada: 19 de abril de 2026

Las señales recientes del ecosistema apuntan a lo mismo: más telemetría no garantiza mejores diagnósticos. Esta guía aterriza un método reproducible para construir timelines fiables con Prometheus, Loki y OpenTelemetry, evitando errores muy actuales como métricas de memoria mal interpretadas, labels ruidosos y trazas sin suficiente contexto de petición.

LinuxDocker
Intermedio
Leer guía
Logs~55 min

Resolver hot shards en OpenSearch antes de que el clúster empiece a arder

Creada: 19 de abril de 2026 · Publicada: 19 de abril de 2026

Guía avanzada para aislar hot shards en OpenSearch con señales de nodo, shard e ingesta, y aplicar mitigaciones reversibles antes de que aparezcan colas, timeouts y backlogs.

LinuxDocker
Avanzado
Leer guía
Logs~24 min

Depurar pipelines de Vector cuando los logs llegan tarde, mal o nunca

Creada: 17 de abril de 2026 · Publicada: 17 de abril de 2026

Cuando un pipeline de Vector empieza a retrasar, duplicar o perder eventos, el problema casi nunca se resuelve tocando parámetros al azar. Esta guía muestra cómo usar métricas internas, validación de configuración y señales del sink para encontrar el cuello real y corregirlo con cambios reversibles.

DockerLinux
Intermedio
Leer guía
Metrics~45 min

Golden signals prácticos para APIs en Kubernetes sin inflar el stack

Creada: 15 de abril de 2026 · Publicada: 15 de abril de 2026

Guía técnica para definir golden signals aplicables a APIs en Kubernetes: métricas Prometheus, consultas PromQL, paneles de Grafana, reglas de alerta y un flujo de troubleshooting para diagnosticar y validar mitigaciones sin añadir agentes innecesarios.

LinuxDocker
Intermedio
Leer guía
Logs~60 min

Qué hacer cuando Loki se hunde por labels con demasiada cardinalidad

Creada: 13 de abril de 2026 · Publicada: 13 de abril de 2026

Guía práctica para detectar y arreglar problemas de alta cardinalidad en labels que degradan o bloquean Loki: síntomas operativos, métricas y logs a revisar, cambios seguros en Promtail/ingest pipelines y comprobaciones de validación.

DockerLinux
Avanzado
Leer guía
Metrics~60 min

Reducir picos de cardinalidad en Prometheus sin romper alertas

Creada: 11 de abril de 2026 · Publicada: 11 de abril de 2026

Guía práctica para detectar fuentes de cardinalidad alta, aplicar relabeling y rollups seguros, y validar que las alertas críticas siguen siendo efectivas.

DockerLinux
Avanzado
Leer guía
OpenTelemetry~35 min

Diagnosticar backpressure en OpenTelemetry Collector antes de perder señales

Creada: 10 de abril de 2026 · Publicada: 10 de abril de 2026

Una guía de troubleshooting avanzada para aislar si el atasco está en el exporter, la red, el backend o el propio Collector antes de empezar a perder telemetría.

DockerLinux
Avanzado
Leer guía
Metrics~32 min

Downsampling de métricas con VictoriaMetrics en la versión gratuita

Creada: 10 de abril de 2026 · Publicada: 10 de abril de 2026

VictoriaMetrics Enterprise ofrece downsampling nativo en cluster. En la versión gratuita puedes aproximarlo con clusters separados, fan-out y `-dedup.minScrapeInterval`.

Avanzado
Leer guía
Logs~28 min

Dimensiona shards en OpenSearch con ingesta real

Creada: 9 de abril de 2026 · Publicada: 9 de abril de 2026

Guía avanzada para decidir `number_of_shards` y `max_size` a partir de la ingesta real del índice.

Avanzado
Leer guía
Dashboards~20 min

Grafana para unificar métricas, logs y trazas (multiplataforma)

Creada: 7 de abril de 2026 · Publicada: 7 de abril de 2026

Despliega Grafana, provisiona datasources y deja un espacio listo para explorar métricas, logs y correlación con trazas.

Docker
Intermedio
Leer guía
Logs~18 min

OpenSearch para centralizar logs (multiplataforma)

Creada: 6 de abril de 2026 · Publicada: 6 de abril de 2026

Configura OpenSearch y Dashboards, carga eventos iniciales y valida consultas operativas de logs en cualquier plataforma.

Docker
Principiante
Leer guía
Metrics~16 min

Prometheus para métricas del sistema (multiplataforma)

Creada: 5 de abril de 2026 · Publicada: 5 de abril de 2026

Configura Prometheus y verifica métricas operativas con un flujo reproducible, independientemente del sistema operativo del equipo.

Docker
Principiante
Leer guía
Tracing~10 min

Detectar regresiones tras un despliegue con trazas

Creada: 2 de abril de 2026 · Publicada: 2 de abril de 2026

Qué comparar, qué atributos segmentar y qué spans revisar cuando sospechas que un deploy ha introducido latencia o errores.

Intermedio
Leer guía
Reliability~12 min

Diseñar SLOs para equipos de plataforma

Creada: 30 de marzo de 2026 · Publicada: 30 de marzo de 2026

Un marco breve para escoger indicadores y objetivos que ayuden a negociar fiabilidad con producto y desarrollo.

Intermedio
Leer guía
OpenTelemetry~18 min

Fundamentos de observabilidad con OpenTelemetry

Creada: 21 de marzo de 2026 · Publicada: 21 de marzo de 2026

Una guía para pasar de instrumentar por moda a responder preguntas operativas reales con logs, métricas y trazas conectadas.

Principiante
Leer guía