Todas las guías

Filtra por categoría, dificultad o texto libre para encontrar el material que encaja con tu equipo.

Logs~35 min

Corregir cardinalidad de labels en Loki antes de que desaparezcan logs de incidente

Creada: 12 de julio de 2026 · Publicada: 12 de julio de 2026

Aprende a detectar labels explosivos en Loki, mover contexto volátil fuera del índice y validar que los logs críticos siguen disponibles durante incidentes.

LinuxDocker

Avanzado→

Reliability~45 min

Diseñar alertas SLO de burn rate multi-ventana sin despertar a nadie por ruido

Creada: 11 de julio de 2026 · Publicada: 11 de julio de 2026

Aprende a definir SLIs, budget, PromQL y pruebas promtool para alertas de burn rate que detectan incidentes rápidos sin convertir cada pico corto en una guardia rota.

Linux

Intermedio→

OpenTelemetry~45 min

Detectar backpressure de ingesta entre OpenTelemetry, Data Prepper y OpenSearch antes de perder telemetría

Creada: 10 de julio de 2026 · Publicada: 10 de julio de 2026

Aprende a validar Collector, Data Prepper y OpenSearch con métricas de paridad, colas y rechazos para frenar drops de trazas, logs o métricas antes de que desaparezca la evidencia del incidente.

LinuxDocker

Avanzado→

Logs~45 min

Depurar pipelines de Vector cuando los logs llegan tarde, rotos o nunca llegan

Creada: 9 de julio de 2026 · Publicada: 9 de julio de 2026

Aprende a validar una tubería de Vector con evidencias: config, VRL, tap, métricas internas, backpressure, canary y criterios de rollback.

LinuxDocker

Intermedio→

Tracing~45 min

Ajustar sampling de OpenTelemetry sin perder trazas de incidente por wrappers mal diseñados

Creada: 8 de julio de 2026 · Publicada: 8 de julio de 2026

Aprende a detectar wrappers de instrumentación que ocultan atributos útiles, diseñar políticas de tail sampling y validar que las trazas importantes siguen llegando antes de reducir coste.

LinuxDocker

Avanzado→

Metrics~40 min

Montar golden signals para APIs HTTP en Kubernetes sin disparar la cardinalidad

Creada: 7 de julio de 2026 · Publicada: 7 de julio de 2026

Define un contrato de labels, crea recording rules RED/USE, valida cardinalidad con promtool y despliega dashboards de APIs Kubernetes sin convertir cada ruta en una fábrica de series.

LinuxDocker

Intermedio→

Logs~45 min

Diagnosticar hot shards de búsqueda vectorial en OpenSearch antes de disparar la latencia RAG

Creada: 6 de julio de 2026 · Publicada: 6 de julio de 2026

Aprende a detectar hot shards en índices vectoriales de OpenSearch, validar si afectan al RAG y aplicar mitigaciones seguras con Dev Tools, métricas y canaries.

LinuxDocker

Avanzado→

Metrics~45 min

Blindar recording rules de Prometheus antes de que disparen la cardinalidad

Creada: 3 de julio de 2026 · Publicada: 3 de julio de 2026

Aprende a auditar recording rules de Prometheus, fijar un presupuesto de labels, validar con promtool y promocionar sin fundir remote write ni dashboards.

LinuxDocker

Avanzado→

OpenTelemetry~50 min

Desplegar configuración declarativa de OpenTelemetry Collector sin perder telemetría

Creada: 2 de julio de 2026 · Publicada: 2 de julio de 2026

Aprende a pasar a configuración declarativa del OpenTelemetry Collector con dry-runs, canary, métricas de queue/exporter, pruebas PromQL y rollback preparado.

LinuxDocker

Avanzado→

Logs~45 min

Reconstruir timelines de incidentes de búsqueda AI sin inventarte la película

Creada: 1 de julio de 2026 · Publicada: 1 de julio de 2026

Aprende a convertir señales dispersas en una línea temporal verificable: ventana del incidente, hipótesis falsables, trazas ancla, logs correlacionados, métricas de saturación y validación de mitigación.

LinuxDocker

Intermedio→

Logs~45 min

Deduplicar logs con OpenTelemetry antes de que los límites de Loki oculten evidencias

Creada: 30 de junio de 2026 · Publicada: 30 de junio de 2026

Aprende a detectar duplicados, aplicar una política de deduplicación segura en OpenTelemetry Collector y validar que Loki deja de descartar muestras sin perder evidencias de incidentes.

Linux

Avanzado→

Metrics~35 min

Controlar target churn de Kubernetes en Prometheus antes de que los scrape pools se atasquen

Creada: 29 de junio de 2026 · Publicada: 29 de junio de 2026

Una guía práctica para reducir churn de targets Kubernetes en Prometheus con PromQL, relabeling canary, promtool y guardrails de rollout.

LinuxDocker

Avanzado→

OpenTelemetry~45 min

Diagnosticar backpressure en OpenTelemetry Collector antes de perder señales

Creada: 28 de junio de 2026 · Publicada: 28 de junio de 2026

Aprende a leer las métricas internas del OpenTelemetry Collector, aislar exporters lentos, probar un canary seguro y validar que las colas drenan sin ocultar spans, logs o métricas críticas.

Linux

Avanzado→

Logs~45 min

Diagnosticar hot shards en OpenSearch antes de que las colas de indexación se disparen

Creada: 27 de junio de 2026 · Publicada: 27 de junio de 2026

Aprende a encontrar hot shards en OpenSearch con Dev Tools, métricas de colas y validación canary antes de que la latencia de búsqueda o los rechazos de bulk arruinen el día.

Linux

Avanzado→

Metrics~35 min

Limpiar ruido de kube-state-metrics antes de que las métricas de dispositivos disparen la cardinalidad

Creada: 26 de junio de 2026 · Publicada: 26 de junio de 2026

Detecta qué métricas de kube-state-metrics inflan Prometheus, poda labels volátiles con allowlists y valida que alertas y dashboards sigan funcionando antes de desplegar el cambio.

Linux

Intermedio→

Logs~45 min

Depurar backpressure en pipelines de Vector antes de perder logs

Creada: 25 de junio de 2026 · Publicada: 25 de junio de 2026

Aprende a diagnosticar retrasos y pérdidas en Vector con métricas internas, `vector top`, reglas PromQL, buffers de disco y un canary seguro antes de tocar producción.

LinuxDocker

Avanzado→

Reliability~35 min

Diseñar alertas de burn rate con Kubernetes PSI antes de que la latencia despierte a nadie

Creada: 24 de junio de 2026 · Publicada: 24 de junio de 2026

Una guía práctica para convertir burn-rate alerts en señales accionables: SLO claro, ventanas múltiples, PSI como contexto, pruebas con promtool y despliegue gradual.

Linux

Intermedio→

Metrics~35 min

Diagnosticar presión de WATCH/LIST en Kubernetes API antes de culpar a etcd

Creada: 23 de junio de 2026 · Publicada: 23 de junio de 2026

Una guía accionable para detectar presión de WATCH/LIST en Kubernetes API combinando métricas de API server, etcd, Prometheus y validaciones de clientes antes de que aparezcan timeouts.

Linux

Avanzado→

Metrics~40 min

Enriquecer métricas en Prometheus con info() sin disparar la cardinalidad

Creada: 22 de junio de 2026 · Publicada: 22 de junio de 2026

Guía práctica para probar la función experimental info() de Prometheus, crear una allowlist de metadatos, medir el impacto en series y validar que alertas y SLOs siguen funcionando.

LinuxDocker

Intermedio→

Tracing~45 min

Ajustar tail sampling de OTel para GenAI sin perder evidencia de incidentes

Creada: 21 de junio de 2026 · Publicada: 21 de junio de 2026

Guía práctica para desplegar tail sampling en OpenTelemetry Collector cuando las trazas de GenAI y RAG crecen rápido: políticas, canary, métricas de cola y validación de evidencia crítica.

Linux

Avanzado→

Logs~40 min

Diagnosticar límites de ingestión y políticas de labels en Loki antes de perder logs

Creada: 20 de junio de 2026 · Publicada: 20 de junio de 2026

Aprende a investigar drops en Loki por políticas de labels, rate limits y exceso de streams, limpiar labels volátiles y validar que las búsquedas críticas siguen funcionando.

Linux

Avanzado→

Logs~45 min

Controlar cardinalidad en Vector antes de que remote write y sinks hagan backpressure

Creada: 19 de junio de 2026 · Publicada: 19 de junio de 2026

Guía práctica para contener etiquetas explosivas en Vector 0.56, separar cardinalidad de retries/buffers y validar que Prometheus, logs y SLOs siguen contando la verdad.

Linux

Avanzado→

OpenTelemetry~40 min

Usar OTTL context inference en el Filter Processor sin tirar telemetría crítica

Creada: 18 de junio de 2026 · Publicada: 18 de junio de 2026

Una guía práctica para filtrar logs, métricas y trazas ruidosas con OTTL context inference, validando que errores, señales SLO y evidencias de incidente siguen presentes.

Linux

Avanzado→

OpenTelemetry~40 min

Validar OTel-Arrow sin perder telemetría cuando llegue la presión

Creada: 17 de junio de 2026 · Publicada: 17 de junio de 2026

OTel-Arrow promete pipelines más eficientes, pero el despliegue sano no se basa en una promesa de rendimiento: se basa en demostrar que la presión se ve, las colas drenan y no hay drops ocultos.

Linux

Avanzado→

Tracing~35 min

Usar OBI header enrichment para acotar incidentes sin filtrar secretos

Creada: 16 de junio de 2026 · Publicada: 16 de junio de 2026

Configura OpenTelemetry eBPF Instrumentation para enriquecer trazas con headers útiles, obfuscar credenciales y validar que la respuesta a incidentes gana contexto sin exponer datos sensibles.

Linux

Avanzado→

Logs~42 min

Evita que los picos de logs conviertan el rollover de OpenSearch en hot shards

Creada: 15 de junio de 2026 · Publicada: 15 de junio de 2026

Aprende a detectar cuándo un índice de logs en OpenSearch está creando hot shards durante picos de ingesta, corregir el rollover con alias e ISM, y validar la recuperación con señales reales.

LinuxDocker

Avanzado→

Metrics~40 min

Depurar relabeling de Prometheus cuando desaparecen targets sin disparar cardinalidad

Creada: 14 de junio de 2026 · Publicada: 14 de junio de 2026

Aprende a corregir reglas de relabeling de Prometheus que eliminan targets útiles o conservan labels inestables, sin romper alertas ni inflar la TSDB.

Linux

Intermedio→

OpenTelemetry~40 min

Deduplicar logs en OpenTelemetry Collector antes de que las colas empiecen a tirar señales

Creada: 13 de junio de 2026 · Publicada: 13 de junio de 2026

Aprende a detectar presión en pipelines de logs del OpenTelemetry Collector, aplicar logdedup con condiciones seguras y validar que las colas, memoria y exporters se estabilizan sin romper auditoría ni alertas.

LinuxDocker

Avanzado→

Metrics~35 min

Usar métricas PSI de Kubernetes para detectar saturación real en APIs sin paginar por ruido

Creada: 12 de junio de 2026 · Publicada: 12 de junio de 2026

Guía práctica para añadir PSI a los dashboards de APIs en Kubernetes, correlacionar presión de CPU/memoria/IO con SLIs y diseñar alertas que paginen solo cuando hay impacto real.

Linux

Intermedio→

Reliability~35 min

Diseñar alertas de burn rate SLO que paginen por impacto real, no por ruido

Creada: 11 de junio de 2026 · Publicada: 11 de junio de 2026

Aprende a definir un SLI útil, combinar ventanas multi-burn, controlar cardinalidad y validar que una alerta SLO despierta solo cuando hay impacto real.

Linux

Intermedio→

Metrics~35 min

Limpiar ruido de kube-state-metrics antes de que tus dashboards y alertas mientan

Creada: 10 de junio de 2026 · Publicada: 10 de junio de 2026

kube-state-metrics puede convertir el estado de Kubernetes en una tormenta de series, labels y paneles que parecen precisos pero no ayudan. Esta guía muestra cómo medir el ruido, recortar labels inestables, mantener señales clave y validar Prometheus antes de tocar producción.

LinuxDocker

Intermedio→

Logs~40 min

Construir timelines de incidentes con logs, métricas y trazas sin inventarte la película

Creada: 2 de mayo de 2026 · Publicada: 2 de mayo de 2026

Aprende a reconstruir un incidente real a partir de Prometheus, Loki y trazas distribuidas sin perderte en ruido, relojes desalineados ni teorías creativas.

LinuxDocker

Intermedio→

Logs~40 min

Depurar pipelines de Vector antes de que retries y buffers tapen el cuello real

Creada: 1 de mayo de 2026 · Publicada: 1 de mayo de 2026

Una guía práctica para usar métricas internas de Vector, validación de configuración y pruebas de aislamiento cuando los logs llegan tarde, se reintentan demasiado o desaparecen.

LinuxDocker

Intermedio→

Metrics~40 min

Reducir picos de cardinalidad en Prometheus sin dejar ciegas tus alertas

Creada: 30 de abril de 2026 · Publicada: 30 de abril de 2026

Una guía práctica para detectar cuándo Prometheus se infla por labels inestables, recortar la cardinalidad en el sitio correcto y validar que las alertas siguen cubriendo el incidente real.

LinuxDocker

Avanzado→

Logs~40 min

Arreglar la explosión de labels en Loki sin romper las búsquedas que sí importan

Creada: 29 de abril de 2026 · Publicada: 29 de abril de 2026

Una guía práctica para identificar labels de alta cardinalidad en Loki, sacarlas de la ruta crítica y validar que las búsquedas sigan siendo útiles.

LinuxDocker

Avanzado→

Tracing~45 min

Ajustar sampling distribuido sin quedarte ciego cuando llega el incidente

Creada: 28 de abril de 2026 · Publicada: 28 de abril de 2026

Una guía práctica para detectar sesgos de sampling, aplicar tail sampling útil y validar que sigues viendo justo las trazas que importan.

LinuxDocker

Avanzado→

Logs~40 min

Diagnosticar hot shards en OpenSearch antes de que se disparen la latencia y las colas de indexación

Creada: 27 de abril de 2026 · Publicada: 27 de abril de 2026

Aprende a confirmar un hot shard en OpenSearch, localizar el índice y nodo problemáticos, corregir la causa y validar que la recuperación es real.

LinuxDocker

Avanzado→

Metrics~40 min

Entender las métricas de memoria de Kubernetes sin disparar falsas alertas de OOM

Creada: 26 de abril de 2026 · Publicada: 26 de abril de 2026

Guía práctica para diagnosticar memoria de contenedores en Kubernetes con Prometheus y Grafana sin confundir usage, working set, RSS ni page cache recuperable.

LinuxDocker

Intermedio→

Metrics~35 min

Montar golden signals útiles para APIs en Kubernetes sin disparar la cardinalidad de Prometheus

Creada: 26 de abril de 2026 · Publicada: 26 de abril de 2026

Una guía práctica para definir tráfico, latencia, errores y saturación en APIs sobre Kubernetes sin llenar Prometheus de series inútiles ni romper alertas.

LinuxDocker

Intermedio→

OpenTelemetry~35 min

Diagnosticar backpressure en OpenTelemetry Collector antes de perder señales

Creada: 25 de abril de 2026 · Publicada: 25 de abril de 2026

Una guía de troubleshooting avanzada para aislar si el atasco está en el exporter, la red, el backend o el propio Collector antes de empezar a perder telemetría.

DockerLinux

Avanzado→

Reliability~36 min

Diseñar alertas de burn rate que no despierten a nadie por gusto

Creada: 22 de abril de 2026 · Publicada: 22 de abril de 2026

Las releases recientes de Prometheus, OpenTelemetry Collector, Loki y Alloy dejan una lección bastante poco romántica: las alertas atadas a métricas crudas y labels frágiles se rompen o se vuelven ruidosas con facilidad. Esta guía muestra cómo aterrizar burn-rate alerts sobre recording rules estables, validarlas con promtool y desplegarlas sin convertir cada pico corto en una falsa urgencia.

LinuxDocker

Intermedio→

Metrics~38 min

Limpiar ruido de kube-state-metrics para que tus dashboards vuelvan a decir algo

Creada: 20 de abril de 2026 · Publicada: 20 de abril de 2026

kube-state-metrics sigue siendo útil, pero en 2026 llega con más superficie, más métricas estables y cambios recientes como EndpointSlices por defecto. Si tus paneles se llenaron de series irrelevantes, joins frágiles o estados duplicados, esta guía te enseña a reducir ruido en la fuente, corregir consultas y validar que el recorte no rompe alertas ni troubleshooting.

LinuxDocker

Intermedio→

Tracing~42 min

Ajustar sampling distribuido sin quedarte ciego cuando más duele

Creada: 19 de abril de 2026 · Publicada: 19 de abril de 2026

Las señales recientes del ecosistema apuntan al mismo problema: el sampling mal planteado sigue rompiendo diagnósticos justo en incidentes reales. Entre cambios recientes del OpenTelemetry Collector, nuevas validaciones más estrictas y backends de trazas todavía sensibles a series, colas y exemplars, esta guía propone un enfoque práctico para bajar coste sin perder las trazas que sí importan.

LinuxDocker

Avanzado→

Logs~42 min

Construir timelines de incidentes con logs, métricas y trazas sin inventarte la película

Creada: 19 de abril de 2026 · Publicada: 19 de abril de 2026

Las señales recientes del ecosistema apuntan a lo mismo: más telemetría no garantiza mejores diagnósticos. Esta guía aterriza un método reproducible para construir timelines fiables con Prometheus, Loki y OpenTelemetry, evitando errores muy actuales como métricas de memoria mal interpretadas, labels ruidosos y trazas sin suficiente contexto de petición.

LinuxDocker

Intermedio→

Logs~55 min

Resolver hot shards en OpenSearch antes de que el clúster empiece a arder

Creada: 19 de abril de 2026 · Publicada: 19 de abril de 2026

Guía avanzada para aislar hot shards en OpenSearch con señales de nodo, shard e ingesta, y aplicar mitigaciones reversibles antes de que aparezcan colas, timeouts y backlogs.

LinuxDocker

Avanzado→

Logs~24 min

Depurar pipelines de Vector cuando los logs llegan tarde, mal o nunca

Creada: 17 de abril de 2026 · Publicada: 17 de abril de 2026

Cuando un pipeline de Vector empieza a retrasar, duplicar o perder eventos, el problema casi nunca se resuelve tocando parámetros al azar. Esta guía muestra cómo usar métricas internas, validación de configuración y señales del sink para encontrar el cuello real y corregirlo con cambios reversibles.

DockerLinux

Intermedio→

Metrics~45 min

Golden signals prácticos para APIs en Kubernetes sin inflar el stack

Creada: 15 de abril de 2026 · Publicada: 15 de abril de 2026

Guía técnica para definir golden signals aplicables a APIs en Kubernetes: métricas Prometheus, consultas PromQL, paneles de Grafana, reglas de alerta y un flujo de troubleshooting para diagnosticar y validar mitigaciones sin añadir agentes innecesarios.

LinuxDocker

Intermedio→

Logs~60 min

Qué hacer cuando Loki se hunde por labels con demasiada cardinalidad

Creada: 13 de abril de 2026 · Publicada: 13 de abril de 2026

Guía práctica para detectar y arreglar problemas de alta cardinalidad en labels que degradan o bloquean Loki: síntomas operativos, métricas y logs a revisar, cambios seguros en Promtail/ingest pipelines y comprobaciones de validación.

DockerLinux

Avanzado→

Metrics~60 min

Reducir picos de cardinalidad en Prometheus sin romper alertas

Creada: 11 de abril de 2026 · Publicada: 11 de abril de 2026

Guía práctica para detectar fuentes de cardinalidad alta, aplicar relabeling y rollups seguros, y validar que las alertas críticas siguen siendo efectivas.

DockerLinux

Avanzado→

OpenTelemetry~35 min

Diagnosticar backpressure en OpenTelemetry Collector antes de perder señales

Creada: 10 de abril de 2026 · Publicada: 10 de abril de 2026

Una guía de troubleshooting avanzada para aislar si el atasco está en el exporter, la red, el backend o el propio Collector antes de empezar a perder telemetría.

DockerLinux

Avanzado→

Metrics~32 min

Downsampling de métricas con VictoriaMetrics en la versión gratuita

Creada: 10 de abril de 2026 · Publicada: 10 de abril de 2026

VictoriaMetrics Enterprise ofrece downsampling nativo en cluster. En la versión gratuita puedes aproximarlo con clusters separados, fan-out y `-dedup.minScrapeInterval`.

Avanzado→

Logs~28 min

Dimensiona shards en OpenSearch con ingesta real

Creada: 9 de abril de 2026 · Publicada: 9 de abril de 2026

Guía avanzada para decidir `number_of_shards` y `max_size` a partir de la ingesta real del índice.

Avanzado→

Dashboards~20 min

Grafana para unificar métricas, logs y trazas (multiplataforma)

Creada: 7 de abril de 2026 · Publicada: 7 de abril de 2026

Despliega Grafana, provisiona datasources y deja un espacio listo para explorar métricas, logs y correlación con trazas.

Docker

Intermedio→

Logs~18 min

OpenSearch para centralizar logs (multiplataforma)

Creada: 6 de abril de 2026 · Publicada: 6 de abril de 2026

Configura OpenSearch y Dashboards, carga eventos iniciales y valida consultas operativas de logs en cualquier plataforma.

Docker

Principiante→

Metrics~16 min

Prometheus para métricas del sistema (multiplataforma)

Creada: 5 de abril de 2026 · Publicada: 5 de abril de 2026

Configura Prometheus y verifica métricas operativas con un flujo reproducible, independientemente del sistema operativo del equipo.

Docker

Principiante→

Tracing~10 min

Detectar regresiones tras un despliegue con trazas

Creada: 2 de abril de 2026 · Publicada: 2 de abril de 2026

Qué comparar, qué atributos segmentar y qué spans revisar cuando sospechas que un deploy ha introducido latencia o errores.

Intermedio→

Reliability~12 min

Diseñar SLOs para equipos de plataforma

Creada: 30 de marzo de 2026 · Publicada: 30 de marzo de 2026

Un marco breve para escoger indicadores y objetivos que ayuden a negociar fiabilidad con producto y desarrollo.

Intermedio→

OpenTelemetry~18 min

Fundamentos de observabilidad con OpenTelemetry

Creada: 21 de marzo de 2026 · Publicada: 21 de marzo de 2026

Una guía para pasar de instrumentar por moda a responder preguntas operativas reales con logs, métricas y trazas conectadas.

Principiante→