A menudo veo nuevos productos de monitoreo de TI entrar al mercado (sí, soy un nerd y tengo una alerta de Google para el "análisis de causa raíz", y sí, leo la mayoría de los resultados). La mayoría de estos productos aseguran que hacen un trabajo excelente al monitorear sus sistemas, recolectar datos y alertarlo sobre actividades y fallas inusuales. De estas afirmaciones, no tengo dudas de que entregan lo anunciado. Sin embargo, la mayoría de ellos también afirman realizar análisis de causa raíz, lo que le alivia de la carga de analizar los problemas de su organización. Estos sistemas mágicos aparentemente proporcionan al Administrador de Problemas su "unicornio problemático", un sistema que recopila sus datos, analiza sus problemas e identifica soluciones, ¡todo sin participación humana! Desafortunadamente, al igual que el mítico unicornio de la tradición, este sistema no existe en la realidad. Todos queremos cumplir con ITIL, pero no existe el análisis automatizado de causa raíz.

No me malinterpreten: creo que el monitoreo es una pieza valiosa y necesaria del rompecabezas de los sistemas de TI. Proporciona datos que dirigen nuestros análisis de causa raíz. Lo que un sistema de monitoreo no puede hacer es preguntar "¿por qué?" O "¿qué causó esto?". Veamos un ejemplo que puede clasificarse como una "causa raíz" por un sistema de monitoreo de TI. La causa raíz identificada es "servidor sobre capacidad máxima". Con base en esta información, ¿qué harías para eliminar esta causa? ¿Qué tan seguro estarías si hubieras eliminado el problema y no repitiera? La solución probable de agregar más capacidad de servidor no evitará necesariamente que este problema vuelva a suceder: debemos entender por qué el servidor estaba sobrecargado, por qué no se nos alertó antes de alcanzar la capacidad, si los archivos antiguos no se purgaban correctamente, etc.

Para encontrar soluciones efectivas que eviten la recurrencia del problema, debemos mirar más allá del error. Necesitamos ver al menos dos niveles más profundos y el software simplemente no tiene la capacidad de hacerlo de manera significativa por sí solo todavía. Use sus datos de monitoreo para informar a sus ACR. Le ayudará a armar su gráfico de causa y efecto. Usted, el analista, debe hacer preguntas para descubrir las verdaderas causas de sus problemas. Confiar en su sistema de monitoreo para realizar sus ACR es una excelente manera de asegurarse de que experimente problemas recurrentes. Algunos consejos para profundizar más allá de los datos básicos de monitoreo:

Regla de Error Plus Two: encuentre al menos dos niveles adicionales de causalidad más allá del error para asegurarse de comprender completamente el problema y por qué ocurrió. Si no lo entiendes, ¿cómo lo puedes resolver?
Dos preguntas para la creación de gráficos: no estamos hablando 5 Por qué el análisis lineal: use las dos preguntas para la creación de gráficos que aprendió en el entrenamiento ACR para crear relaciones "y" a través de causas ramificadas. Si todavía no has asistido al entrenamiento, ¿qué estás esperando? Comience aquí: http://www.sologic.com/root-cause-analysis-training
Aunque todavía no existe el autocompletado de las causas raíz, con solo unas pocas preguntas de sondeo y la recopilación de datos existentes, desarrollar el diagrama de causa y efecto no tomará mucho tiempo. ¡Estarás contento de haberlo hecho!

Conozca más sobre Sologic ACR

Contáctenos