El aniquilador de Zombis: DCIM

279

Por más que nos encanta escribir sobre Negan y del suspenso al final de la temporada, este post no es sobre Rick, Daryl, Michonne y The Walking Dead. No, no vamos a sugerirle que ande por los pasillos de su centro de datos con una pistola, un arco o con una espada samurái. Sin embargo, es aconsejable aplicar las mejores habilidades de sobrevivencia para identificar y eliminar los servidores zombis en su centro de datos. Sabemos gracias al informe del Dr. Koomey’s que podrían haber muchos zombis escondidos en sus instalaciones.

Comencemos por definir que es un servidor zombi, “en coma”, huérfano, inactivo o poco utilizado. Cada una de estas categorías de dispositivos tiene un impacto negativo similar en la productividad del centro de datos y en el consumo total de energía. Asimismo ocupan valioso espacio en los racks y costosos recursos de potencia y de aire acondicionado. Gracias a un sistema de distribución de energía inteligente, que trabaja en conjunto con una solución de DCIM de gestión de activos de TI, se puede monitorear cada enchufe de las PDU para encontrar y eliminar esos zombis. ¿Nuestra arma? Una aplicación de DCIM (Gestión de la Infraestructura de los Centros de Datos, por sus siglas en inglés) con base en reglas y políticas que reducen el consumo total de energía dentro del centro de datos. Por consiguiente se libera valioso espacio, energía eléctrica y capacidad de enfriamiento.

Los servidores zombi se presentan de muchas maneras. No obstante, se pueden identificar fácilmente: todos consumen energía, valioso espacio, y capacidad de enfriamiento. Algunos se pueden rehabilitar. Esta es la pregunta que debe hacerse: si han estado tanto tiempo inactivos sin impacto positivo, ¿no será tiempo de desconectarlos?

La lista de servidores zombi que consumen energía

CategoríaEstado de DCIMEstado de la redEstado de propiedadUso / Carga
ZombiEn DCIM*No en DNSPropietario desconocidoSin carga
HuérfanoEn DCIM*En DNSSin PropietarioSin carga
AbandonadoEn DCIM*En DNSCon PropietarioSin carga
Poco UtilizadoEn DCIM*En DNSCon PropietarioPoco Uso
FantasmaSin DCIMNo en DNSPropietario desconocidoDesconocido

*DCIM le da el beneficio de la duda

Por consiguiente, vemos una larga lista de zombis en los centros de datos. Increíblemente, el centro de datos, la sala de computadoras y el armario de red promedio pueden tener un 30 por ciento de servidores en alguna de estas categorías.

Desarrollar un aniquilador de zombis automático con base en políticas y reglas es relativamente sencillo. De hecho, se justifica la inversión en este aniquilador de zombis, en términos de tiempo y recursos, como parte de la actualización de una suite existente, o como parte de la implementación de una solución integral de DCIM. Todo comienza con la determinación de algunos puntos clave del perfil de consumo de energía de sus servidores: dormidos, inactivos, en modo de ahorro de energía (Aplicación OEM), carga parcial, modo normal, y pico. Entonces, validamos esta información una vez que se determinaron los perfiles dentro del centro de datos gracias a un medidor de potencia en los enchufes de las PDU inteligentes. Se establece un grado de certeza (precisión del medidor además de un pequeño margen de seguridad) y se comienza a recolectar datos en tiempo real gracias a la interfaz de la PDU y de DCIM.

Antes de que se emocione demasiado, permita que sus servidores se normalicen y se asienten en la “producción”. Una vez que estén funcionando normalmente, recolectamos un poco más de datos para comenzar a desarrollar las reglas y políticas. Una regla importante será la definición de “inactivo” para esta clase específica de servidores y aplicaciones. Sus datos podrían mostrar que el consumo energético del servidor es de 2,5 amperios a 208V CA (si asumimos que el UPS tiene una regulación estricta del voltaje). En algunos casos, los datos reales y de prueba pueden indicar una “carga baja” en 2,9 amperios, y el modo “normal” por encima de los 3,3 amperios. Entonces, debe configurar el monitoreo con DCIM para que se active un reloj cuando el dispositivo cae a 2,5 amperios y que este se resetee cuando el servidor exceda los 2,8 amperios, lo cual facilita determinar la precisión, desviación, incertidumbre, etc.

Ahora tenemos el sello de tiempo y el reloj para determinar cuándo un servidor está inactivo. El informe de Koomey sugiere que un servidor zombi o en coma es aquel que sin demandas de red o acciones ejecutables durante más de seis meses. Pero no hay razón para esperar tanto tiempo para tomar una acción. Recomendamos agregar una serie de reglas adicionales en la solución de DCIM. Estas reglas deben alertar a los 30 o 60 días el estado de servidores inactivos a la administración local de TI y al propietario identificado. Si no se identifica el propietario, se comienza una búsqueda diligente.

Al llegar a los 90 días de un estado inactivo continuo, los administradores de TI reciben un informe, y si el servidor sigue inactivo a los 120 días de inactividad, el gerente de las instalaciones o de TI puede apagarlo. Al llegar a los 150 días inactivo, el sistema de DCIM enviará una notificación que avisa sobre el inminente apagado del servidor. A los 180 días, la herramienta de DCIM apagará cualquier servidor que quede en modo inactivo.

Sus reglas y políticas variarán. Personalmente opino que 90 días es mucho tiempo. La excepción podría ser el caso en que el servidor es una instalación inicial. Esta situación podría suponer que es tiempo de instaurar políticas más estrictas para implementar software y hardware de TI. Usted podría considerar implementar un programa de 30/60/90 días y darle a la solución de DCIM toda la autonomía de apagar cualquier servidor que se mantiene inactivo durante 90 días.

En este punto, tenemos los recursos básicos para automatizar la identificación de servidores zombi, los informes y el apagado. Todo lo que falta es quitar el servidor, limpiar los datos y devolvérselo al proveedor (o contratista autorizado) para que se deseche de manera responsable. Como consecuencia, hemos liberado los recursos de los sistemas críticos de potencia y de aire acondicionado en el centro de datos y hay espacio para los nuevos y más poderosos servidores, capaces de manejar las cargas vitales de la compañía. Ahora puede automatizar de manera efectiva los componentes claves de Energy Logic 2.0.

Los dejo con un pensamiento:  la seguridad cibernética debe ser una prioridad. Por favor, tome en cuenta las implicaciones asociadas de una infraestructura conectada a la red, pues existen personas mal intencionadas en internet. Tal vez quiera tomar en cuenta una red fuera de banda para su infraestructura crítica. Consulte a su experto en seguridad de DCIM antes de pasar los firewalls.

Califica la noticia

Permitida su reproducción total o parcial citando la fuente