Fallas comunes en sistemas RAID
Los arreglos RAID son sistemas que trabajan con un balance delicado y son muchas las diferentes causas que pueden hacer que dejen de funcionar correctamente. A continuación describimos las más comunes.
Se recomienda tomar nota de todos los sucesos que han ocurrido desde que el servidor funcionaba bien, por ejemplo, corto circuito, interrupciones de la energia eléctrica, golpes, daños por agua o fuego, lentitud del sistema, luces de alerta, sustitución de discos, etc.
Daños en el servidor
Cuando el arreglo se degrada o deja de funcionar, lo primero que hay que revisar es el estado del servidor, pues cualquier daño físico puede ocasionar que el arreglo se degrade o que ya no sea detectado.
Hay que verificar si el servidor está encendido; si la fuente de poder proporciona el voltaje adecuado y estable; si la tarjeta controladora de RAID detecta todos los discos; y en general, se debe comprobar el buen estado de los componentes del servidor antes de pasar a buscar otras causas de la falla.
Daño en la pila
Una de las causas de pérdida de configuración es cuando falla la pila de la controladora RAID.
La función de la pila es mantener la configuración del RAID grabada en la tarjeta. Esta pila, como cualquier otra, tiene un tiempo de vida limitado y eventualmente deja de retener su carga.
Si tenemos una configuración RAID distinta a la que viene por defecto en la tarjeta controladora, no es raro que cuando se apague el servidor se pierda dicha configuración, y que cuando se reinicie el arreglo ya no sea reconocido.
La tarjeta controladora podría ver los discos e incluso mostrar uno o más arreglos posibles, pero no es su función ni tiene capacidad para analizar los parámetros de funcionamiento del arreglo lógico anterior.
Forzarla a hacerlo tiene como consecuencia la pérdida de la información, pues se puede generar un nuevo arreglo limpio y los datos anteriores se comienzan a corromper y a destruir por sobrescritura.
Mal manejo del hardware
Los golpes de cualquier tipo en cualquier parte del servidor, se pueden traducir en daños a los discos duros.
Las vibraciones fuertes, aunque sean ocasionales, también alteran y dañan su funcionamiento.
En más de una ocasión hemos encontrado fallas causadas por vibraciones cuando el servidor es arrastrado, o cuando se encienden motores ruidosos cercanos (por ejemplo en cuartos de máquinas o alrededor de generadores de energía y maquinaria industrial o pesada).
Ambiente de operación deficiente
La falta de mantenimiento causa que la suciedad se acumule dentro del servidor, ocasionando puntos calientes (hot spots), o que los ventiladores funcionen lentamente, lo que lleva a un aumento de la temperatura que puede dañar los componentes del equipo y de los discos.
Los contrastes de temperatura, calor o frio excesivos, y la humedad también pueden ser causas de mal funcionamiento del RAID.
Daños lógicos
El funcionamiento puede ser afectado por errores humanos, borrado accidental, virus, formateo, errores de sistema operativo, controladores o programas defectuosos; reinstalación o actualización de programas y parches de seguridad y un largo etcétera.
Cualquier daño lógico es progresivo y el análisis con programas generalmente es destructivo para la información si no se hace bloqueando el disco contra escritura, lo que requiere de equipo especial y del conocimiento del proceso de recuperación de datos de RAID.
Daños físicos externos
Los discos duros pueden sufrir de daños en la tarjeta controladora, que puede estar quemada, rota o desprogramada.
El daño a cualquier componente externo del disco no se soluciona cambiándola, pues cada tarjeta contiene información única en el chip de firmware, que además debe corresponder con las extensiones del propio firmware que están grabadas en el área de sistema de los platos del disco duro.
Daños físicos internos
Cualquier daño interno impide el acceso a la parte de datos contenida en cada disco del arreglo.
Los daños pueden ser de motor, servomotor, cabezal, preamplificadores, etc., y su solución siempre requiere de la reparación de emergencia o cambio de piezas en ambiente controlado de laboratorio.
Otros fallos de los discos
Existen otros fallos que pueden impedir la lectura de los discos y por lo tanto, afectar la integridad de los arreglos:
– Daños de firmware, que requieren de mano de obra y equipo especial para su solución.
– Daños de pista cero, causados por desgaste o daño de sectores en el área que se usa para el arranque del disco y el grabado de información indispensable para su funcionamiento.
– Daño de sectores, que es uno de los mas comunes pues está asociado al desgaste por el uso del disco.
– Otros fallos como error 23, formato RAW, errores de entrada y salida (E/S o I/O), errores de redundancia cíclica, etc., todos ellos modalidades del daño físico de sectores, los cuales son progresivos y destructivos para la información.
Otros daños no especificados
En ocasiones hay vicios ocultos y causas de daño no aparentes que se deben tener en cuenta.
Además del ocultamiento de la verdad (para evitar responsabilidades), a veces encontramos casos raros como daño por hormigas o termitas que se introducen en los equipos, derrames de líquidos, incendios, y un largo etcétera que debemos investigar como causa probable de la falla.
Que hacer ahora
Puede volver al índice de RAID.
Somos especialistas en la recuperación de datos de arreglos RAID de todo tipo.
Haga clic aquí si desea solicitar ayuda ahora, estaremos encantados de poder servirle.