En el último tiempo, muchos hemos asistido a decenas de presentaciones en donde se ha afirmado que la adopción de iniciativas de Big Data en las empresas va a disparar exponencialmente la generación de datos; proyecciones de 5 años estiman que vamos a necesitar almacenar en el mundo cientos de ZB.
Esto nos plantea algunos interrogantes en relación con las cinco “v” que caracterizan el concepto de Big Data: volumen, velocidad, variedad, veracidad y valor. Las tres primeras son en mayor medida las que disparan las necesidades del almacenamiento. Lo cierto es que más allá de la exactitud de las proyecciones de los analistas, se trata de una problemática real y de mucha, muchísima información, la cual no sólo debe ser almacenada, también debe ser calificada, protegida y finalmente descartada.
En este sentido, es inevitable que nos preguntemos ¿cómo hacemos para gerenciar datos que se generan por decenas de TB sólo en algunas horas?
Evidentemente, no podemos hacerlo como lo veníamos haciendo hasta ahora, y eso se debe fundamentalmente a dos problemáticas generadas por este concepto disruptivo.
a. La ingesta de datos tiene que ser muy rápida y eficiente para evitar latencias en las aplicaciones o las máquinas que los generan.
b. Para proteger los datos provenientes de Big Data, o inclusive de otras fuentes clásicas pero de gran volumen, ya no sirve hacer “backup” de la manera tradicional, sencillamente porque no hay tecnología de repositorio ni software de gestión que pueda almacenar tanta información en una ventana de tiempo razonable y a un costo sensato. Y, como todos sabemos, si tuviéramos que restaurar la información ante una contingencia, sería quizás mucho peor el escenario, que intentar realizar la copia en sí.
Conceptualmente hablando, debemos enfocarnos en tres premisas:
1. Proteger los datos en tiempo real en la medida que las aplicaciones los generan.
2. Mantener activa y consistente la copia secundaria obtenida en el paso anterior, para que pueda ser usada inmediatamente ante cualquier eventualidad.
3. Quitar y archivar la información que ya perdió su valor del almacenamiento principal, enviándola a un almacenamiento de menor jerarquía, pero vinculado lógicamente al anterior para poder regresarla de manera transparente en caso de necesidad.
¿Y cómo hacemos eso? Las plataformas de almacenamiento empresariales ya cuentan con funcionalidades que permiten mantener copias activas en más de un sitio, y también tomar “snapshots” sincronizados con dichas copias para asegurar la consistencia de los datos en distintos momentos. Esta tecnología es agnóstica a las aplicaciones, asegura la coherencia de los datos independientemente de la arquitectura de la fuente que los genera; tiene muy bajo impacto en la performance, y se “orquesta” mediante algún software que mantiene un catálogo de las réplicas para facilitarle la vida al administrador de la plataforma o de la Base de Datos.
En pocos minutos se puede hacer lo que a un software de respaldo le llevaría muchas horas, y sin interrumpir las operaciones. De esta manera, toda la información que representa el núcleo de nuestras aplicaciones críticas, como las bases de datos, se puede proteger instantáneamente sin importar el tamaño. Combinando esta capacidad con infraestructuras de alta disponibilidad de procesamiento como “clusters” geográficos, podemos además asegurar una operación continua. Ya no es una utopía lograr puntos de recuperación de la información sin pérdida de datos y sin pérdida de tiempo.
De este modo, cubrimos las dos primeras premisas, pero para la tercera vamos a necesitar un método de calificación de la información muy eficiente, automatizando la decisión sobre la mayor cantidad de datos posible que deban ser movidos a un repositorio más económico para evitar errores humanos de criterio, y sin dejar de considerar el paso inverso, cuando la información deba ser restaurada. En general, las aplicaciones empresariales saben cuál información es todavía valiosa y cuál no, y muchas tienen algún mecanismo para mover la información a otro espacio de almacenamiento, manteniendo la traza lógica para recuperarla ante una eventualidad. Pero, en el caso que las aplicaciones no tengan dicha facilidad, existen en el mercado aplicaciones de gestión de contenido que permiten realizar las mismas funcionalidades.
Como en todos los proyectos innovadores, el disparador es el costo versus el beneficio, y en este sentido, resultan muy atractivas las soluciones de almacenamiento en la nube pública o privada como destino de archivado, pero la primera puede ser un obstáculo prácticamente insalvable para las empresas reguladas por rigurosas políticas de seguridad internas o gubernamentales, las cuales impiden sacar información físicamente de sus centros de datos, recurriendo entonces a soluciones de nubes de almacenamiento privadas o almacenamiento de contenido “in house”, para salvar esta restricción.
Entonces, ¿en la era del Big Data qué debe contemplar una solución de almacenamiento y gestión de contenido?
• Poseer una muy alta disponibilidad y muy bajo nivel de mantenimiento, para asegurar el acceso a los datos en todo momento; y asegurar la ingesta y recupero de datos a gran velocidad.
• Escalar en línea de acuerdo con la demanda de volumen de almacenamiento, bajo un esquema de costo predecible.
• Contar con múltiples mecanismos internos para asegurar la veracidad de la información y protegerla en el momento de la ingesta, además de herramientas de encriptación, versionado y protección de “solo lectura” para preservar los datos sensibles.
• Contar con herramientas para hacer eficiente el uso del espacio físico (compresión y/o deduplicación de datos), y para el borrado seguro al final del ciclo de vida de los datos (shredding).
• Replicar su contenido a otro sitio, para lograr alta disponibilidad geográfica además de cumplir con las regulaciones que indican que las copias de la información deben estar físicamente fuera del centro de datos principal.
Esta estrategia, ciertamente distinta a lo tradicional, permitirá enfrentar las iniciativas de Big Data con mayor confianza porque asegura la protección de la información, mejora la performance general de las tareas primarias y secundarias de producción, y la alta disponibilidad del negocio, salvando las restricciones que imponen las soluciones clásicas de respaldo de datos, inclusive con un menor costo total de la propiedad.
* El autor esLATAM Regional Technical Specialist for Core Infrastructure Solutions de Hitachi Vantara.