7 minutos de lectura

Deduplicación de datos

2 de julio de 2020 23:34:54 EDT

deduplicacionp

La tecnología de respaldo ha visto una gran cantidad de avances en las últimas décadas, pero pocos han sido tan importantes como el desarrollo de la deduplicación de datos. La deduplicación de datos, que elimina duplicados de entradas de datos para ahorrar espacio de almacenamiento, ha existido de alguna forma desde la década de 1970. En ese momento, los empleados identificaban datos redundantes y los revisaban línea por línea, buscando duplicados manualmente.

En los años posteriores, a medida que las cantidades de datos han crecido exponencialmente, el proceso se ha automatizado. De hecho, el crecimiento de datos es tan rápido hoy en día que incluso las soluciones de almacenamiento más nuevas luchan por mantenerse al día, por lo que la deduplicación de datos es más importante que nunca. Como proveedor de servicios gestionados (MSP), comprender qué es la deduplicación de datos y cómo funciona puede ayudarlo a optimizar su capacidad de almacenamiento, lo que le ahorrará cantidades significativas de dinero a largo plazo.

¿Qué es la desduplicación de datos?

Al trabajar como MSP, puede encontrar clientes que preguntan: "¿Qué es la deduplicación y compresión de datos?" La deduplicación de datos es el proceso mediante el cual se eliminan los datos redundantes antes de una copia de seguridad de datos. Permite el almacenamiento de una instancia única de todos los datos dentro de una base de datos, sin que las copias ocupen espacio innecesariamente. Una vez que se eliminan las copias redundantes de datos, la deduplicación de datos le da la opción de comprimir las copias individuales de los datos que se almacenan para ahorrar aún más espacio.

Es importante tener en cuenta que si bien puede comprimir datos a través de la deduplicación de datos, el proceso de deduplicación es distinto de la compresión de datos regular. En el último, los algoritmos de compresión identifican datos redundantes dentro de archivos individuales antes de codificar esos datos de manera más eficiente. La deduplicación, por otro lado, inspecciona grandes volúmenes de datos, identificando grandes secciones (incluso archivos completos) que son iguales. Luego reemplaza estos duplicados con un solo archivo compartido.

Por ejemplo, si un sistema de correo electrónico tiene 200 instancias del mismo archivo adjunto, la deduplicación de datos borrará las redundancias a favor de una copia guardada del archivo adjunto. Esto da como resultado una relación de deduplicación (discutida a continuación) de 200: 1. Si imagina que cada instancia del archivo adjunto fue de 1 MB, habrá reducido sus requisitos de almacenamiento en 199 MB.

¿Cómo funciona la deduplicación de datos?

Existen varios procesos diferentes de deduplicación de datos que influyen en el funcionamiento de la deduplicación de datos. En esencia, la deduplicación de datos funciona mediante la creación y comparación de grupos de datos llamados "fragmentos". Sin embargo, hay varias variables que determinan cómo funciona cada uno de estos diferentes procesos de deduplicación de datos.

Puede ejecutar la deduplicación en línea o la deduplicación posterior al procesamiento. La diferencia entre los dos es que con la deduplicación posterior al procesamiento, los duplicados se eliminan después de que los datos ya se hayan escrito en un disco. Con un proceso en línea, por otro lado, la deduplicación se ejecuta a medida que los datos se escriben en el sistema de almacenamiento. Con el software de deduplicación de datos, puede ejecutar tanto el procesamiento posterior como la deduplicación de datos en línea para maximizar los ahorros.

No importa cuál use, los pasos básicos de la deduplicación funcionan de la misma manera. Para que los datos se deduplican, primero se dividen en fragmentos. Estos son típicamente uno o más bloques contiguos de datos. Cada sistema de deduplicación crea fragmentos de manera diferente, pero no importa de qué manera se descompongan, el proceso de comparar los fragmentos es prácticamente el mismo.

Una vez que los datos se desglosan, comienza el proceso de análisis. Cada fragmento individual se ejecuta a través de un algoritmo que crea un hash, esencialmente una larga serie de números y letras que representan los datos contenidos en el fragmento. Dado que incluso el cambio más pequeño en los datos en un fragmento hace que cambie el hash, dos fragmentos diferentes que dan como resultado hashes coincidentes se consideran idénticos. Cada vez que se encuentra que un fragmento es redundante, se reemplaza por una pequeña referencia que apunta al fragmento almacenado.

 

¿Qué método de deduplicación de datos es el adecuado para usted?

Otra distinción entre los métodos de deduplicación de datos es entre la deduplicación de destino y la de origen. La distinción básica entre los dos es que la deduplicación de destino ocurre cerca de la ubicación donde se almacenan los datos, mientras que la deduplicación de origen ocurre cerca de donde se crean los datos.

En la deduplicación de destino, el proceso de eliminación de duplicados ocurre cuando los datos llegan al dispositivo de almacenamiento de destino. Una vez que los datos realmente alcanzan el objetivo, la deduplicación se puede hacer antes o después de que los datos se respalden en el dispositivo. Eso significa que el servidor no tiene conocimiento de ningún esfuerzo de deduplicación porque el trabajo de fragmentación y comparación se realiza en el objetivo. Este es generalmente el método más popular, aunque tiene algunas desventajas en comparación con la deduplicación de origen.

En la deduplicación de origen, el proceso de eliminación de datos redundantes se produce en el origen en lugar de en el destino. Suele tener lugar dentro del propio sistema de archivos, donde se realizan exploraciones periódicas de nuevos archivos. Los hashes resultantes se envían al servidor de respaldo para su comparación. Si el servidor encuentra que el fragmento es único, se transfiere al servidor de respaldo y se escribe en el disco. Pero si el servidor encuentra hashes idénticos en el sistema, el fragmento no es único y no se transfiere al servidor de respaldo. Esto ahorra almacenamiento y ancho de banda.

Una crítica común de la deduplicación de origen es que usa mucha potencia de CPU, más que la deduplicación de destino. Sin embargo, dada la reducción significativa en la cantidad de CPU necesaria para transferir las copias de seguridad, la mayor cantidad de CPU utilizada en el proceso de deduplicación de origen generalmente se compensa a largo plazo.

La principal diferencia que debe tenerse en cuenta al determinar el método de deduplicación de datos adecuado para usted es cómo se desarrollan realmente los procesos de deduplicación. Con el método de deduplicación de destino, debe comprar dispositivos de disco de deduplicación de destino. Estos electrodomésticos deben estar presentes en todas partes donde vaya a realizar una copia de seguridad. Si bien esto puede ser costoso, ofrece el beneficio adicional de permitir la deduplicación incremental. Con la deduplicación incremental, utiliza el mismo software de respaldo, pero simplemente cambia el objetivo. También le permite realizar deduplicaciones de destino con casi cualquier software de respaldo, siempre que sea compatible con el dispositivo. Eso significa que no necesita embarcarse en un reemplazo mayorista de todo su sistema de respaldo.

Con la deduplicación de datos de origen, generalmente debe someterse a un reemplazo total de todo su sistema de respaldo. Sin embargo, a diferencia de la deduplicación de destino, no necesita un dispositivo que sea local para cada dispositivo del que desea hacer una copia de seguridad. Dado que puede realizar copias de seguridad desde cualquier lugar con la deduplicación de origen, es el método de deduplicación de datos ideal si tiene muchos dispositivos remotos, como computadoras portátiles y dispositivos móviles.

Desduplicación de datos en la nube

El mayor uso de la nube está abriendo increíbles posibilidades para la deduplicación de datos. Algunas de las mejores relaciones de deduplicación de datos a menudo se pueden lograr a través de entornos de servidores virtuales. Esto se debe a que cuando se trata de entornos virtuales hay una gran cantidad de datos redundantes que pueden eliminarse fácilmente mediante un proceso de deduplicación de datos.

Con cada vez más empresas que se trasladan a entornos de nube virtual para el almacenamiento de datos, la deduplicación de datos también abre la puerta a nuevas posibilidades con los datos almacenados. En particular, está mejorando la gobernanza de datos. Al proporcionar un contexto histórico para la información, la deduplicación de datos está mejorando la capacidad de TI para comprender los patrones de uso de datos. Esta comprensión se puede utilizar para optimizar proactivamente las redundancias de datos entre los usuarios en entornos distribuidos.

¿Qué es una relación de deduplicación?


Como se mencionó anteriormente, una relación de deduplicación de datos es la comparación entre el tamaño original de los datos y su tamaño después de eliminar la redundancia. Es esencialmente una medida de la efectividad del proceso de deduplicación. A medida que aumenta la relación de deduplicación, el proceso de deduplicación devuelve resultados relativamente más débiles, dado que la mayor parte de la redundancia ya se ha eliminado. Por ejemplo, una relación de deduplicación de 500: 1 no es significativamente mejor que una relación de 100: 1; en el primer caso, se elimina el 99.8% de los datos, frente al 99% de los datos eliminados en el segundo.

Los factores que tienen la mayor influencia en la relación de deduplicación son:

Retención de datos. Cuanto más tiempo se hayan retenido los datos, mayor será la probabilidad de encontrar redundancia.
Tipo de datos. Ciertos tipos de archivos tienen más probabilidades de tener altos niveles de redundancia que otros.
Tasa de cambio. Si sus datos cambian con frecuencia, es probable que tenga una relación de deduplicación más baja.
Ubicación. Cuanto más amplio sea el alcance de sus esfuerzos de deduplicación de datos, mayor será la probabilidad de encontrar duplicados. Por ejemplo, la deduplicación global en múltiples sistemas generalmente produce una proporción más alta que la deduplicación local en un solo dispositivo.


¿Por qué es importante la desduplicación de datos?

La deduplicación de datos es importante porque reduce significativamente sus necesidades de espacio de almacenamiento, ahorrándole dinero y reduciendo la cantidad de ancho de banda que se desperdicia al transferir datos a / desde ubicaciones de almacenamiento remotas. En algunos casos, la deduplicación de datos puede reducir los requisitos de almacenamiento hasta en un 95%, aunque factores como el tipo de datos que intenta deduplicar afectarán su relación de deduplicación específica. Incluso si sus requisitos de almacenamiento se reducen en menos del 95%, la deduplicación de datos aún puede generar grandes ahorros y aumentos significativos en la disponibilidad de ancho de banda.

No existe una única forma correcta de participar en la deduplicación de datos. Afortunadamente, hay muchas variables diferentes que pueden ayudarlo a encontrar el mejor enfoque para su entorno. Desde la deduplicación en línea hasta el posprocesamiento, desde el destino hasta la fuente, hay una variedad de enfoques que pueden resultar en una disminución significativa en sus necesidades de capacidad de almacenamiento. Esto, a su vez, se traduce en importantes ahorros de costos para su organización.

Revisa aquí todo lo que debes saber sobre seguridad de la información

 

Netsus SpA

Escrito por Netsus SpA