Estimaciones de Tiempo y Espacio

Estimación de espacio

HD Lorean es una aplicación de backup basada en diferenciales. Esto es, si sus ficheros han cambiado, HD Lorean no los copiará de nuevo, sólo considerará los cambios realizados desde la última vez, lo que permite ahorrar espacio en su disco duro. Si no han cambiado, sencillamente no los copiará y no gastará ningún tipo de espacio extra. Sin embargo, en ocasiones las modificaciones son tan grandes que los archivos de diferencias ocupan más que el archivo original; esta situación es detectada por HD Lorean, que sencillamente realiza una nueva copia. Además, los archivos de diferencia también deben guardar información extra que indique si se ha eliminado, añadido o cambiado información, y esta información extra también conlleva sobrecarga de espacio.

Por lo general, para documentos de texto, la realización de archivos de diferencia es una práctica muy eficiente y, suponiendo que los archivos de texto de un usuario aumenten de manera lineal (o un poquito cada día) el tamaño $T$ ocupado en disco al cabo de $n$ copias de seguridad viene dado por la expresión:

(1)
\begin{align} T = T_{inicial} + c (\delta + 1) {n (n + 1) \over 2} \end{align}

En esta expresión, $c$ es la cantidad de bytes añadidos por cada copia de seguridad y $\delta$ es un valor entre 0 y 1 que indica cuánto mejor es el programa de creación de archivos de diferencias. Esto es, cuanto más cerca de 0, mejor. Un valor típico es 0.1 y usaremos este para las simulaciones.

Como se puede observar, el crecimiento del tamaño es parabólico y la siguiente tabla refleja algunos resultados esperados para archivos de diferente tamaño inicial al cabo de 30 diferenciales (uno al día durante un mes) en los que, cada vez, se han añadido 4000 bytes de información nueva.

$T_{inicial}$ $T_{con\_diferenciales}$ $T_{sin\_diferenciales}$ Espacio de disco ahorrado
8KB 2MB 1.9MB 5%
80KB 4.1MB 2MB 51%
800KB 21.2MB 2.7MB 87%

Los resultados son, a la vista, muy buenos.

Ahora bien, los archivos de otros tipos multimedia como la música, las imágenes o los vídeos vienen muchas veces comprimidos lo que impide realizar diferenciales de manera eficiente. No obstante la edición de estos archivos es mucho más esporádica, y localizada en áreas pequeñas del mismo (EXIF, ID3, etc). En cualquier caso, si se llegasen a cambiar probablemente lo más rentable sea realizar una copia en vez de un archivo de diferencias. Por tanto para este tipo de archivos el tamaño ocupado en disco es de la forma:

(2)
\begin{equation} T = nT_{inicial} \end{equation}

Aunque pudiera parecer un inconveniente, la experiencia confirma que son los archivos de texto los más susceptibles a cambios mientras que los archivos multimedia se editan poco. Este equilibrio unido a la potencia de los archivos de diferencias hace de HD Lorean la aplicación ideal en su género en cuanto a consumo de espacio en disco.

Estimación de tiempo

HD Lorean puede realizar copias de seguridad integrales (esto es, copiar el archivo tal cual) en cuyo caso la velocidad del snapshot vendrá determinada por el número de archivos que lo compongan y el tamaño de los mismos así como la velocidad de acceso, lectura y escritura del hardware. O bien puede realizar copias incrementales, en cuyo caso la velocidad depende por un lado del tiempo necesario para crear el diferencial (que depende a su vez del tamaño del archivo) y por otro lado de los parámetros ya citados.

De esta forma, la expresión que rige el tiempo $t$ tardado por un snapshot viene dado por la expresión:

(3)
\begin{align} t = t_{sistema} (\sum_{i=1}^{dif} t_{diferencial} n_i + \sum_{i=dif+1}^{int} n_i) \end{align}

Donde $t_{sistema}$ es el retraso debido al hardware y considerando que existen $dif$ archivos sobre los que se va a crear un diferencial y $int - dif$ archivos que se copiarán íntegramente. Para los archivos de los que se creará un diferencia, el tamaño del mismo se encuentra multiplicado por el retraso en la creación de dicho diferencial $t_{diferencial}$.

La estimación en tiempo, lineal respecto del número de archivos esta vez, puede parecer simple y previsible pero también hay que tener en cuenta que HD Lorean monitoriza los archivos en uso de manera constante y por lo tanto, a excepción de la primera copia de seguridad que probablemente se realice sobre todo el sistema, el resto de copias quedará reducido al conjunto de archivos que cambien. Y esto precisamente reducirá el tiempo empleado por snapshot del sistema.

Conclusiones

De esta forma, se concluye que la eficiencia en el uso del espacio es significativamente mejor cuanto más copias de seguridad se realicen sobre un archivo grande (debido a la creación de archivos de diferencias) o, en el peor de los casos, tan buena como guardar todas las versiones del archivo.

Por otro lado el coste en tiempo es lineal respecto del número de elementos que compongan el snapshot.

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-ShareAlike 3.0 License