1 Generalidades

Muy a menudo necesitamos almacenar cierta cantidad de datos de forma más o menos permanente. La memoria del ordenador es volatil, y lo que es peor, escasa y cara. De modo que cuando tenemos que guardar nuestros datos durante cierto tiempo tenemos que recurrir a sistemas de almacenamiento más económicos, aunque sea a costa de que sean más lentos.

Durante la historia de los ordenadores se han usado varios métodos distintos para el almacenamiento de datos. Al principio se recurrió a cintas de papel perforadas, después a tarjetas perforadas. Más adelante se pasó al soporte magnético, empezando por grandes rollos de cintas magnéticas abiertas.

Hasta aquí, todos los sistemas de almacenamiento externo eran secuenciales, es decir, no permitían acceder al punto exacto donde se guardaba la información sin antes haber partido desde el principio y sin haber leído toda la información, hasta el punto donde se encontrase la que estábamos buscando.

Con las cintas magnéticas empezó lo que con el tiempo sería el acceso aleatorio a los datos. Se podía reservar parte de la cinta para guardar cierta información sobre la situación de los datos, y añadir ciertas marcas que hicieran más sencillo localizarla.

Pero no fué hasta la aparición de los discos magnéticos cuando ésta técnica llegó a su sentido más amplio. En los discos es más sencillo acceder a cualquier punto de la superficie en poco tiempo, ya que se accede al punto de lectura y escritura usando dos coordenadas físicas. Por una parte la cabeza de lectura/escritura se puede mover en el sentido del radio del disco, y por otra el disco gira permanentemente, con lo que cualquier punto del disco pasa por la cabeza en un tiempo relativamente corto. Esto no pasa con las cintas, donde sólo hay una coordenada física.

Con la invención y proliferación de los discos se desarrollaron los ficheros de acceso aleatorio, que permiten acceder a cualquier dato almacenado en un fichero en relativamente poco tiempo.

Actualmente, los discos duros tienen una enorme capacidad y son muy rápidos, aunque aún siguen siendo lentos, en comparación con las memorias RAM. El caso de los CD es algo intermedio. En realidad son secuenciales en cuanto al modo de guardar los datos, cada disco sólo tiene una pista de datos grabada en espiral. Sin embargo, este sistema, combinado con algo de memoria RAM, proporciona un acceso muy próximo al de los discos duros.

En cuanto al tipo de acceso, en C y C++ podemos clasificar los archivos según varias categorías:

Dependiendo de la dirección del flujo de datos:

De entrada: los datos se leen por el programa desde el archivo.
De salida: los datos se escriben por el programa hacia el archivo.
De entrada/salida: los datos pueden se escritos o leídos.

Dependiendo del tipo de valores permitidos a cada byte:

De texto: sólo están permitidos ciertos rangos de valores para cada byte. Algunos bytes tienen un significado especial, por ejemplo, el valor hexadecimal 0x1A marca el fin de fichero. Si abrimos un archivo en modo texto, no será posible leer más allá de un byte con ese valor, aunque el fichero sea más largo.
Binarios: están permitidos todos lo valores para cada byte. En estos archivos el final del fichero se detecta de otro modo, dependiendo del soporte y del sistema operativo. La mayoría de las veces se hace guardando la longitud del fichero. Cuando queramos almacenar valores enteros, o en coma flotante, o imágenes, etc, deberemos usar este tipo de archivos.

Según el tipo de acceso:

Archivos secuenciales: imitan el modo de acceso de los antiguos ficheros secuenciales almacenados en cintas magnéticas y
Archivos de acceso aleatorio: permiten acceder a cualquier punto de ellos para realizar lecturas y/o escrituras.

Según la longitud de registro:

Longitud variable: en realidad, en este tipo de archivos no tiene sentido hablar de longitud de registro, podemos considerar cada byte como un registro. También puede suceder que nuestra aplicación conozca el tipo y longitud de cada dato almacenado en el archivo, y lea o escriba los bytes necesarios en cada ocasión. Otro caso es cuando se usa una marca para el final de registro, por ejemplo, en ficheros de texto se usa el carácter de retorno de línea para eso. En estos casos cada registro es de longitud diferente.
Longitud constante: en estos archivos los datos se almacenan en forma de registro de tamaño constante. En C usaremos estructuras para definir los registros. C dispone de funciones de biblioteca adecuadas para manejar este tipo de ficheros.
Mixtos: en ocasiones pueden crearse archivos que combinen los dos tipos de registros, por ejemplo, dBASE usa registros de longitud constante, pero añade un registro especial de cabecera al principio para definir, entre otras cosas, el tamaño y el tipo de los registros.

Es posible crear archivos combinando cada una de estas categorías, por ejemplo: archivos secuenciales de texto de longitud de registro variable, que son los típicos archivos de texto. Archivos de acceso aleatorio binarios de longitud de registro constante, normalmente usados en bases de datos. Y también cualquier combinación menos corriente, como archivos secuenciales binarios de longitud de registro constante, etc.

En cuanto a cómo se definen estas propiedades, hay dos casos. Si son binarios o de texto o de entrada, salida o entrada/salida, se define al abrir el fichero, mediante la función fopen en C o mediante el método open de fstream en C++.

La función open usa dos parámetros. El primero es el nombre del fichero que contiene el archivo. El segundo es em modo que es una cadena que indica el modo en que se abrirá el archivo: lectura o escritura, y el tipo de datos que contiene: de texto o binarios.

En C, los ficheros admiten seis modos en cuanto a la dirección del flujo de datos:

r: sólo lectura. El fichero debe existir.
w: se abre para escritura, se crea un fichero nuevo o se sobrescribe si ya existe.
a: añadir, se abre para escritura, el cursor se situa al final del fichero. Si el fichero no existe, se crea.
r+: lectura y escritura. El fichero debe existir.
w+: lectura y escritura, se crea un fichero nuevo o se sobrescribe si ya existe.
a+: añadir, lectura y escritura, el cursor se situa al final del fichero. Si el fichero no existe, se crea.

En cuanto a los valores permitidos para los bytes, se puede añadir otro carácter a la cadena de modo:

t: modo texto. Normalmente es el modo por defecto. Se suele omitir.
b: modo binario.

En ciertos sistemas operativos no existe esta distinción, y todos los ficheros son binarios.

En C++ es algo diferente, el constructor de las clases ifstream, ofstream y fstream admite los parámetros para abrir el fichero directamente, y también disponemos del método open, para poder crear el stream sin asociarlo con un fichero concreto y hacer esa asociación más tarde.

Buffers

Ya hemos comentado que el acceso a los ficheros es lento, y lo es mucho, comparado con el acceso a memoria. Es por eso que, generalmente, no se accede a ficheros externos cada vez que se realiza una operación de lectura o escritura.

En su lugar, se mantiene una copia de una parte del fichero en la memoria, se realizan las operaciones de lectura/escritura que sea posible dentro de esa zona, y cuando sea necesario, porque alguna operación acceda a posiciones fuera de la zona almacenada, se vuelca esa zona al fichero y se lee otro tramo del fichero en memoria.

A estas zonas se le llaman buffers, y mejoran sensiblemente el acceso a los ficheros en lo que respecta a la velocidad.

Cuanto más grande es un buffer, mejor será el tiempo de acceso al fichero. En el caso ideal, el tamaño del buffer es mayor o igual que el del fichero, y todas las operaciones de lectura y escritura del fichero se realizan en memoria, de modo que sólo es necesario hacer una lectura del fichero y, si se ha modificado, una escritura.

Pero no todo son ventajas. Cuando se trabaja con buffers, las actualizaciones físicas del fichero están diferidas, en relación a las actualizaciones hechas por el programa, de modo que el fichero no siempre tiene una información actualizada.

Esto plantea dos problemas:

Si la aplicación termina de forma inesperada, por un error o por una avería, el contenido del buffer modificado no se almacenará en el fichero, y su estructura puede quedar corrupta y los datos inservibles.
Cuando un fichero deba ser accedido por varios usuarios de forma simultánea, se pueden presentar problemas de concurrencia. Por ejemplo, un usuario lee una parte del fichero en su buffer, y modifica su contenido. Mientras tanto, otro usuario, desde otra máquina, accede al mismo fichero, y a la misma zona, pero el contenido no está actualizado con las modificaciones realizadas por el primer usuario. El peligro es mayor si los dos están haciendo modificaciones en el mismo fichero, ya que es posible que las modificaciones realizadas por un usuario queden anuladas por las que ha hecho el otro.

El primer caso puede minimizarse, aunque no evitarse siempre, si se guarda el contenido del buffer antes de realizar operaciones potencialmente peligrosas. Aunque nada puede evitar la corrupción de ficheros en caso de avería.

El segundo caso requiere protecciones por parte del sistema operativo o de las aplicaciones que accedan a ficheros compartidos. Estas protecciones van desde las más simples, como la imposibilidad de que un segundo usuario acceda a un fichero abierto, hasta métodos más sutiles, como bloqueo de ficheros, o partes de ficheros. Estos bloqueos asignan una zona del fichero al primer usuario que lo solicite, e impiden a otros usuarios acceder a la misma zona, aunque no a otras.

Cómo funcionan los discos

Para empezar, los discos distribuyen los datos en dos o tres dimensiones. Las cabezas de lectura/escritura se mueven a lo largo del radio del disco, a distancias preestablecidas. Cada una de esas distancias define una pista.

Si la cabeza no se mueve, permanece siempre sobre la misma pista. Dependiendo de la densidad del soporte magnético, las pistas podrán estar más o menos próximas entre si, y por lo tanto, en la misma superficie se podrán almacenar más o menos pistas.

A su vez, cada pista está dividida en partes más pequeñas, llamadas sectores. Cada sector puede almacenar un número determinado de bytes, y de nuevo, dependiendo de la densidad del soporte, cada pista se podrá dividir en más o menos sectores.

Por último, en el caso de los discos duros, cada disco está compuesto en realidad por varios discos llamados platos, cada plato tiene dos caras, y en cada cara se coloca una cabeza de lectura/escritura.

De modo que para acceder a un dato será necesario calcular en qué plato, pista y sector está almacenado, mover la cabeza a la pista adecuada y esperar a que el sector pase por debajo de la cabeza correspondiente al plato indicado.

El tiempo de acceso depende de la capacidad de la cabeza para localizar la pista, del número de sectores por pista (cuantos más haya, mayor será el promedio de tiempo necesario para que un sector pase bajo la cabeza), y de la velocidad de giro del disco.

Parece sencillo localizar una pista, pero no tanto localizar un sector. A fin de cuentas, el disco puede empezar a girar en cualquier posición, y no es posible distinguir donde estaban los sectores la última vez que el disco estuvo girando. Además, en los discos duros actuales se aprovecha mejor el espacio haciendo que las pistas exteriores, con mayor circunferencia, se dividan en más sectores que las interiores. Esto permite aprovechar mejor la densidad del disco, que por supuesto, es uniforme.

Para que sea posible localizar la información en un disco hay que almacenar ciertas marcas en él. Al conjunto de esas marcas se le llama formato y a la acción de hacer esas marcas, se le llama formatear el disco.

En los discos magnéticos, las marcas se almacenan del mismo modo que los datos: mediante campos magnéticos creados por la cabeza de lectura/escritura. En cada pista se almacenan ciertas marcas que indican donde empieza cada sector y que identifican cada una de las pistas y sectores. Esto, por cierto, disminuye el espacio disponible para los datos. Antiguamente se distinguía entre la capacidad bruta del disco, sin descontar el espacio destinado al formato, y la capacidad útil, que es la que nos interesa en realidad.

Otros soportes, como algunos disquetes primitivos, tenían orificios en la superficie del disco que podían ser detectados ópticamente, aunque esto no evitaba que el disco tuviese que tener un formato.

En los discos magneto-ópticos las escrituras se hacen de forma magnética, sobre un disco con dos capas calentado mediante un láser de alta densidad, mientras que las lecturas se hacen de forma óptica, mediante un láser de baja densidad. De modo que estos discos permiten mayor capacidad de almacenamiento, y permiten hacer lecturas muchos más rápidas, aunque la escritura es más lenta.

En los discos duros la estructura es más complicada, ya que existe más de un disco, y las cabezas se sitúan en ambas caras de cada disco. Sin embargo, todas las cabezas se mueven de forma simultánea, aunque las lecturas y escrituras sólo se hacen en una superficie a la vez. Esto hace que el acceso sea más rápido cuantos más platos existan.

La unidad mínima que se puede leer o escribir en un disco es un sector. El tamaño del sector es variable, generalmente son de 512 bytes, pero pueden ser diferentes. El sistema operativo no trabaja directamente con sectores, sino con clusters. Cada cluster tiene un número entero de sectores.

Los clusters son una unidad lógica, no física. En principio se crearon cuando la capacidad de los discos creció hasta el punto que con los protoclos de 16 bits no era posible direccionar todos los sectores. Agrupando sectores seguía siendo posible aprovechar toda la capacidad del disco. Esto volvió a suceder con los protocolos de 32 bits.

Generalmente es mejor que el tamaño de los clusters sea pequeño, ya que de ese modo se aprovecha mejor el espacio de almacenamiento del disco. Si por ejemplo, en un disco de 100KB almacenamos sólo ficheros de 1KB, en teoría podríamos almacenar 100 ficheros. Pero si el tamaño del cluster es de 2KB, el número máximo de ficheros será 50, y si el tamaño del cluster es de 16Kb, sólo podremos almacenar 6. De hecho, en un disco con clusters de 16KB, un fichero de un byte ocupará el mismo espacio que uno de 16KB.

Ficheros que cambian de tamaño

Por supuesto, todo lo explicado anteriormente es muy simple cuando sólo hacemos lecturas o cuando las escrituras no implican que el fichero deba ser más largos o más cortos.

Físicamente, los ficheros sólo pueden crecer por el extremo final. Esto es evidente en el caso de ficheros secuenciales, donde cualquier escritura que no se realize al final implica la sobrescritura de datos previos.

Las limitaciones físicas de los soportes de datos explican por qué no se pueden insertar datos en el interior de un fichero. En teoría se podría insertar un bloque de datos cuyo tamaño sea múltiplo del tamaño del cluster. De ese modo se podrían insertar nuevos clusters dentro del fichero. Pero esto es un caso muy especial, y nunca se hace.

Lo que se hace en realidad es mover el resto del fichero hacia adelante para dejar espacio para la nueva información, o en caso de borrar datos, mover hacia atrás, de modo que se sobrescriban los datos eliminados. De modo que si hay que añadir un byte en la primera posición de un fichero, esto implica que se ha de copiar todo el fichero.