Digitalización de documentos

Posted on Actualizado enn

Primero debemos entender que las imágenes digitales son fotos electrónicas escaneadas de documentos – manuscritos, textos impresos, ilustraciones, fotografías, etc. Los documento escaneados son confeccionados a través de un mapa en forma de cuadrícula de puntos elementales (llamados pixeles). A cada pixel se le asigna un valor tonal (negro, blanco, gris, color) el cual está reprentado por un código binario (ceros y unos). Estos dígitos binarios (“bits”) para cada pixel, son almacenados en una secuencia y con frecuencia reducidos a una representación matemática (compresión).

Parámetros de la imagen digital

  • Resolución

La medida de la resolución se determina por el número de pixeles leídos. Las unidades más utilizadas son “puntos por pulgada” – ppp – (dots per inch – dpi -), o “pixeles por pulgada” – ppp – (pixels per inch – ppi -). Las resoluciones de digitalización de documentos están normalmente en el rango de 50 a 600 ppp. Las resoluciones de escaneado más frecuentemente utilizadas en documentos blanco y negro para una base de datos de documentos a texto completo son 200, 300 y 400 ppp. En la digitalización de imágenes color de alta calidad para utilización en DTP, son típicas resoluciones de 1.200 a 2.400 ppp.

  • Dimensiones de la Imagen

Las dimensiones de la imagen son las medidas horizontales y verticales de la misma, expresadas en pixeles. Por ejemplo, para saber la dimensión de una página A4 en blanco y negro, digitalizada a resolución de 300 ppp, tendrá una dimensión total de:
Dimensión A4 = 21,0 cm x 29,7 cm
Ancho: 21,0 cm = 8,27″ –> 8,27″ x 300 ppp = 2.500 pixeles
Alto: 29,7 cm = 11,69″ –> 11,69″ x 300 ppp = 3.500 pixeles
Dimensión total Dimensión en A4 de una imagen con 300 ppp: 2.500 x 3.500 = 8.750.000 pixeles

  • Profundidad de bits

Se determina por la cantidad de bits utilizados para definir cada pixel. Así pues, la profundidad se mide en bits/pixel.
Cálculos binarios para la cantidad de tonos representados por profundidades de bits comunes:
1 bit (21) = 2 tonos
2 bits (22) = 4 tonos
3 bits (23) = 8 tonos
4 bits (24) = 16 tonos
8 bits (28) = 256 tonos
10 bits (210) = 1.024 tonos
12 bits (212) = 4.096 tonos
14 bits (214) = 16.384 tonos
16 bits (216) = 65.536 tonos
24 bits (224) = 16,7 millones de tonos
32 bits (232) = 4.295 millones de tonos

  • Rango Dinámico

Es el rango de diferencia tonal entre la parte más clara y la más oscura de una imagen. Cuanto más alto sea el rango dinámico, se pueden potencialmente representar más matices, a pesar de que el rango dinámico no se correlaciona en forma automática con la cantidad de tonos reproducidos.

  • Tamaño de Archivo

Se calcula multiplicando el área de superficie (ancho x alto) del documento a ser digitalizado (en pulgadas), por la profundidad en bits (en bits/pixel) y por el cuadrado de la resolución (en ppp2). Dado que el tamaño del archivo se representa en Bytes (8 bits), dividiremos el resultado por 8.
Por ejemplo, para nuestra página A4 en blanco y negro, digitalizada a resolución de 300 ppp, el tamaño de archivo será: A4 =8.750.000 pixeles / 8 (bits / Byte) = 1,1 MegaBytes

Recuérdese que, debido a que las imágenes digitales tienen como resultado archivos muy grandes, la cantidad de Bytes, con frecuencia se representa en incrementos de 210 (1.024) o más:
• 1 KiloByte (KB) = 210 = 1.024 Bytes
• 1 MegaByte (MB) = 220 = 1.024 KB
• 1 GigaByte (GB) = 230 = 1.024 MB
• 1 TeraByte (TB) = 240 = 1.024 GB
• 1 PetaByte (PB) = 250 = 1.024 TB

  • Compresión

Existen técnicas de compresión estándar y otras patentadas.Los sistemas de compresión también pueden caracterizarse como: sin pérdida o con pérdida.

Formatos del Archivo

  • Bitmap (Windows Bitmap File) .bmp
    Formato poco manejable y raramente utilizado en base de datos a texto completo.
  • TIFF (Tagged Image File Format) .tif .tiff
    Se ha convertido en un estándar de facto en las bases de datos a texto completo. Compresión sin pérdida y con pérdida cuando pasan a JPEG.
  • GIF (Graphic Interchange Format) .gif
    Utilización generalizada y estándar en Web con soporte directo a partir de Explorer 3 y Navigator 2.
  • JPEG (Join Photographic Expert Group) .jpeg .jpg
    Utilización generalizada y estándar en Web con soporte directo a partir de Explorer 2 y Navigator 2.
  • PNG (Portable Network Graphics) .png
    Compresión sin pérdida, un 10% superior a la del formato GIF. No permite animación. Utilización directa en Web con soporte a partir de Explorer 4 y Navigator 4.04.
  • PDF (Portable Document Format) .pdf
    Se ha convertido en un estándar de facto en las bases de datos a texto completo, además de ser el formato propietario pero estándar de facto. Descompresión sin pérdida o con pérdida en JPEG.

Sistemas de Gestión Electrónica de Documentos

Un Sistema de Gestión Electrónica de Documentos incluye habitualmente los siguientes componentes:

  • Escáneres, para  digitalizar los documentos (normalmente papel)
  • Almacenamiento, que incluye dispositivos magnéticos u ópticos para contener y permitir el acceso a las imágenes digitalizadas y sus metadatos.
  • Unidad de Proceso, encargada de la captura, clasificación y visualización de los documentos a digitalizar
  • Comunicaciones, para transferir las imágenes y metadatos entre los elementos locales y/o remotos del sistema.
  • Impresoras, monitores u otros dispositivos capaces de poder reproducir las imágenes originalmente digitalizadas.

Digitalizacion de documentos

Por digitalizar se entiende el proceso de transformar algo analógico en algo digital. Ver Curso online de SEDIC

Enlaces de interes

Digitalización de documentos (SEDIC)

Documentos consultados

Ismael Fuentes. Artículo 6.5. Digitalización de documentos [en línea]. En Cristòfol Rovira; Lluís Codina (dir.). Máster en Documentación Digital. Barcelona: Área de Ciencias de la Documentación. Departamento de Comunicación Audiovisual. Universidad Pompeu Fabra, 2009. http://www.documentaciondigital.org

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s