Autora: María Sánchez Prieto
Tutor: Nicolás Sáenz Lechón
Fecha de lectura: 17 de julio de 2019
El reconocimiento óptico de caracteres (OCR, Optical Character Recognition) es una tecnología que permite la digitalización de textos a partir de imágenes de caracteres pertenecientes a un alfabeto. Mediante esta tecnología, es posible identificar y almacenar los datos de las imágenes, pudiendo obtener un documento de texto que permita la interacción con los caracteres.
El propósito general del proyecto es el desarrollo de un subsistema de preprocesado de imágenes, dentro de un sistema de OCR mayor, que realice una mejora sobre las imágenes originales, facilitando así los posteriores procesos de segmentación y reconocimiento.
Las imágenes originales se corresponden con las fotografías del texto de un diario escrito a máquina de escribir dividido en 15 tomos. El tomo más fino tiene 200 páginas y el más grueso 500. En total existen unas 5420 cuartillas mecanografiadas.
Como conjunto de imágenes de muestra a utilizar en el desarrollo de este proyecto se utilizarán 225 fotografías en color tomadas del principio, mitad y final de cada uno de los 15 tomos del diario.
La herramienta utilizada para implementar el sistema es Matlab, un sistema de cómputo numérico que ofrece un entorno de desarrollo integrado con un lenguaje de programación propio. Dentro de los paquetes ofrecidos por Matlab, se ha utilizado el paquete Image Processing Toolbox [9], que proporciona una serie de funciones específicas para el tratamiento, análisis y visualización de imágenes digitales. Además se utilizará la herramienta App Designer de Matlab para desarrollar aplicaciones gráficas sencillas que permiten mostrar los resultados finales al usuario con GUI (Graphical User Interface).
Para la implementación del sistema se ha seguido un desarrollo incremental, programando por separado y en orden una serie de funciones necesarias para alcanzar los objetivos parciales propuestos: eliminar las zonas de la imagen que no corresponden con la página, corregir la iluminación no uniforme y rectificar las posibles distorsiones geométricas del texto.
Tras el desarrollo de todas estas funciones, y su validación con el conjunto de imágenes seleccionado, se consiguen unos resultados satisfactorios que corrigen los errores o deficiencias de la mayoría de las imágenes originales, dejando el texto en unas condiciones parecidas a las que tendría si hubiera sido escaneado.
Este procesado facilita las labores posteriores para el reconocimiento óptico de caracteres.