Autora: Lydia Gómez Gutiérrez
Tutor: Nicolás Sáenz Lechón
Fecha de lectura: 17 de julio de 2019
Este proyecto surge del intento de digitalizar el diario de Clemente Sáenz García, ya que tras varias pruebas con OCR comerciales se comprobó que las condiciones del texto no permiten resultados óptimos con sistemas de reconocimiento genéricos. Por lo tanto, las condiciones y restricciones de este diseño derivan de las características de las imágenes de entrada.
El objetivo de este proyecto es el desarrollo de un sistema de segmentación de texto mecanografiado, que será integrado en un programa de reconocimiento óptico de caracteres. El sistema extrae los párrafos, palabras y caracteres de los que consta cada página de texto para su posterior reconocimiento.
Se cuenta con instantáneas realizadas al diario encuadernado. Aunque las imágenes pasan un procesado previo a este sistema de segmentación, los renglones cuentan con curvatura que dificulta la segmentación del texto.
Los procesos de segmentación se basan principalmente en el acumulado de píxeles de la imagen de entrada. Mediante estos acumulados es posible diferenciar las zonas de la imagen que contienen texto de las de fondo. Por lo tanto, aplicando diferentes umbrales de decisión se ha logrado acotar cada uno de los elementos de texto. El desarrollo completo del sistema se ha realizado en Matlab.
Por otro lado, se ha creado una función que detecta la curvatura de las líneas de texto. Esta función se utiliza en el proceso previo de edición de la imagen, para poder aplicar métodos que corrijan dicha curvatura.
Como salida del programa de segmentación se cuenta con estructuras de datos que contienen los vértices de párrafos, palabras y caracteres. Además, ofrece la posibilidad de guardar cada palabra y carácter como una nueva imagen que pueda servir de entrada a un proceso posterior de reconocimiento.
Junto con estos resultados se muestra visualmente la división creada, clasificando cada párrafo de texto como título, número de página, fecha de diario o cuerpo de texto. También, crea un resumen de dichos párrafos junto con el número de palabras y caracteres detectados.
Por último, se ha creado una interfaz gráfica para facilitar la interacción del usuario con el programa. A través de esta interfaz se pueden ejecutar los procesos de segmentación; además, permite representar y evaluar los resultados obtenidos