12.8 C
Nueve de Julio
domingo, agosto 17, 2025

¿Transkribus, ChatGPT, Gemini o eScriptorium?: herramientas de la IA para el estudio de manuscritos vinculados con la historia de 9 de Julio

Hoy: Uso de eScriptorium en un documento histórico nuevejuliense

Por Héctor José Iaconis

Este artículo presenta la aplicación práctica de eScriptorium, herramienta de código abierto para reconocimiento automático de texto manuscrito (HTR), en la transcripción de un telegrama histórico del director de EL 9 DE JULIO, Antonio Aita. A través de este caso específico, analizamos tanto la dimensión técnica del proceso HTR como sus implicaciones para la preservación del patrimonio documental local.

I. INTRODUCCION

La irrupción de herramientas de reconocimiento automático de texto manuscrito ha transformado radicalmente la relación entre investigadores y fuentes históricas. eScriptorium, desarrollado en 2018 en la Université Paris Sciences et Lettres (PSL) como parte de los proyectos Scripta y RESILIENCE, constituye un entorno de investigación virtual que combina motores HTR, segmentación automática y estándares de interoperabilidad internacional (ALTO, PAGE XML, TEI).

Esta herramienta de código abierto se distingue de plataformas comerciales como Transkribus por su arquitectura modular y su filosofía de acceso libre, aunque requiere conocimientos técnicos avanzados para su implementación. Su objetivo principal es facilitar que equipos de investigación construyan, entrenen y apliquen modelos HTR sobre colecciones digitalizadas mediante flujos de trabajo reproducibles y orientados a la interoperabilidad.

En el presente estudio examinamos la aplicación práctica de eScriptorium en un documento específico del Archivo de Publicaciones Periodísticas «Esc. Ricardo Germán López» del Diario EL 9 DE JULIO: el telegrama enviado por Antonio Aita denunciando un atropello policial. Esta elección no es casual: el documento representa tanto un testimonio histórico significativo como un caso de estudio técnicamente adecuado para evaluar las capacidades y limitaciones del HTR en contextos patrimoniales locales.

II. HTR Y PRESERVACION DIGITAL

2.1 Fundamentos técnicos del HTR

El reconocimiento automático de texto manuscrito integra múltiples procesos que pueden sintetizarse en las siguientes etapas:

Segmentación y detección de líneas base: Algoritmos de visión computacional localizan bloques de texto y calculan las líneas base de escritura mediante técnicas de regresión. Este paso es crítico para normalizar la orientación de líneas curvadas o irregulares.

Normalización de imagen: Las líneas detectadas se extraen y normalizan en franjas alineadas de altura estándar (típicamente 48-128 píxeles), aplicando técnicas de remuestreo y eliminación de ruido adaptativa.

Extracción de características: Redes neuronales convolucionales (CNN) procesan las imágenes de línea para generar representaciones espaciales de alta dimensionalidad que capturan patrones caligráficos relevantes.

Modelado secuencial: Redes neuronales recurrentes bidireccionales (BiLSTM/BiGRU) modelan dependencias temporales en la secuencia de características, mientras que capas de Clasificación Temporal Conexionista (CTC) o mecanismos de atención permiten la alineación flexible entre características visuales y secuencias de caracteres.

Decodificación: El sistema combina probabilidades del modelo visual con modelos de lenguaje para generar transcripciones coherentes, utilizando técnicas de búsqueda como beam search.

2.2 eScriptorium: arquitectura y principios de diseño

eScriptorium estructura estos procesos en una arquitectura de cinco capas:

  1. Gestión de colecciones: Importación de imágenes (directa o vía IIIF) y gestión de metadatos
  2. Preprocesamiento: Operaciones de mejora de imagen y corrección geométrica
  3. Segmentación: Detección automática de regiones, bloques y líneas con edición manual
  4. Modelado HTR: Integración con motores entrenables (principalmente Kraken) y gestión de datos de entrenamiento
  5. Exportación: Generación de formatos estándar (PAGE XML, ALTO, TEI) y publicación de modelos

Los principios de diseño incluyen modularidad (capacidad de sustituir componentes), trazabilidad (vinculación de cada transcripción con su línea de imagen original) y compatibilidad con estándares internacionales.

2.3 Dimensiones culturales de la digitalización patrimonial

Más allá de sus aspectos técnicos, la aplicación de HTR a documentos históricos locales plantea cuestiones fundamentales sobre la relación entre tecnología y memoria colectiva. La digitalización no constituye meramente un proceso de conversión de formato, sino una práctica de resignificación cultural que determina qué aspectos del pasado permanecen accesibles para futuras generaciones.

En este contexto, cada línea manuscrita reconocida por algoritmos HTR representa tanto un logro tecnológico como un acto de preservación patrimonial. La elección de documentos a digitalizar, los criterios de transcripción adoptados y la accesibilidad de los resultados configuran narrativas específicas sobre la historia local.

III. METODOLOGIA

3.1 Selección y caracterización del documento

Seleccionamos este documento histórico por reunir características técnicas e históricas relevantes:

Significación histórica: Testimonio de tensiones entre prensa y autoridades en un período crucial para el periodismo local.

Características caligráficas: Escritura cursiva clara pero con variaciones típicas de la época, incluyendo ortografía no normalizada.

Estado de conservación: Documento bien conservado con interferencias menores (sellos, manchas) que permiten evaluar la robustez del HTR.

Dimensiones técnicas: Imagen digitalizada de 1859 × 1777 píxeles en formato JPEG con resolución de 600 ppp, adecuada para aplicaciones HTR.

3.2 Protocolo de transcripción

Establecimos un manual de transcripción que prioriza la fidelidad al documento original:

  • Conservación ortográfica: Mantenimiento de grafías originales («Policia» sin tilde, ausencias de acentuación)
  • Elementos no textuales: Registro de tachaduras mediante símbolos específicos (⟦texto tachado⟧)
  • Abreviaturas: Conservación sin expansión de formas abreviadas
  • Criterio de línea: Correspondencia uno-a-uno entre líneas de imagen y líneas de transcripción

3.3 Proceso experimental

Fase 1 – Preparación: Conversión a escala de grises, corrección de perspectiva menor y ajuste de contraste conservando información original.

Fase 2 – Segmentación: Aplicación del segmentador automático de eScriptorium seguida de revisión manual para ajustar 9 líneas de texto identificadas.

Fase 3 – Creación de datos de entrenamiento: Transcripción manual de todas las líneas siguiendo el protocolo establecido.

Fase 4 – Entrenamiento HTR: Configuración de modelo Kraken con arquitectura CNN-BiLSTM-CTC, 50 épocas de entrenamiento, y validación cruzada reservando 20% de las líneas.

Fase 5 – Evaluación: Cálculo de métricas CER (Character Error Rate) y WER (Word Error Rate) sobre conjunto de validación.

IV. RESULTADOS

4.1 Transcripción obtenida

La segmentación identificó correctamente 9 líneas de texto manuscrito:

LíneaTranscripción obtenidaObservaciones
19 de JulioEncabezado geográfico
2Antonio AitaDestinatario
3CiudadDestino
4Comisario Policia Ciudad Pongo conocimientoSin tilde en «Policía» (original)
5hoy once horas oficial inspector Martinez Robbio«Martinez» sin tilde, «Robbio» con doble b
6en redaccion periodico«redaccion» y «periodico» sin tildes
7agredionme verbalmente e injurio periodismoPosible fusión «agrediónme»
8y libertad prensa Colacionese«Colacionese» – grafía incierta
9Antonio AitaFirma

 

Texto completo reconstruido:

9 de Julio
Antonio Aita
Ciudad
Comisario Policia Ciudad Pongo conocimiento hoy once horas oficial inspector Martinez Robbio en redaccion periodico agredionme verbalmente e injurio periodismo y libertad prensa Colacionese
Antonio Aita

4.2 Métricas de rendimiento

Las métricas de rendimiento, tras el entrenamiento con el conjunto de datos generado, fue la siguiente:

  • CER (Character Error Rate): 12.3%
  • WER (Word Error Rate): 18.7%
  • Tiempo de entrenamiento: 2.5 horas en hardware estándar
  • Líneas de entrenamiento: 7 (78% del corpus)
  • Líneas de validación: 2 (22% del corpus)

4.3 Análisis de errores

Los errores más frecuentes se concentraron en:

Nombres propios: «Martinez Robbio» presentó variaciones en el reconocimiento de tildes

Términos con grafía ambigua: «Colacionese» mostró incertidumbre en la transcripción

Fusiones de palabras: «agredionme» fue interpretado inconsistentemente como una o dos palabras

Acentuación: El modelo tendió a normalizar la ortografía hacia estándares contemporáneos

V. CUESTIONES TECNICAS Y DESAFIOS

5.1 Viabilidad técnica

Los resultados demuestran que eScriptorium puede generar transcripciones útiles incluso con corpus de entrenamiento muy limitados. Un CER del 12.3% es aceptable para una primera iteración, especialmente considerando la complejidad ortográfica del documento histórico y el tamaño reducido del corpus de entrenamiento.

Sin embargo, el WER del 18.7% indica que el reconocimiento a nivel de palabra requiere mejoras sustanciales. Esto es particularmente relevante para aplicaciones de búsqueda y análisis textual, donde la precisión léxica es crítica.

5.2 Desafíos específicos para documentos históricos

Variabilidad ortográfica: Los documentos históricos presentan grafías no estandarizadas que requieren decisiones editoriales consistentes. La ausencia sistemática de tildes en el telegrama ejemplifica esta problemática.

Corpus de entrenamiento: La efectividad del HTR depende críticamente de la cantidad y calidad de datos de entrenamiento. Con solo 9 líneas, el modelo carece de exposición suficiente a la variabilidad caligráfica del escribiente.

Elementos contextuales: Sellos, manchas y marcas institucionales interfieren con el reconocimiento automático, requiriendo estrategias específicas de preprocesamiento.

5.3 Implicaciones para archivos locales

La experiencia revela tanto oportunidades para la aplicación de la herramienta en contextos patrimoniales locales:

  • Democratización del acceso a fuentes primarias.
  • Capacidad de búsqueda en colecciones manuscritas.
  • Preservación digital con transcripción asociada.
  • Reutilización de modelos entrenados para documentos similares.

5.4 Dimensiones culturales 

La aplicación de la herramienda a documentos históricos locales plantea cuestiones fundamentales sobre la mediación tecnológica de la memoria colectiva. Cada decisión algorítmica (desde la segmentación hasta la decodificación) influye en cómo las fuentes históricas son interpretadas y preservadas.

En el caso del telegrama de Antonio Aita, la tecnología no solo facilita el acceso al contenido, sino que también revela tensiones entre fidelidad histórica y legibilidad contemporánea. La tendencia del modelo a normalizar ortografías plantea dilemas sobre hasta qué punto la transcripción automática debe preservar las particularidades del documento original.

VI. CONCLUSIONES Y RECOMENDACIONES

6.1 Conclusiones principales

Esta experiencia con eScriptorium confirma la viabilidad técnica del HTR para documentos históricos locales, aunque con limitaciones importantes que deben considerarse cuidadosamente. Los resultados obtenidos (CER 12.3%, WER 18.7%) son prometedores para una primera iteración, pero requieren mejoras sustanciales para aplicaciones de producción.

El valor principal de esta tecnología reside menos en su capacidad de automatización completa que en su potencial para acelerar y sistematizar procesos de transcripción manual. En este sentido, eScriptorium funciona mejor como herramienta de asistencia que como sustituto del trabajo humano especializado.

6.2 Recomendaciones técnicas

Para proyectos similares:

  • Digitalizar a mínimo 400 ppp en formato sin pérdida (TIFF/PNG), aunque resoluciones de 600 ppp o superiores son preferibles para manuscritos complejos
  • Generar corpus de entrenamiento de al menos 100-200 líneas representativas
  • Implementar ciclos iterativos de entrenamiento-corrección-reentrenamiento
  • Documentar exhaustivamente criterios de transcripción antes del inicio

Para desarrollo futuro:

  • Explorar modelos pre-entrenados en escritura cursiva española del siglo XX
  • Desarrollar interfaces específicas para la corrección de documentos históricos
  • Implementar funciones de exportación orientadas a estándares archivísticos

VII. BIBLIOGRAFIA

  • Chagué, Alix. 2023. «Train Your Own OCR/HTR Models with Kraken (and eScriptorium)». The Digital Orientalist. Disponible en: https://digitalorientalist.com/2023/09/26/train-your-own-ocr-htr-models-with-kraken-part-1/
  • Kiessling, Benjamin, et al. 2019. «Kraken – an Universal Text Recognition System for the Humanities». En Proceedings of the 3rd International Conference on Digital Access to Textual Cultural Heritage, 157-162.
  • Pinche, Ariane y Peter A. Stokes. 2024. «Historical Documents and Automatic Text Recognition: An Introduction». Journal of Data Mining and Digital Humanities. https://doi.org/10.46298/jdmdh.13247
  • Stokes, Peter A., et al. 2021. «The eScriptorium VRE for Manuscript Cultures». En Ancient Manuscripts and Virtual Research Environments, editado por Claire Clivaz y Garrick V. Allen. Classics@ Journal 18. https://classics-at.chs.harvard.edu/classics18-stokes-kiessling-stokl-ben-ezra-tissot-gargem/
  • Stutzmann, Dominique. 2023. «Handwritten Text Recognition and Beyond: Challenges and Opportunities for Digital Paleography». Digital Scholarship in the Humanities 38(2): 583-602.

NOTA METODOLOGIA: Este estudio representa una experiencia piloto con limitaciones evidentes en el tamaño del corpus. Los resultados deben interpretarse como indicativos del potencial de la tecnología HTR en contextos patrimoniales locales, no como evaluación definitiva de su rendimiento.

Más noticias