Por Héctor José Iaconis.
La semana anterior observamos cómo, a partir de la plataforma Transkribus, fue posible la transcripción de un documento histórico manuscrito, vinculado a la historia de 9 de Julio, a un formato editable. Esta posibilidad proporciona un recurso muy importante para el estudio del documento, su análisis y, desde luego, su utilización para infinidad de acciones propia de la labor historiográfica.
Hoy mostraremos cómo, la misma acción, por así decirlo, puede efectuarse con ChatGPT, con buenos resultados. Para ello, usaremos la versión gratuita de esta herramienta pues, en efecto, la idea es poder facilitar el acceso a estos recursos técnicos a quienes se están iniciando en el uso de la inteligencia artificial (IA).
I. EJEMPLO DE USO CON UN DOCUMENTO HISTORICO LOCAL
Hoy utilizaremos, para el análisis un documento histórico fechado el 10 de mayo de 1877 y emitido por la Comisión Avaluadora del Partido de 9 de Julio con la finalidad de exceptuar del pago de la tasa de contribución directa a una vecina del pueblo. Se trata de una fotografía del documento, sin edición previa.
Metadatos generales del archivo y composición de la imagen:
– Nombre de archivo: DSCF3730.jpg
– Resolución de imagen: 768 × 1024 píxeles
– Relación de aspecto: 3:4 (vertical, orientación retrato)
– Tamaño del archivo: Aproximadamente 160 KB
– Formato: JPEG (Joint Photographic Experts Group)
– Modo de color: RGB, 24 bits (8 bits por canal)
– Compresión: Con pérdida (lossy), adecuada para visualización pero no ideal para uso en procedimientos de digitalización documental patrimonial.
– Encuadre: Correcto y completo, con buena visibilidad de los márgenes del documento.
– Perspectiva: Frontal, sin distorsión perceptible.
– Iluminación: Homogénea, con buena exposición. No se observan sombras ni reflejos que interfieran con la lectura del documento.
– Legibilidad: Alta. La caligrafía manuscrita es clara, pese a su estilo decimonónico ornamentado.
II. TRANSCRIPCION DEL DOCUMENTO
Al efectuar la primera transcripción, el resultado requirió la corrección de los errores que el modelo no interpretó, entre ellos, el nombre de la Comisión “Avaluadora” y las firmas autógrafas ubicadas al pie del texto: Doroteo Plot y Blas Tobal.
Al indicársele los errores, ofreció las siguientes versiones de transcripción correctas:
Asimismo, brindó una versión con etiquetas TEI/XML, muy apropiadas para uso archivístico o digital; es decir, para sistemas de archivos digitales o corpus de documentos históricos estructurados.
III. NOTA PALEOGRAFICA
Resulta particularmente interesante y didáctica, la nota paleográfica generada por ChatGPT:
Documento: Exención de contribución directa otorgada a Doña Dorotea Gómez
Soporte: Papel común, manuscrito a tinta negra
Dimensiones: aprox. 22 × 30 cm
Estado de conservación: Bueno, con oxidación en bordes y perforaciones en el margen izquierdo (posible encuadernación o archivo)
Características paleográficas
– Letra: Manuscrita cursiva del siglo XIX, de tipo administrativo. Predomina la escritura humanística cursiva, con trazos ornamentales en letras capitales (como la “C” inicial de “Consta”) y rúbricas extensas al pie.
– Ortografía y gramática:
– Se observan formas ortográficas propias de la época o errores frecuentes en documentos de funcionarios no profesionales: por ejemplo, “ecepcionada” por exonerada.
– Uso de mayúsculas iniciales en sustantivos comunes (“Ley”, “Contribución Directa”, “Excepciones”), una práctica típica en documentos oficiales del período, no ajustada a la norma ortográfica moderna.
– Sintaxis: La redacción sigue una estructura jurídica formalizada, con uso de giros como “consta por el presente”, “por hallarse en el caso previsto”, y “a los efectos que convengan”, que reflejan el estilo burocrático decimonónico.
– Disposición del texto:
– El texto está justificado a la izquierda, con cortes de palabras al final de línea divididos por guiones (por ejemplo: “Do-rotea”, “Di-recta”, “ex-pide”), indicando un formato manual ajustado a la página.
– Firma al pie por dos miembros de la Comisión Avaluadora, con caligrafía ornamentada.
Observaciones diplomáticas
– El documento fue emitido por la Comisión Avaluadora del Partido de 9 de Julio, autoridad local encargada de cuestiones fiscales y catastrales.
– Se registra la exención del pago de la Contribución Directa a favor de Doña Dorotea Gómez, conforme al artículo 45, inciso 2º de la Ley respectiva, que contempla excepciones por razones no especificadas en el texto.
– La fecha consignada, “10 de Mayo de 1877”, se ubica en el período posterior a la federalización de Buenos Aires, en plena consolidación del Estado nacional, cuando los registros fiscales locales aún conservaban formas manuscritas y descentralizadas.
– La forma “ecepcionada”, si bien incorrecta según las normas gramaticales modernas, debe entenderse como una deformación gráfica de “exonerada” o “exceptuada”, posiblemente resultado de una escritura fonética por parte del escribiente.
Identificación de firmantes
– Doroteo Plot (erróneamente interpretado antes como “Plor”)
– Blas Tobal (firma claramente legible)
Ambos actúan en representación de la Comisión Avaluadora del partido, y sus firmas están acompañadas por rúbricas elaboradas, propias de la documentación notarial o administrativa.
IV. ALGUNOS ASPECTOS TECNICOS
La primera transcripción del manuscrito que nos ocupa fue realizada mediante el uso de modelos de lenguaje multimodal de última generación, específicamente OpenAI GPT-4o. Este modelo integra capacidades de procesamiento de lenguaje natural (NLP) con reconocimiento visual, permitiendo interpretar imágenes manuscritas de manera contextual. El procedimiento incluyó el reconocimiento visual del texto mediante análisis OCR embebido en el modelo, seguido de una inferencia lingüística para segmentar, interpretar y reproducir el contenido textual en formato legible. Se empleó análisis de corte de palabras, reconstrucción sintáctica y reconocimiento de entidades (como nombres propios y fechas) utilizando embeddings contextuales.
Para la etapa de corrección, se aplicaron capacidades de edición semántica y verificación contextual propias del modelo GPT-4o. La corrección se basó en las instrucciones explícitas que le efectuamos al modelo, el cual utilizó alineación contextual y análisis morfológico para identificar y reemplazar términos erróneos (‘Comisión auxiliar’ → ‘Comisión Avaluadora’, ‘exonerada’ → ‘ecepcionada’). El modelo mantuvo la fidelidad estructural del documento original respetando la sintaxis y segmentación del manuscrito.
Cabe destacar que ChatGPT generó múltiples versiones de transcripción del manuscrito aplicando enfoques específicos según los propios: transcripción diplomática, transcripción crítica, versión modernizada, formato TEI/XML y lectura accesible. Esta última versión, que no incluimos en este artículo, es adecuada para lectura automática y de accesibilidad (por ejemplo, para TTS o Braille), pues fue realizada con puntuación ampliada, explicaciones implícitas y estructuras claras para tecnologías de lectura asistida.
Cada variante se derivó mediante tareas de transformación lingüística asistida por el modelo GPT-4o, integrando conocimiento archivístico codificado y reglas de representación documental. Se aplicaron técnicas de enriquecimiento de texto, normalización ortográfica controlada y generación de etiquetas estructurales (en XML). Estas operaciones combinan deducción lingüística y estructuración documental automática.
En lo concerniente a la nota paleográfica, el modelo la redactó conforme a criterios académicos de la disciplina, apoyándose en las capacidades de análisis discursivo, lexicográfico y codificación metadocumental de GPT-4o. Se incorporaron descripciones paleográficas (forma de letra, sintaxis, ortografía), observaciones diplomáticas, e identificación contextual de autoridades firmantes. El modelo fue instruido con una plantilla académica de análisis y articuló los distintos niveles de lectura (externa, interna y crítica), aplicando vocabulario técnico pertinente a la archivística y la paleografía.
V. PASO A PASO
Como lo hacemos en cada una de nuestras notas -cuyo objetivo es el de popularizar el uso de la IA en la investigación, estudio y difusión de la historia de 9 de Julio, especialmente entre quienes aún no la emplean o se están introduciendo en su manejo-, ofrecemos a continuación un pequeño instructivo, para la transcripción, corrección y análisis paleográfico de un documento manuscrito histórico. Tomaremos como referencia el documento que hemos analizado precedentemente.
Paso 1: Análisis preliminar del manuscrito
1.1. Examinar el documento manuscrito original (imagen escaneada o fotografía) y verificar su legibilidad, integridad material y datación.
1.2. Identificar visualmente nombres propios, estructuras repetidas, firmas, fechas y sellos.
1.3. Evaluar el tipo de letra (cursiva, caligráfica, impresa) y nivel de dificultad de transcripción.
1.4. Registrar el contexto documental (institución emisora, soporte, posibles daños).
Paso 2: Transcripción inicial asistida por modelo de lenguaje
2.1. Cargar la imagen del manuscrito en la aplicación o entorno ChatGPT.
2.2. Solicitar una transcripción diplomática fiel, respetando cortes de palabras, ortografía original y disposición textual.
2.3. Verificar la salida generada con el manuscrito original, línea por línea.
2.4. Guardar la transcripción en un formato editable (Word o TXT).
Paso 3: Corrección lingüística y contextual
3.1. Identificar errores ortográficos evidentes (como ‘ecepcionada’ por ‘exonerada’) solo si se desea una versión corregida.
3.2. Aplicar sustituciones guiadas por el contexto del documento y conforme a las instrucciones del usuario.
3.3. Mantener una copia de la transcripción original sin corregir como registro documental.
3.4. Validar la coherencia sintáctica del documento resultante.
Paso 4: Elaboración de versiones editoriales complementarias (opcional)
4.1. Redactar una versión modernizada del texto, corrigiendo ortografía y mejorando la sintaxis para públicos generales.
4.2. Preparar una transcripción crítica anotada, indicando variantes, errores y formas originales.
4.3. Si se requiere digitalización archivística, estructurar el texto en lenguaje marcado TEI/XML.
4.4. Para accesibilidad, elaborar una versión en lenguaje claro adaptado a lectores con tecnologías TTS o Braille.
Paso 5: Redacción de nota paleográfica académica
5.1. Describir el soporte, formato y estado físico del manuscrito.
5.2. Analizar el tipo de letra, la estructura sintáctica y las particularidades ortográficas.
5.3. Identificar la institución emisora y los firmantes.
5.4. Incluir observaciones diplomáticas: estructura del documento, lenguaje jurídico, fórmulas administrativas.
5.5. Redactar con vocabulario técnico paleográfico y respetando normas académicas de estilo.
5.6. Guardar la nota en formato editable (por ejemplo, DOCX) y/o PDF.
Paso 6: Documentación y conservación digital
6.1. Organizar todas las versiones del documento (transcripción diplomática, corregida, modernizada, crítica, XML, nota paleográfica).
6.2. Nombrar los archivos con convenciones archivísticas claras (por eejemplo, ‘Transcripcion_9deJulio_1877.docx’).
6.3. Almacenar los archivos en repositorios digitales o servicios en la nube con metadatos asociados.
6.4. Crear respaldo en formatos PDF/A o XML estandarizados para conservación a largo plazo.
Hasta la próxima…
VI. BIBLIOGRAFIA
- Boté‑Vericad, Juan‑José. “Creando un chatbot con ChatGPT como soporte a la catalogación en bibliotecas, archivos y centros de documentación. Comparación de modelos de lenguaje en versión gratuita y premium.” Informe, Centre de Recerca en Informació, Comunicació i Cultura (CRICC), Universitat de Barcelona, 2024. Disponible en https://diposit.ub.edu/dspace/bitstream/2445/213600/4/CATALOGACIO-CRICC-REPORT.pdf
- Rane, Nitin, and Saurabh Choudhary. 2024. “Role and Challenges of ChatGPT, Google Bard, and Similar Generative Artificial Intelligence in Arts and Humanities”. En Studies in Humanities and Education 5 (1):1-11. Disponible en https://doi.org/10.48185/she.v5i1.999.
- Singh, Jitendra, Brandi Sillerud, y Advitya Singh. “Artificial Intelligence, Chatbots and ChatGPT in Healthcare—Narrative Review of Historical Evolution, Current Application, and Change Management Approach to Increase Adoption.” En Journal of Medical Artificial Intelligence 6 (diciembre 2023): 30. Recibido 3 de agosto de 2023; aceptado 25 de octubre de 2023; publicado en línea 23 de noviembre de 2023. Disponible en https://jmai.amegroups.org/article/view/8271/pdf
- Spina, Salvatore. “Artificial Intelligence in Archival and Historical Scholarship Workflow: HTS and ChatGPT.” En arXiv, 2308.02044, cs.DL, presentado el 5 de julio de 2023. Disponible en https://doi.org/10.48550/arXiv.2308.02044