Bibliotecas y algoritmos: La estrategia silenciosa que cambiará el futuro de la inteligencia artificial

Cómo las bibliotecas universitarias y públicas están revolucionando el entrenamiento de la inteligencia artificial con tesoros de siglos pasados

En un panorama tecnológico donde los grandes modelos de lenguaje necesitan cada vez más datos, una fuente milenaria está tomando protagonismo inesperado: las bibliotecas. Harvard, junto con bibliotecas públicas como la de Boston, están abriendo sus archivos al entrenamiento de IA, lo que podría cambiar para siempre la forma en que las máquinas aprenden de nosotros —y sobre nosotros.

Una nueva biblioteca para la era digital

El pasado jueves, Harvard University lanzó al público un dataset titulado Institutional Books 1.0, compuesto por más de 394 millones de páginas escaneadas de libros en dominio público. Este archivo representa casi un millón de títulos, desde el siglo XV hasta obras más contemporáneas del siglo XX.

Las cifras son monumentales desde cualquier punto de vista: el conjunto textual contiene alrededor de 242 mil millones de tokens, una métrica utilizada por los modelos lingüísticos para fragmentar y procesar datos. Para entender la magnitud: la última versión del modelo de Meta, LLaMA 3, fue entrenada con más de 30 billones de tokens, así que este tesoro bibliográfico representa una porción importante para modelos de nueva generación que buscan precisión, diversidad lingüística y profundidad cultural.

Un legado que regresa al presente

La digitalización de estos textos comenzó en 2006 en colaboración con Google, que los había archivado como parte de su ambicioso —y polémico— proyecto de crear una biblioteca digital universal. Aunque obstáculos legales detuvieron parte del proyecto al incluir libros con derechos vigentes, ahora Harvard ha recuperado y reorganizado los volúmenes de dominio público para hacerlos accesibles a investigadores de inteligencia artificial a través de Hugging Face, una plataforma abierta dedicada a modelos de IA y datasets.

Greg Leppert, director ejecutivo de la Institutional Data Initiative y tecnólogo principal del Berkman Klein Center de Harvard, destacó el valor de contar con fuentes originales: “Muchos datos que se usan hoy en IA no provienen de fuentes primarias, sino de fragmentos recopilados sin contexto. Este conjunto va directamente al texto real, recopilado y preservado por instituciones académicas y bibliotecarias”.

Más allá de los algoritmos: la filosofía y la pedagogía del razonamiento

Uno de los aspectos más intrigantes es que la mayor concentración de textos proviene del siglo XIX, una época de ebullición filosófica, científica y literaria. Esto plantea una posibilidad inexplorada: que nuestro pasado intelectual pueda servir no solo para información, sino para capacitar a las IA en razonamiento complejo, pensamiento estructurado y toma de decisiones lógicas basadas en fundamentos culturales.

Leppert argumenta: “Las universidades han sido durante siglos centros de formación intelectual. En sus bibliotecas hay densas capas de metodología sobre cómo razonar, analizar, argumentar. Esa pedagogía es útil ahora para el entrenamiento de agentes de IA que tomen decisiones coherentes y justificadas”.

¿Una IA con perspectiva histórica?

La colección incluye no solo textos en inglés: casi la mitad está escrita en otros idiomas, destacando el alemán, el francés, el italiano, el español y el latín. También se incluyen textos koreanos, árabes, griegos y eslavos. Así, entrenar chatbots con esta diversidad puede contribuir a una IA no anglocéntrica, más sensible a otras cosmovisiones y formas de expresión.

Entre los textos más antiguos figura un manuscrito del siglo XV que contiene las reflexiones de un pintor coreano sobre cómo cultivar flores y árboles —un documento inusual pero riquísimo en lenguaje poético y temático. ¿Qué podría aprender una IA moderna de un artista del siglo XV sobre la naturaleza, la estética y el tiempo?

Microsoft, OpenAI y la carrera por los datos públicos

El proyecto cuenta con el respaldo de colosos tecnológicos como Microsoft y OpenAI, que han financiado la recolección y organización de los libros. Su argumento no solo es legal, sino estratégico: utilizar textos en dominio público evita demandas por derechos de autor como las que enfrenta OpenAI, Meta y otros por usar obras sin permiso.

Burton Davis, abogado de Microsoft, sostiene: “Usar contenido de dominio público es menos controversial y aún riquísimo en contenido histórico, cultural y lingüístico”. OpenAI ha aportado más de 50 millones de dólares a bibliotecas como la Bodleian de la Universidad de Oxford para digitalizar y transcribir colecciones raras con tecnología de IA.

La digitalización como redistribución de poder

El proyecto no se trata solo de ampliar el entrenamiento de modelos de lenguaje, sino también de recuperar el protagonismo de las bibliotecas como guardianas del conocimiento en una era computacional.

Aristana Scourtas, del Laboratorio de Innovación Jurídica de Harvard, lo resume bien: “Estamos tratando de devolver parte del poder del momento actual de la IA de vuelta a las bibliotecas. Los bibliotecarios siempre han sido los guardianes de los datos y la información.”

Este enfoque, según ella, equilibra el presente marcado por el dominio de empresas privadas con una visión más plural y colectiva del acceso al conocimiento. La biblioteca pública de Boston, por ejemplo, está trabajando con OpenAI pero mantiene una condición inquebrantable: todo el contenido digitalizado será de acceso público.

El lado oscuro del pasado

Con todo, usar datos de siglos pasados también entraña retos. Gran parte de la literatura del siglo XIX, por ejemplo, incluye teorías científicas hoy desacreditadas, prejuicios raciales sistemáticos y estigmas de género que ya no representan valores contemporáneos.

Kristi Mukk, coordinadora de la iniciativa en la Biblioteca de Harvard, reconoce el problema: “Hay problemas espinosos con lenguaje y contenido dañino. Nuestra labor no es censurar, sino proveer guías éticas para que se usen estos datos de manera informada y responsable”.

¿Un renacimiento humanista de la inteligencia artificial?

Este giro hacia archivar y digitalizar fuentes clásicas recuerda que no toda innovación proviene de inventar algo nuevo. También consiste en rescatar lo que ya sabíamos, reorganizarlo, reinterpretarlo y aplicarlo en contextos tecnológicos modernos.

Como describe Jessica Chapel, jefa de servicios digitales de la Biblioteca Pública de Boston: “OpenAI se interesó por una enorme base de entrenamiento. Nosotros tenemos enormes cantidades de objetos digitales. Es el caso ideal de una alineación de intereses”.

En el contexto de una carrera tecnológica que muchas veces prioriza lo inmediato, el caso de Harvard y sus aliados bibliotecarios propone otro enfoque: la IA también puede ser alimentada con sabiduría lenta, deliberada, archivada y cuidadosamente transmitida.

¿Qué pasará después?

La gran incógnita es si estos datos realmente serán aprovechados por desarrolladores de IA para construir modelos más sofisticados, éticos y diversos. Pero el hecho de que estén disponibles en plataformas abiertas como Hugging Face coloca la pelota en el campo de los investigadores, las startups y las universidades.

No se trata solo de conseguir mejores chatbots. También abre la puerta a una redefinición de la relación entre humanismo e inteligencia artificial.

Quizá, después de todo, para construir una IA verdaderamente “inteligente”, debamos comenzar por enseñarle a leer con los ojos del pasado.

Este artículo fue redactado con información de Associated Press