EDICIÓN 182 - AGOSTO 2014
HACIA LA DIGITALIZACIÓN DEL MUNDO

El genoma de la cultura

Por Federico Kukso*
¿Qué ocurriría si tomáramos todos los libros escritos hasta el momento y los analizáramos en conjunto a través de computadoras? ¿Qué veríamos? ¿Advertiríamos cuándo nacen unas ideas y cuándo se desvanecen? Para responder estas preguntas nace la “culturómica”.
Gustavo Cimadoro (www.tumblr.com/blog/cima-cima-doro)

Jisui. Así se llama. Como los robots descomunales, el hentai, una extraña espuma que quita el calor al rociarla sobre el cuerpo y las galletitas hechas con medusa, esta práctica ni secreta ni ancestral es en la actualidad toda una obsesión en Japón. La palabra estrictamente significa “cocinar tu propia comida”, pero remite a un universo completamente distinto. Apunta a una especie de ascetismo literario. Impulsa una transmutación de la materia: jisui es la tendencia casi maniática de digitalizar la biblioteca personal.

El iPad y los libros electrónicos no irrumpieron en los espacios domésticos nipones hace un par de años únicamente como artefactos de ostentación, como okupas de silicio. Se instalaron con su propia gramática de uso. Impusieron una pedagogía sensorial y un mantra, la santificación de los bits sobre los anticuados átomos. Sin pensarlo dos veces, millones de lectores japoneses exhumaron las tijeras y los cutters y en silencio se abocaron a cometer un crimen: descuartizaron con saña sus hasta entonces amados libros de papel y dispusieron sus miembros –sus hojas– bajo el barrido lumínico de sus escáneres. Una y otra vez. Transgresor como extremo, este hábito impulsado por la aparición de una tecnología invasora es la versión privada de una obstinación contemporánea: la digitalización de absolutamente todo. 

El 21 de diciembre de 2012 quedó atrás hace rato y el mundo siguió dando vueltas. Y aun así, los ánimos preservacionistas de guardar todo antes del advenimiento del Apocalipsis no amainaron. En silencio y desde hace décadas, una biblioteca universal e inmaterial está tomando forma. El mandamiento moderno es alimentarla. Llenarla con todo aquello que quepa bajo la etiqueta de “patrimonio cultural de la humanidad”: libros, diarios, mapas, grabados, pinturas, películas, facturas, cartas de amor y de desamor. Nutrirla con lo que sea: con la red de correspondencia de filósofos como Voltaire, Leibniz y Rousseau durante la Ilustración (el proyecto Mapping the Republic of Letters); con los registros policiales de Londres de 1690 a 1800 (Londonlives.org); con las transcripciones de los juicios de brujas de Salem (Salem.lib.virginia.edu) o con la versión original de El Quijote (Quijote.bne.es/libro.html). 

En Nueva York, por ejemplo, se han digitalizado 40.000 menús de restaurantes del siglo XVIII al XXI con la misma voracidad con la que la Universidad de Cambridge subió a internet los manuscritos de Newton, Darwin y muchos otros. En el Vaticano, con gula, textos antiguos de la Biblioteca Apostólica. Y en Noruega planean –por ley– tener todos los libros de la Biblioteca Nacional digitalizados para el año 2020. 

“Desde los días de las tabletas sumerias de arcilla hasta hoy –escribió hace unos años Kevin Kelly, el voraz tecnoescritor estadounidense con look amish–, los humanos han publicado unos 32 millones de libros, 750 millones de artículos y ensayos, 25 millones de canciones, 500 millones de imágenes, 500 mil películas, 3 millones de videos y shows de TV y 100 mil millones de páginas web públicas. Todo este material está actualmente contenido en todas las bibliotecas y archivos del mundo. Cuando todo esto haya sido digitalizado, la cultura humana estará comprimida en discos de 50 petabytes. En un tiempo podremos llevar todo nuestro acervo cultural en la billetera.”

Pero Kelly se equivocaba en algo. El total de libros que han sido publicados en el mundo a lo largo de la historia, lo corrigieron desde las oficinas de Google, es aun mayor: 129.864.880 obras. Imposible como atractivo, este cálculo pende como el objetivo final –la meta– a alcanzar del mayor proyecto de digitalización de nuestra época: Google Books. Desde que la Biblioteca de Alejandría fuera destruida por órdenes del califa Amrou en el siglo VII, no existe una iniciativa tan titánica y ambiciosa para reunir en un lugar todo el conocimiento humano. Los escaneados frenéticos arrancaron en 2002 en un clima de incertidumbre legal. Y no cesan, pese a los palos en la rueda puestos por gobiernos, abogados y escritores culturalmente miopes: hasta el momento ya han sido digitalizadas más de 15 millones de obras.

La tecnología acelera la migración de todo lo que conocemos al universo digital, el de los bits. Lo aprehensible se diluye en mega, giga, tera, peta, exabytes. Pero por más fascinante que parezca esta mudanza al no-espacio infinito de internet, se trata de sólo el primer acto de una misión mucho más ambiciosa y trascendental para el (auto)conocimiento humano. La verdadera magia se desplegará en un segundo movimiento, cuando cada palabra de aquellos millones de libros digitalizados sea etiquetada, indexada, cruzada, analizada. Cuando, como sucedió con el genoma humano desnudado a principios del siglo XXI, nuestra cultura sea decodificada.

Y ese momento es ahora.

 

Cromosomas literarios

Los números nos enloquecen. Por más alérgicos que seamos a las matemáticas, por alguna razón los porcentajes, las cifras, los promedios irradian cierto halo de autoridad, el poder dogmático de lo incuestionable. Será porque los números delinean acabadamente el mapa de una cuestión, un territorio. Vuelven lo invisible visible. Sabemos, por ejemplo, que la novela más larga de la literatura es En busca del tiempo perdido, de Marcel Proust, que contiene aproximadamente 9.609.000 caracteres (con espacios). O que más de 495 millones de personas hablan español en el mundo. Y que, según las proyecciones, Estados Unidos será en 2050 el primer país hispanohablante de la Tierra.

Las cifras hablan. No se conoce, por ejemplo, el estado de la cultura argentina hasta saber que de 2002 a 2012 se publicaron 46.675 novedades literarias, de acuerdo con la Cámara Argentina del Libro. Y que, curiosamente –o no tanto–, se editan más libros de astrología que de ciencias.

La cuestión es que hasta ahora nos la pasamos viendo el bosque cultural desde afuera, en fracciones reducidas. Es hora de mirar el bosque completo y por dentro. ¿Qué pasaría si tomáramos todos los libros escritos hasta la fecha y los observáramos en conjunto, como quien une todas las piezas de un rompecabezas y descubre un panorama, un mensaje, hasta entonces oculto? Si hiciéramos eso con todas las obras de la literatura argentina, ¿qué veríamos? ¿Qué temas y palabras se repiten? ¿Advertiríamos cuándo nacen unas ideas y cuándo se desvanecen? Estas y muchas otras preguntas atraviesan y dan vida a una disciplina, un método aún en pañales: la “culturómica”.

Así como un fósil de una antigua criatura sobresale sobre el terreno y revela a paleontólogos y biólogos la dinámica evolución de la vida en nuestro planeta, las palabras que conforman y discurren a lo largo de todos los libros cuentan una fracción de la historia de la cultura humana. Sus fluctuaciones muestran algo obvio aunque olvidado por muchos: que las culturas evolucionan con el tiempo, a lo largo de siglos y milenios. No usamos ni pronunciamos exactamente las mismas palabras que pronunciaba San Martín en el siglo XIX o que Pedro de Mendoza mascullaba en el siglo XVI. El lenguaje y el imaginario mutan. Y las computadoras, las bases de datos digitalizados, los algoritmos –todas herramientas híbridas: científicas y literarias– podrían revelarlo. Internet, así, podría ser el mecanismo más potente que jamás se haya inventado para comprender la historia. Una ventana a la cultura.

La culturómica nació como nacen los grandes experimentos: con una idea descabellada como germen. El nuevo enfoque surgió hace poco, en 2007, cuando un matemático con un doctorado en genómica de la Universidad de Harvard y de barba candado llamado Erez Lieberman Aiden golpeó la puerta de la oficina del director de investigación de Google, el científico informático Peter Norvig, en California, y, sin vergüenza, le solicitó acceso total a las masivas bases de datos de Google Books para estudiar la evolución cultural, un tema que intriga a humanistas y biólogos desde hace décadas. Aficionado a la literatura, Aiden ya venía investigando la evolución del genoma humano y quería poner a prueba sus hipótesis en otro organismo, en este caso artificial: la cultura. La propuesta era tan interesante que Norvig no la pudo rechazar.

El primer paso, cuenta Aiden en su reciente libro Uncharted: Big Data and an Emerging Science of Human History, fue hacer un recorte. Y juntos, armaron un corpus de 5.195.769 libros digitalizados (el 4% de todo lo publicado) donde bucear. Luego crearon Google Books Ngram, una especie de megabuscador literario, como todo motor de búsqueda, una herramienta de descubrimiento. Y entonces, bucearon en un océano de palabras en inglés (361 mil millones), francés (45 mil millones), español (45 mil millones) y lo que resta en alemán, chino, ruso y hebreo, en obras que van del 1500 a nuestros días.

Las primeras exploraciones se relataron en un paper de ocho páginas publicado en la revista Science (“Análisis cuantitativo de la cultura usando millones de libros digitalizados”) que causó conmoción. Fue una bisagra. Si bien los investigadores –entre los que figuraban lingüistas, historiadores, sociólogos y el gran psicólogo Steven Pinker– sólo habían rascado la superficie de la literatura universal –un fragmento mínimo de nuestro genoma cultural–, lo que hallaron utilizando todo el poder informático y las llamadas técnicas de minería de datos fue más que interesante: por ejemplo, que en los últimos cien años el vocabulario en inglés en lugar de reducirse se amplió. Se expandió como un gas. De 544.000 palabras en 1900 saltó a 597.000 en 1950 y a 1.022.000 palabras en el año 2000. 

Fue sólo el comienzo. El desafío de la culturómica reside, como sucede en la investigación con fósiles en paleontología, en la interpretación de la evidencia. Lo dicho es tan importante como lo que no se dice. La ausencia de ciertos apellidos en los libros durante períodos oscuros de la historia como la Segunda Guerra Mundial, por ejemplo, exponen la censura y persecución. 

 

El mandamiento digital

No es la primera vez que la genética infecta a la cultura con sus conceptos. Y no será la última. El caso más notable es el de Richard Dawkins. Más que por sus hipótesis sobre la dictadura de los genes (los “genes egoístas”) y por su ateísmo militante, a este naturalista inglés se lo suele recordar como el padre de la idea de “meme”, algo así como un gen cultural, una unidad de transmisión cultural o una unidad de imitación, un virus que se replica al saltar de mente a mente, para explicar la evolución de las ideas y conductas. La idea de Dios, por ejemplo, es un meme, como lo es la religión, o una canción pegadiza. 

La culturómica sería así la versión cultural de la genética, una ciencia que con el Proyecto Genoma Humano tuvo la obligación de aprender a manejar y rastrillar entre grandes volúmenes de datos. Esta habilidad –desarrollada por una nueva especialidad científica, la bioinformática– ayudó a la vez al nacimiento de una técnica, una filosofía, una moda tecno llamada Big Data: la tendencia de aprovechar el tsunami de información que generamos a diario en novedosas maneras, hallar en ella patrones. En lo que sea: en medicina, en Twitter, en las transacciones bancarias, o para anticiparse a cómo se esparce una epidemia. Este tipo de análisis cuantitativo no dice precisamente por qué o cómo sucede algo. Nos alerta, más bien, de que algo ocurre. Utilizar toda esta información hace posible que veamos las conexiones, los detalles ocultos en la vastedad, en la marea de los datos. Una vez digitalizado un texto deja de ser una entidad autónoma. Tolstoi deja de ser Tolstoi para fundirse en un magma literario como canal conductor de una época. En la biblioteca universal, ningún libro es una isla.

Desde aquel paper inicial de la culturómica en la revista Science, este tipo de estudios se multiplicaron. El antropólogo Alberto Acerbi, de la Universidad de Bristol, constató que el uso de palabras con contenido emocional en los libros se redujo bastante en el último siglo. Si las palabras que usamos dicen mucho de nuestra personalidad, también dicen de nuestro momento histórico.

Otro caso es el de un equipo de físicos italianos, israelíes y estadounidenses que examinaron el nacimiento y muerte de palabras en inglés, hebreo y español publicadas entre 1800 y 2008 en un corpus de 10.000.000 de palabras digitalizadas. Y advirtieron algo impensado: que las guerras provocan un intercambio y aumento de ciertas palabras entre los miembros de los países en conflicto. Y algo para pensar: que los correctores de texto de programas como Word desempeñan un rol crucial en la evolución lingüística al volver a un lenguaje más homogéneo, más pobre.

Las críticas a la culturómica son tan obvias y entendibles que los investigadores no se defienden. Saben que su novedosa aproximación a la literatura –en las antípodas del canon literario y de las posturas de Harold Bloom– abraza el reduccionismo. O peor: que decir que los libros son el equivalente al ADN de la cultura implica caer en una trampa, la de olvidar que la cultura es mucho más que novelas y ensayos. La cultura se expresa tanto en los libros publicados como en los que no se publican, en el arte, en la música, en el cine, en las costumbres populares, la escultura, la arquitectura, los graffiti, la moda, los mitos, las ceremonias. Y en muchas otras expresiones incapaces de ser digitalizadas.

Quizás la crítica más acertada sea aquella que apunta a la principal hipótesis de trabajo de la culturómica que equipara literatura –fruto de la sensibilidad y la creación humanas– con su opuesto: la información, datos crudos. En este punto, ciertos investigadores como Kalev H. Leetaru de la Universidad de Georgetown, Estados Unidos, no se disculpan. Más bien, se van al extremo y aseguran que si alimentáramos a una supercomputadora con información periodística y con diarios digitalizados se podría predecir el futuro: desde cracks financieros a alzamientos populares como la Primavera Árabe.

Esto solo lo demuestra: con disimulo, la psicohistoria –aquella ciencia ficticia creada por Isaac Asimov que combina historia, psicología y estadística matemática para calcular el comportamiento futuro de grandes poblaciones– estaría dando sus primeros pasos fuera del útero de los libros.

* Periodista científico, miembro de la comisión directiva de la World Federation of Science Journalists. Autor de Odorama: Historia cultural del olor, Taurus, 2019.

© Le Monde diplomatique, edición Cono Sur

Edición AGOSTO 2014
Destacadas del archivo