Con bombos, platillos y fuegos artificiales se ha recibido la noticia de Google Ngrams, el nuevo “corpus” de Google (voy a explicar las comillas en un momento). Sin duda, las cifras son impresionantes: el 4% de los libros jamás impresos… 5,2 millones de volúmenes… 500 mil millones de palabras… 45 mil millones de ellas en castellano…

Además, la interfaz que se puso a disposición del público para jugar con Google Ngrams es de lo más entrete: con un solo clic, genera gráficos multicolores y líneas de tendencias que nos permiten echar a pelear a la homeopatía y la medicina, Chile y Argentina o Luis Dimas y Buddy Richard.

Pero la gran pregunta –para mí, por lo menos– es si esta nueva herramienta sirve para la investigación académica.

Google claramente quiere convencernos de que es el caso, ya que la lanzó con nada menos que un paper en Science y el anuncio de una nueva disciplina académica llamada culturomía. Además, el hecho de que Google Ngrams no sirve para las búsquedas tradicionales refuerza la idea de que se trata de algo para especialistas. Así que veamos. Como lo mío es la lingüística, lo vamos a examinar desde esta perspectiva.

Pero antes de seguir, una aclaración: el producto que Google ha puesto a disposición del público no es, como se suele decir, el corpus más grande del mundo. De hecho, ni siquiera es un corpus, sino una serie de listas de frecuencias de 1- a 5-gramas (o sea, de palabras sueltas y de frases de hasta cinco palabras de largo).

El corpus es la colección de libros que Google usó para crear estas listas. Y si bien no me cabe duda de que eso es el corpus más grande del mundo, Google lo guarda bajo siete llaves. Lo que se lanzó el otro día es otra cosa.

Lematización y etiquetado

Para ver si Google Ngrams puede servir para la investigación lingüística, traté de replicar algo que hicimos con Guillermo Soto hace ya unos cuantos años. En ese entonces, buscamos casos del pretérito anterior (construcciones del tipo hubo llegado) en el Codicach, un corpus del castellano de Chile que contiene algo así como 800 millones de palabras. Y encontramos alrededor de 80 instancias, cosa que nos sorprendió, ya que se supone que esta construcción se extinguió hace tiempo ya.

La mejor manera de buscar el pretérito anterior sería con una combinación de lemas (la forma de la palabra que uno busca en el diccionario) y categorías gramaticales: el verbo haber en pretérito simple (hube, hubiste, …) seguido de cualquier participio (hablado, dicho, resuelto). La búsqueda sería similar a la siguiente:

[lema=”haber” & CatGram = “VRB PRET SIMP”] [CatGram=”PCP”].

Lamentablemente, Google Ngrams no está lematizado ni etiquetado con categorías gramaticales, un requisito bastante fundamental para un corpus lingüístico moderno, y también para las listas de frecuencias modernas.

Para ser justo, durante la mayor parte de su existencia, el Codicach tampoco estaba etiquetado ni lematizado, por la simple razón de que los programas que hacen bien esta pega son muy caros. Pero a Google no le faltan las lucas, y estamos hablando de menos de US$ 1.000 en todo caso, así que cuesta entender que no hayan aprovechado la oportunidad para crear una herramienta moderna.

En realidad, lo más seguro es que sí lo han hecho, pero que no han divulgado los resultados. Sería trivial, y significaría una gran ventaja competitiva para su negocio, ventaja que seguramente no quieren compartir con el resto del mundo (sería muy extraño, de hecho, que no lo hicieran ya con Gmail, por ejemplo, donde leen el e-mail para determinar qué publicidad conviene mostrarle al usuario).

También hay que decir que la capacidad de trabajar con información lingüística no es común en los buscadores. Pero Google Ngrams no se está vendiendo como un buscador común, sino como una herramienta académica.

Un excelente recurso que sí cumple con todos estos requisitos, y que se puede utilizar en línea, es el Corpus del Español de Mark Davies, que contiene 100 millones de palabras del período que va entre el siglo XIII y la actualidad. Por otra parte, están el Corpus Diacrónico del Español (237 millones de palabras) y el Corpus de Referencia del Español Actual (154 millones de palabras), ambos patrocinados por la RAE.

También merecen mención dos corpora que requieren de un poco más de trabajo para usarse (no se pueden consultar en línea), pero que contienen una gran cantidad de información lingüística.

El primero es Wikicorpus, de la Universitat Politècnica de Catalunya. Se trata de un corpus de fuente abierta, lematizado y etiquetado, y compuesto de 120 millones de palabras de textos en castellano (también existen versiones en catalán y en inglés). Se lanzó hace un par de semanas, pero la noticia fue opacada por, ejem… cosas más llamativas. Como dije arriba, no permite realizar consultas en línea, pero puedes bajar la totalidad del corpus a tu computador. Son muy pocos los corpora que permiten esto, así que es una verdadera joya.

El segundo es el Corpus Dinámico del Castellano de Chile, de mi autoría. Contiene aproximadamente 800 millones de palabras de textos chilenos, todas lematizadas y etiquetadas con información sobre categorías gramaticales y relaciones sintácticas. Por asuntos relacionados con los derechos de autor de los textos fuente, no puede ponerse en línea por ahora, pero sí se puede usar. Cualquier consulta académica seria será amablemente atendida.

Expresiones regulares

Volvamos al test de Google Ngrams. Aun sin lematización ni etiquetado, no todo está perdido: no es poco lo que se puede hacer con una colección de textos crudos y expresiones regulares. De hecho, es lo que Soto y yo teníamos a nuestra disposición cuando investigamos el pretérito anterior. Para buscar todos los casos del uso de este tiempo verbal en el Codicach, realizamos una búsqueda estéticamente horripilante, pero bastante eficaz:

hube *cho | hube *do | hube *so | hube *to | hubieron *cho | hubieron *do | hubieron *so | hubieron *to | hubimos *cho | hubimos *do | hubimos *so | hubimos *to | hubiste *cho | hubiste *do | hubisteis *cho | hubisteis *do | hubisteis *so | hubisteis *to | hubistes *cho | hubistes *do | hubiste *so | hubistes *so | hubistes *to | hubiste *to | hubo *cho | hubo *do | hubo *so | hubo *to

El asterisco significa “cualquier grupo de caracteres” (este uso corresponde técnicamente a un glob y no a una expresión regular), y la barra vertical equivale a “o”. Así, recogimos cosas como “hube dicho”, “hubieron llegado” y “hubiste vuelto”. Con software más poderoso de lo que manejábamos en nuestros años mozos, podríamos haber condensado toda esa búsqueda a lo siguiente (al más puro estilo Perl):

^hub(e|iste|istes|o|imos|isteis|ieron)  .+(d|t|s|ch)o$

Aparte de la falta de elegancia y su tendencia a no recoger los casos limítrofes, la desventaja de este tipo de búsquedas –que son las mejores que se pueden hacer si el texto no está lematizado ni etiquetado– es que arrojan falsos positivos, como “hubo chancho”. En algunos casos, éstos se pueden eliminar a mano; en otros, no.

Lamentablemente, Google Ngrams no permite nada de esto, lo cual es una lástima. La única manera de replicar esta búsqueda es a través de varios centenares de miles de otras búsquedas, compuestas de una de las formas de pretérito anterior del verbo “haber” más un participio. Y los participios tienen que explicitarse uno por uno, pasando por todo el diccionario:

hube acabado, hube arreglado, hube arribado, hube arrimado […] hube zamarreado, hube zambullido

Y luego, habría que repetir todo eso para las otras formas de pretérito anterior de haber.

Google Ngrams v/s Google Clásico

Hasta aquí, el buscador de Google Ngrams se comporta igual que la de “Google Clásico”. Pero la nueva interfaz trae unas cuantas novedades.

Primero que nada, es sensible a las mayúsculas y minúsculas, lo cual es simplemente desastroso, ya que significa que muy pocas búsquedas efectivamente recogen lo que sus autores creen: no es lo mismo buscar tsunami que Tsunami, ni menos TSUNAMI.

Al buscar más de una palabra, la cosa se empeora. Aquí están los resultados de la búsqueda COGNITIVE LINGUISTICS, cognitive linguistics, Cognitive linguistics, Cognitive Linguistics:

Como se puede ver, hay que buscar por lo menos cuatro frases distintas para hallar todos los casos de “cognitive linguistics”. Esto no sucede en Google Clásico, ni en ningún otro buscador masivo. Y no es la única capacidad que se ha eliminado.

Aunque pocos lo saben, en el Google que todos conocemos y amamos, se puede usar el asterisco como comodín a nivel de palabra (no así dentro de las palabras: no es posible buscar participios con *ado, etc.). De este modo, un lexicógrafo puede ingresar la frase “la * de tu madre” para estudiar el uso y comportamiento de este garabato tan, ejem, nuestro (¡13,6 millones de resultados!). O puede ingresar “no * ni ahí” (las comillas importan aquí) para ver todas las permutaciones de “no estar ni ahí” (“no estoy…”, “no están…”, etc.).

No así en Google Ngrams.

También se suprimió la capacidad de usar expresiones booleanas en las búsquedas, como en “junta de (vecinos OR gobierno)”, que arroja todos los casos de las frases “junta de vecinos” y “junta de gobierno”.

Esta situación es sumamente extraña. El motor de búsqueda principal de Google ya puede hacer todas estas cosas y muchas más, pero por algún motivo la empresa decidió desactivarlas en este producto.

La conclusión ineludible es que las limitaciones del buscador de Google Ngrams son intencionales.

Por primera vez, “la corrupción del español” cobra sentido

Para probar la cobertura de lo chileno, busqué algunas cosas que me parecían de lo más criollas: FPMR, Mapu, Dicomcar.

La curva de DICOMCAR corresponde más o menos a sus años de mayor actividad, y el auge tardío de FPMR podría deberse a juicios varios y una que otra fuga. Lo que no cuadra es la evolución de Mapu: no se aprecia en este gráfico, pero su primera actividad se da en aproximadamente 1835.

Para ver qué pasaba con esta palabra, hice clic en el enlace correspondiente que apareció debajo del gráfico, que me llevó a las obras fuente de la lista de frecuencias. Aquí están las top 20:

  • The Shepherd Prince: A historical romance of the days of Isaish
  • The sorrows of Noma
  • The children of Mapu Street: a novel
  • Cook Islands Maori dictionary
  • The love of Zion & other writings
  • Poetry and prophecy: the image of the poet as a “prophet”, a hero
  • Monuments, empires, and resistance: the Araucanian polity and …
  • Mapu: la tierra nuestra
  • A chronological history of the discoveries in the South Sea or …
  • Mapu
  • The Renascence of Hebrew Literature: 1743-1885
  • The memorial book for the Jewish community of Yurburg, Lithuania: …
  • Abraham Mapu
  • The geographical and historical dictionary of America and the West …
  • Shamanism: an encyclopedia of world beliefs, practices, and culture: Volume 1
  • When the romance ended: leaders of the Chilean left, 1968-1998
  • When a flower is reborn: the life and times of a Mapuche feminist
  • Rabbi Israel Salanter and the mussar movement: seeking the Torah
  • L’art de vérifier les dates…
  • A general history and collection of voyages and travels: arranged

De las 20, 16 están en inglés, 1 está en inglés y maorí, 1 está en francés, y sólo 2 están en castellano.

Volví a hacer la búsqueda, asegurándome de elegir el idioma correcto, y salieron los mismos resultados. No me había equivocado: éstos son los resultados de una búsqueda en castellano.

Pero, extrañamente, no son los resultados de una búsqueda en Google Ngrams. Al hacer clic en los vínculos que salen debajo de los gráficos, se realiza otra búsqueda, esta vez en Google Books.

Entonces, ¿cuántos de los libros que sirvieron de fuente de Google Ngrams son, efectivamente, libros en castellano? No se sabe, y esta información tampoco está incluida en los conjuntos de datos en los que se basó la herramienta. Si alguien encuentra la respuesta, favor de hacérmela llegar.

Lo que sí sabemos, por ahora, es que sabemos muy poco sobre las fuentes de Google Ngrams, y eso imposibilita su uso para la investigación seria.

Por vuestro output seréis juzgados

Hasta ahora, hemos visto las características de las búsquedas que se pueden hacer en Google Ngrams. Pero ¿qué pasa con los resultados que arroja?

No mucho, en realidad. El buscador de Google Ngrams prácticamente no entrega información:

  • No señala cuáles son las fuentes de los resultados (el libro en este caso; la página web en otros buscadores)
  • No señala de qué país son las fuentes, ni permite seleccionar un determinado país para la búsqueda (esto habría posibilitado un avance importante en nuestra comprensión de la evolución de distintas lenguas a través del tiempo y del espacio, por lo menos en el plano léxico)
  • No da vínculos a los resultados (los vínculos que sí aparecen llevan a los resultados de otra búsqueda que se realiza en otro buscador)
  • No permite ver una sola palabra del contexto en que figuran las palabras o frases buscadas (las palabras clave en contexto, o KWIC, son quizás lo más básico e imprescindible de cualquier corpus; sin ellas, no podemos aprender mucho  sobre las palabras, y nada sobre la sintaxis o la pragmática)
  • Los pocos resultados que sí se entregan vienen “libres” de datos duros (se muestra un porcentaje casi ininteligible, como 0,0000000000013%, de un total que nunca se señala; debo señalar, sin embargo, que se pueden calcular estas cifras manualmente si se bajan todos los archivos de los data sets y se logra armar un sistema informático para hacerlo)

Lo frustrante es que Google sí dispone de todos estos datos. Se jacta, incluso, de su proceso de digitalización, que combina la información incluida en las obras mismas con bases de datos bibliográficas y asesoría experta de las instituciones más importantes del mundo en estas materias. Pero por algún motivo, no quiere compartir la información.

Curiosa manera de inaugurar una supuesta revolución del conocimiento.

La otra novedad de Google

Juzgando por las reacciones efervescentes que ha producido la apertura de Google Ngrams, no sería difícil quedar con la impresión de que estamos ante una gran obra filantrópica. Una obra extrañamente fallida, sin duda, pero una obra gratuita, al fin y al cabo. Y al caballo regalado…

Pero no hay que olvidar que estamos hablando de una empresa con fines de lucro que se transa en la bolsa de valores, y que por ley tiene como primera prioridad “maximizar las ganancias para los accionistas”.

En este contexto, hace más sentido otra noticia relacionada con los libros que Google ha estado digitalizando durante los últimos años, y que pasó casi desapercibida en el mundo hispanoparlante: pocos días antes del lanzamiento de Ngrams, Google inauguró su propia versión de Amazon: una tienda electrónica que se llama Google eBooks.

Ahora están a la venta muchos de los libros en que se basó Google Ngrams. Por el momento, la tienda sólo opera en Estados Unidos (lo que explica por qué no fue gran noticia acá), pero pronto llegará al resto del mundo.

Sería un poco cándido desconocer el lado comercial del lanzamiento de Google Ngrams:

  • Ha generado para la empresa una inmensa cantidad de publicidad gratuita y estrechamente relacionada con su nueva unidad de negocios.
  • La página en que se aloja seguramente incluirá publicidad en el futuro cercano, para generar utilidades directamente.
  • Está llevando a incontables curiosos a Google Books, que pronto incluirá la opción de comprar los libros.
  • Cada vez que alguien comparte uno de los gráficos que produce Google Ngrams –vía Twitter, Facebook, Buzz o lo que sea– le da aún más publicidad gratis.
  • El aspecto académico –el paper en Science, el intento de crear una nueva disciplina llamada “culturomía”, el compartir los conjuntos de datos en que se basan las listas de frecuencias– refuerza una imagen pública positiva de Google, a la vez que le genera buena voluntad. Aunque intangibles, estos activos pueden ayudar a la hora de enfrentar contratiempos, como las investigaciones que se llevan en su contra en 18 países distintos por supuestas ilegalidades relacionadas con Street View.

Cabe preguntarse si se hubiera producido el mismo fanfarroneo y el mismo hype si el producto fuera Microsoft Ngrams.

¿Sirve o no la cosa?

Como buscador tradicional, Google Ngrams es inútil, obviamente. Pero todavía no he visto un gráfico para dentistas en Santiago en la web, así que parece que la gente lo tiene claro.

Como herramienta lingüística, Google Ngrams podría tener alguna utilidad, aunque muy restringida. Puede servir para descubrir la fecha aproximada en que se empiezan a incluir palabras o frases en los libros, por ejemplo:

Como “no estoy ni ahí” figura en algunos libros de 1987 (aunque no sabemos cuántos ni cuáles), podemos suponer que empezó a usarse algunos años antes (aunque no sabemos si esto fue sólo en Chile, o si la expresión se usa en algún otro país).

Si lo que interesa es el castellano de Chile, la utilidad de Google Ngrams depende totalmente de la cantidad de libros chilenos que contempla, y no soy muy optimista al respecto.

Pensé –por un fugaz instante– que podríamos quizás resolver el misterio de la génesis de la palabra “erís”, una de las formas del verbo ser que corresponde al voseo chileno.  Algunos especulan que habría surgido durante la Unidad Popular, entre los sectores acomodados de la izquierda, como una manera de mostrar solidaridad (mediante el voseo verbal) sin parecer “roto” (con el empleo de “soi”).

Así que tomé esta hipótesis y la puse a prueba. De confirmarse, erís debería surgir de la nada a fines de los 60, más o menos. ¿Qué es lo que nos muestra Google Ngrams?

Antes de que nuestro amigo Soto se ponga a relacionar estas curvas mareantes con los juanetes de O’Higgins, la lucha por el sufragio femenino y la importación masiva de fertilizantes artificiales a Tierra del Fuego, recordemos que no sabemos si uno solo de estos casos viene de un libro chileno. Tampoco podemos estar seguros de que vengan de libros en castellano. Y la búsqueda correspondiente en Google Books –que arroja obras como el Lexicon manuale latino-suecanum & sueco-latinum y el ya clásico Loculentissimi viri… Petri B[e]n[e]dicti Mathei… Liber in— no necesariamente tiene relación con el corpus que se usó para crear esta lista de frecuencias.

Si buscamos algo más específico, como la frase tú erís, deberíamos ver una reducción del número de falsos positivos. Pero lo que vemos es lo siguiente:

Este resultado indica que el número de libros chilenos en Google Ngrams no es particularmente grande.

A la luz de todo esto, está más que claro que para la investigación lingüística, Google Ngrams es un mero juguete. Muestra gráficos bonitos de datos cuyas características son imposibles de precisar.

Finalmente, ¿sirve Google Ngrams para la nueva disciplina de la culturomía? Los ejemplos que se dan en el paper son sin duda interesantes: el auge de la censura en la Alemania nazi, la duración de la fama en distintas épocas, la posibilidad de descubrir epidemias históricas.

Tomemos un ejemplo relacionado con este último caso. Busquemos influenza (en inglés):

Parece que la pandemia de esta enfermedad que se dio alrededor de 1920 efectivamente se ve reflejada en Google Ngrams. ¡Notable!

Ahora, busquemos algunas otras enfermedades, siempre en inglés: influenza, sarampión, histeria, conjuntivitis, hernia, gonorrea:

Hmm… según el criterio que acabamos de usar, parece que hubo pandemias de todo alrededor de 1920.

Entonces, ¿estamos ante algo capaz de detectar la ocurrencia de epidemias? En absoluto: ni la histeria ni las hernias son contagiosas.

A la luz de esto, se podría tirar una hipótesis alternativa mucho más convincente: una alta incidencia de la publicación del nombre de una enfermedad revela las épocas de mayor preocupación respecto de la enfermedad, que no necesariamente tienen que ver con su ocurrencia.

Otra posible explicación: las curvas ascendentes corresponden a la publicación de libros de prevención de enfermedades por parte de algunos gobiernos.

Otra explicación más podría ser la masificación de las escuelas de medicina en las universidades, y el consiguiente auge en la publicación de textos académicos de medicina.

El punto es que Google Ngrams no permite desentrañar estas cosas. Podríamos descartar muchas de estas hipótesis si pudiéramos ver en qué libros salen las palabras, pero no nos deja hacerlo. Podríamos refutar muchas más hipótesis si tuviéramos acceso al texto completo. Pero de nuevo, no se permite eso.

Creo que a estas alturas está más que claro que no se puede confiar en los resultados de Google Ngrams para ninguna cosa.

Lo único concreto, lo único que sabemos con certeza, son los porcentajes que se muestran a mano izquierda y los años que se muestran debajo de las líneas. Nada más. Lo que significan estos resultados es imposible de precisar.

Google Ngrams no es el genoma del lenguaje, de la cultura, ni de ninguna otra cosa. Es un juguete para generar leyendas urbanas instantáneas y conclusiones espurias a la medida de quién busca.

Les dejo con un ejemplo: Google Ngrams “demuestra” que todo esto de la tercera cultura es puro grupo… ¡es la primera cultura que la lleva!