Revisando Google Scholar en búsqueda de artículos sobre análisis de Lingüística Computacional (LC o Natural Language Processing, NLP) y Redes Sociales, di hace un par de días con un texto completísimo sobre el tema: Workshop on Language in Social Media – LSM 2011, de la Asociación Internacional de LC. En uno de los artículos se presentaba una aplicación maravillosa, LIWC, que:
“Se compone de cerca de 4.500 palabras y palabras derivadas. Cada raíz de palabra o palabra define una o más categorías. Por ejemplo, la palabra cried forma parte de cinco categorías de palabras: tristeza, emoción negativa, afecto, verbo y el verbo en tiempo pasado” (Pennebacker et al, 2007).
Estas palabras forman 64 categorías gramaticales y semánticas que permiten, subsecuentemente, realizar un análisis robusto de contenidos de los textos.
Bueno, el asunto es que conseguí el programa (en versión castellano) y le metí 30 novelas chilenas (una de ellas, Condell, de un servidor, en prensa xD). Los resultados de cada una de las categorías las procesé con el modelo de Biber (1988), que permite agrupar dimensiones de covariación de las variables. Encontré tres dimensiones que llamé:
- Dimensión 1: Descripción – Narración
- Dimensión 2: Cognición – Emoción
- Dimensión 3: Social – Individual
Asignando puntajes a cada novela en cada una de estas dimensiones (también siguiendo a Biber 1988), generé el siguiente listado (los valores negativos expresan desplazamiento hacia el polo de la primera palabra de la dimensión, los positivos, hacia la segunda palabra).
Finalmente realicé un dendrograma.
O sea, en este caso, un gráfico que permite mostrar cómo se agrupan las novelas de acuerdo con los valores en las dimensiones. Para verlo con claridad hay que alejarse un poco de la pantalla y ver que se produce el árbol. Yo he quedado impresionado por el resultado (voilá):
ACTUALIZACIÓN
Otra manera de representar los datos que puede ser ilustrativa es conceptualmente, como se muestra a continuación (considerando si los valores de las dimensiones son negativos o positivos) y donde también se aprecian agrupaciones.
No sería nada de mala idea tratar de darle un rótulo general (literario) a cada una de las ocho posibilidades de clasificación de acuerdo con las tres dimensiones.
Una tercera posibilidad de presentar los datos es de acuerdo a similitudes en la línea del LSA. Si se considera que cada una de las dimensiones corresponde a un eje (x, y, z; en un espacio cartesiano), cada novela correspondería a un vector. La distancia entre vectores (calculada como un coseno, de acuerdo con LSA) indicaría la similitud entre dos obras, con valores que van desde -1 (absoluta disimilitud) a +1 (absoluta similitud).
Esta es la tabla de similitudes (probablemente tendrán que agrandar el tamaño de la página para verlo bien: CTRL y rotor del mouse):
20 comments
guillermo says:
Jul 30, 2011
Ricardo!!!! La llevai. Oye, tu novela es super narrativa, super cognitiva y no tiene nada de social! Loco los niveles de descripcion de Papelucho.
Mhonica says:
Jul 30, 2011
Hola Ricardo: Me topé en twitter con esto de que la histora de la novela chilena está pasada al computador. Desde mi mas profunda ignorancia pregunto ¿tiene que ver con el tema de la web semántica?. Cariños.
Ricardo Martinez says:
Jul 30, 2011
Claro que tiene que ver… revisa el documento del workshop que pongo al principio. Gracias por el comentario.
alejandra says:
Jul 30, 2011
no entiendo la utilidad de estos estudios!! finalmente, de que se trata?
Ricardo Martinez says:
Jul 30, 2011
Hola Alejandra:
Revisa este libro: http://avaxhome.ws/ebooks/science_books/philosophy/1602352054Graphs.html
Es de mucha utilidad para entender de qué se trata todo esto…
guillermo says:
Jul 30, 2011
Chuuuuuuuu leí mal la primera: tu novela es súper narrativa
Soledad Chávez Fajardo says:
Jul 30, 2011
De alguna forma se podrá llegar, integrando un corpus más extenso, a una verdadera radiografía de la narrativa chilena. Una consulta: ¿pueden ser más dimensiones?
¡Excelente!
Ricardo Martinez says:
Jul 30, 2011
En realidad el número de dimensiones depende del análisis factorial. En esta aplicación solo había tres dimensiones estables e interptretables. Si se meten más datos a la juguera pueden aparecer más dimensiones.
Soledad Chávez Fajardo says:
Jul 30, 2011
Pican los dedos por etiquetar estas ocho posibilidades…y tirar más obras a la parrilla 🙂 ¡¡¡¡Gracias por el regalo shabbatístico!!!!!
Simon says:
Jul 30, 2011
Maravilloso
Yo traté de hacer algo parecido a eso con bases la datos documental de la organización donde trabajo (muy rústicamente claro está). Me di cuenta del nivel de conocimiento que tenemos en ciertos temas, y del que creemos tener y que realmente no está, sólo contando palabras.
Este método es “la patá”.
De los comentarios: cuidado con la tentación de las n-dimensiones… Las matemáticas pueden ayudar a reducir aspectos muy complejos, pero más importante es la síntesis (siguiendo a R. Ackoff)
Saludos
corrales says:
Jul 30, 2011
y dónde está el alma!!
Simon says:
Jul 30, 2011
vectorizada 😉
Ricardo Martinez says:
Jul 30, 2011
Como un epifenómeno de la actividad neuronal, po!!! O como diría Theilhard de Chardin: “En el Universo, como hemos reconocido al principio, es la vida lo que constituye el fenómeno central –y, en la vida, el pensamiento- y en el pensamiento la ordenación colectiva de todos los pensamientos en sí mismos. Pero he aquí que, por una cuarta opción, nos encontramos llevados a decidir que, más profundo todavía, es decir, en el corazón mismo del fenómeno social, está en marcha una especie de ultra-socialización: aquella por la cual la Iglesia se forma poco a poco, vivificando por su influencia, y reuniendo bajo su forma más sublime, todas las energías espirituales de la Noosfera”. 🙂
Juan Federico Holzmann says:
Ago 1, 2011
Ricardo, tengo un gran respeto por tu persona, y por tu conocimiento. Pero de verdad, el analisis de contenido cuantitativo, nunca me ha convencido mucho -.-
Por eso, que antes de hacer un mapa de regresion (que esta muy dificil de leer, lo pintaria de colores. Los mapas de regresiones son preciosos, pero complejos.) y todo eso, creo que se le debe dar “contraste cualitativo” a lo estadistico (spor que la estadistica afirma y es re wena pa afirmar , pero la ciencia no se basa en la afirmacion, si no en la refutación), explicar cualitativamente alguno de esos datos y cruces.
Asi , que cuando cuantifiques, cualifica.
Ricardo Martinez says:
Ago 1, 2011
Hola Fede:
¿Conoces algún programa que haga los dendrogramas de manera más bonita que la salida del SPSS? Doy y doy vueltas por la red y no encuentro nada.
Grax
fede says:
Ago 1, 2011
Aqui podi encontrar algun “stadistical pakete”
http://en.wikipedia.org/wiki/Comparison_of_statistical_packages
y aqui hay una lista de paketes de software de graficos que pueden servir.
http://en.wikipedia.org/wiki/List_of_information_graphics_software
mapas de ideas
http://en.wikipedia.org/wiki/Mind_mapping
y quizas alguno de estos te puedan serivir , pro que hace mapas de categorias
http://en.wikipedia.org/wiki/Computer_assisted_qualitative_data_analysis_software
pero la verdad no lo se , por que spss es re malo pa hacer graficos XD
La desensibilización de la novela chilena | TerceraCultura.cl says:
Ago 19, 2011
[…] recordarán, hace un par de semanas hicimos un Análisis Lingüístico Computacional de 30 novelas chilenas, con resultados que nos parecieron extraordinariamente […]
Carla Muñoz says:
Ago 20, 2011
Si mal no recuerdo R te presenta un dendograma mejor, pero no dejo de ser excéptica frente a este tipo de anàlisis para obras literarias, es como tratar de decir “Hey, esto es serio, porque huele a cientìfico”
Ró says:
Ago 21, 2011
Dónde puedo conseguir el programa!!???
me dieron unas ganas atroz de sentarme y hacer algo tan entretenido =)
Felicitaciones por el “dendrograma de la novela chilena”
Análisis Discurso 21 de mayo 2012 | TerceraCultura.cl says:
May 21, 2012
[…] ya hemos explicado en un artículo anterior, LIWC es un programa (que tenemos en nuestro poder) que “se compone de cerca de 4.500 palabras y […]