Revisando Google Scholar en búsqueda de artículos sobre análisis de Lingüística Computacional (LC o Natural Language Processing, NLP) y Redes Sociales, di hace un par de días con un texto completísimo sobre el tema: Workshop on Language in Social Media – LSM 2011, de la Asociación Internacional de LC. En uno de los artículos se presentaba una aplicación maravillosa, LIWC, que:

“Se compone de cerca de 4.500 palabras y palabras derivadas. Cada raíz de palabra o palabra define una o más categorías. Por ejemplo, la palabra cried forma parte de cinco categorías de palabras: tristeza, emoción negativa, afecto, verbo y el verbo en tiempo pasado” (Pennebacker et al, 2007).

Estas palabras forman 64 categorías gramaticales y semánticas que permiten, subsecuentemente, realizar un análisis robusto de contenidos de los textos.

Bueno, el asunto es que conseguí el programa (en versión castellano) y le metí 30 novelas chilenas (una de ellas, Condell, de un servidor, en prensa xD). Los resultados de cada una de las categorías las procesé con el modelo de Biber (1988), que permite agrupar dimensiones de covariación de las variables. Encontré tres dimensiones que llamé:

  1. Dimensión 1: Descripción – Narración
  2. Dimensión 2: Cognición – Emoción
  3. Dimensión 3: Social – Individual

Asignando puntajes a cada novela en cada una de estas dimensiones (también siguiendo a Biber 1988), generé el siguiente listado (los valores negativos expresan desplazamiento hacia el polo de la primera palabra de la dimensión, los positivos, hacia la segunda palabra).

Finalmente realicé un dendrograma.

O sea, en este caso, un gráfico que permite mostrar cómo se agrupan las novelas de acuerdo con los valores en las dimensiones. Para verlo con claridad hay que alejarse un poco de la pantalla y ver que se produce el árbol. Yo he quedado impresionado por el resultado (voilá):

ACTUALIZACIÓN

Otra manera de representar los datos que puede ser ilustrativa es conceptualmente, como se muestra a continuación (considerando si los valores de las dimensiones son negativos o positivos) y donde también se aprecian agrupaciones.

No sería nada de mala idea tratar de darle un rótulo general (literario) a cada una de las ocho posibilidades de clasificación de acuerdo con las tres dimensiones.

Una tercera posibilidad de presentar los datos es de acuerdo a similitudes en la línea del LSA. Si se considera que cada una de las dimensiones corresponde a un eje (x, y, z; en un espacio cartesiano), cada novela correspondería a un vector. La distancia entre vectores (calculada como un coseno, de acuerdo con LSA) indicaría la similitud entre dos obras, con valores que van desde -1 (absoluta disimilitud) a +1 (absoluta similitud).

Esta es la tabla de similitudes (probablemente tendrán que agrandar el tamaño de la página para verlo bien: CTRL y rotor del mouse):