Como recordarán, hace un par de semanas hicimos un Análisis Lingüístico Computacional de 30 novelas chilenas, con resultados que nos parecieron extraordinariamente interesantes.
Bueno, seguimos mirando los datos, y se nos ocurrió preguntarnos que pasaría si metiéramos los años de publicación de las novelas al baile (desde Martín Rivas -1862-, hasta Ruido -2011-). Creamos, en consecuencia, una nueva columna en nuestra tabla con los años de edición de las obras y calculamos todas las correlaciones Pearson entre estos valores y los de los indicadores originales.
Asumimos que los valores cercanos y superiores (de modo absoulto) a 0,70 pueden ser buenos indicadores de la “evolución de las obras”.
Solo tres valores quedaron en ese rango, con una correlación negativa:
- Porcentaje de palabras afectivas (-0,729) (acariciar, aburrir, fracaso, etc.)
- Porcentaje de emociones positivas (-0,726) (ganar, inspiración, pasión, etc.)
- Porcentaje de sensasiones positivas (-0,681) (éxtasis, goce, humor)
Esto significa que, a medida que pasan los años, el porcentaje de palabras afectivas (y de emociones y sensasiones positivas) disminuye sistemáticamente.
Debemos indicar que también tuvieron altos valores las emociones negativas (que se incluyen asimismo en las palabras afectivas).
Parece ser que a medida que avanzan los años, las novelas van desensibilizando su escritura, evitando el ámbito emocional (valor mayor para El Niño que Enloqueció de Amor -6,34-; valor menor para Condell -2,52-)
Este es el gráfico de la evolución de los porcentajes de palabras afectivas ordenadas por años de las novelas:
Martín Rivas (1862) |
3 comments
Daniel Fernández says:
Ago 19, 2011
Dos preguntas:
¿Cómo trabajas dentro de los dos experimentos la dificultad que implican los campos semánticos o la plurisignificación de las palabras, es decir, cómo se puede desprender que efectivamente cada una de las palabras que se introducen apuntan específicamente a lo que apuntan denotativamente y con uno solo de los significados que posee, más allá de ser un mero censo de palabras con significados delimitados a priori y sin considerar -por lo que entiendo de la metodología- el contexto de la frase o la palabra (figuras retóricas por ejemplo)?
¿Qué utilidad, más allá de la lingüística y del conteo de cierto tipo de palabras en una novela, crees tú que pueda tener una experiencia como la que realizas?
Ricardo Martinez says:
Ago 19, 2011
Hola Daniel:
Gracias por las preguntas!!!
Sobre la primera, tienes razón, la polisemia y la pareja denotación/connotación, son siempre un problema para estos modelos (cuando se toma palabra por palabra, sin atender al contexto oracional o discursivo, se llama análisis de unigramas). Hay maneras de establecer cuán grave es este problema (http://en.wikipedia.org/wiki/Precision_and_recall), como el contraste entre los resultados y el análisis manual. Por regla general, diversos estudios sobre pruebas de este tipo muestran que los valores de precision y recall cuando se ocupan herramientas como LIWC son superiores al 55%-60%. Evidentemente no estoy en condiciones de hacer esas pruebas (habría que ganarse un Fondecyt o algo así ;-)), por eso -guardando cautela-, suelo confiar algo en los resultados (y claro, quizá me paso de listo al no hacer esto explícito en los artículos :-()
Sobre la segunda, la utilidad que le veo es una de validez concurrente (http://en.wikipedia.org/wiki/Concurrent_validity) entre los resultados y las interpretaciones o apreciaciones de los expertos. En este caso en particular, sobre la des-emocionalización de la narrativa se ha escrito mucho, y el resultado de la prueba parece apoyar esa idea. Claro, podría haber sido al revés y en ese caso habría que haber hecho otras pruebas para ver qué estaba pasando. Recuerda que nuestra perspectiva como Tercera Cultura es que se puede, y debe ser fortalecido, un diálogo entre las distintas perspectivas académicas. Finalmente, siguiendo lo propuesto por Moretti (http://www.amazon.com/Graphs-Maps-Trees-Abstract-Literary/dp/1844671852): “Esta es una idea que se me ocurrió hace algunos años, cuando estudiando la bibliografía nacional me di cuenta de que trabajamos sobre una fracción mínima del campo literario: un canon de 200 novelas, por ejemplo, suena muy grande para el siglo XIX en Gran Bretaña (y es mucho más grande que el actual), pero sigue siendo inferior al uno por ciento de las novelas que se publicaron en realidad: veinte mil, treinta mil, nadie sabe en realidad -y el close reading no ayuda aquí, un novela al día, todos los días del año se tardaría un siglo más o menos. . . Y luego, un campo tan grande no se puede entender uniendo trozos separados de conocimiento sobre los casos individuales, porque no es una suma de casos individuales: se trata de un sistema colectivo, que debe ser comprendido como tal, como un todo y los gráficos que siguen son una forma de empezar a hacer esto”, realmente creo que este tipo de análisis permite detectar patrones y tendencias que sería difícil determinar de otros modos.
Espero haber, al menos, en parte entendido y respondido bien a tus preguntas. De nuevo, gracias,
Ricardo
Carla Muñoz says:
Ago 20, 2011
Primero que todo, Hola
Segundo: las correlaciones dan para todo. Cuidado.
Tercero: Cuiden la ortografía (sensaCiones, dos veces mal escrita)
y sobre el contenido del post: ¿con qué criterio fueron seleccionadas esas obras y no otras? qué te hace pensar que esas novelas tengan mayor validez (¿representatividad de qué?) en el canon literario?
Pregunto, pues: ¿Cómo crees que ello influenciaría entonces el análisis?