Don Quijote de la Mancha: los números de una obra inmortal

Copiar referencia Castilla-La Mancha, España

Don Quijote de la Mancha: los números de una obra inmortal

El siguiente es un análisis de la obra Don Quijote de la Mancha basado únicamente en datos. Existen muchas métricas interesantes que podemos extraer de la obra cumbre de la hispanidad utilizando herramientas diseñadas para realizar analítica de datos. Así que, tal como hicimos en el pasado con el Martín Fierro, vamos a pasar al Quijote por la Picadora de palabras para ver qué números —y qué sentimientos— encontramos.

La Picadora de palabras es el cariñoso nombre que lleva la herramienta basada en Python que desarrollé para analizar libros.

Breve introducción al autor y al libro

Miguel de Cervantes Saavedra, nacido un 29 de septiembre de 1547 y fallecido el 22 de abril de 1616 —no, no fue el mismo día que William Shakespeare—, publicó la primera parte del Quijote en 1605 y la segunda en 1615. Con 500 millones de copias vendidas es el máximo best seller de la historia, si no contamos La Biblia, cuyas ventas se calculan en varios miles de millones de copias. El Quijote ha sido traducido a casi un centenar de idiomas y es considerado como la primera novela moderna.

El protagonista es Alonso Quijano, un empobrecido hidalgo que de tanto leer novelas caballerescas, termina perdiendo la cabeza, creyéndose caballero andante y nombrándose a sí mismo Don Quijote de la Mancha. Sancho Panza se convierte en su compañero de aventuras/locuras. Él es un labrador que se preocupa por el lado práctico de las cosas. Carece de educación, pero es avispado, y cuenta con un gran bagaje de saber popular. Por otro lado es muy inocente, y termina contagiado de la locura de su amo y vecino, Don Quijote.

La materia prima

En un análisis como este, los números pueden variar mucho de una edición a otra. Para este trabajo utilicé el texto electrónico en español publicado por el Proyecto Gutenberg. Esta edición no tiene anotaciones. No sé qué tan fiel a la obra  original sea, pero en principio considero que es una fuente confiable.

Otro factor que puede hacer variar mucho los números que arroja el análisis, es la limpieza que hagamos del archivo antes de empezar a trabajar. En ese sentido quiero aclarar que solo estoy utilizando de ambas partes del libro sus títulos, sus prólogos y sus textos propiamente dichos. 

Por lo tanto eliminé del archivo todos los paratextos agregados por Proyecto Gutemberg y también prescindí de las siguientes secciones del texto original por no considerarlas relevantes para el análisis:

De El ingenioso hidalgo don Quijote de la Mancha:

  • TASA. La valuación del libro hecha por Juan Gallo de Andrada.
  • TESTIMONIO DE LAS ERRATAS. Del licenciado Francisco Murcia de la Llana.
  • EL REY. De Juan de Amezqueta, «por mandado del Rey nuestro señor».
  • AL DUQUE DE BÉJAR. Dedicatoria de Miguel de Cervantes Saavedra.

De Segunda parte del ingenioso caballero don Quijote de la Mancha:

  • TASA. De Hernando de Vallejo.
  • FEE DE ERRATAS. Del licenciado Francisco Murcia de la Llana.
  • APROBACIONES. Una sección muy interesante donde el Doctor Gutierre de Cetina, el maestro Josef de Valdivielso y el licenciado Márquez Torres aseguran que el libro no atenta contra la fe católica, las buenas costumbres ni la moral, y con muchas palabras dejan entrever que la obra solo se trata de entretenimiento ligero e inofensivo (tratá de vender hoy un libro con semejante crítica).
  • PRIVILEGIO. De Pedro de Contreras, «por mandado del Rey nuestro señor».
Me parece importante aclarar qué está adentro del análisis y qué quedó afuera, porque existen otros muchos análisis en Internet y las secciones seleccionadas muchas veces no se indican. En aquellos casos en que sí se indican, parece no haber nunca dos análisis que coincidan en la selección inicial elegida.

Lo números gruesos

Empecemos con los números que destacan a simple vista: La obra tiene dos partes. La primera, El Ingenioso Hidalgo Don Quijote de la Mancha, está dividida a su vez en 4 partes y la conforman 52 capítulos y un prólogo. La segunda, Segunda parte del ingenioso caballero don Quijote de la Mancha, tiene 74 capítulos y un prólogo, a diferencia de la primera parte, la segunda no está subdivida en partes.

Algunos números finos

Esta obra está conformada por 2.069.454 caracteres, que se reducen a 1.694.284 cuando contamos caracteres sin espacios. Estos caracteres conforman 378.396 palabras, agrupadas en 9.466 oraciones que están distribuidas en 5.024 párrafos. El texto encierra 959 preguntas, 693 exclamaciones y de su puntuación se encargan 8.166 puntos, 39.892 comas, 4.779 puntos y comas y 2.039 dos puntos.

Sobre la cantidad de vocales utilizadas en esta obra por Cervantes, podemos observar las siguientes frecuencias de aparición —incluyendo en el recuento a las que tienen tildes y diéresis—: 

Uso de vocales en Don Quijote de la Mancha
Uso de vocales en Don Quijote de la Mancha

A (199.086), E (227.407), I (89.137), O (161.351), U (79.026).

Tiempo de lectura

Hay cierto consenso en reconocer que el tiempo de lectura silenciosa promedio en español se trata de unas 200 palabras por minuto, aunque en realidad depende mucho del estudio que se mire —hay quienes dicen que ese promedio sería superior—. Pero, si nos quedamos con esa regla de 200 PPM, llegamos a la conclusión de que el Quijote puede ser leído en 31 horas y media. Por supuesto que estamos hablando de tiempo teórico de lectura continua (es una larga sentada). Por otra parte, no estamos contemplando las dificultades específicas que encierra este texto para un lector contemporáneo que tendrá que hacer pausas para leer notas al pie, buscar palabras en el diccionario o en la web. Por lo tanto este tiempo teórico de lectura podría ser ajustado hacia arriba.

Riqueza léxica

Del total de  378.396 palabras que mencionamos anteriormente, nos encontramos con que 22.787 son palabras distintas o únicas, el resto se trata de repeticiones de estas mismas palabras. Por lo tanto podemos asegurar que este libro tiene una riqueza léxica de 0,06021 que es el resultado de dividir la cantidad de palabras únicas entre la cantidad total de palabras¹. Este número puede tomar cualquier valor entre 0 y 1, aunque nunca va a ser 0 porque eso significaría que el texto está compuesto en su totalidad por una única palabra y tampoco va a tomar el valor ideal teórico 1, porque eso significaría que ninguna palabra se repite en el libro. Vemos entonces que hablando en porcentajes, la riqueza léxica de Don Quijote de la Mancha es de 6%.

Mientras veo este número, recuerdo que en el análisis previo que hice sobre el Martín Fierro, la riqueza léxica arrojó un número mayor; y pienso en voz alta (o en el teclado, mejor dicho) que simplemente por matemática un libro extenso tenderá a tener menor riqueza léxica, porque es mucho más probable repetir palabras ya utilizadas a medida que el escrito se va extendiendo.

Riqueza léxica de Don Quijote de la Mancha.
Riqueza léxica de Don quijote de la Mancha.

Lugares comunes

El análisis de lugares comunes nos va a permitir encontrar clichés, frases de uso común de la época o muletillas a las que haya recurrido Cervantes a la hora de escribir. Lo que identificamos son secuencias de palabras que se encuentran juntas en el texto con mayor frecuencia que el resto. Estos son algunos lugares comunes encontrados en Don Quijote de la Mancha:

vuestra merced; sancho panza; vuesa merced; que que; caballeros andantes; respondió sancho; dulcinea toboso; sin duda; otra cosa; respondió quijote; caballero andante; del toboso; todos los; los ojos; dijo quijote; dijo sancho; quijote mancha; muchas veces; señora dulcinea; las manos 

Hápax legómenon

Esta es otra métrica muy interesante para observar, en especial es interesante compararlo con los números de total de palabras y el número de riqueza léxica que mencionábamos anteriormente. Un hápax o hápax legómenon² es una palabra que ha aparecido registrada solamente una vez en un corpus, en este caso en nuestro libro. Hay 11.106 palabras que no se repiten en la obra. Esta es una muestra aleatoria de 100 de esas palabras (omitiendo mayúsculas):

avendría, enrique, encubrirte, mientas, dioles, reprocharme, bramido, intonsos, facas, abonasen, atribuyéndolos, sembrad, otorgaba, ligaba, convierta, barbadas, diputado, hétores, llenaban, salvamento, tambor, señalaré, porquero, desvaríos, ahorcarme, merecedores, cardinales, repare, atraillado, ínsulo, aprobará, pío, durado, generosas, encaminé, guiábanle, combatían, escurecerla, aventuraba, adviertan, aspiran, clavadas, abatieres, cubrimos, erraren, roturas, malignidad, guadameciles, imponerse, herirles, interrompiendo, despreciar, asirse, escarba, ayudaros, dudamos, confundir, ornamentos, concluyóse, presona, palillo, afán, tiramira, pagarme, bañará, ingeniosa, enfría, pisaba, presentase, bustamante, desechaba, guías, créeme, tantum, maduras, correrte, repasa, aclara, deshechos, preguntarse, hartazga, sueña, quebrantan, varapalos, quejéis, habello, ficticio, repararon, enmendaré, aljamiado, procuraron, magníficos, confíese, pisacorto, imposibilitó, maravillase, díganos, aborrecida, desembolsado, libertada

Palabras frecuentes

En las antípodas de los hápax legómenon se encuentran las palabras frecuentes. Para este análisis dejé de lado palabras poco significativas del idioma español.

Palabras más comunes en Don Quijote de la Mancha.
Palabras más comunes en Don Quijote de la Mancha.

De este análisis surgió también la siguiente nube de palabras:

Nube de palabras para Don Quijote de la Mancha.
Nube de palabras para Don Quijote de la Mancha.

Aquí dejo una lista de las 100 palabras más frecuentes en Don Quijote de la Mancha junto a su cantidad de apariciones:

don (2.640), quijote (2.169), sancho (2.149), si (1.962), dijo (1.807), tan (1.240), respondió (1.062), así (1.059), ser (1.055), señor (1.054), bien (1.043), merced (895), pues (860), sino (694), dos (683), caballero (660), decir (576), hacer (531), aunque (529), dios (529), señora (516), aquí (515), aquel (485), mal (459), cosa (442), buen (439), verdad (430), tal (427), allí (421), ver (406), mundo (394), luego (390), sé (388), alguna (378), todas (371), ahora (366), dar (363), buena (362), vida (356), parte (348), dicho (348), cosas (346), lugar (345), menos (344), gran (340), casa (333), aquella (333), panza (330), manera (324), digo (322), tiempo (320), toda (319), cura (313), puesto (307), mano (304), amo (297), dio (294), mejor (291), caballeros (291), puede (285), ojos (284), algún (283), dulcinea (282), visto (278), cómo (274), tierra (273), día (271), quién (270), hecho (269), quiero (261), padre (259), aun (259), hombre (258), cielo (252), haber (251), amigo (249), historia (248), saber (245), vio (245), camino (245), escudero (244), parece (244), tener (241), hizo (241), muchas (240), mas (239), manos (239), días (236), cuanto (234), fin (232), desta (232), tres (231), mujer (226), dice (223), mesmo (218), cabeza (215), cuenta (214), cada (212), punto (211), noche (211)

Presencia de los personajes en la trama

Se trata de encontrar en que parte del texto se menciona a los personajes. Para esta métrica elegí un subconjunto de los personajes principales. La cantidad de personajes en esta obra es súper extensa, así que mucho quedó afuera y queda un espacio importante para ampliar este análisis en el futuro.

Distribución de personajes en Don Quijote de la Mancha.
Distribución de personajes en Don Quijote de la Mancha.

Algunas observaciones rápidas sobre este gráfico:

Vean como las apariciones de Don Quijote y Sancho Panza prácticamente se superponen; eso nos habla de dos compañeros, dos personajes inseparables que recorren juntos todo el camino narrativo de esta obra.

Dios no es un personaje en este libro, pero igualmente lo agregué en este gráfico para destacar su aparición constante y uniforme en toda la trama. Casi  no observamos baches en su línea. No hace falta mencionar la predominancia de la fe católica en la época en que Cervantes escribió el Quijote.

Los otros personajes que incorporé en el gráfico son: Dulcinea del Toboso, mujer perfecta pero inexistente, amor platónico de Don Quijote y fruto de su imaginación, basada en la más terrenal Aldonza Lorenzo. Rocinante, el caballo de Don Quijote. El rucio, asno de Sancho Panza. Cide Hamete Benengeli, historiador arábigo ficticio que escribe la historia de Don Quijote.

Oscilación de sentimientos

Como parte final de esta entrada veamos qué podemos sacar en limpio en cuanto a los sentimientos que genera Don Quijote de la Mancha. Voy a empezar por aclarar varios puntos primero y algunas concesiones que tuve que hacer para completar este análisis: 

En primer lugar, estos algoritmos no son cien por ciento confiables aún y son bastante más efectivos funcionando en idioma inglés que en español. Algunos de ellos trabajan en modo políglota, pero lo que hacen en realidad es utilizar alguna API de traducción automática para tener en tiempo real una versión del texto en inglés antes de analizarlo. Esa no es una buena opción para una obra literaria, las traducciones automáticas dejan mucho que desear, entonces, para empezar tuve que conseguir una buena traducción al inglés de Don Quijote de la Mancha. El análisis está basado en esa traducción, no en la obra original. 

En segundo lugar, la tecnología que utilicé se aplica principalmente al análisis de sentimientos en redes sociales. Estamos hablando de oraciones o tuits, no de libros enteros. Así que, procedí a cortar el libro en párrafos para tener un conjunto de datos viable para trabajar. Para hacer el análisis, utilicé VADER. Calculé el valor de sentimiento de cada oración en el libro. El algoritmo que usé permite el cálculo de índices de polaridad positiva, negativa y neutra. También entrega un valor llamado puntuación compuesta, que se calcula sumando las puntuaciones de valencia de cada palabra en el léxico, se ajusta de acuerdo con las reglas y luego se normaliza para estar entre -1 y 1 (el valor más extremo negativo y el más extremo positivo, respectivamente). Si ese número es mayor o igual a 0,05, la puntuación compuesta representa un sentimiento positivo, si es menor o igual a -0,05, representa un sentimiento negativo, y si está en el medio de esos dos valores, se trata de un sentimiento neutral. 

Sentimiento compuesto medio para Don Quijote de la Mancha.
Sentimiento compuesto medio para Don Quijote de la Mancha.

El léxico utilizado en esta obra es sin duda un reto para cualquier intento de realizar un análisis de sentimiento utilizando herramientas diseñadas para trabajar sobre lenguajes contemporáneos.

Yendo al texto, estos son los dos momentos identificados respectivamente como el más positivo y el más negativo. Presento los párrafos originales y también las traducciones al inglés, que son las que realmente fueron evaluadas por el algoritmo. Cada uno puede sacar sus propias conclusiones:

  • Sentimiento compuesto 0,9995

«Preguntóle don Quijote si eran de algún príncipe, que así las ponderaba. — No son —respondió el estudiante— sino de un labrador y una labradora: él, el más rico de toda esta tierra; y ella, la más hermosa que han visto los hombres. El aparato con que se han de hacer es estraordinario y nuevo, porque se han de celebrar en un prado que está junto al pueblo de la novia, a quien por excelencia llaman Quiteria la hermosa, y el desposado se llama Camacho el rico; ella de edad de diez y ocho años, y él de veinte y dos; ambos para en uno, aunque algunos curiosos que tienen de memoria los linajes de todo el mundo quieren decir que el de la hermosa Quiteria se aventaja al de Camacho; pero ya no se mira en esto, que las riquezas son poderosas de soldar muchas quiebras. En efecto, el tal Camacho es liberal y hásele antojado de enramar y cubrir todo el prado por arriba, de tal suerte que el sol se ha de ver en trabajo si quiere entrar a visitar las yerbas verdes de que está cubierto el suelo. Tiene asimesmo maheridas danzas, así de espadas como de cascabel menudo, que hay en su pueblo quien los repique y sacuda por estremo; de zapateadores no digo nada, que es un juicio los que tiene muñidos; pero ninguna de las cosas referidas ni otras muchas que he dejado de referir ha de hacer más memorables estas bodas, sino las que imagino que hará en ellas el despechado Basilio. Es este Basilio un zagal vecino del mesmo lugar de Quiteria, el cual tenía su casa pared y medio de la de los padres de Quiteria, de donde tomó ocasión el amor de renovar al mundo los ya olvidados amores de Píramo y Tisbe, porque Basilio se enamoró de Quiteria desde sus tiernos y primeros años, y ella fue correspondiendo a su deseo con mil honestos favores, tanto, que se contaban por entretenimiento en el pueblo los amores de los dos niños Basilio y Quiteria. Fue creciendo la edad, y acordó el padre de Quiteria de estorbar a Basilio la ordinaria entrada que en su casa tenía; y, por quitarse de andar receloso y lleno de sospechas, ordenó de casar a su hija con el rico Camacho, no pareciéndole ser bien casarla con Basilio, que no tenía tantos bienes de fortuna como de naturaleza; pues si va a decir las verdades sin invidia, él es el más ágil mancebo que conocemos: gran tirador de barra, luchador estremado y gran jugador de pelota; corre como un gamo, salta más que una cabra y birla a los bolos como por encantamento; canta como una calandria, y toca una guitarra, que la hace hablar, y, sobre todo, juega una espada como el más pintado.»

«“No,” responded the student, “not a prince, but the richest farmer in this entire land, and the most beautiful farmgirl men have ever seen. The preparations for the wedding celebration are extraordinary and remarkable, because it will be held in a meadow near the bride’s village; she is always called fair Quiteria, and the groom is called rich Camacho; she is eighteen and he is twenty-two; they are equals, though certain inquisitive people who have the lineages of the entire world memorized claim that fair Quiteria’s is superior to Camacho’s, but nobody thinks about that nowadays: wealth has the power to mend a good many cracks. In fact, Camacho is extremely generous, and he has taken a notion to weave branches into a bower to cover the entire meadow, so that the sun will have great difficulty if it wants to come in to visit the green grass covering the ground. He also has arranged for dances, with swords and with bells, for there are in his village people who are excellent at ringing and shaking them, and I won’t say anything about the heel-tappers, for the general opinion is that he has a good number of them ready; but none of the things I’ve mentioned, or the many others that I’ve omitted, are what will make this wedding memorable, but rather the things I imagine a desperate Basilio will do. This Basilio is a shepherd from the same village as Quiteria, and his house shared a wall with the house of Quiteria’s parents, allowing love the opportunity to renew in the world the long-forgotten loves of Pyramus and Thisbe, because Basilio loved Quiteria from his earliest, tenderest youth, and she responded to his desire with a thousand honest favors, so that in the village the love of the two children, Basilio and Quiteria, was recounted with amusement. As they grew older, Quiteria’s father decided to deny Basilio the access to his house that he once had enjoyed, and to spare himself mistrust and endless suspicions, he arranged for his daughter to marry rich Camacho, for it did not seem a good idea to marry her to Basilio, who was better endowed by nature than by fortune; if the truth be told, without envy, he is the most agile youth we know, a great hurler of the bar, an excellent wrestler, a fine pelota player; he runs like a deer, leaps like a goat, and plays bowls as if he were enchanted; he sings like a lark, plays the guitar so well he makes it speak, and, most of all, he can fence with the best of them.”»

  • Sentimiento compuesto -0,9957

«— Así es —respondió don Quijote—, y la causa es que el que no puede ser agraviado no puede agraviar a nadie. Las mujeres, los niños y los eclesiásticos, como no pueden defenderse, aunque sean ofendidos, no pueden ser afrentados; porque entre el agravio y la afrenta hay esta diferencia, como mejor Vuestra Excelencia sabe: la afrenta viene de parte de quien la puede hacer, y la hace y la sustenta; el agravio puede venir de cualquier parte, sin que afrente. Sea ejemplo: está uno en la calle descuidado, llegan diez con mano armada, y, dándole de palos, pone mano a la espada y hace su deber, pero la muchedumbre de los contrarios se le opone, y no le deja salir con su intención, que es de vengarse; este tal queda agraviado, pero no afrentado. Y lo mesmo confirmará otro ejemplo: está uno vuelto de espaldas, llega otro y dale de palos, y en dándoselos huye y no espera, y el otro le sigue y no alcanza; este que recibió los palos, recibió agravio, mas no afrenta, porque la afrenta ha de ser sustentada. Si el que le dio los palos, aunque se los dio a hurtacordel, pusiera mano a su espada y se estuviera quedo, haciendo rostro a su enemigo, quedara el apaleado agraviado y afrentado juntamente: agraviado, porque le dieron a traición; afrentado, porque el que le dio sustentó lo que había hecho, sin volver las espaldas y a pie quedo. Y así, según las leyes del maldito duelo, yo puedo estar agraviado, mas no afrentado; porque los niños no sienten, ni las mujeres, ni pueden huir, ni tienen para qué esperar, y lo mesmo los constituidos en la sacra religión, porque estos tres géneros de gente carecen de armas ofensivas y defensivas; y así, aunque naturalmente estén obligados a defenderse, no lo están para ofender a nadie. Y, aunque poco ha dije que yo podía estar agraviado, agora digo que no, en ninguna manera, porque quien no puede recebir afrenta, menos la puede dar; por las cuales razones yo no debo sentir, ni siento, las que aquel buen hombre me ha dicho; sólo quisiera que esperara algún poco, para darle a entender en el error en que está en pensar y decir que no ha habido, ni los hay, caballeros andantes en el mundo; que si lo tal oyera Amadís, o uno de los infinitos de su linaje, yo sé que no le fuera bien a su merced.»

«“That is true,” responded Don Quixote, “and the reason is that one who cannot be insulted cannot insult anyone else. Women, children, and ecclesiastics, since they cannot defend themselves even if they have been offended, cannot receive an affront. Because the difference between an insult and an affront, as Your Excellency knows better than I, is that an affront comes from one who can commit it, and does so, and sustains it; an insult can come from anywhere, without being an affront. For example: a man is standing idly in the street; ten men arrive with weapons in their hands and strike him, and he draws his sword to perform his duty, but the number of his adversaries hinders this and does not allow him to carry out his intention, which is to take his revenge; this man has been insulted but not affronted. And another example will confirm the same thing: a man’s back is turned, another comes up and strikes him, and having struck him, he flees and does not wait, and the other pursues but cannot overtake him; the one who was struck received an insult but not an affront, because an affront must be sustained. If the one who struck him, even if he did so surreptitiously, had drawn his sword and stood firm, facing his enemy, the man who was struck would be both insulted and affronted: insulted, because he was struck covertly; affronted, because the one who struck him sustained what he had done, not turning his back and standing firm. And so, according to the laws of this accursed dueling, I can be insulted but not affronted, because children are not aware of what they do, and women cannot flee, nor can they be expected to, and the same is true of those who hold positions in holy religion, because these three kinds of people lack both offensive and defensive weapons; consequently, although they naturally may be obliged to defend themselves, they are not capable of offending anyone. And although I said a little while ago that I could be insulted, now I say no, not in any manner, because one who cannot receive an affront is even less capable of committing one; for these reasons I should not be aggrieved, and I am not, by what that good man said to me; I wish only that he had stayed so that I could have convinced him of his error in thinking and saying that there were no knights errant in the world, and that there are none now, for if Amadis or any of his infinite descendants had heard him, I know it would not have gone well for his grace.”»


¿Cuál será la próxima víctima? ¿Querés que tire algún libro en particular a la Picadora de palabras? Mencionalo en los comentarios.




[1] Esta es una de las medidas más antiguas y más ampliamente utilizada para evaluar la riqueza léxica de un texto. Se llama TTR, que es la abreviación de la expresión inglesa type-token ratio.

[2] Hápax legómenon es una transliteración del griego άπάξ λεγόμενον (άπάξ «una sola vez» y τό λεγόμενον «lo que se dice», «lo dicho»). 

El siguiente es un análisis de la obra Don Quijote de la Mancha basado únicamente en datos. Existen muchas métricas interesantes que podemos...

Las letras y el café combinan bien


Si disfrutaste la lectura, te propongo que apoyes a este espacio con una tasa virtual.

5 comentarios:

  1. Impecable y arduo trabajo, te felicito!!! Abrazos
    Cecy :)

    ResponderBorrar
  2. Belíssimo . Felicitações. Maria .

    ResponderBorrar
  3. Como puedo evaluar mi propio manuscrito? Novela de 60 mil palabras. Felicitaciones y gracias por los recursos ofrecidos

    ResponderBorrar