BIG DATA ENTC
Cuando estuvimos por Cabezón, pensé que sería divertido realizar un pequeño estudio sobre los textos presentados al concurso de 2024 usando alguna de las herramientas de Big Data. La idea principal era presentar ciertos datos agregados sobre lo que escribimos en ENTC. En cierto modo, se trataba de mostrar algunas de nuestras tendencias o querencias en la escritura. Está claro que se puede inferir sobre mil temas o cuestiones: nombres favoritos de personas, determinantes, signos de puntuación, adjetivos más utilizados… También se podrían realizar estudios de variables múltiples o complejas, pero eso ¡uf! complicaría la programación y la clasificación de los datos. Espero que las seleccionadas en esta ocasión resulten curiosas y agradables.
Y después de un análisis de los textos que se han subido para las 8 convocatorias de 2024, se obtienen aspectos como estos:
Datos en crudo:
- Textos (válidos): 668. Pues fue precisamente en el año 668 cuando el rey Munmu de Silla unificó por primera vez la península de Corea. ¿A qué viene esto? Pues a que todo está relacionado. En este link se puede observar la bandera del reino de Silla. Miradla haciendo el pino.
- Palabras (supuestas): 111784, código hexadecimal del color que es una sombra oscura media de azul, exactamente el mismo tono que el gran Munmu de Silla gustaba de observar en la noche mientras su esposa Mishil le contaba sus cuentos. En fin. Las palabras reales han sido 111820 y es que, en 36 ocasiones, se han creado palabras muy muy raras.
- Números escritos en cifras: 70, entre el cero y el siete mil ciento ochenta y tres. El más utilizado ha sido el 20 en 4 ocasiones.
- Caracteres totales: 531278.
- Longitud media por palabra: 4,75 letras, píxel arriba, píxel abajo.
- Faltas de orografía: alrededor de 500 según los correctores convocantes, 14 según la guardia urbana. Una falta cada 223 palabras; algo menos de una por relato. No está mal. Aun así, el padre Remigio, el de lengua, ese que daba coscorrones con todas las llaves del colegio a la vez, estará removiéndose en su tumba.
- Cantidad de versiones de puntuación de un diálogo: innumerables.
Análisis e inferencias con los resultados:
Se han utilizado 18609 palabras distintas, tomando el plural como forma distinta de una palabra.
La palabra más larga de los textos de las convocatorias de 2024 tiene 19 letras, un adverbio: inquebrantablemente. Le siguen muy de cerca otros adverbios de18 letras terminados en -mente. La primera palabra sin mente es intercontinentales también de 18 letras, junto a megasupercarísimas, dos megasuperletras más que nuestra mamihlapinatapai.
El ranking de las más utilizadas en los relatos está encabezado, evidentemente, por las de tipo gramatical. La primera de todas (usada en 5256 ocasiones) es de, 1226 veces más que la segunda: el artículo la. Esta dupla suele ser habitual en estos análisis de texto en español.
La primera forma verbal es es (407) y le siguen formas del verbo haber: ha (296) y había (260).
Somos visuales, porque el primer nombre que aparece es ojos en 220 ocasiones. Lo veo bien. Y la siguiente es vida. Me gusta.
A pesar de tanto ojo, la gente es muy tocona. Usa mucho las manos, los dedos y la piel, mucho más que la vista, la nariz, los oídos o la boca (en los textos, claro). Es difícil calcular exactamente cuánto por la polisemia de los verbos relacionados con los sentidos, pero lo que menos se narra es el olor. En cuanto al sabor, predomina el dulce (33) y le sigue el amargo (11). En 2024 no ha habido nada de picante. Cero. Pero es lógico si pensamos que de toooodas las palabras escritas, el sexo no llega a 10 y eso que no se ha restado un asexuado que pasaba por ahí. Habrá que arreglarlo.
Aunque sobre colores no hay nada escrito, el preferido en ENTC es el blanco (74) y el que brilla por su ausencia es el marrón, aunque hay un caqui precioso. Los azules (53) son los segundos y el negro (44), el tercero. Les siguen rojo (27), verde (23), rosa (21), gris (20), amarillo (16), 6 naranjas (de zumo o de mesa, por decidir), violeta (3), morados (2), un arcoíris y un ¿verdiamarillo? Para un daltónico esta parte es muy complicada. Sé que puede haber alguno más, pero, por ejemplo, los dos bermellones que se han escrito se pueden conseguir mezclando otros ya nombrados. Por cierto, hay nuevos nombres de colores. Buscad el trullo y el tan. Se os va a poner la piel tan trulla…
En cuanto a la paridad, estamos muy cerca. Hay 89 mujeres, incluyendo una mujercita, y 87 hombres si sumamos también al hombrecillo, el hombrecito y el hombretón. No se ha sumado al mujeriego porque en realidad era también el hombrecito.
¿Y qué ocurre con los progenitores? Pues algo similar, aunque hay más madres, mamás, mamitas y mamis (138 en total) que padres, papás y papis (120). Hay una supermamá, pero solo se ha tenido en cuenta una vez y no superveces ya que, por otro lado, también teníamos un desmadre que habría restado algo.
Donde no hay paridad, y solo pondré los números sin inferir conclusión alguna, es en la bondad y la maldad. Hay más buenos que buenas y más malas que malos. Los buenos duplican a las buenas (60 vs. 31) mientras que las malas, malévolas y maliciosas casi duplican a los maliciosos, malos y malignos (22 vs. 12). No sé, pero las malas del cine y de los cuentos son mucho más interesantes.
Si el listado fuera cerveza, tendríamos mucho alcohol en sangre porque preferimos con a sin, 1330 a 347, respectivamente. Si escribes, no conduzcas.
Siempre (199) gana a Nunca (122) y Todo (245) gana por paliza a Nada (115); podría parecer un dato positivo de quienes escriben en ENTC, pero no es cierto: hay 90 síes y … ¡1094 noes, my god! Menuda negatividad. Tanto no no puede traer nada bue-no. Cachis…
Y terminamos con un dato positivo: las palabras relacionadas con la vida casi cuadruplican a las de muerte (295 contra 77). Aún hay esperanza para la vida humana y, sobre todo, mucho hueco para más oscuros relatos.
¡Vaya currazo, Rafael! Gracias por traernos este análisis tan curioso e interesante de nuestras letras.
Cuánto dato y qué curioso todo, Rafa. Hay cosas que no me sorprenden y otras sí, pero lo que más sorpresa me ha causado ha sido que hayas tenido esta ocurrencia. Y mira que yo soy estadística…
Un abrazote y medio (no has contado los cariños que se reparten en los comentarios, eso para la próxima).
¡Qué currado, Maese! Deseando darte un abrazo bien gordo en persona.
Al final todo son estadísticas, y muy curiosas. Y al final, también, la IA, que a algunos, entre los que me cuento, nos da más reparo que confianza, puede servir para algo interesante, y dice cosas sobre nosotros
Gracias por el trabajazo, Rafa
¡Qué maravilla, Rafa! Me enloquecen estas cosas… tan curiosas. Gracias por el currazo y la divertida y literaria exposición… ¡¡Muy grande!! ¡¡Muy big!!
¡Ostras! Perdón por las «faltas de orografía» 😉 Ahí se quedan. Sufre, Remigio.
Me encanta este pedazo de curre que te has pegado, Rafa. Desde pequeño siempre me ha fascinado la estadística. Algunos datos son muy sorprendentes. Gracias por relatarlo tan ameno.
Buenísima la idea, Rafa!! Digna del INE 😉. Y encima ese relato tan ameno!! Me ha encantado.
¿Quién dijo que las matematicas eran aburridas? En realidad, creo que nadie dijo tal cosa. Pero es que, en tus manos, son pura fantasía. Gracias por el cirero, esta genial!
¿Quién dijo que las matematicas eran aburridas? En realidad, creo que nadie dijo tal cosa. Pero es que, en tus manos, son pura fantasía. Gracias por el curro, esta genial!
¡Qué bárbaro, Rafa! Muchas gracias por este regalazo.
¡Ohhh, que grande eres (en todos los sentidos)! Me encantan tus conclusiones a la vista de los datos, que genial. ¡Y vivan siempre la orografía dulce y tocona y los ojos verdiamarillos de ENTC! Gracias hombretón por esta visión tan chula. Un abrazo.
¡Datos! ¡ Más Datos!
Me has recordado al robot de la peli Cortocircuito, que acababa con el cerebro casi frito por tanto como acumulaba 😀
Así se me ha quedado el mío, aunque antes te hago la ola por todo lo que has recopilado ♣ ♣ ♣
Vaya tesis ENTCiana fantástica.
Gran trabajo, tocayo. Y buscando la parte práctica a la Big Data ¿qué tal si el próximo año le encargamos la revisión ortográfica y sintáctica de los relatos seleccionados? Así Susana, Belén y un servidor nos libramos de la tarea. Aunque, sin que aparezca en la estadística, la hacemos de mil amores. Abrazo.
Qué maravilla, Rafa. Muchísimas gracias por ese trabajazo. Muy interesante.
Excelente trabajo estadístico y más excelente aún el relato, los comentarios tan a cuento y con tanto humor. ¡¡¡Aplausos!!!
!Qué bueno, Rafa! El estudio del Big Data y la presentación. ¡Hasta la meta-ortografía de las faltas de orografía ha quedado genial!
Fantástico trabajazo y muchísimas gracias por compartirlo.