BIG DATA ENTC

Cuando estuvimos por Cabezón, pensé que sería divertido realizar un pequeño estudio sobre los textos presentados al concurso de 2024 usando alguna de las herramientas de Big Data. La idea principal era presentar ciertos datos agregados sobre lo que escribimos en ENTC. En cierto modo, se trataba de mostrar algunas de nuestras tendencias o querencias en la escritura. Está claro que se puede inferir sobre mil temas o cuestiones: nombres favoritos de personas, determinantes, signos de puntuación, adjetivos más utilizados… También se podrían realizar estudios de variables múltiples o complejas, pero eso ¡uf! complicaría la programación y la clasificación de los datos. Espero que las seleccionadas en esta ocasión resulten curiosas y agradables.

Y después de un análisis de los textos que se han subido para las 8 convocatorias de 2024, se obtienen aspectos como estos:

Datos en crudo:

Textos (válidos): 668. Pues fue precisamente en el año 668 cuando el rey Munmu de Silla unificó por primera vez la península de Corea. ¿A qué viene esto? Pues a que todo está relacionado. En este link se puede observar la bandera del reino de Silla. Miradla haciendo el pino.
Palabras (supuestas): 111784, código hexadecimal del color que es una sombra oscura media de azul, exactamente el mismo tono que el gran Munmu de Silla gustaba de observar en la noche mientras su esposa Mishil le contaba sus cuentos. En fin. Las palabras reales han sido 111820 y es que, en 36 ocasiones, se han creado palabras muy muy raras.
Números escritos en cifras: 70, entre el cero y el siete mil ciento ochenta y tres. El más utilizado ha sido el 20 en 4 ocasiones.
Caracteres totales: 531278.
Longitud media por palabra: 4,75 letras, píxel arriba, píxel abajo.
Faltas de orografía: alrededor de 500 según los correctores convocantes, 14 según la guardia urbana. Una falta cada 223 palabras; algo menos de una por relato. No está mal. Aun así, el padre Remigio, el de lengua, ese que daba coscorrones con todas las llaves del colegio a la vez, estará removiéndose en su tumba.
Cantidad de versiones de puntuación de un diálogo: innumerables.

Análisis e inferencias con los resultados:

Se han utilizado 18609 palabras distintas, tomando el plural como forma distinta de una palabra.

La palabra más larga de los textos de las convocatorias de 2024 tiene 19 letras, un adverbio: inquebrantablemente. Le siguen muy de cerca otros adverbios de18 letras terminados en -mente. La primera palabra sin mente es intercontinentales también de 18 letras, junto a megasupercarísimas, dos megasuperletras más que nuestra mamihlapinatapai.

El ranking de las más utilizadas en los relatos está encabezado, evidentemente, por las de tipo gramatical. La primera de todas (usada en 5256 ocasiones) es de, 1226 veces más que la segunda: el artículo la. Esta dupla suele ser habitual en estos análisis de texto en español.

La primera forma verbal es es (407) y le siguen formas del verbo haber: ha (296) y había (260).

Somos visuales, porque el primer nombre que aparece es ojos en 220 ocasiones. Lo veo bien. Y la siguiente es vida. Me gusta.

A pesar de tanto ojo, la gente es muy tocona. Usa mucho las manos, los dedos y la piel, mucho más que la vista, la nariz, los oídos o la boca (en los textos, claro). Es difícil calcular exactamente cuánto por la polisemia de los verbos relacionados con los sentidos, pero lo que menos se narra es el olor. En cuanto al sabor, predomina el dulce (33) y le sigue el amargo (11). En 2024 no ha habido nada de picante. Cero. Pero es lógico si pensamos que de toooodas las palabras escritas, el sexo no llega a 10 y eso que no se ha restado un asexuado que pasaba por ahí. Habrá que arreglarlo.

Aunque sobre colores no hay nada escrito, el preferido en ENTC es el blanco (74) y el que brilla por su ausencia es el marrón, aunque hay un caqui precioso. Los azules (53) son los segundos y el negro (44), el tercero. Les siguen rojo (27), verde (23), rosa (21), gris (20), amarillo (16), 6 naranjas (de zumo o de mesa, por decidir), violeta (3), morados (2), un arcoíris y un ¿verdiamarillo? Para un daltónico esta parte es muy complicada. Sé que puede haber alguno más, pero, por ejemplo, los dos bermellones que se han escrito se pueden conseguir mezclando otros ya nombrados. Por cierto, hay nuevos nombres de colores. Buscad el trullo y el tan. Se os va a poner la piel tan trulla…

En cuanto a la paridad, estamos muy cerca. Hay 89 mujeres, incluyendo una mujercita, y 87 hombres si sumamos también al hombrecillo, el hombrecito y el hombretón. No se ha sumado al mujeriego porque en realidad era también el hombrecito.

¿Y qué ocurre con los progenitores? Pues algo similar, aunque hay más madres, mamás, mamitas y mamis (138 en total) que padres, papás y papis (120). Hay una supermamá, pero solo se ha tenido en cuenta una vez y no superveces ya que, por otro lado, también teníamos un desmadre que habría restado algo.

Donde no hay paridad, y solo pondré los números sin inferir conclusión alguna, es en la bondad y la maldad. Hay más buenos que buenas y más malas que malos. Los buenos duplican a las buenas (60 vs. 31) mientras que las malas, malévolas y maliciosas casi duplican a los maliciosos, malos y malignos (22 vs. 12). No sé, pero las malas del cine y de los cuentos son mucho más interesantes.

Si el listado fuera cerveza, tendríamos mucho alcohol en sangre porque preferimos con a sin, 1330 a 347, respectivamente. Si escribes, no conduzcas.

Siempre (199) gana a Nunca (122) y Todo (245) gana por paliza a Nada (115); podría parecer un dato positivo de quienes escriben en ENTC, pero no es cierto: hay 90 síes y … ¡1094 noes, my god! Menuda negatividad. Tanto no no puede traer nada bue-no. Cachis…

Y terminamos con un dato positivo: las palabras relacionadas con la vida casi cuadruplican a las de muerte (295 contra 77). Aún hay esperanza para la vida humana y, sobre todo, mucho hueco para más oscuros relatos.

28 Responses

Nuria

7 abril, 2025 at 10:02 am


¡Vaya currazo, Rafael! Gracias por traernos este análisis tan curioso e interesante de nuestras letras.
Ana María Abad García

7 abril, 2025 at 10:06 am


Cuánto dato y qué curioso todo, Rafa. Hay cosas que no me sorprenden y otras sí, pero lo que más sorpresa me ha causado ha sido que hayas tenido esta ocurrencia. Y mira que yo soy estadística…
Un abrazote y medio (no has contado los cariños que se reparten en los comentarios, eso para la próxima).
Jesús Alcañiz

7 abril, 2025 at 11:31 am


¡Qué currado, Maese! Deseando darte un abrazo bien gordo en persona.
Ángel Saiz Mora

7 abril, 2025 at 12:11 pm


Al final todo son estadísticas, y muy curiosas. Y al final, también, la IA, que a algunos, entre los que me cuento, nos da más reparo que confianza, puede servir para algo interesante, y dice cosas sobre nosotros
Gracias por el trabajazo, Rafa
Salvador Terceño Raposo

7 abril, 2025 at 1:27 pm


¡Qué maravilla, Rafa! Me enloquecen estas cosas… tan curiosas. Gracias por el currazo y la divertida y literaria exposición… ¡¡Muy grande!! ¡¡Muy big!!
Rafael Loscertales de la Puebla

7 abril, 2025 at 2:16 pm


¡Ostras! Perdón por las «faltas de orografía» 😉 Ahí se quedan. Sufre, Remigio.
Pablo Cavero

7 abril, 2025 at 2:46 pm


Me encanta este pedazo de curre que te has pegado, Rafa. Desde pequeño siempre me ha fascinado la estadística. Algunos datos son muy sorprendentes. Gracias por relatarlo tan ameno.
Candelas

7 abril, 2025 at 3:58 pm


Buenísima la idea, Rafa!! Digna del INE 😉. Y encima ese relato tan ameno!! Me ha encantado.
1. Rosalía Guerrero
  
  7 abril, 2025 at 4:02 pm
  
  
  ¿Quién dijo que las matematicas eran aburridas? En realidad, creo que nadie dijo tal cosa. Pero es que, en tus manos, son pura fantasía. Gracias por el cirero, esta genial!
Rosalía Guerrero

7 abril, 2025 at 4:02 pm


¿Quién dijo que las matematicas eran aburridas? En realidad, creo que nadie dijo tal cosa. Pero es que, en tus manos, son pura fantasía. Gracias por el curro, esta genial!
Enrique Mochón Romera

7 abril, 2025 at 4:15 pm


¡Qué bárbaro, Rafa! Muchas gracias por este regalazo.
Eva García

7 abril, 2025 at 5:11 pm


¡Ohhh, que grande eres (en todos los sentidos)! Me encantan tus conclusiones a la vista de los datos, que genial. ¡Y vivan siempre la orografía dulce y tocona y los ojos verdiamarillos de ENTC! Gracias hombretón por esta visión tan chula. Un abrazo.
Esperanza Tirado Jiménez

7 abril, 2025 at 5:14 pm


¡Datos! ¡ Más Datos!
Me has recordado al robot de la peli Cortocircuito, que acababa con el cerebro casi frito por tanto como acumulaba 😀
Así se me ha quedado el mío, aunque antes te hago la ola por todo lo que has recopilado ♣ ♣ ♣
Vaya tesis ENTCiana fantástica.
Rafa Olivares

7 abril, 2025 at 5:21 pm


Gran trabajo, tocayo. Y buscando la parte práctica a la Big Data ¿qué tal si el próximo año le encargamos la revisión ortográfica y sintáctica de los relatos seleccionados? Así Susana, Belén y un servidor nos libramos de la tarea. Aunque, sin que aparezca en la estadística, la hacemos de mil amores. Abrazo.
Asun Paredes

7 abril, 2025 at 5:38 pm


Qué maravilla, Rafa. Muchísimas gracias por ese trabajazo. Muy interesante.
Edita Nogueira Tallón

7 abril, 2025 at 8:11 pm


Excelente trabajo estadístico y más excelente aún el relato, los comentarios tan a cuento y con tanto humor. ¡¡¡Aplausos!!!
Rafa Heredero

7 abril, 2025 at 8:54 pm


!Qué bueno, Rafa! El estudio del Big Data y la presentación. ¡Hasta la meta-ortografía de las faltas de orografía ha quedado genial!
Fantástico trabajazo y muchísimas gracias por compartirlo.
Pablo Núñez

7 abril, 2025 at 9:21 pm


Vaya trabajo bien hecho, Rafa, y qué datos más curiosos e interesantes.
¡Graciaaaaasss!
1. Rosa Gómez Gómez
  
  9 abril, 2025 at 5:32 pm
  
  
  El big data es lo aire tiene, muchos datos. A mí lo que de verdad me ha gustado son los comentarios. Una composición digna de un relatista.
  Divertida!
Aurora

8 abril, 2025 at 8:02 am


Muy bueno, Rafa, ¡qué curiosos los resultados! Dan que pensar jajaja
Muchas gracias por compartirlo. ¡Abrazo!
Nuria Rozas

8 abril, 2025 at 8:44 am


¡Haaaalaaaaaaaaa, vaya currooooo, Rafa!
Me encantan estas cosas. Ahora nos toca cambiar las estadísticas para que el año que viene no te valgan estos datos y nos hagas un nuevo estudio megasurpercuqui de estos. 😇 jajajajajaj
Rosy Val

8 abril, 2025 at 11:38 am


Qué pasada, ocurrente y divertido… 😉 ¡Muchas gracias, Rafa!
María Gil

8 abril, 2025 at 12:40 pm


👏👏👏👏.
Mei Morán

8 abril, 2025 at 5:33 pm


Qué decir? Es un gran trabajo estadísitco. Muy currado.
Lluís Talavera

8 abril, 2025 at 7:35 pm


Bravo, Rafa!! Me has puesto los dientes largos, me dan ganas de ponerme yo también, aunque tendría que encontrar el tiempo. No sé si sabías que lo mío es el machine learning 🙂
1. Rafael Loscertales de la Puebla
  
  8 abril, 2025 at 8:42 pm
  
  
  Sí, lo sé. Otro año lo complicamos con diccionarios y así refresco la programación en R o me pongo a bucear en Python. Pero da tanta pereza… jajajaja
Juana María Igarreta Egúzquiza

11 abril, 2025 at 2:48 pm


Dios mío, qué trabajo tan curioso, arduo e interesante. Muchas gracias, Rafael. Un abrazo.
Blanca Oteiza

11 abril, 2025 at 5:50 pm


Madre mía qué curro y qué interesante. Me ha encantado leerlo.
Un abrazo

Single Blog Title

BIG DATA ENTC

About Post Author

Rafael Loscertales de la Puebla

28 Responses

Leave a Reply Cancel Reply