El escándalo del TFM de Cifuentes en las páginas de inicio

Esta es una reproducción de un hilo publicado en Twitter sobre el anáisis de noticias en portadas online del 9 de abril de 2018):

Para poder analizar las portadas de los último días he descargado cada hora el html de la portada de cada periódico con storytracker.

Está disponible el código para procesar los html de las portadas online con R.

Too long & do not read Spanish: How to parse and make the visualizations based on the archive of digital home pages built with storytracker: R code available.

Bueno, por fin puedo ponerme a contar noticias de Cifuentes en portada de los periódicos digitales. A ver qué sale:

Para poder el porcentaje de noticias sobre Cifuentes en portada necesitamos saber cuál es el total de noticias en cada momento (cada hora) en cada periódico:

Noticias en portada por hora en eldiario.es.

Después hay que contar los titulares en portada de las noticias que contienen “Cifuentes” (y palabras relacionadas con el caso de su máster) para un periódico. Ejemplo con eldiario.es:

Número de noticias en portada en eldiario.es sobre Cifuentes.

Para hacer el cálculo del número de noticias se han elegido todas aquellas que incluyen una de las siguientes palabras o grupos de palabras en su titular: “Cifuentes|Javier Ramos|Enrique Álvarez Conde|Pablo Chico|María Teresa Feito|Alicia López de los Cobos|Cecilia Rosado|Clara Souto|Amalia Calonge|Universidad Rey Juan Carlos”.

Continue reading

¿Cómo analizar la segregación escolar público-privada en Euskadi en 5 pasos?

Cuando me preguntaron si podía hacer unas visualizaciones de los datos sobre segregación escolar en la escuela pública y privada en Euskadi para la Iniciativa Legislativa Popular (ILP) por una escuela inclusiva me interesó mucho el tema. Veo en mi entorno más cercano de Bilbao unas diferencias grandes entre una y otra red escolar, pero no me había parado a estudiar con datos el tema.

No conocía la definición exacta del término “segregación”. Imaginaba que sí existían desigualdades socioeconómicas entre quienes atiende a las redes pública, concertada y privada en Euskadi, pero no había pensado cómo medirlo.

Según una definición la segregación escolar es el fenómeno por el cual los estudiantes se distribuyen desigualmente en las escuelas en función de alguna de sus características” y que es “por tanto, uno de los factores que contribuyen en mayor medida a impedir una verdadera igualdad de oportunidades y generar desigualdad social” como explican Murillo y Martínez-Garrido en un artículo publicado este año. Hay mucha literatura al respecto, que luego he ido conociendo, pero en un primer acercamiento nos pusimos a trabajar y trastear con los datos que teníamos disponibles.

Para estudiar las desigualdades entre las redes pública y privado-concertada de los centros educativos en Euskadi usamos los datos disponibles en el informe La educación en Euskadi 2013-2015 del Consejo Escolar de Euskadi.

Con todos estos y más datos publicamos en diciembre de 2017 un primer informe de acercamiento a la segregación escolar en Euskadi, cuando se anunció la ILP.

Ver informe: Análisis de cohesión e igualdad del sistema educativo en Euskadi.

 

Ahora vamos paso por paso a analizar esta situación de desequilibrio.

Continue reading

Un experimento de small data: black to de future

TL:DR Este es un relato de cómo montamos el bot de Twitter que retransmite con 10 años de retraso los gastos de las tarjetas black. Puedes leer también el post que ha escrito Alfonso con los detalles técnicos del desarrollo.

Desde hace un tiempo nos rondaba en Montera34 a Alfonso y a mi la idea de ponernos de nuevo con los datos de las tarjetas black. El juicio donde se juzgaba a los directivos de Caja Madrid y Bankia que habían usado sus tarjetas opacas a Hacienda estaba a punto de acabar. Todavía teníamos un pequeño margen antes de las deliberaciones finales y la sentencia.

En vez de analizar los datos en su conjunto otra vez ¿por qué no cambiar la forma de acercarse a los datos y fomentar ver el detalle de cada gasto? Nos parecía  interesante poder tratar los gastos uno a uno y entender cuándo y cómo sucedían. Un ejercicio de “smalldata para hacer mininarrativas con tamaño tuit de cada gasto.

La fechas no podían ser peores. Las navidades se acercaban, hacía falta cerrar varios proyectos, líos familiares… un tiempo perfecto para hacer un proyecto en modo exprés y en abierto.

Alfonso reutilizó algo de código de otro proyecto para hacer una página que publicaba los gastos del día. Por suerte teníamos ya los datos recopilados en un único archivo de la otra visualización: unos 75.000+ gastos clasificados por usuario, comercio, tipo de actividad…

A partir de esta primer boceto surgían algunas preguntas ¿se podían buscar otras fechas u otras distancias de años además de la década de distancia?
En principio nos gustó la idea que ahora parece obvia: ofrecer pocos datos para centrar la atención del usuario. Diez años es una cifra fácilmente inteligible por cualquiera.

Luego teníamos que resolver dónde ibamos a publicar la web. El subdominio lab.montera34.com podía valer. Tras un poco de tuneo a los estilos la web empezaba a tomar forma:

Por el camino surgió algo que también parece obvio ahora y que hacía casi todo lo demás del proyecto redundante. Tras comentar con Martín (@martgnz) el proyecto @censusamericans, que convierte cada hora una línea del censo en un tuit, del tipo “I had a baby last year. I don’t have health insurance. I am divorced. I moved last year. I got married in 2000.” nos sugirió tuitear en directo los gastos de las tarjetas black en riguroso directo en diferido.

Ya sólo nos faltaba desarrollar el bot para Twitter… y alguna cosa más.

Nos faltaba un nombre e imagen con gancho. Gracias a hacer el desarrollo del proyecto en abierto Guille nos sugirió Black to the Future. Lo españolizamos a @BlacktoDeFuture y así lo reducíamos a los caracteres necesarios para que cupiera en el nombre de una cuenta de Twitter. Nos gustaba también el Black2thefuture que proponía @jorgelamb, pero ya estaba pillado.

En apenas un hora, modificando el cartel original de Regreso al futuro que nos pasó Guille y una tipografía similar a la original que encontramos por ahí ¡Ya lo teníamos!

Mientras Alfonso cocinaba el bot hecho en Python me dediqué a lanzar la web para preparar la llegada del bot de Twitter. Publicar los gastos en una sola frase requería algunos retoques. A veces el nombre comercio no figuraba, pero sí el tipo de actividad (cajero, disposición en efectivo…). Con unas cuantas sentencias condicionales en PHP quedaba arreglado. También aproveche mis conocimientos recién adquiridos de R para reordenar todos los gasos por días y hora, así saldrían ordenados en la página de gastos del día.

Ya por entonces nos habíamos dado cuenta de que la web molaba, y mucho, pero que lo realmente iba a funcionar era el bot de Twitter. La web sería la partitura diaría que el bot tiene que seguir. La cuenta de Twitter permitiría seguir en “tiempo real” lo que gastaban los directivos de las black. Unos días después empezabámos a retransmitir:

En resumen, acabábamos de lanzar desde Montera34 un bot que tuiteaba todos los gastos de las tarjetas black con 10 años de retraso. Riguroso directo en diferido. Un viaje en el tiempo a otra era. Un viaje a 2006, un país que todavía no se enteraba de que la burbuja inmobiliaria y muchas otras cosas iban a estallar: @BlacktodeFuture.

Hay gastos de las tarjetas black anotados hasta el 29 de agosto de 2012:

2012-08-29 | 14:18:45 | APARCAMIENTO MONTALBAN | GARAJES,RESTO DE APARCAMIENTOS | 15.8€ | COMPRA | Miguel Ángel Abejón Resa

Quién sabe, quizás para el año 2022 todavía sigue funcionando nuestra máquina del tiempo y vayamos a celebrar el fin de su viaje al aparcamiento de la calle Montalbán en Madrid.

Continue reading

¿Cómo visualizar los 10 millones que no votaron?

El otro día comparábamos el número de votantes con el de abstencionistas con una visualización donde cada punto equivalía a 10.000 personas. Se podía evaluar el peso de la abstención y de los votos en blanco y nulos, que no suelen reprentarse en las estadísticas electorales.
votos-abstenciones-20d_02

Si actualizamos los datos con los resultados de 2016:

votos-abstenciones-26j_01

podemos ver que el aspecto general es bastante parecido, aunque sí hay diferencias. Para poder apreciarlas es necesario poner una visualización al lado de la otra:

votos-abstenciones-20d-26j_b01

Aquí sí se puede percibir el aumento de la abstención (gris), el aumento de votos del PP (azul), pero el descenso en PSOE, Podemos y Ciudadanos es más complicado de apreciar. El gráfico es válido para hacerse una idea de los datos en su conjuto, pero para comparar valores entre sí, no es la mejor forma: los colores comienzan en filas diferentes y en diferentes lugares de cada fila. Para poder comparar valores tenemos que alinear los inicios de cada partido:

votos-abstenciones-20d-26j_a01

De este modo podemos ver mucho más claramente el aumento de votos del PP y el descenso de los otros partidos. Este método nos permite además poner a IU junto a Podemos (y confluencias) en las elecciones de 2015, cuando se presentaban por separado y poder comparar los resultados cuando se han presentado en confluencia en Unidos Podemos. Esta visualización está pensada para mostrar el peso de los abstencionistas.

Actualización 28 junio 2016: Incluyo una mejora de la visualizacióncon los

votos-abstenciones-20d-26j_03

Por último os dejo con un gráfico de barras. Sólo suben en votos la abstención, el PP y el PACMA, de entre los partidos más votados.

votos-abstenciones-20d-26j_barras_01

 

 

Ni dos ni cuatro partidos, ganan los abstencionistas

Todo empezó por el cansancio que me producen los mapas que colorean las regiones con el color del ganador. A cualquiera le alarmaría un mapa como este:
spanish-elections-2016-3
no porque gane el PP, sino porque da una información muy incompleta fácilmente malinterpretable. Un partido con el 28,7% de los votos emitidos colorea toda las superficie.

Conceptualmente no es muy diferente a este otro, donde se colorea cada municipio con el color del ganador. El nivel de detalle es mayor, por lo tanto vemos más datos, pero creo que el problema sigue siendo el mismo.

Mapa de elecciones generales 2015. 20D en El País http://elpais.com/elpais/2015/12/18/media/1450461184_895079.html
Mapa de elecciones generales 2015. 20D en El País.

Todos comparten el mismo problema the winner takes it all, esto es, aunque en una región haya ganado un partido por un 2% toda ella quedará pintada del mismo color. Prefieron n veces el mapa con el nivel de detalle de los municipios, pero nos sigue representando solamente a los ganadores en uan realidad simplificada. Algunos mapas trabajan con gradientes de los colores para indicar cuánto es el porcentaje de votos de cada partido, como en este buenísimo mapa interactivo:

Elecciones 20D Congreso 2015 en El Español http://datos.elespanol.com/elecciones-generales/resultados/congreso/
Lukas APpelhans y Martín González. Elecciones 20D Congreso 2015 en El Español http://datos.elespanol.com/elecciones-generales/resultados/congreso/

El gradiente aumenta la información que se ofrece al usuario, pero creo que sigue siendo insuficiente si lo que queremos es analizar un sistema de más de 2 jugadores que comparten porcentajes de voto similares. No se trata de mayor nivel de detalle, sino de poder representar en un mismo gráfico al segundo, tercer y cuarto más votados. Se han probado gradientes entre 2, 3 ó 4 colores, pero si ya es difícil interpretar en valores numéricos un gradiente, imaginad lo complicado que es interpretar un color mezcla de distintas intensidades de azul, rojo, morado y naranja.

Si a eso le sumamos que queremos ver a las personas que no han ido a votar y nos olvidamos del mapa de momento… sale algo como la siguiente visualización, donde cada punto representa 10.000 votos en las pasadas eleciones de diciembre de 2015 al congreso:

votos-abstenciones-20d
Puedes ver el interactivo en http://numeroteca.org/electiondots/

Uno de cada cuatro personas con derecho a voto no fue a votar. Los puntos en gris representan a los más de 9 millones de personas que se abstuvieron. Estamos tan acostumbrados a leer los porcentajes de los que votaron, a ver los semicírculos coloreados que representan el congreso, a ver los mapas de los ganadores, que se nos olvida que existen los que no ejercieron su derecho. Ya sabemos que España no es bipartidista, pero tampoco es de cuatro (y algunos más) colores.

Si agrupamos por comunidades autónomas saldría algo así [nota, faltan los votos a Ciudadanos en Galicia]:

elecciones-20d-comunidades-abstenciones-votos

Y en un primer acercamiento al mapa saldría algo así:

elecciones-20d-comunidades-abstenciones-votos-mapa

que es una interpretación de una idea de Mark Monmonier para mejorar algunos problemas de los mapas con gradientes de color o “choropleth maps“.

Lying with Maps. Mark Monmonier. http://archi-intranet.ulb.ac.be/cours/sis/conception/lyingwithmaps.pdf
Lying with Maps. Mark Monmonier.

Hay propuestas muy interesantes para representar la totalidad de los votos, como esta de El Confidencial, aunque no sea geográficamente. Para ver población en forma de puntos aleatoriamente distribuidos dentro de los perímetros de una circunscripción está este buenísimo ejempo del New York Times con los datos del censo. Para representar escaños geográficamente hay ejemplos interesantes como este de El Confidencial que utiliza una retícula hexagonal donde cada hexágono es un diputado (más sobre mapas electorales y retículas en este intereante post de cartonerd).

Nota: parte de los ejemplos e investigación vienen de un proyecto/conversación en marcha con @martgnz.

De propina, os dejo con este diagrama de barras:

abstencione-votos_barras-01

Uses and abuses of data visualizations in mass media

Audio (.mp3).

ESS Visualisation Workshop 2016. Valencia. May 17-18, 2016.

Abstract

Data visualizations are a powerful way to display and communicate data that otherwise would be impossible to transmit in effective and concise ways. The spread of broadband Internet, the easier access to reusable datasets, the rise in read/write digital media literacies, and the lower barrier to generate data visualizations are making mass media to intensively use of infographics. Newspaper and online news sites are taking advantage of new, affordable and easy to access data visualization tools to broadcast their messages. How can these new tools and opportunities be used effectively? What are good practices regarding data visualization for a general audience?

After an introduction to a series of key concepts about visualizing data the lecture will follow with an analysis of a series of significant data visualizations (tables, pie and bar charts, maps and other systems) from TV, daily newspapers and news websites to detect good and bad practices when visualizing statistical information. The lecturer will then analyze recent literature of visualization studies regarding persuasion, memorability and comprehension. What are more effective embellished or minimal data visualizations? Does graphical presentation of data make a message more persuasive?

Kulturometer cabalga de nuevo

Gráfico de distribución presupuestaria de gasto en Cultura del Ayuntamiento de Madrid. 2009.
Gráfico de distribución presupuestaria de gasto en Cultura del Ayuntamiento de Madrid. 2009.

Como continuación del proyecto Kulturometer (2009) que desarrollé en Medialab-Prado durante las jornadas de Visualizar’09: Datos públicos, datos en público junto con otros agentes culturales de Madrid (Atravesadas por la cultura), se presenta ahora la investigación gráfica sobre visualización de los presupuestos municipales del Área de Cultura del Ayuntamiento de Madrid en 2016 que he realizado junto con Mar M. Núñez (noez.org).

Una oportunidad para volver a trabajar y pensar sobre datos en abierto y reutilizables y explorar maneas de visualizar presupuestos públicos. Hace 7 años hice el gráfico de tipo sankey prácticamente “a mano” con Freehand. Ahora he podido usar d3 y el plugin para Sankey, lo cual facilita mucho la tarea.

Merece la pena recordar, si nos remontamos a los orígenes del proyecto, que el objetivo inicial no eran ni los datos abiertos, ni la visualización de datos “per sé”, sino el entender cómo fluía el dinero -o no- desde las instituciones a los productores culturales. Seguimos teniendo eso en mente, aunque el resto de cosas que se han añadido al proyecto nos interesen igualente.

Presentación y debate en torno a Kulturometer 2.0
19.00h Lunes 7 de marzo 2016. Medialab Prado. Madrid.

En esta primera sesión se compartirá la investigación sobre el análisis de los presupuestos. Se darán las claves para poder analizar presupuestos oficiales y por otra se presentarán diferentes análisis gráficos del gasto dedicado a cultura en el Ayuntamiento de Madrid. Será una sesión abierta para que cualquiera pueda compartir sus dudas y preguntas. Todo el mundo es bienvenido.

Taller (fecha por concretar. Junio 2016)

El proyecto Kulturometer 2.0 comprenderá además la celebración de un taller de dos días en primavera (fechas por concretar) en el que se presentarán otras experiencias de visualización de presupuestos y se trabajará de manera práctica con ejemplos concretos de presupuestos de cultura en torno a las siguientes preguntas: ¿Qué herramientas tenemos y podemos usar para hacer análisis comparativos de presupuestos, tanto para uso interno de las organizaciones como para hacerlos accesibles y comprensibles para la ciudadanía? ¿Qué tipo de procesos de participación podemos poner en marcha para deliberar sobre los presupuestos públicos?

Asignar valores aleatorios a la posición vertical para ver datos pequeños o superpuestos

Posición aleatoria para poder ver cantidades pequeñas

Ya probé esta solución con las notas de Bárcenas, donde había que comparar cantidades desde 100 a casi 300.000 euros. En el caso de las tarjetas opacas o “tarjetas black” de Caja Madrid-Bankia pasa lo mismo: se combinan cantidades de 18 euros con otras de 16.000 euros.

Como las cantidades pequeñas quedan “tapadas” por las grandes, si se asigna una posición aleatoria en el eje vertical y se manteniene la posición en el eje horizontal (tiempo) permite dar visibilidad a las cantidades más pequeñas y entender la información de otra manera. Para ello he asignado la función al botón “Posición vertical aleatoria”. Puedes probarlo en numeroteca.org/tarjetasblack.

Asignar valores aleatorios a la posición vertical para ver datos pequeños o superpuestos
Asignar valores aleatorios a la posición vertical para ver datos pequeños o superpuestos.

Visualization of usage of different types of sources for news about Occupy movement


I’ve made this graphic for the book “We are many, they are few: Call out for movement stories Reflections on Movement Strategy from Occupation to Liberation” (AK Press) to be included with the article about the General Demographic and Participation Survey, research by and for the Movement: Key Findings From the Occupy Research General Demographic & Participation Survey (ORGS) by Christine Schweidler, Pablo Rey Mazón, Saba Waheed and Sasha Costanza-Chock, for Occupy Research and DataCenter. Continue reading