Un artículo sobre el software que utiliza “El color de la corrupción”

Hace unos meses publicamos un artículo en una revista científica sobre PageOneX, el software con el que analizamos las portadas.

The paper Sasha and I have been working on for quite a long time
has just been published at the International Journal of Communication PageOneX: New Approaches to Newspaper Front Page Analysis. We hope it provides an useful guide and resource to the field of the newspapers front page analysis.

PageOneX: New Approaches to Newspaper Front Page Analysis
Sasha Costanza-Chock, Pablo Rey-Mazón

Abstract

PageOneX is a Free/Libre and Open Source Software tool that we
designed to aid in the coding, analysis, and visualization of newspaper
front pages. Communication scholars have long analyzed newspaper front
pages, using column inches as an important indicator of mass media
attention. In the past, this involved obtaining physical copies of
newspapers, coding and measurement by hand, and manual input of
measurements into a spreadsheet or database, followed by calculation,
analysis, and visualization. PageOneX automates some of these steps,
simplifies others, and makes it possible for teams of investigators to
conduct shared newspaper front page analysis online. We review
scholarship in this area, describe our approach in depth, provide
concrete examples of analysis conducted by media scholars using
PageOneX, and discuss future directions for research and development.

Download article (pdf).

¿Cómo visualizar los 10 millones que no votaron?

El otro día comparábamos el número de votantes con el de abstencionistas con una visualización donde cada punto equivalía a 10.000 personas. Se podía evaluar el peso de la abstención y de los votos en blanco y nulos, que no suelen reprentarse en las estadísticas electorales.
votos-abstenciones-20d_02

Si actualizamos los datos con los resultados de 2016:

votos-abstenciones-26j_01

podemos ver que el aspecto general es bastante parecido, aunque sí hay diferencias. Para poder apreciarlas es necesario poner una visualización al lado de la otra:

votos-abstenciones-20d-26j_b01

Aquí sí se puede percibir el aumento de la abstención (gris), el aumento de votos del PP (azul), pero el descenso en PSOE, Podemos y Ciudadanos es más complicado de apreciar. El gráfico es válido para hacerse una idea de los datos en su conjuto, pero para comparar valores entre sí, no es la mejor forma: los colores comienzan en filas diferentes y en diferentes lugares de cada fila. Para poder comparar valores tenemos que alinear los inicios de cada partido:

votos-abstenciones-20d-26j_a01

De este modo podemos ver mucho más claramente el aumento de votos del PP y el descenso de los otros partidos. Este método nos permite además poner a IU junto a Podemos (y confluencias) en las elecciones de 2015, cuando se presentaban por separado y poder comparar los resultados cuando se han presentado en confluencia en Unidos Podemos. Esta visualización está pensada para mostrar el peso de los abstencionistas.

Actualización 28 junio 2016: Incluyo una mejora de la visualizacióncon los

votos-abstenciones-20d-26j_03

Por último os dejo con un gráfico de barras. Sólo suben en votos la abstención, el PP y el PACMA, de entre los partidos más votados.

votos-abstenciones-20d-26j_barras_01

 

 

Ni dos ni cuatro partidos, ganan los abstencionistas

Todo empezó por el cansancio que me producen los mapas que colorean las regiones con el color del ganador. A cualquiera le alarmaría un mapa como este:
spanish-elections-2016-3
no porque gane el PP, sino porque da una información muy incompleta fácilmente malinterpretable. Un partido con el 28,7% de los votos emitidos colorea toda las superficie.

Conceptualmente no es muy diferente a este otro, donde se colorea cada municipio con el color del ganador. El nivel de detalle es mayor, por lo tanto vemos más datos, pero creo que el problema sigue siendo el mismo.

Mapa de elecciones generales 2015. 20D en El País http://elpais.com/elpais/2015/12/18/media/1450461184_895079.html
Mapa de elecciones generales 2015. 20D en El País.

Todos comparten el mismo problema the winner takes it all, esto es, aunque en una región haya ganado un partido por un 2% toda ella quedará pintada del mismo color. Prefieron n veces el mapa con el nivel de detalle de los municipios, pero nos sigue representando solamente a los ganadores en uan realidad simplificada. Algunos mapas trabajan con gradientes de los colores para indicar cuánto es el porcentaje de votos de cada partido, como en este buenísimo mapa interactivo:

Elecciones 20D Congreso 2015 en El Español http://datos.elespanol.com/elecciones-generales/resultados/congreso/
Lukas APpelhans y Martín González. Elecciones 20D Congreso 2015 en El Español http://datos.elespanol.com/elecciones-generales/resultados/congreso/

El gradiente aumenta la información que se ofrece al usuario, pero creo que sigue siendo insuficiente si lo que queremos es analizar un sistema de más de 2 jugadores que comparten porcentajes de voto similares. No se trata de mayor nivel de detalle, sino de poder representar en un mismo gráfico al segundo, tercer y cuarto más votados. Se han probado gradientes entre 2, 3 ó 4 colores, pero si ya es difícil interpretar en valores numéricos un gradiente, imaginad lo complicado que es interpretar un color mezcla de distintas intensidades de azul, rojo, morado y naranja.

Si a eso le sumamos que queremos ver a las personas que no han ido a votar y nos olvidamos del mapa de momento… sale algo como la siguiente visualización, donde cada punto representa 10.000 votos en las pasadas eleciones de diciembre de 2015 al congreso:

votos-abstenciones-20d
Puedes ver el interactivo en https://numeroteca.org/electiondots/

Uno de cada cuatro personas con derecho a voto no fue a votar. Los puntos en gris representan a los más de 9 millones de personas que se abstuvieron. Estamos tan acostumbrados a leer los porcentajes de los que votaron, a ver los semicírculos coloreados que representan el congreso, a ver los mapas de los ganadores, que se nos olvida que existen los que no ejercieron su derecho. Ya sabemos que España no es bipartidista, pero tampoco es de cuatro (y algunos más) colores.

Si agrupamos por comunidades autónomas saldría algo así [nota, faltan los votos a Ciudadanos en Galicia]:

elecciones-20d-comunidades-abstenciones-votos

Y en un primer acercamiento al mapa saldría algo así:

elecciones-20d-comunidades-abstenciones-votos-mapa

que es una interpretación de una idea de Mark Monmonier para mejorar algunos problemas de los mapas con gradientes de color o “choropleth maps“.

Lying with Maps. Mark Monmonier. http://archi-intranet.ulb.ac.be/cours/sis/conception/lyingwithmaps.pdf
Lying with Maps. Mark Monmonier.

Hay propuestas muy interesantes para representar la totalidad de los votos, como esta de El Confidencial, aunque no sea geográficamente. Para ver población en forma de puntos aleatoriamente distribuidos dentro de los perímetros de una circunscripción está este buenísimo ejempo del New York Times con los datos del censo. Para representar escaños geográficamente hay ejemplos interesantes como este de El Confidencial que utiliza una retícula hexagonal donde cada hexágono es un diputado (más sobre mapas electorales y retículas en este intereante post de cartonerd).

Nota: parte de los ejemplos e investigación vienen de un proyecto/conversación en marcha con @martgnz.

De propina, os dejo con este diagrama de barras:

abstencione-votos_barras-01

Qué y cuánto nos contaron en precampaña #26J

Animado por la buena acogida del estudio de cobertura de las eleccciones del 20D he mejorado el análisis con las portadas en precampaña de las elecciones generales del 26J.

Porcentaje dedicado a partidos e internacional en portadas de prensa en España, precampaña 26J.
Porcentaje dedicado a partidos e internacional en portadas de prensa en España, precampaña 26J.

En vez de ofrecer los valores agregados de los diferentes medios, o la suma de valores por dia, esta vez muestro la cobertura de cada partido por separado y diferenciando los datos de cada medio. En cada uno de los “small multiple” (uno por cada partido, internacional y Venezuela) se puede ver la frecuencia, tamaño, posición y cantidad de la cobertura de cada tema. A la derecha en un diagrama de barras se puede ver la media total por tema y periódico. Separando los colores en diferentes gráficos es más sencillo analizar los datos que cuando están todos juntos (arriba del todo).

Algunas conclusiones en formato breves:

  • Se habla de Ciudadanos cuando Rivera se va de viaje a Venezuela o se le entrevista
  • Si el ABC habla de Podemos es para desfavorecerlo
  • El País es el que más noticias no desfavorables da del PSOE
  • El País, el periódico con más noticias internacionales
  • Más de la mitad de noticias internacionales en ABC y La Razón son de Venezuela
  • La Razón, los que más número de noticias sobre el PP (22) y sólo 3 desfavorbles

Además, como acabo de descubrir que el Consejo de informativos de TVE ha protestado por el sesgo informativo de las noticias en el Canal 24h y que ha realizado un estudio del tiempo dedicado a partidos políticos y otros temas. He comparado los datos de cobertura en portadas con los de la televisión pública:

Cobertura en precampaña 26J. Portadas y TVE.
Cobertura en precampaña 26J. Portadas y TVE.

Los datos del estudio del Consejo de informativos incluidos en el informe, salen de las escaletas a las que tienen acceso los trabajadores de TVE y que no se hacen públicos. El propio informe no está disponible desde la noticias que haban de él ni desde la propia página web del consejo, que lleva caída, al menos, desde el jueves pasado.

Puedes ver la visualización interactiva en en PageOneX de la que se extraen todos estos datos.

preelectoral-26J-pageonex-numeroteca

Fuentes

Portadas de periódicos: 13 mayo – 9 junio 2016. Fuente: numeroteca.org + PageOneX.com.
Tiempo en Canal 24h (TVE): 4 mayo – 8 junio 2016. Fuente: Consejo de informativos TVE.
Votos elecciones generales 20 diciembre 2015.

Metodología

Para los datos de portadas se ha medido con PageOneX.com el porcentaje que ocupan las noticias respecto del total de noticias donde aparecen partidos o miembros de partidos políticos de ámbito municipal, autonómico y estatal.
Para el tiempo en el Canal 24h hemos usado los datos del Consejo de Informativos de TVE que ha contabilizado los tiempos de emisión de actos de partido y/o de gobierno.

Esta es mi primera colaboración con Politibot.es y toda la buena gente que está metida en sus  tripas y cables. Politibot es un robot de Telegram que acaba de nacer (el pasado jueves) para informar sobre las elecciones del 26J tomando noticias y datos de diferntes mediso de comunicación y fuentes de información.

Agradecimienos: a @wanalanda por su labor de editora-correctora.

El color de la corrupción en el Anuari dels Silencis Mediàtics 2015

El color de la corrupció nen el Anuari dels Silencis Mediàtics Mèdia.cat
El color de la corrupción en el Anuari dels Silencis Mediàtics Mèdia.cat 2015.

El Anuario de los silencios mediáticos 2015, que produce Mèdia.cat cada año, ha incluido datos de El color de la corrupción como unos gráficos de barras producidos por ellos mismo. El pdf del anuario completo se puede descargar de su web. Es una alegría que se les de uso a estos datos y un buen momento para recordar que todos los datos del proyecto están publicados en abierto.

Recientemente vi también que usaron también los datos en un artículo en revista científica: Podemos and Ciudadanos Shake up the Spanish Party System: The 2015 Local and Regional Elections (2016) de Toni Rodon y María José Hierro, South European Society and Politics:

“During the first months of 2013, news related to corruption scandals took, on average, 15 per cent of Spanish newspapers’ front pages [note]. In April 2015, one month before the local and regional elections took place, each newspaper devoted 20 per cent of their front pages to news related to corruption”.

Note: “The evolution of newspapers’ front pages devoted to corruption scandals since 2013 can be found here: https://numeroteca.org/wp-content/uploads/2015/06/1505_mayo-corrupcion-elecciones.png. For more information about the project see: http://pageonex.com/”

Ante la ausencia de datos disponibles en formato libre y reutilizable sobre cobertura mediática El color de la corrupción está encontrando su hueco. Quizás hay que encontrar una mejor y más organizada forma para citarlo, de momento, como sugería a Mèdia.cat es poner un link a la web numeroteca.org/colorcorrupcion.

 

From Abstract research plan to Research Plan

pastpages-for-spanish-newspapers

Después de unos ajustes al resumen que preparé para el seminario de hace unas semanas he presentado el Abstrac Research Plan a la comisión de doctorado. El cambio principal es centrar o dar más peso al estudio de las redes sociales (social networking sites) en el ecosistema de medios, que son que ha cambiado el panorama de la comunicación en los últimos tiempos. Dentro de “mass media” incluyo “news media” y “social media“. La idea es usar el caso de la cobertura de corrupción para realizar esta investigación.

A finales de mes tengo que presentar el plan de investigación completo (4.500 palabras) así que ya estoy trabajando en ello. A ver cómo este nuevo enfoque me hace reestructurar y escribir lo que tenía hasta ahora.

Mientras, pastpages.org se ha puesto a funcionar para capturar las portadas de los principales diarios online  que le pasé a Ben Welsh ¡thank you! No está funcionando del todo bien, no todos los periódicos aparecen etiquetados como “Spain” pero ya va empezando a existir el archivo de periódicos online en España. De momento sólo archiva la imagen de la portada, no el código html. Esa funcionalidad solamente está disponible para ciertos periódicos.

Además, tendré que leer las recomendaciones de Ismael Peña, mi tutor, sobre el tema de la influencia de los social media. Jóvenes clásicos que hay que no he leído todavía que me ayudaran a tratar el tema de la importancia de los medios sociales en la web:  hablan del “daily me” en Being digital (1996) de Negroponte, las “echo chambers” en Republic.com 2.0 (2009) o sobre amateurs “Our social tools remove older obstacles to public expression, and thus remove the bottlenecks that characterized mass media” en Here comes everybody: How change happens when people come together (2009) de Shirky.

Pego aquí el abstract que entregué este domingo. Se aceptan y agradecen consejos, sugerencias.

Title: The color of corruption coverage in Spain. Agenda setting in a polarized media ecosystem.

Objectives, hypothesis and questions

By selecting and framing stories mainstream media help determine what is important and what not. Mass media play then a key role in shaping public opinion. Since the seminal article The agenda-setting function of mass media was published in 1972, and specially during the last decade, we have witnessed the emergence and the growth of influence of social media. Social media users (writers/readers) help to disseminate the news, but are also able to participate directly in the selection, creation and framing of the stories to modify the agenda setting traditionally dominated by the mainstream media (Negroponte 1995; Shirky, 2008; Sunstein, 2001). News media remain as key players in mass media ecosystem but they are no longer alone in the way political reality is shaped. How are social networking sites changing the agenda-setting role of traditional media?

How is the dialogue between social networking sites and mass media and how they drive attention to certain stories? We will use the topic of corruption in Spain to study this question.

In the past years, corruption cases in Spain have involved almost every institution in the country. These scandals are usually brought to light by news media and amplified by social media. Every week, a new investigation is unveiled provoking an increasing sense of indignation. As there is a wide range of actors involved in the scandals it makes corruption an appropriate field of research to analyze the role of social media in a polarized media ecology, where Spanish media outlets are traditionally aligned with political parties.

We will research the different variables that shape mass media coverage and public perception such as the main actors involved in a corruption case, the medium where it is published, the publicity given to the story or when it is published. Through the analysis of corruption coverage we are going to measure how news media protect or attack certain parties and institutions by hiding or promoting certain stories. The underlying objective is to update theories about the Spanish partisan media ecosystem.

In a system where people select the newspaper more aligned to their ideology: what comes first, the agenda setting and framing by mass media or the general public predisposition? We are specially interested to see how the situation evolves in a political situation that is shifting from a bipartisan system to a four players game, where new online news sites and networking sites are entering with strength the mass media ecosystem.

Methodology

The unit of analysis of this research are corruption stories in front/home pages of paper and online newspaper newspapers and social media messages in Twitter. We want to measure the importance given by the mass media to certain topics and compare it to the discussion in social media so that we can infer similarities and differences in both their characteristics and determinants.

We will quantify corruption coverage by measuring: the number of news; the size, by using the percentage of surface dedicated to the topic; the “color”, which institution was related to corruption. Informed by other studies and literature in the field of corruption coverage and media studies (Rivero & Fernández-Vázquez, 2011; Baumgartner & Chaqués Bonafont, 2015) we will also study the framing of corruption (Costas-Pérez, Solé-Ollé & Sorribas-Navarro, 2012), whether the coverage is neutral or negative or defensive and giving a positive view.

Whereas front page analysis is not new, we propose the use of new methods to have better and more accurate metrics that take in account size and visual aspect of the analyzed stories. We are going to use PageOneX.com to analyze front pages of paper newspapers and StoryTracker  (http://storytracker.pastpages.org/) to analyze home sites of online news sites. Our collection of data can also be compared with other analysis of front pages conducted by the Spanish Policy Agendas project (Chaqués-Bonafont, Palau & Baumgartner, 2014) in the two largest newspapers in Spain: El País and El Mundo.

To analyze social media messages in Twitter we will use the software and data set developed by Mari Luz Congosto at the Universidad Carlos III available at http://t-hoarder.com/. We will quantify conversations about topics by the number of messages, retweets, number of users and the topic they are referred to. We will also analyze user networks and the dissemination of tweets by the mainstream media in Twitter.

To provide related information to our stories data set and in order to measure impact in public opinion we are using two different approaches, existing public opinion surveys and focus groups.

  • The monthly national survey, “the barometer”, of the Centro de Investigaciones Sociológicas (CIS), that asks about the three more important problems for citizens, where corruption and fraud is since 2013 in the top three.
  • Focus groups to provide context to understand how people “read” front pages, how they judge about scandals along personal ideologies. We want to contrast data from media coverage with direct perceptions of readers. Participants will be selected to have diverse affinity to political parties and different ideologies. We will use the newspapers front pages of the week as a starting point for a conversation about corruption.

 

Próximamente espero renovar el tema de wodpress de este blog. Stay tuned!

Uses and abuses of data visualizations in mass media

Audio (.mp3).

ESS Visualisation Workshop 2016. Valencia. May 17-18, 2016.

Abstract

Data visualizations are a powerful way to display and communicate data that otherwise would be impossible to transmit in effective and concise ways. The spread of broadband Internet, the easier access to reusable datasets, the rise in read/write digital media literacies, and the lower barrier to generate data visualizations are making mass media to intensively use of infographics. Newspaper and online news sites are taking advantage of new, affordable and easy to access data visualization tools to broadcast their messages. How can these new tools and opportunities be used effectively? What are good practices regarding data visualization for a general audience?

After an introduction to a series of key concepts about visualizing data the lecture will follow with an analysis of a series of significant data visualizations (tables, pie and bar charts, maps and other systems) from TV, daily newspapers and news websites to detect good and bad practices when visualizing statistical information. The lecturer will then analyze recent literature of visualization studies regarding persuasion, memorability and comprehension. What are more effective embellished or minimal data visualizations? Does graphical presentation of data make a message more persuasive?

El Color de la Corrupción se va a Valencia

el-color-de-la-corrupcio_valencia-16-junio-2016

Audio (.mp3).

Este lunes 16 de mayo de 2016 estaré en Ca Revolta (Valencia) para hablar sobre El Color de la Corrupción:

El Color de la Corrupción. Conversa Oberta amb Pablo Rey Mazón
Dilluns, dia 16 de maig

Des d’ACICOM, amb la col·laboració de Ca Revolta, L’Observatori Ciutadà contra la CorrupcióHub Cívico i la Unió de Periodistes hem organitzat una CONVERSA OBERTA amb Pablo Rey Mazón (del qual podeu obtindre més informació sota aquestes línies). Volem conèixer de primera mà el treball que desenvolupa Pablo, amb sistemes avançats de visualització de dades, en concret sobre les Portades de la premsa escrita, com a una estratègia d’empoderament de la ciutadania i que ens pot aportar transparència i dades per a la lluita contra la corrupció.

INSCRIPCIÓ GRATUïTA en: https://goo.gl/mALjQm per facilitar organització i interacció.