Peer reviewed paper about PageOneX published at IJoC

160625_pageonex-ijoc

The paper Sasha and I have been working on for quite a long time has just been published at the International Journal of Communication PageOneX: New Approaches to Newspaper Front Page Analysis. We hope it provides an useful guide and resource to the field of the newspapers front page analysis.

PageOneX: New Approaches to Newspaper Front Page Analysis
Sasha Costanza-Chock, Pablo Rey-Mazón

Abstract

PageOneX is a Free/Libre and Open Source Software tool that we designed to aid in the coding, analysis, and visualization of newspaper front pages. Communication scholars have long analyzed newspaper front pages, using column inches as an important indicator of mass media attention. In the past, this involved obtaining physical copies of newspapers, coding and measurement by hand, and manual input of measurements into a spreadsheet or database, followed by calculation, analysis, and visualization. PageOneX automates some of these steps, simplifies others, and makes it possible for teams of investigators to conduct shared newspaper front page analysis online. We review scholarship in this area, describe our approach in depth, provide concrete examples of analysis conducted by media scholars using PageOneX, and discuss future directions for research and development.

Download article (pdf).

Una propuesta: Monitorización de medios

Cobertura de corrupción de enero 2013 a marzo 2014.
Cobertura de corrupción de enero 2013 a marzo 2014.



Monitorización de medios #jpd16 at slideshare.

Audio de la charla (.mp3).

Este sábado estaré dando una charla en las IV jornadas de periodismo de datos en Madrid para tantear el interés en desarrollar un proyecto colaborativo sobre análisis de contenidos de los medios de comunicación en España ¿te animas?

Monitorización de medios (numeroteca)
IVJornadas periodismo de datos 2016
15.30h Sábado 7 de mayo 2016.
Medialab-Prado. Madrid.

Las noticias son noticia. Lo que cuentan, cómo lo cuentan y lo que no cuentan aportan datos para entender cómo los medios de comunicación transmiten la información a los ciudadanos. Necesitamos, en una amplia primera persona del plural que incluye a periodistas y ciudadanos, encontrar formas de archivar toda esa información. Existen bibliotecas y hemerotecas pero ¿qué pasa con los periódicos online? La waybackmachine de archive.org no es suficiente al ritmo con que se actualizan los periódicos en la web.

En mi charla haré un repaso a diferentes herramientas para monitorizar los medios de comunicación. Contaré el proyecto de monitorización de cobertura de corrupción en España a través de las portadas de los diarios impresos (Color Corrupción https://numeroteca.org/colorcorrupcion) y el software que he desarrollado: pageonex.com.

Repaso de iniciativas de monitorización: newsdiff (control de cambios de noticias), Past Pages (pastpages.org), Storytracker (portadas online), PageOneX (portadas papel). Fix the media, T-hoarder (monitorización de Twitter en abierto), monitorización de noticias TV (archive.org), mediacloud…

Porcentaje por género y sección de los 3 periódicos a estudio en el UK News Gender Project.
Porcentaje por género y sección de los 3 periódicos a estudio en el UK News Gender Project.
East Timor vs Cambodia news from film Manufacturing Consent: Noam Chomsky and the Media
East Timor vs Cambodia news from film Manufacturing Consent: Noam Chomsky and the Media
East Timor vs Cambodia news from film Manufacturing Consent: Noam Chomsky and the Media
East Timor vs Cambodia news from film Manufacturing Consent: Noam Chomsky and the Media
Ads vs. News in News York Times Thursday, June 20th 2013 edition of The New York Times
Ads vs. News in News York Times
Thursday, June 20th 2013 edition of The New York Times.

 

Semana grande de la corrupción en PageOneX.com
Semana grande de la corrupción en PageOneX.com

Estado del periodismo de datos y la transparencia en España #jpd16

IMG_20160505_113502

Mesa Redonda en las IV Jornadas Periodismo de Datos
Notas del documento abierto y colaborativo https://titanpad.com/jpd16

Moderada por Adolfo Antón Bravo, con Antonio Delgado (El Español), Verónica Ramírez (La Sexta), Juanlu Sánchez (Eldiario.es), Jesús Escudero (El Confidencial), Karma Peiró (Nació Digital), Ana Isabel Cordobés (El Diario de Navarra).

IMG_20160505_113538

Antonio Delgado (El Español)

@adelgado

Presenta el trabajo dentro de la unidad de datos de El Español.

Repaso a las diferentes unidades de datos en los principales medios de comunicación en España:

El Confidencial 2013
El Diario 2014
La Sexta 2015
El Mundo 2015
El Español 2015

Cuatro perfiles básicos:

  • Periodismo de investigación
  • Programació nde en python o R para scraping y análisis
  • Manejo de bases de datos y excel para análisis
  • Desarrollo en html y javascript

¿Qué e periodimo de datos? “Recopilar y analizar grandes cantidades de información y datos derallados para hacerlos comprensibles a la audiencia a través de artículos, visulizaciones o aplicaciones”.

En El Español trabajan desde dentro de la redacción en colaboración con todas las secciones. También desarrollan proyectos propios.

Repaso a leyes de transparencia:

Leyes de Transparencia
Ley de Transparencia España Ley 19/2013

En vigor para autonomías y entidades locales desde el 10 de diciembre de 2015.
– Ley de derechos de acceso a la infomración Medio Ambiental (Ley/2006)
– Regulación de la Unión Europea (1049/2001)

Desde El Español han trabajado pidiendo datos a la administración. Una actividad normal en otros países pero que en España no se tiene la costumbre.

Por ejemplo, la investigación sobre los bonotaxis solicitados por diputados de Podemos. Podemos no rebatió la informaión, que se consiguió en cosulta pública.
http://www.elespanol.com/espana/20160209/100990283_0.html

El caso de las multas en la calle Leganitos de Madrid y las multas anuladas tras su investigación.
http://www.elespanol.com/espana/20160128/97990526_0.html
http://www.elespanol.com/espana/20160210/101240182_0.html

Jesús Escudero (El Confidencial)

@jescuderoma

Que se llame “Periodismo de datos” da idea de que todavía estamos en momentos iniciales de la disciplina en España. En otros países se llama simplemente “periodismo” o “periodismo de investigación”. En EE.UU. este tipo de periodismo está en todos los medios y no solo en medios de comunicació nde ámbito nacional. En España hay pocas unidades demomento, en relación EE.UU.

El programa excel tiene sus limitaciones, solo permite un millón de entradas.

Juan Luís Sánchez (El Diario)

@juanlusanchez

Una de las grandes ventajas del periodismo de datos es que no debes favor a nadie, a un político que te filtra unos datos, a un partido político que te da un soplo. Los datos pueden llegar de una consulta a la administraciń pública.

La primera persona que empezó a hacer prácticas en eldiario.es estaba dedicada a los datos. Valga como indicativo de por dónde queríamos crecer.

Asumimos que tenemos menos medios que la inteligencia colectiva. Cuando llegan grandes bases de datos las comparimos y empezamos a hacer la investigación con los datos publicados. Hay una desconfianza hacia los medios y el público quiere tener acceso a la información. Así lo hicieron con los datos de la tarjetas black.

A veces lo datos cuentan la historia. Como la única manzana donde ganó el PP en las elecciones municipales: en esa manzana había una residencia de la policia nacional.

El ejemplo de la visualización de datos de las elecciones del 20D. La redaccción trabaja colectiva y simultáneamente en una misma hoja de cálculo.

El gráfico más compartido y visitado es un jpg con la cuenta sencilla si hubieran ido juntos a las elecciones del 20D Podemos e izquierda Unida. A veces te puedes esforcar mucho en hacer una visualizaicón de datos, pero el público está buscando algo determinado.
http://www.eldiario.es/politica/GRAFICO-Congreso-Podemos-confluencias-IU_0_464754323.html

El periodismo de datos no tiene porque ser visual, en absoluto.

Lo que cobran los periodistas no es lo mismo que cobran los programadores, eso genera tensiones. El Diario es un periódico que no quenta con grandes medios en coparación con otros grandes medios de comunicación, pero que demuestra que con poco se puede hacer muchas cosas.
Tienen previsto incorporar 5 programadores en los próximos meses (oferta disponbile en eldiario.es/redaccion).

Ana Isabel Cordobés (El Diario de Navarra)

@Ana_Cordobes

diario-noticias-navarra_presentacion_jpd16

Link a presentación.

Somos un medio local. cuando salen datos solo tenemos que preocuparnos por los datos que afectan a nuestra comunidad. Cuenta con 3 periodistas, un programador y una socióloga (fundamental para gameficacion)

En Navarra salió una ley de transparencia antes que en el resto de España. Más basada en la participación y colaboración ciudadana.

A nivel periodístico nos hemos encontrado con una falta de colaboración de agencias centrales y unos recursos muy limitados en Open Data Navarra. Algunos organismos no han cedido sus datos estadísticos.

La oficina de intervención y asuntos económicos en navarra nos ha servido de mucha ayuda para aclararnos ciertas dudas. Navarra, al tener las competencias de Hacienda, hace más complicado entender algunas historias.

Algunas historias han salido a través de cartas al director. Puede parecer algo anticuado pero ha funcionado esa forma de participación ciudadana.

¿Qué recursos usan? La policía foral les ha ayudado. También funcionarios “amables” y la creación de datos propias de bases de datos. Creen que para medios de ámbito estatal puede ser difícil, pero dado nuetro caracter más local, nos es posible.

Así hicieron las investigación de los desahucios de más de 500 familias en Navarra. Generaron un mapa y luego ofrecieron datos relativos a la cnatidad de población para poder calcular índices.
http://www.diariodenavarra.es/pags/desahucios_navarra.html

Robasetas v.s. Meaplayas. Navarros vs Vascos http://especiales.diariodenavarra.es/dndata/

Verónica Ramírez. La SextaTV

@VeritaRa

160505_periodismo-datos_lasexta

Presentación https://docs.google.com/presentation/d/12izBvoYXZAM3Ibi4gjN63h8ShCxw6dPpipAO2725ofs/edit#slide=id.p
Un eqpipo joven de dos periodistas. Les apoyan otros departamentos como la sección de grafismo o reporteros.
La sexaa como TV pequeña dentro de un gran entramado.

Obtención de datos:

  • portales de datos abiertos
  • scraping
  • petición de información
  • bases de datos propias
  • colaboración con otro medios (papeles de Panamá)

Hacen para la web algunas visualizaciones. Otros departamentos les ayudna en la gráfica.

Han tratado temas como las elecciones, casos de corrupción, peericos de másteres, gasolinas, accidentes, papeles de Panamá.

Tiene una función, cuando llegan los grandes sumarios de instrucción: 20.000 págians donde los redactores que tienen que xtraer información de ahí. Tabajan con OCR para poder hacer ases de datos buscables también para los redactores.

Karma Peiró (Nación Digital)

@kpeiro

Medio pionero como diario únicamente digital. Llevan 20 años.
Tiene 18 ediciones locales, hace periodismo muy local.

Entró como directora septiembre del año pasado.
Tambíén piden muchos datos.

La ley catalana es tan exigente en cuanto a la transparencia que nadie lla cumple.

Hace poco hemos sacado una marca sobre los datos como han hecho otras cabeceras como el Confidencial y El Español: http://www.naciodigital.cat/labs

Es imporante mencionar que es importante la interpretación de los datos es también muy importante.

Hace años el debate estaba más centrado en los programas (Tableau, CartoDB) peor l oque vamos viendo es que las visualizaciones tienen que ser más sencillas. En el móvil se hacen complicados ver ciertos gráficos (dará taller). El acceso por móvil es mayor del 60%.

The color of corruption goes PhD

In September 2015 I started a new phase in my research  about corruption coverage in Spain. I’ve joined the Information and Knowledge Society doctoral programme at the Universitat Oberta de Catalunya (UOC). The plan is to convert my research El color de la corrupción into a PhD dissertation in the following years.

Last semester I took two courses on research methodologies: Advanced Qualitative Methods and Research Design in Social Sciences which lead me to draft a research proposal for my dissertation.

Like I did with my architecture master thesis (Proyecto Final de Carrera in Spanish) I plan to document the entire process openly on line. For the moment I’ll use this blog you are reading at numeroteca.org.

There are a lot of things to talk about: selection of the topic, new areas of research, bibliography, methodology, on line education, why in English… and what it means (and why, how) to make a PhD.

I’ll start with this short presentation I prepared two weeks ago for a seminar at UOC to get some feedback about the research proposal. The following month I have to officially present the research plan.

Abstract

The color of corruption coverage in Spain. Agenda setting in a polarized media system.

In the recent years, the fast-growing list of corruption investigations in Spain have involved almost every institution in the country: the major political parties, the royal house, the main unions, the supreme court or the national bank, just to mention some of them. Everyday, new information and a new case is released/unveiled, provoking an increasing sense of indignation. This situation has pushed up the concern for corruption to the second position of the problems perceived in Spain.

Objectives and questions

The objective of this research is to study how corruption is portrayed in newspapers and analyze how corruption coverage influences public opinion:

  • to update theories about the Spanish partisan media ecosystem and understand how media outlets are reacting to the new wave of corruption scandals.
  • to find out if (and how) corruption coverage influences public opinion in order to help readers understand how persuasive is the mass media ecosystem. In a system where people select the newspaper more aligned to their ideology: what comes first, the agenda setting and framing by mass media or the general public predisposition?
  • to study how is the feedback between social networking sites and mass media regarding corruption coverage and how they drive attention to certain stories?

Methodology

We are going to analyze corruption stories in front pages of paper newspaper and home pages of online newspapers to measure the importance given by the media to certain topics. Whereas front page analysis is not new, we propose the use of new methods (PageOneX.com and StoryTracker software) to have better and more accurate metrics that take in account size and visual aspect of the analyzed stories. We plan to complete our research using existing datasets like opinion surveys and databases of social networking sites, like Twitter. Social networking sites are another key element to analyze the influence of mass media in the public agenda and to help understand the triangle media, politics and public opinion.

State of the research

A data visualization of front page data can be accessed at https://numeroteca.org/colorcorrupcion/

Thesis committe

The thesis committee is formed by Ismael Peña (tutor), Sasha Costanza-Chock and Victor Sampedro.

160418_seminar-presentation_uoc

Empieza a andar el grupo Bilbao Data

bilbao-data

El jueves 28 de abril de 2016 empieza a andar el grupo Bilbao Data. De 18.00h a 20.00h estaremos presentando la iniciativa en Wikitoki (Plaza de la Cantera 5, 2º, Bilbao). Hemos montado este grupo para intentar formar una comunidad en torno a los datos. A ver qué sale de todo esto.

Yo hablaré de los diferentes proyectos sobre datos en los que he particpado “Para trabajar con datos hay que generarlos”, en la mayoría de ellos el proceso ha pasado por crear o recopilar datos que no existían.

¿Qué vamos a hacer?

En esta primera sesión se va a presentar la iniciativa de Bilbao Data. Para mostrar qué cosas se pueden hacer algunos de sus participantes presentarán en sesiones exprés ejemplos de proyectos anteriores que han desarrollado.

El evento se integra dentro de las actividades previas de las IV Jornadas de periodismo de datos que tendrán lugar en Madrid de 5 al 7 de mayo 2016.

¿Qué es Bilbao Data?

El grupo de Datos Bilbao nace para explorar nuevas formas de analizar y visualizar datos. Pretende ser un punto de encuentro en Bilbao para todas las personas interesadas en trabajar con datos desde diferentes temáticas: economía, matemáticas, urbanismo o enfoques como la visualización de datos, la cartografía o el software. Todavía no nos hemos juntado, así que no tenemos una definición clara, pero estamos a medio camino entre una comunidad de aprendizaje un lugar de encuentro o un grupo desde el que generar proyectos.

¿Por qué?

Los medios de comunicación nos bombardean con la idea de que en la actualidad generamos más datos que nunca antes. Sería más acertado decir que somos capaces de acumular más cantidades de datos y que a la vez tenemos acceso a muchos tipos de bases de datos ¿cómo podemos hacer accesibles y usar estos datos para nuestro día a día? ¿cómo convertir la infoxicación en información?

¿Quiénes somos?

Un grupo de personas con ganas de pensar y compartir conocimientos en torno a los datos y la visualización de datos. Somos un grupo abierto (de hecho ¡todavía ni nos hemos formado como grupo ni hemos elegido un nombre!) y nos interesa trabajar principalmente con software libre, pero no es imprescindible.
La asociación y espacio Wikitoki (Laboratorio de procesos colaborativos) quiere servir para estos primeros pasos de anfitrión del grupo.

Programa del evento

  1. Presentación del grupo.
  2. Ronda de presentación de los asistentes.
  3. Presentación en modo Ignite (5 minutos por charla) de ejemplos concretos de trabajo con datos
    • Gorka: Mapa del tráfico o posibilidades con Udalmap (por definir).
    • Asier: “Inteligencia Artificial y predicción de resultados en un proyecto industrial”.
    • Aitana Oltra (@AitanaOltra): “Cuando los datos los aportan los ciudadanos” (ciencia ciudadana).
    • Habib Belaribi (@habsinn): “Familias y autismo en Francia: escuchar sobre los medios sociales para proponer otras terapias”
    • Pablo Rey Mazón (@numeroteca): “Para trabajar con datos hay que generarlos”.
    • ¡Tú! Abierto a la participación. Envíanos tu propuesta dejando un comentario más abajo.
  4. Debate sobre pasos futuros para el grupo: ¿comunidad de prácticas? ¿de aprendizaje? ¿desarrollar proyectos en conjunto? ¿punto de encuentro? ¿Creación de lista de correo? ¿siguientes pasos a dar? Próxima reunión encuentro.

Info actualizada sobre el evento en la web de Wiktoki.org.

Soria y los papeles de Panamá

He hecho esta visualización de la cobertura en la prensa escrita sobre el caso de José Manuel Soria, ministro de industria, y los papeles de Panamá.

160415_soria_03
Gráfico disponible en PageOneX.com

Como esta es solo una de las historias de corrupción que han aflorado este mes he codificado las otras historias (Mario Conde, alcalde de Granada, Aznar…) para entender cómo han sido las batallas de atención en las portadas.

160415_soria-otros_03
Puedes ver este gráfico en modo interactivo en PageOneX.com

Kulturometer cabalga de nuevo

Gráfico de distribución presupuestaria de gasto en Cultura del Ayuntamiento de Madrid. 2009.
Gráfico de distribución presupuestaria de gasto en Cultura del Ayuntamiento de Madrid. 2009.

Como continuación del proyecto Kulturometer (2009) que desarrollé en Medialab-Prado durante las jornadas de Visualizar’09: Datos públicos, datos en público junto con otros agentes culturales de Madrid (Atravesadas por la cultura), se presenta ahora la investigación gráfica sobre visualización de los presupuestos municipales del Área de Cultura del Ayuntamiento de Madrid en 2016 que he realizado junto con Mar M. Núñez (noez.org).

Una oportunidad para volver a trabajar y pensar sobre datos en abierto y reutilizables y explorar maneas de visualizar presupuestos públicos. Hace 7 años hice el gráfico de tipo sankey prácticamente “a mano” con Freehand. Ahora he podido usar d3 y el plugin para Sankey, lo cual facilita mucho la tarea.

Merece la pena recordar, si nos remontamos a los orígenes del proyecto, que el objetivo inicial no eran ni los datos abiertos, ni la visualización de datos “per sé”, sino el entender cómo fluía el dinero -o no- desde las instituciones a los productores culturales. Seguimos teniendo eso en mente, aunque el resto de cosas que se han añadido al proyecto nos interesen igualente.

Presentación y debate en torno a Kulturometer 2.0
19.00h Lunes 7 de marzo 2016. Medialab Prado. Madrid.

En esta primera sesión se compartirá la investigación sobre el análisis de los presupuestos. Se darán las claves para poder analizar presupuestos oficiales y por otra se presentarán diferentes análisis gráficos del gasto dedicado a cultura en el Ayuntamiento de Madrid. Será una sesión abierta para que cualquiera pueda compartir sus dudas y preguntas. Todo el mundo es bienvenido.

Taller (fecha por concretar. Junio 2016)

El proyecto Kulturometer 2.0 comprenderá además la celebración de un taller de dos días en primavera (fechas por concretar) en el que se presentarán otras experiencias de visualización de presupuestos y se trabajará de manera práctica con ejemplos concretos de presupuestos de cultura en torno a las siguientes preguntas: ¿Qué herramientas tenemos y podemos usar para hacer análisis comparativos de presupuestos, tanto para uso interno de las organizaciones como para hacerlos accesibles y comprensibles para la ciudadanía? ¿Qué tipo de procesos de participación podemos poner en marcha para deliberar sobre los presupuestos públicos?