Paseando con el globo para fotografiar desde el aire el polígono industrial El Serrallo, en el puerto de Castellón de la Plana

Three Public Lab DIY open-source projects in a peer-reviewed article

Paseando con el globo para fotografiar desde el aire el polígono industrial El Serrallo, en el puerto de Castellón de la Plana
Paseando con el globo para fotografiar desde el aire el polígono industrial El Serrallo, en el puerto de Castellón de la Plana.

After a very long and exhausting peer review process, we started this back in 2014, the paper we co-wrote with Hagit Keysar, Shannon Dosemagen, Catherine D’Ignazio and Don Blair is finally up there: “Public Lab: Community‑Based Approaches to Urban and Environmental Health and Justice”.

Abstract
This paper explores three cases of Do-It-Yourself, open-source technologies developed within the diverse array of topics and themes in the communities around the Public Laboratory for Open Technology and Science (Public Lab). These cases focus on aerial mapping, water quality monitoring and civic science practices. The techniques discussed have in common the use of accessible, community-built technologies for acquiring data. They are also concerned with embedding collaborative and open source principles into the objects, tools, social formations and data sharing practices that emerge from these inquiries. The focus is on developing processes of collaborative design and experimentation through material engagement with technology and issues of concern. Problem-solving, here, is a tactic, while the strategy is an ongoing engagement with the problem of participation in its technological, social and political dimensions especially considering the increasing centralization and specialization of scientific and technological expertise. The authors also discuss and reflect on the Public Lab’s approach to civic science in light of ideas and practices of citizen/civic veillance, or “sousveillance”, by emphasizing people before data, and by investigating the new ways of seeing and doing that this shift in perspective might provide.

Rey-Mazón, P., Keysar, H., Dosemagen, S., D’Ignazio, C., & Blair, D. (2018). Public Lab: Community-Based Approaches to Urban and Environmental Health and Justice. Science and engineering ethics, 24(3), 971-997.

You can read here the full paper (and download PDF until June 3rd, 2018). If you read this too late, you can always ask me for a copy.

We used three different case studies to: Aerial Photography and Community Building in Castellón, Spain, 2014; The Aerial Testimony: Silwan, East Jerusalem, Israel/ Palestine, 2011; and Open Water Science for Civic Veillance.

The story of this paper began after my talk in Ispra (italy) at the “Emerging ICT for Citizens’ Veillance” workshop about the balloon and kite mapping workshop in Castellón (Spain) I did with Basurama in January 2014. Then… I hope we will be able to write down how was the entire publication process.

Special thanks to Hagit, who pushed the paper all the way until publication, despite the different obstacles we found in the way.

¿Cómo analizar la segregación escolar público-privada en Euskadi en 5 pasos?

Cuando me preguntaron si podía hacer unas visualizaciones de los datos sobre segregación escolar en la escuela pública y privada en Euskadi para la Iniciativa Legislativa Popular (ILP) por una escuela inclusiva me interesó mucho el tema. Veo en mi entorno más cercano de Bilbao unas diferencias grandes entre una y otra red escolar, pero no me había parado a estudiar con datos el tema.

No conocía la definición exacta del término “segregación”. Imaginaba que sí existían desigualdades socioeconómicas entre quienes atiende a las redes pública, concertada y privada en Euskadi, pero no había pensado cómo medirlo.

Según una definición la segregación escolar es el fenómeno por el cual los estudiantes se distribuyen desigualmente en las escuelas en función de alguna de sus características” y que es “por tanto, uno de los factores que contribuyen en mayor medida a impedir una verdadera igualdad de oportunidades y generar desigualdad social” como explican Murillo y Martínez-Garrido en un artículo publicado este año. Hay mucha literatura al respecto, que luego he ido conociendo, pero en un primer acercamiento nos pusimos a trabajar y trastear con los datos que teníamos disponibles.

Para estudiar las desigualdades entre las redes pública y privado-concertada de los centros educativos en Euskadi usamos los datos disponibles en el informe La educación en Euskadi 2013-2015 del Consejo Escolar de Euskadi.

Con todos estos y más datos publicamos en diciembre de 2017 un primer informe de acercamiento a la segregación escolar en Euskadi, cuando se anunció la ILP.

Ver informe: Análisis de cohesión e igualdad del sistema educativo en Euskadi.

 

Ahora vamos paso por paso a analizar esta situación de desequilibrio.

Continue reading

Un experimento de small data: black to de future

TL:DR Este es un relato de cómo montamos el bot de Twitter que retransmite con 10 años de retraso los gastos de las tarjetas black. Puedes leer también el post que ha escrito Alfonso con los detalles técnicos del desarrollo.

Desde hace un tiempo nos rondaba en Montera34 a Alfonso y a mi la idea de ponernos de nuevo con los datos de las tarjetas black. El juicio donde se juzgaba a los directivos de Caja Madrid y Bankia que habían usado sus tarjetas opacas a Hacienda estaba a punto de acabar. Todavía teníamos un pequeño margen antes de las deliberaciones finales y la sentencia.

En vez de analizar los datos en su conjunto otra vez ¿por qué no cambiar la forma de acercarse a los datos y fomentar ver el detalle de cada gasto? Nos parecía  interesante poder tratar los gastos uno a uno y entender cuándo y cómo sucedían. Un ejercicio de “smalldata para hacer mininarrativas con tamaño tuit de cada gasto.

La fechas no podían ser peores. Las navidades se acercaban, hacía falta cerrar varios proyectos, líos familiares… un tiempo perfecto para hacer un proyecto en modo exprés y en abierto.

Alfonso reutilizó algo de código de otro proyecto para hacer una página que publicaba los gastos del día. Por suerte teníamos ya los datos recopilados en un único archivo de la otra visualización: unos 75.000+ gastos clasificados por usuario, comercio, tipo de actividad…

A partir de esta primer boceto surgían algunas preguntas ¿se podían buscar otras fechas u otras distancias de años además de la década de distancia?
En principio nos gustó la idea que ahora parece obvia: ofrecer pocos datos para centrar la atención del usuario. Diez años es una cifra fácilmente inteligible por cualquiera.

Luego teníamos que resolver dónde ibamos a publicar la web. El subdominio lab.montera34.com podía valer. Tras un poco de tuneo a los estilos la web empezaba a tomar forma:

Por el camino surgió algo que también parece obvio ahora y que hacía casi todo lo demás del proyecto redundante. Tras comentar con Martín (@martgnz) el proyecto @censusamericans, que convierte cada hora una línea del censo en un tuit, del tipo “I had a baby last year. I don’t have health insurance. I am divorced. I moved last year. I got married in 2000.” nos sugirió tuitear en directo los gastos de las tarjetas black en riguroso directo en diferido.

Ya sólo nos faltaba desarrollar el bot para Twitter… y alguna cosa más.

Nos faltaba un nombre e imagen con gancho. Gracias a hacer el desarrollo del proyecto en abierto Guille nos sugirió Black to the Future. Lo españolizamos a @BlacktoDeFuture y así lo reducíamos a los caracteres necesarios para que cupiera en el nombre de una cuenta de Twitter. Nos gustaba también el Black2thefuture que proponía @jorgelamb, pero ya estaba pillado.

En apenas un hora, modificando el cartel original de Regreso al futuro que nos pasó Guille y una tipografía similar a la original que encontramos por ahí ¡Ya lo teníamos!

Mientras Alfonso cocinaba el bot hecho en Python me dediqué a lanzar la web para preparar la llegada del bot de Twitter. Publicar los gastos en una sola frase requería algunos retoques. A veces el nombre comercio no figuraba, pero sí el tipo de actividad (cajero, disposición en efectivo…). Con unas cuantas sentencias condicionales en PHP quedaba arreglado. También aproveche mis conocimientos recién adquiridos de R para reordenar todos los gasos por días y hora, así saldrían ordenados en la página de gastos del día.

Ya por entonces nos habíamos dado cuenta de que la web molaba, y mucho, pero que lo realmente iba a funcionar era el bot de Twitter. La web sería la partitura diaría que el bot tiene que seguir. La cuenta de Twitter permitiría seguir en “tiempo real” lo que gastaban los directivos de las black. Unos días después empezabámos a retransmitir:

En resumen, acabábamos de lanzar desde Montera34 un bot que tuiteaba todos los gastos de las tarjetas black con 10 años de retraso. Riguroso directo en diferido. Un viaje en el tiempo a otra era. Un viaje a 2006, un país que todavía no se enteraba de que la burbuja inmobiliaria y muchas otras cosas iban a estallar: @BlacktodeFuture.

Hay gastos de las tarjetas black anotados hasta el 29 de agosto de 2012:

2012-08-29 | 14:18:45 | APARCAMIENTO MONTALBAN | GARAJES,RESTO DE APARCAMIENTOS | 15.8€ | COMPRA | Miguel Ángel Abejón Resa

Quién sabe, quizás para el año 2022 todavía sigue funcionando nuestra máquina del tiempo y vayamos a celebrar el fin de su viaje al aparcamiento de la calle Montalbán en Madrid.

Continue reading

Cadáveres inmobiliarios en UrbanBAT

El miércoles 23 de diciembre 2016 a las 19.00h  tarde estaré hablando sobre Cadáveres Inmobiliarios en UrbanBAT en Bilbao.

Cadáveres inmobiliarios en UrbanBAT

prototipando-la-ciudad-en-transicion-publicacion-cadaveres

Cadáveres Inmobiliarios ha sido seleccionado para la quinta edición del festival UrbanBAT en Bilbao.

Hemos hecho la selección buscando iniciativas quedesde distintos ámbitos de acción,están proponiendo un impacto sobre el desarrollo urbano (y urbanístico) sostenible en su entorno. Iniciativas que, en mayor o menor medida hibridan entre el trabajo socio-comunitario, el urbanismo participativo, la arquitectura, y las prácticas culturales y artísticas para imaginar conjuntamente soluciones para un desarrollo urbano sostenible. Proyectos que tienen que ver con la regeneración urbanística y arquitectónica de barrios, la recuperación de patrimonio industrial para usos culturales y comunitarios, el empleo de la cultura como herramienta transformadora del territorio, la reapropiación del espacio público, la reutilización de residuos para la construcción de espacios comunes, el replanteamiento de los mercados de producción y consumo, el desarrollo de plataformas en red para visibilizar vacíos urbanos.

Han seleccionado estos proyectos:

Cadáveres Inmoiliarios compartirá presentación exprés con todas estas experiencias el miércoles 23 de Noviembre a las 19.00h en Bizkaia Aretoa (Bilbao), en una sesión abierta y gratuita par todo el público. Consigue tu entrada gratuita y más información sobre la sesión.

El día siguiente, en un taller interno, compartiremos experiencias y realizaremos una consultoría entre pares que ayude a enriquecer y mejorar cada uno de los proyectos.

Si hoy declara Correa, es un buen día para ponerse con la tesis

161013_buen-dia-empezar-tesis-correa

Justo ayer, el día que empezaba a declarar Correa en el juicio de la primera época de la Gürtel, me ha llegado la noticia. Ha sido aprobado el proyecto de tesis y plan de investigación “The color of corruption coverage in Spain” (descarga el pdf) que presenté en mayo. Así que ya soy oficialmente doctorando. Sólo me queda hacer la tesis. Correa es el acusado clave de la trama y por el que toma nombre el caso Gürtel, que es “correa” en alemán.

160930_colorcorrupcion_septiembre-2016
Modo interactivo en PageOneX.com

Ahora un resumen de los últimos acontecimientos en cunato a la tesis se refiere.

Data gathering in the age of information

It’s been a busy week. Almost all the tasks are related to data gathering: tweets, front pages or video streaming. It is interesting how non trivial is to gather all the different information flows that surround as.

Answers from reviewers to the thesis research plan

The research proposal has had been approved with no conditions by my thesis committee and one anonymous reviewer. Here you can download the document: The color of corruption coverage in Spain. Agenda setting in a polarized media ecosystem. I need to examine and review the suggestions that I list below (thanks reviewrs):

  • Hypothesis too general
    “hypotheses are too general. Here is my recommendation: the candidate defines the hypothesis thinking on the connection between the dependent and independent variables”.
  • Operationalization of variables and independent variables
    “The candidate will use three types of data, one related to front-pages of print media, another with the information about twitter, and public opinion. To do that the candidate not only will follow existing methodologies but will also use pageonex.com (elaborated by the author). Here it will be relevant to know something else about the operationalization of variables. I guess the unit of analysis is going to be stories (number of percentage?), tweets (number?), public opinion (percentage?) for one or two years (2016-2017). Also we need more information about which are the independent variables that will be taken into account. In general the methodology seems as appropriate for the plan but needs further elaboration in the future”.
  • Define agenda setting role of media, traditional vs new media, analyze literature
    “In general, it is clear the author has analyzed some of the main contributions to the field, but there are some important shortcomings. There is not a discussion about which is the agenda setting role of the media, what we mean by that, why this is important, and which are the factors that limit the capabilities of the new and traditional media to develop this agenda setting role. (…) Accordingly, the theoretical part needs an elaborated discussion about the agenda setting role of the new and traditional media, highlighting the similarities and differences between the two and why this matters. To do that the author needs to analyze the literature about agenda setting taking into account authors like Norris to better understand the role of the media in a democracy, Graber and Iyengar to explain the agenda setting role of the media and the interconnection between different types of media outlets, Hallin and Mancini to better understand the media systems and why this matter (just to mention some of the most cited).
  • Add asocial movemente theory and atudy anti-corruption activist
    “Suggest the author add an additional RQ / hypothesis about anti-corruption activists attempts to influence the mass media agenda, outside of social media (through meetings, petitions, protests, and so on). Do anti-corruption protests shift the mass media agenda? (…) The author may want or need to develop additional data (qualitative and/or quantitative) about attempts by anti-corruption activists to shift the mass media agenda. For example, a dataset of anti-corruption protests, by size/participation, and/or analysis of interviews with anti-corruption activists. (…) the dissertation might benefit from a section that engages significantly with the social movement studies literature. Specifically, there is a subfield of social movement studies that explores the ways that social movement actors attempt to gain access to mass media visibility, and in the context of the Spanish corruption cases, presumably this is taking place extensively. This introduces additional possibilities and questions about mass media agenda setting. For example: are there social movement actors who have personal friends among journalists, editors, and other members of the mass media? Potentially, they are meeting, lobbying, talking with, protesting, and otherwise attempting to shift the mass media agenda to cover corruption, NOT ONLY via social media but also through face to face methods, phone calls, petitions, meetings, perhaps direct actions, advertiser boycotts, and so on. Also: do anti-corruption protests shift the news agenda?”
  • Mejor conexión entre los ámbitos de la investigación
    “Faltaría, en algunos casos, trabar mejor la transición o la interconexión entre los distintos ámbitos de la investigación. En especial faltaría una mejor/mayor justificación de la (supuesta) disrupción que hacen los medios sociales en el panorama informativo y su papel de contrapeso con los medios tradicionale. (…) La parte del impacto de los nuevos medios en el establecimiento de la agenda debería reforzarse para que no quede coja respecto al resto de marco teórico. Por otra parte, la retroalimentación mútua entre los viejos y los medios nuevos/digitales debería perfilarse mejor para poder acabar de definir la metodología”.
  • ¿Qué preguntas hacer a los datos pra no desbordarse?
    “La metodología es muy robusta y utilizará sobre todo dos grandes fuentes de datos, extensas, objetivas y relativamente fáciles de manipular. En este sentido, el reto será saber qué preguntas hacerles a los datos – de las muchas posibles dada la riqueza de los mismos – para que la investigación no se desborde”.
  • Falta mayor profundidad en el planteamiento
    “Sí, los objetivos, las preguntas y las hipótesis son claras y fundamentadas en el debate teórico. Sin embargo, falta una cierta profundidad de planteamiento que se queda en lo descriptivo. Ciertas cuestiones de fondo quedan implícitas o marginadas, como si la polarización es mayor en las redes sociales que en los medios de referencia o si los casos de corrupción preeminentes en ambas esferas (redes digitales y medios convencionales) difieren en cuanto a sus protagonistas. La primera cuestión se relacionaría con las dinámicas de polarización que se atribuyen a la esfera pública digital y la segunda, con el control que se atribuye a las fuentes oficiales en la agenda de los medios convencionales de referencia y a los alineamientos político-edioriales que se han percibido en la prensa española. Se recomienda un mayor énfasis en estas preguntas para facilitar un debate académico que haga aportaciones más allá del caso de estudio nacional que ahora se plantea”.
  • Falta autores españoles anteriores al año 2000
    “La bibiliografía recoge en extenso las principales contribuciones en el orden teórico y empírico, en el plano nacional e internacional. Se echa en falta, sin embargo, el conocimiento y la referencia a obras de autores españoles anteriores del año 2000 y anteriores que abordan el tema de la construcción de la agenda y de los marcos discursivos tanto en la teoría como en análisis de casos”.

Some related tweets

Un artículo sobre el software que utiliza “El color de la corrupción”

Hace unos meses publicamos un artículo en una revista científica sobre PageOneX, el software con el que analizamos las portadas.

The paper Sasha and I have been working on for quite a long time
has just been published at the International Journal of Communication PageOneX: New Approaches to Newspaper Front Page Analysis. We hope it provides an useful guide and resource to the field of the newspapers front page analysis.

PageOneX: New Approaches to Newspaper Front Page Analysis
Sasha Costanza-Chock, Pablo Rey-Mazón

Abstract

PageOneX is a Free/Libre and Open Source Software tool that we
designed to aid in the coding, analysis, and visualization of newspaper
front pages. Communication scholars have long analyzed newspaper front
pages, using column inches as an important indicator of mass media
attention. In the past, this involved obtaining physical copies of
newspapers, coding and measurement by hand, and manual input of
measurements into a spreadsheet or database, followed by calculation,
analysis, and visualization. PageOneX automates some of these steps,
simplifies others, and makes it possible for teams of investigators to
conduct shared newspaper front page analysis online. We review
scholarship in this area, describe our approach in depth, provide
concrete examples of analysis conducted by media scholars using
PageOneX, and discuss future directions for research and development.

Download article (pdf).

¿Cómo visualizar los 10 millones que no votaron?

El otro día comparábamos el número de votantes con el de abstencionistas con una visualización donde cada punto equivalía a 10.000 personas. Se podía evaluar el peso de la abstención y de los votos en blanco y nulos, que no suelen reprentarse en las estadísticas electorales.
votos-abstenciones-20d_02

Si actualizamos los datos con los resultados de 2016:

votos-abstenciones-26j_01

podemos ver que el aspecto general es bastante parecido, aunque sí hay diferencias. Para poder apreciarlas es necesario poner una visualización al lado de la otra:

votos-abstenciones-20d-26j_b01

Aquí sí se puede percibir el aumento de la abstención (gris), el aumento de votos del PP (azul), pero el descenso en PSOE, Podemos y Ciudadanos es más complicado de apreciar. El gráfico es válido para hacerse una idea de los datos en su conjuto, pero para comparar valores entre sí, no es la mejor forma: los colores comienzan en filas diferentes y en diferentes lugares de cada fila. Para poder comparar valores tenemos que alinear los inicios de cada partido:

votos-abstenciones-20d-26j_a01

De este modo podemos ver mucho más claramente el aumento de votos del PP y el descenso de los otros partidos. Este método nos permite además poner a IU junto a Podemos (y confluencias) en las elecciones de 2015, cuando se presentaban por separado y poder comparar los resultados cuando se han presentado en confluencia en Unidos Podemos. Esta visualización está pensada para mostrar el peso de los abstencionistas.

Actualización 28 junio 2016: Incluyo una mejora de la visualizacióncon los

votos-abstenciones-20d-26j_03

Por último os dejo con un gráfico de barras. Sólo suben en votos la abstención, el PP y el PACMA, de entre los partidos más votados.

votos-abstenciones-20d-26j_barras_01

 

 

Ni dos ni cuatro partidos, ganan los abstencionistas

Todo empezó por el cansancio que me producen los mapas que colorean las regiones con el color del ganador. A cualquiera le alarmaría un mapa como este:
spanish-elections-2016-3
no porque gane el PP, sino porque da una información muy incompleta fácilmente malinterpretable. Un partido con el 28,7% de los votos emitidos colorea toda las superficie.

Conceptualmente no es muy diferente a este otro, donde se colorea cada municipio con el color del ganador. El nivel de detalle es mayor, por lo tanto vemos más datos, pero creo que el problema sigue siendo el mismo.

Mapa de elecciones generales 2015. 20D en El País http://elpais.com/elpais/2015/12/18/media/1450461184_895079.html
Mapa de elecciones generales 2015. 20D en El País.

Todos comparten el mismo problema the winner takes it all, esto es, aunque en una región haya ganado un partido por un 2% toda ella quedará pintada del mismo color. Prefieron n veces el mapa con el nivel de detalle de los municipios, pero nos sigue representando solamente a los ganadores en uan realidad simplificada. Algunos mapas trabajan con gradientes de los colores para indicar cuánto es el porcentaje de votos de cada partido, como en este buenísimo mapa interactivo:

Elecciones 20D Congreso 2015 en El Español http://datos.elespanol.com/elecciones-generales/resultados/congreso/
Lukas APpelhans y Martín González. Elecciones 20D Congreso 2015 en El Español http://datos.elespanol.com/elecciones-generales/resultados/congreso/

El gradiente aumenta la información que se ofrece al usuario, pero creo que sigue siendo insuficiente si lo que queremos es analizar un sistema de más de 2 jugadores que comparten porcentajes de voto similares. No se trata de mayor nivel de detalle, sino de poder representar en un mismo gráfico al segundo, tercer y cuarto más votados. Se han probado gradientes entre 2, 3 ó 4 colores, pero si ya es difícil interpretar en valores numéricos un gradiente, imaginad lo complicado que es interpretar un color mezcla de distintas intensidades de azul, rojo, morado y naranja.

Si a eso le sumamos que queremos ver a las personas que no han ido a votar y nos olvidamos del mapa de momento… sale algo como la siguiente visualización, donde cada punto representa 10.000 votos en las pasadas eleciones de diciembre de 2015 al congreso:

votos-abstenciones-20d
Puedes ver el interactivo en https://numeroteca.org/electiondots/

Uno de cada cuatro personas con derecho a voto no fue a votar. Los puntos en gris representan a los más de 9 millones de personas que se abstuvieron. Estamos tan acostumbrados a leer los porcentajes de los que votaron, a ver los semicírculos coloreados que representan el congreso, a ver los mapas de los ganadores, que se nos olvida que existen los que no ejercieron su derecho. Ya sabemos que España no es bipartidista, pero tampoco es de cuatro (y algunos más) colores.

Si agrupamos por comunidades autónomas saldría algo así [nota, faltan los votos a Ciudadanos en Galicia]:

elecciones-20d-comunidades-abstenciones-votos

Y en un primer acercamiento al mapa saldría algo así:

elecciones-20d-comunidades-abstenciones-votos-mapa

que es una interpretación de una idea de Mark Monmonier para mejorar algunos problemas de los mapas con gradientes de color o “choropleth maps“.

Lying with Maps. Mark Monmonier. http://archi-intranet.ulb.ac.be/cours/sis/conception/lyingwithmaps.pdf
Lying with Maps. Mark Monmonier.

Hay propuestas muy interesantes para representar la totalidad de los votos, como esta de El Confidencial, aunque no sea geográficamente. Para ver población en forma de puntos aleatoriamente distribuidos dentro de los perímetros de una circunscripción está este buenísimo ejempo del New York Times con los datos del censo. Para representar escaños geográficamente hay ejemplos interesantes como este de El Confidencial que utiliza una retícula hexagonal donde cada hexágono es un diputado (más sobre mapas electorales y retículas en este intereante post de cartonerd).

Nota: parte de los ejemplos e investigación vienen de un proyecto/conversación en marcha con @martgnz.

De propina, os dejo con este diagrama de barras:

abstencione-votos_barras-01