¡Soy profesor! algunas referencias sobre visualización de datos para dinamizar el foro

Este curso he empezado como profesor colaborador de la asignatura de Periodismo de datos para estudiantes del máster de ciencia de datos en la Universitat Oberta de Catalunya (UOC). A principios de año preparamos desde Montera34 (con Alfonso) tres ejercicios prácticos sobre análisis y visualzición de datos: análisis de Twitter, de datos de Airbnb y sobre segregación escolar.

Para dinamizar la clase y dar algunas referencias que he ido viendo estos días he escrito lo siguiente en el foro de la clase:

Recopilo en este hilo algunas referencias que pueden ser de interés e inspiración:

Recopilaciones de proyectos como Fivethirtyeight (https://projects.fivethirtyeight.com/) o The Pudding (https://pudding.cool).

El canal de Telegram de DataLab Madrid (de Medialab Prado) suele tener referencias interesantes: https://t.me/joinchat/AAAAAA3XteJ2mWKCwBRIvQ

Politibot: un bot de Telegram que te manda cada día una temática y (a veces) visualizaciones de datos: https://telegram.me/politi_bot

Dive. Una herramienta relativamente reciente para visualizar datos online (que aún no he probado), de Kevin Hu y César Hidalgo del laboratorio Collective Learning Group de Medialab de MIT https://dive.media.mit.edu/ (código https://github.com/MacroConnections/DIVE-backend/).

Y unos artículos:

Y dos artículos críticos con el Índice de Desarrollo Humano:

Uso de infraestructuras digitales en Montera34

A raiz de un hilo de correo sobre uso de las redes sociales en Internet en Wikitoki y de nuestras infraestructuras digitales, he enviado esto sobre Montera34:

  • Nuestra web (montera34.com) como centro de comunicaciones: publicamos anuncio de actividades que luego son el archivo (recopilación de documento de la actividad). Si no llegamos a tiempo para anunciar, se publica el proyecto/actividad a toro pasado, para el archivo. Una vez se publica en la web se empieza la difusión en las diversas redes.
  • Blogs: lo tenemos descentralizado entre los blogs personales de Alfonso (voragine.net) y yo (numeroteca.org). Pensando siempre si habilitar uno para M34 (montera34.com/blog).
  • Wiki: para documentos activos en colaboración con otras gentes. Documentación de talleres, manuales, recetas, investigaciones abiertas. Ver la del proyecto Efecto Airbnb, por ejemplo: wiki.montera34.com/airbnb
  • Newsletter: sin periodicidad clara pero más o menos cada mes. Anuncio de protyectos/actividades futuras o pasadas. La hacemos con un pllugin desde nuestro WordPress (montera34.com/suscribete).
  • Repositorios de código: usamos github.com y nuestra propia guenta de gitlab en nuestro server. Ver código de proyectos (montera34.com/project-list).
  • Servidor autónomo: todo ello alojado en nuestro server asociativo que pronto será una máquina propia: hosting.montera34.org
  • Redes
    • Twitter: canal más activo de redes sociales en internet donde publicamos o RT cosas en proceso, anuncios, respondemos preguntas. Tanto desde la cuenta de @montera34 como de las nuestras personales. Se publica info ya publicada en la web. Es el canal donde estamos más activos. También manejamos otras cuentas de proyectos en que colaboramos (cadáveres inmobiliarios, bilbao data lab, datahippo, pageonex, kulturometer…).
    • Instagram: abierta pero poco activa. Se publica info ya publicada en la web.
    • Google+: la teníamos poco activa, y ya por fin google va a cerrar el servicio.
    • Youtube: para publicar los streamings y hangouts en directo que hacemos.
    • Facebook: lo mismo que las otras. Se publica info ya publicada en la web… si llegamos a tiempo. Cada vez menos.

En resumen: intentamos publicarlo todo en nuestras propias infraestructura para luego redifundirlo por otros canales. En Twitter es donde más conversamos con otros.

El escándalo del TFM de Cifuentes en las páginas de inicio

Esta es una reproducción de un hilo publicado en Twitter sobre el anáisis de noticias en portadas online del 9 de abril de 2018):

Para poder analizar las portadas de los último días he descargado cada hora el html de la portada de cada periódico con storytracker.

Está disponible el código para procesar los html de las portadas online con R (llamado HomePageX, en honor a PageOneX).

Too long & do not read Spanish: How to parse and make the visualizations based on the archive of digital home pages built with storytracker: R code available.

Bueno, por fin puedo ponerme a contar noticias de Cifuentes en portada de los periódicos digitales. A ver qué sale:

Para poder el porcentaje de noticias sobre Cifuentes en portada necesitamos saber cuál es el total de noticias en cada momento (cada hora) en cada periódico:

Noticias en portada por hora en eldiario.es.

Después hay que contar los titulares en portada de las noticias que contienen “Cifuentes” (y palabras relacionadas con el caso de su máster) para un periódico. Ejemplo con eldiario.es:

Número de noticias en portada en eldiario.es sobre Cifuentes.

Para hacer el cálculo del número de noticias se han elegido todas aquellas que incluyen una de las siguientes palabras o grupos de palabras en su titular: “Cifuentes|Javier Ramos|Enrique Álvarez Conde|Pablo Chico|María Teresa Feito|Alicia López de los Cobos|Cecilia Rosado|Clara Souto|Amalia Calonge|Universidad Rey Juan Carlos”.

Continue reading

Paseando con el globo para fotografiar desde el aire el polígono industrial El Serrallo, en el puerto de Castellón de la Plana

Three Public Lab DIY open-source projects in a peer-reviewed article

Paseando con el globo para fotografiar desde el aire el polígono industrial El Serrallo, en el puerto de Castellón de la Plana
Paseando con el globo para fotografiar desde el aire el polígono industrial El Serrallo, en el puerto de Castellón de la Plana.

After a very long and exhausting peer review process, we started this back in 2014, the paper we co-wrote with Hagit Keysar, Shannon Dosemagen, Catherine D’Ignazio and Don Blair is finally up there: “Public Lab: Community‑Based Approaches to Urban and Environmental Health and Justice”.

Abstract
This paper explores three cases of Do-It-Yourself, open-source technologies developed within the diverse array of topics and themes in the communities around the Public Laboratory for Open Technology and Science (Public Lab). These cases focus on aerial mapping, water quality monitoring and civic science practices. The techniques discussed have in common the use of accessible, community-built technologies for acquiring data. They are also concerned with embedding collaborative and open source principles into the objects, tools, social formations and data sharing practices that emerge from these inquiries. The focus is on developing processes of collaborative design and experimentation through material engagement with technology and issues of concern. Problem-solving, here, is a tactic, while the strategy is an ongoing engagement with the problem of participation in its technological, social and political dimensions especially considering the increasing centralization and specialization of scientific and technological expertise. The authors also discuss and reflect on the Public Lab’s approach to civic science in light of ideas and practices of citizen/civic veillance, or “sousveillance”, by emphasizing people before data, and by investigating the new ways of seeing and doing that this shift in perspective might provide.

Rey-Mazón, P., Keysar, H., Dosemagen, S., D’Ignazio, C., & Blair, D. (2018). Public Lab: Community-Based Approaches to Urban and Environmental Health and Justice. Science and engineering ethics, 24(3), 971-997.

You can read here the full paper (and download PDF until June 3rd, 2018). If you read this too late, you can always ask me for a copy.

We used three different case studies to: Aerial Photography and Community Building in Castellón, Spain, 2014; The Aerial Testimony: Silwan, East Jerusalem, Israel/ Palestine, 2011; and Open Water Science for Civic Veillance.

The story of this paper began after my talk in Ispra (italy) at the “Emerging ICT for Citizens’ Veillance” workshop about the balloon and kite mapping workshop in Castellón (Spain) I did with Basurama in January 2014. Then… I hope we will be able to write down how was the entire publication process.

Special thanks to Hagit, who pushed the paper all the way until publication, despite the different obstacles we found in the way.

¿Cómo analizar la segregación escolar público-privada en Euskadi en 5 pasos?

Cuando me preguntaron si podía hacer unas visualizaciones de los datos sobre segregación escolar en la escuela pública y privada en Euskadi para la Iniciativa Legislativa Popular (ILP) por una escuela inclusiva me interesó mucho el tema. Veo en mi entorno más cercano de Bilbao unas diferencias grandes entre una y otra red escolar, pero no me había parado a estudiar con datos el tema.

No conocía la definición exacta del término “segregación”. Imaginaba que sí existían desigualdades socioeconómicas entre quienes atiende a las redes pública, concertada y privada en Euskadi, pero no había pensado cómo medirlo.

Según una definición la segregación escolar es el fenómeno por el cual los estudiantes se distribuyen desigualmente en las escuelas en función de alguna de sus características” y que es “por tanto, uno de los factores que contribuyen en mayor medida a impedir una verdadera igualdad de oportunidades y generar desigualdad social” como explican Murillo y Martínez-Garrido en un artículo publicado este año. Hay mucha literatura al respecto, que luego he ido conociendo, pero en un primer acercamiento nos pusimos a trabajar y trastear con los datos que teníamos disponibles.

Para estudiar las desigualdades entre las redes pública y privado-concertada de los centros educativos en Euskadi usamos los datos disponibles en el informe La educación en Euskadi 2013-2015 del Consejo Escolar de Euskadi.

Con todos estos y más datos publicamos en diciembre de 2017 un primer informe de acercamiento a la segregación escolar en Euskadi, cuando se anunció la ILP.

Ver informe: Análisis de cohesión e igualdad del sistema educativo en Euskadi.

 

Ahora vamos paso por paso a analizar esta situación de desequilibrio.

Continue reading

Un experimento de small data: black to de future

TL:DR Este es un relato de cómo montamos el bot de Twitter que retransmite con 10 años de retraso los gastos de las tarjetas black. Puedes leer también el post que ha escrito Alfonso con los detalles técnicos del desarrollo.

Desde hace un tiempo nos rondaba en Montera34 a Alfonso y a mi la idea de ponernos de nuevo con los datos de las tarjetas black. El juicio donde se juzgaba a los directivos de Caja Madrid y Bankia que habían usado sus tarjetas opacas a Hacienda estaba a punto de acabar. Todavía teníamos un pequeño margen antes de las deliberaciones finales y la sentencia.

En vez de analizar los datos en su conjunto otra vez ¿por qué no cambiar la forma de acercarse a los datos y fomentar ver el detalle de cada gasto? Nos parecía  interesante poder tratar los gastos uno a uno y entender cuándo y cómo sucedían. Un ejercicio de “smalldata para hacer mininarrativas con tamaño tuit de cada gasto.

La fechas no podían ser peores. Las navidades se acercaban, hacía falta cerrar varios proyectos, líos familiares… un tiempo perfecto para hacer un proyecto en modo exprés y en abierto.

Alfonso reutilizó algo de código de otro proyecto para hacer una página que publicaba los gastos del día. Por suerte teníamos ya los datos recopilados en un único archivo de la otra visualización: unos 75.000+ gastos clasificados por usuario, comercio, tipo de actividad…

A partir de esta primer boceto surgían algunas preguntas ¿se podían buscar otras fechas u otras distancias de años además de la década de distancia?
En principio nos gustó la idea que ahora parece obvia: ofrecer pocos datos para centrar la atención del usuario. Diez años es una cifra fácilmente inteligible por cualquiera.

Luego teníamos que resolver dónde ibamos a publicar la web. El subdominio lab.montera34.com podía valer. Tras un poco de tuneo a los estilos la web empezaba a tomar forma:

Por el camino surgió algo que también parece obvio ahora y que hacía casi todo lo demás del proyecto redundante. Tras comentar con Martín (@martgnz) el proyecto @censusamericans, que convierte cada hora una línea del censo en un tuit, del tipo “I had a baby last year. I don’t have health insurance. I am divorced. I moved last year. I got married in 2000.” nos sugirió tuitear en directo los gastos de las tarjetas black en riguroso directo en diferido.

Ya sólo nos faltaba desarrollar el bot para Twitter… y alguna cosa más.

Nos faltaba un nombre e imagen con gancho. Gracias a hacer el desarrollo del proyecto en abierto Guille nos sugirió Black to the Future. Lo españolizamos a @BlacktoDeFuture y así lo reducíamos a los caracteres necesarios para que cupiera en el nombre de una cuenta de Twitter. Nos gustaba también el Black2thefuture que proponía @jorgelamb, pero ya estaba pillado.

En apenas un hora, modificando el cartel original de Regreso al futuro que nos pasó Guille y una tipografía similar a la original que encontramos por ahí ¡Ya lo teníamos!

Mientras Alfonso cocinaba el bot hecho en Python me dediqué a lanzar la web para preparar la llegada del bot de Twitter. Publicar los gastos en una sola frase requería algunos retoques. A veces el nombre comercio no figuraba, pero sí el tipo de actividad (cajero, disposición en efectivo…). Con unas cuantas sentencias condicionales en PHP quedaba arreglado. También aproveche mis conocimientos recién adquiridos de R para reordenar todos los gasos por días y hora, así saldrían ordenados en la página de gastos del día.

Ya por entonces nos habíamos dado cuenta de que la web molaba, y mucho, pero que lo realmente iba a funcionar era el bot de Twitter. La web sería la partitura diaría que el bot tiene que seguir. La cuenta de Twitter permitiría seguir en “tiempo real” lo que gastaban los directivos de las black. Unos días después empezabámos a retransmitir:

En resumen, acabábamos de lanzar desde Montera34 un bot que tuiteaba todos los gastos de las tarjetas black con 10 años de retraso. Riguroso directo en diferido. Un viaje en el tiempo a otra era. Un viaje a 2006, un país que todavía no se enteraba de que la burbuja inmobiliaria y muchas otras cosas iban a estallar: @BlacktodeFuture.

Hay gastos de las tarjetas black anotados hasta el 29 de agosto de 2012:

2012-08-29 | 14:18:45 | APARCAMIENTO MONTALBAN | GARAJES,RESTO DE APARCAMIENTOS | 15.8€ | COMPRA | Miguel Ángel Abejón Resa

Quién sabe, quizás para el año 2022 todavía sigue funcionando nuestra máquina del tiempo y vayamos a celebrar el fin de su viaje al aparcamiento de la calle Montalbán en Madrid.

Continue reading

Cadáveres inmobiliarios en UrbanBAT

El miércoles 23 de diciembre 2016 a las 19.00h  tarde estaré hablando sobre Cadáveres Inmobiliarios en UrbanBAT en Bilbao.

Cadáveres inmobiliarios en UrbanBAT

prototipando-la-ciudad-en-transicion-publicacion-cadaveres

Cadáveres Inmobiliarios ha sido seleccionado para la quinta edición del festival UrbanBAT en Bilbao.

Hemos hecho la selección buscando iniciativas quedesde distintos ámbitos de acción,están proponiendo un impacto sobre el desarrollo urbano (y urbanístico) sostenible en su entorno. Iniciativas que, en mayor o menor medida hibridan entre el trabajo socio-comunitario, el urbanismo participativo, la arquitectura, y las prácticas culturales y artísticas para imaginar conjuntamente soluciones para un desarrollo urbano sostenible. Proyectos que tienen que ver con la regeneración urbanística y arquitectónica de barrios, la recuperación de patrimonio industrial para usos culturales y comunitarios, el empleo de la cultura como herramienta transformadora del territorio, la reapropiación del espacio público, la reutilización de residuos para la construcción de espacios comunes, el replanteamiento de los mercados de producción y consumo, el desarrollo de plataformas en red para visibilizar vacíos urbanos.

Han seleccionado estos proyectos:

Cadáveres Inmoiliarios compartirá presentación exprés con todas estas experiencias el miércoles 23 de Noviembre a las 19.00h en Bizkaia Aretoa (Bilbao), en una sesión abierta y gratuita par todo el público. Consigue tu entrada gratuita y más información sobre la sesión.

El día siguiente, en un taller interno, compartiremos experiencias y realizaremos una consultoría entre pares que ayude a enriquecer y mejorar cada uno de los proyectos.

Si hoy declara Correa, es un buen día para ponerse con la tesis

161013_buen-dia-empezar-tesis-correa

Justo ayer, el día que empezaba a declarar Correa en el juicio de la primera época de la Gürtel, me ha llegado la noticia. Ha sido aprobado el proyecto de tesis y plan de investigación “The color of corruption coverage in Spain” (descarga el pdf) que presenté en mayo. Así que ya soy oficialmente doctorando. Sólo me queda hacer la tesis. Correa es el acusado clave de la trama y por el que toma nombre el caso Gürtel, que es “correa” en alemán.

160930_colorcorrupcion_septiembre-2016
Modo interactivo en PageOneX.com

Ahora un resumen de los últimos acontecimientos en cunato a la tesis se refiere.

Data gathering in the age of information

It’s been a busy week. Almost all the tasks are related to data gathering: tweets, front pages or video streaming. It is interesting how non trivial is to gather all the different information flows that surround as.

Answers from reviewers to the thesis research plan

The research proposal has had been approved with no conditions by my thesis committee and one anonymous reviewer. Here you can download the document: The color of corruption coverage in Spain. Agenda setting in a polarized media ecosystem. I need to examine and review the suggestions that I list below (thanks reviewrs):

  • Hypothesis too general
    “hypotheses are too general. Here is my recommendation: the candidate defines the hypothesis thinking on the connection between the dependent and independent variables”.
  • Operationalization of variables and independent variables
    “The candidate will use three types of data, one related to front-pages of print media, another with the information about twitter, and public opinion. To do that the candidate not only will follow existing methodologies but will also use pageonex.com (elaborated by the author). Here it will be relevant to know something else about the operationalization of variables. I guess the unit of analysis is going to be stories (number of percentage?), tweets (number?), public opinion (percentage?) for one or two years (2016-2017). Also we need more information about which are the independent variables that will be taken into account. In general the methodology seems as appropriate for the plan but needs further elaboration in the future”.
  • Define agenda setting role of media, traditional vs new media, analyze literature
    “In general, it is clear the author has analyzed some of the main contributions to the field, but there are some important shortcomings. There is not a discussion about which is the agenda setting role of the media, what we mean by that, why this is important, and which are the factors that limit the capabilities of the new and traditional media to develop this agenda setting role. (…) Accordingly, the theoretical part needs an elaborated discussion about the agenda setting role of the new and traditional media, highlighting the similarities and differences between the two and why this matters. To do that the author needs to analyze the literature about agenda setting taking into account authors like Norris to better understand the role of the media in a democracy, Graber and Iyengar to explain the agenda setting role of the media and the interconnection between different types of media outlets, Hallin and Mancini to better understand the media systems and why this matter (just to mention some of the most cited).
  • Add asocial movemente theory and atudy anti-corruption activist
    “Suggest the author add an additional RQ / hypothesis about anti-corruption activists attempts to influence the mass media agenda, outside of social media (through meetings, petitions, protests, and so on). Do anti-corruption protests shift the mass media agenda? (…) The author may want or need to develop additional data (qualitative and/or quantitative) about attempts by anti-corruption activists to shift the mass media agenda. For example, a dataset of anti-corruption protests, by size/participation, and/or analysis of interviews with anti-corruption activists. (…) the dissertation might benefit from a section that engages significantly with the social movement studies literature. Specifically, there is a subfield of social movement studies that explores the ways that social movement actors attempt to gain access to mass media visibility, and in the context of the Spanish corruption cases, presumably this is taking place extensively. This introduces additional possibilities and questions about mass media agenda setting. For example: are there social movement actors who have personal friends among journalists, editors, and other members of the mass media? Potentially, they are meeting, lobbying, talking with, protesting, and otherwise attempting to shift the mass media agenda to cover corruption, NOT ONLY via social media but also through face to face methods, phone calls, petitions, meetings, perhaps direct actions, advertiser boycotts, and so on. Also: do anti-corruption protests shift the news agenda?”
  • Mejor conexión entre los ámbitos de la investigación
    “Faltaría, en algunos casos, trabar mejor la transición o la interconexión entre los distintos ámbitos de la investigación. En especial faltaría una mejor/mayor justificación de la (supuesta) disrupción que hacen los medios sociales en el panorama informativo y su papel de contrapeso con los medios tradicionale. (…) La parte del impacto de los nuevos medios en el establecimiento de la agenda debería reforzarse para que no quede coja respecto al resto de marco teórico. Por otra parte, la retroalimentación mútua entre los viejos y los medios nuevos/digitales debería perfilarse mejor para poder acabar de definir la metodología”.
  • ¿Qué preguntas hacer a los datos pra no desbordarse?
    “La metodología es muy robusta y utilizará sobre todo dos grandes fuentes de datos, extensas, objetivas y relativamente fáciles de manipular. En este sentido, el reto será saber qué preguntas hacerles a los datos – de las muchas posibles dada la riqueza de los mismos – para que la investigación no se desborde”.
  • Falta mayor profundidad en el planteamiento
    “Sí, los objetivos, las preguntas y las hipótesis son claras y fundamentadas en el debate teórico. Sin embargo, falta una cierta profundidad de planteamiento que se queda en lo descriptivo. Ciertas cuestiones de fondo quedan implícitas o marginadas, como si la polarización es mayor en las redes sociales que en los medios de referencia o si los casos de corrupción preeminentes en ambas esferas (redes digitales y medios convencionales) difieren en cuanto a sus protagonistas. La primera cuestión se relacionaría con las dinámicas de polarización que se atribuyen a la esfera pública digital y la segunda, con el control que se atribuye a las fuentes oficiales en la agenda de los medios convencionales de referencia y a los alineamientos político-edioriales que se han percibido en la prensa española. Se recomienda un mayor énfasis en estas preguntas para facilitar un debate académico que haga aportaciones más allá del caso de estudio nacional que ahora se plantea”.
  • Falta autores españoles anteriores al año 2000
    “La bibiliografía recoge en extenso las principales contribuciones en el orden teórico y empírico, en el plano nacional e internacional. Se echa en falta, sin embargo, el conocimiento y la referencia a obras de autores españoles anteriores del año 2000 y anteriores que abordan el tema de la construcción de la agenda y de los marcos discursivos tanto en la teoría como en análisis de casos”.

Some related tweets