
Category: experiments


Luchando con los barómetros del CIS
TLDR: cómo procesar uan pregunta de todos los barómetros del CIS que no está en los archivos fusionados. Necesito para mi tesis procesar todos los microdatos. Preguntas y próximos pasos al final.
Una de las fuentes de datos que uso para mi tesis son los barómteros del CIS. Cada mes desde hace muchos años el CIS hace una encuesta, barómetro, en donde se pregunta por los tres principales problemas que tiene España.
Como los microdatos de cada barómetro están disponibles, esto es, cada una de las respuestas a los cuestionarios está publicada, es posible analizar y cruzar variables por edad, comunidad autónoma o profesión. El primer problema es conseguir y procesar los datos.
Disponibilidad de los datos: web y FID
Lo primero es dirigirse a la página del CIS a descargarlos (pestaña Estudios http://www.analisis.cis.es/cisdb.jsp), pero se encuentra uno el primer problema: hace falta introudcir tus datos personales (nombre, apellidos, universidad, email, objeto) para descargarlo, lo cual descarta un scrapero rápido automatizado de los datos. Existen datos fusionados de varios barómetros juntos para algunos años, pero no están disponibles para todos los años.
Así que la siguiente opción es usar los Fichero Integrado de Datos (FID) (http://analisis.cis.es/fid/fid.jsp) “un único fichero, de los microdatos de un conjunto de variables, para los estudios del CIS que se seleccionen”:
“El interfaz permite al usuario elegir de forma rápida y cómoda a partir de una colección, los estudios que desee y, de estos, las variables deseadas de entre las contenidas en el diccionario del FID. Posteriormente, la solicitud se envía al CIS y, una vez que el CIS procede a su autorización, el fichero con los microdatos seleccionados se puede descargar en formato ASCII o SAV, de modo sencillo y fácil de tabular por diversos programas estadísticos. Es necesario el registro del usuario o identificación del mismo (si el usuario ya está registrado), para completar una petición de datos”.
Web del CIS. Explicación sobre los Fichero Integrado de Datos (FID).
El problema es que la pregunta que necesito “¿Cuál es el principal problema que existe en España? ¿ y el segundo? ¿y el tercero?”, aunque su enunciado concreto ha ido variando a lo largo de los años, no está disponible en los FID, ya que solamente se ofrece un subconjunto de las variables integradas.
.zip a .zip
Así que he solicitado por email todos los barómetros disponibles, esta es la lista de todos los disponibles: https://code.montera34.com/numeroteca/barometro_cis/-/blob/master/data/original/barometros-cis.csv
Según me han indicado soy el primero en hacerlo. Me parece raro que nadie lo haya hecho antes, ciertamente. Seguramente hayan usado otros métodos.
Tras una serie de pruebas con unos archivos de prueba para comprobar que los abría bien han procedido a preparar para que descargue todos los microdatos de los barómetros en zips por año. En pocos días me he hecho con la colección completa de microdatos de barómetros.

Un poco de código para descomprimirlos fácilmente:
unzip ‘*.zip’ unzipear todos los archivos
mv */* . mover los que están en directorios al raiz
mv MD*/* .
rm -r 19* 20* fu* eliminar directorios vacíos
Ahora que tengo todos, volver a unzipear:
unzip ‘*.zip’
Ahora creo un archivo con todos los *.sav:
ls | grep sav > files.csv
Ahora tengo el listado de todos los barómetros disponibles (los de 2020 y 2021 me da un problema para abrirlos que tengo que resolver “error reading system-file header”). Puedo procesar todos los microdatos de los barómetros desde junio de 1989, los anteriores solamente están disponibles uno de 1987 (nº 1695), dos de 1985 (nº 1442 y 1435) y otro de 1982 (nº 1320), que me enviarán cuando sea posible. Para el resto desde junio de 1979 no hay microdatos y habría que pagar por ellos si los quisiera.
Encontrar la pregunta y su número

Para poder analizar las respuestas por CCAA, que es mi objetivo, tengo que encontrar el código de la pregunta, que, oh sorpresa, va cambiando a lo largo de los años. Para ello he montado una hoja de cálculo para anotar qué código lleva la pregunta (https://docs.google.com/spreadsheets/d/1xxlt8FnWanVzYkIQdU2yaWlE8-HUvnzVXSiE2QvNJRU/edit#gid=0). Así, la primera vez que aparece es en los archivos disponibles es de mayo de 1992, y tiene los códigos P501, P502 y P503, una por cada uno de los problemas percibidos. Ese código ha ido variando a lo largo de los años a la pregunta: P1401, P701, P1601, P1201… los primero números indican el número de la pregunta. Para averiguar el código hay dos maneras. Cada barómetro está compuesto por un conjunto de archivos. Así, el barómetro nº 3134 tiene los siguientes archivos:
- 3134.sav microdatos
- DA3134 archivo dat
- ES3134
- FT3134.pdf ficha técnica
- cues31314.pdf cuestionario original
- codigo3134.pdf códigos utilizados
- tarjetas3134.pdf tarjetas que usan los encuestadores
Al principio miraba si la pregunta estaba en el cuestionario, pero luego vi que era más rápido mirar directamente si en el archivo con los códigos venía la pregunta y su número: “P.7 Principal problema que existe actualmente en España. El segundo. El tercero” que con suerte correspondería con la variable P701, P702 y P703.
El problema es que en algunos casos contados ponen la “p” de la variable con minúscula y el código es p701. Algo que solamente se puede averiguar abriendo el archivo .sav. Para ver lo que contiene el archivo.sav con la librería “foreign” en R: df <- read.spss(data, use.value.label=TRUE, to.data.frame=TRUE), siendo data el “path” al archivo .sav correspondiente.
Desde Rstudio se puede previsualizar el archivo .sav cargado y mirar cuál es el código correcto:

Lo que pasa es que muchos barómetros no tienen disponible esa pregunta, pero ¿cómo saberlo para ahorrarnos tiempo? Existe una página, ya ni recuerdo cómo llegué a ella, que tiene todas las respuestas recogidas y procesadas “Tres problemas principales que existen actualmente en España (Multirrespuesta %) http://www.cis.es/cis/export/sites/default/-Archivos/Indicadores/documentos_html/TresProblemas.htm, esto pernite de un vistazo saber cuáles son los barómetros que tienen respuesta:

Así se puede ir a tiro hecho a buscar el código en los barómetros que sabemos tienen respuesta. Relleno celdas de la hoja de cálculo de las columnas p1, p2 y p3 (cada una corresponde con una de las respuestas a los 3 principales problemas) copiando el valor anterior, hasta que da error el script que lo procesa (ver más adelante).

Pero no se detienen los problemas. Los encuestadores recogían la respuesta libre (que no se ofrece en los microdatos) para después clasificarla en unos cajones-respuestas establecidos:
Lo que ocurre es que en algunos años “La corrupción y el fraude” no se ofrecían como respuesta posible, así que de haber habido alguna respuesta corrupción como respuesta en aquello años de bonanza económica habrá ido a la casilla de “otros”. Esto pasó entre septiembre de 2000 y julio de 2001, por ejemplo, lo que hará que la serie tenga algunos agujeros. Habrá que hacerlos explícitos.
Procesar 1: juntar todas las respuestas
Una vez sorteadas estas trabas es la hora de programar un script que vaya abriendo cada archivo .sav, seleccione las variables adecuadas y cree un archivo con todas las respuestas:
# Select and load multiple barometro files ------------
# where are files stored
path <- "~/data/CIS/barometro/almacen/tmp/"
# remove if it hasn't got the questions
cis_files <- cis_files %>% filter( p1 != "" )
# iterate through all the files
for ( i in 1:nrow(cis_files) ) {
# for ( i in 1:8 ) {
print("--------------------")
print(paste(i,cis_files$name[i],cis_files$date[i] ) )
# create path to file
data <- paste0(path, cis_files$name[i])
# load data in the file
df <- read.spss(data, use.value.label=TRUE, to.data.frame=TRUE)
# chec if variable ESTU exists
if ( "ESTU" %in% colnames(df) ) {
df <- df %>% mutate(
ESTU = as.character(ESTU)
)
} else {
# if ESTU is not in the variables, insert the ID of the barometer
df <- df %>% mutate(
ESTU = cis_files$id[i],
ESTU = as.character(ESTU)
)
}
# if REGION exixts, rename it as CCAA
if ( "REGION" %in% colnames(df) ) {
df <- df %>% rename(
CCAA = REGION
)
}
# add date to data by taking it gtom cis_id dataframe
df <- left_join(df,
cis_id %>% select(id,date),
by = c("ESTU"="id")
# ) %>% select( date, ESTU, CCAA, PROV, MUN, P701, P702, P703 )
)
# select the basic columns and the 3 questions
# the true name of the question is specified in the online document https://docs.google.com/spreadsheets/d/1xxlt8FnWanVzYkIQdU2yaWlE8-HUvnzVXSiE2QvNJRU/edit#gid=0
selected <- c( "date", "ESTU", "CCAA", "PROV", "MUN", cis_files$p1[i], cis_files$p2[i], cis_files$p3[i])
df <- df %>% select(selected) %>% rename(
p1 = cis_files$p1[i],
p2 = cis_files$p2[i],
p3 = cis_files$p3[i],
) %>% mutate(
p1 = as.character(p1),
p2 = as.character(p2),
p3 = as.character(p3)
)
# For the first file
if ( i == 1) {
print("opt 1")
# loads df in the final exportdataframe "barometros"
barometros <- df
print(df$date[1])
print(df$ESTU[1])
} else {
print("not i==1")
barometros <- rbind( df, barometros)
}
}
Por el momento tengo 570.795 respuestas a la pregunta analizada de 223 barómetros, a falta de solventar algunos problemas.
Limpiar datos 1: los nombres de las CCAA
Ahora toca limpiar los datos. Lo primero es limpiar los nombres de las CCAA que a lo claro de los años han ido acumulando diferentes nomenclaturas y alguna vez han tenido el código de la CCAA en vez del nombre (ver https://code.montera34.com/numeroteca/barometro_cis/-/blob/master/analizando-CIS.R#L161), copio solamente un extracto:
barometros <- barometros %>% mutate(
CCAA = as.character(CCAA),
CCAA = CCAA %>% str_replace("\{",""),
CCAA = CCAA %>% str_replace("\}",""),
CCAA = CCAA %>% str_replace("\(",""),
CCAA = CCAA %>% str_replace("\)",""),
CCAA = CCAA %>% str_replace(" "," "),
CCAA = CCAA %>% str_replace("Euskadi","País Vasco"),
CCAA = CCAA %>% str_replace("País Vasco ","País Vasco"),
CCAA = CCAA %>% str_replace("Pais Vasco","País Vasco"),
CCAA = CCAA %>% str_replace("País vasco","País Vasco"),
CCAA = CCAA %>% str_replace("País vascoPV","País Vasco"),
CCAA = CCAA %>% str_replace("País VascoPV","País Vasco"),
…
)
Procesar 2: Contar respuestas por barómetro
Ahora toca agrupar las respuestas por barómetros de nuevo y calcular el número de encuestas por barómetro que hacen mención a tal o cual tema:
# Group by date and CCAA ----------------------
evol_count <- barometros %>% group_by(CCAA,date) %>% summarise(
# counts number of elements by barometro and CCAA
count_total = n()
) %>% ungroup()
evol_p1 <- barometros %>% group_by(CCAA,date,p1) %>% summarise(
# counts number of answers for each type for question 1 by barometro and CCAA
count_p1 = as.numeric( n() )
)
evol_p2 <- barometros %>% group_by(CCAA,date,p2) %>% summarise(
# counts number of answers for each type for question 1 by barometro and CCAA
count_p2 = as.numeric( n() )
)
evol_p3 <- barometros %>% group_by(CCAA,date,p3) %>% summarise(
# counts number of answers for each type for question 1 by barometro and CCAA
count_p3 = as.numeric( n() )
)
# joins p1 and p2
evol <- full_join(
evol_p1 %>% mutate(dunique = paste0(date,CCAA,p1)) ,
evol_p2 %>% mutate(dunique = paste0(date,CCAA,p2)) %>% ungroup() %>% rename( date_p2 = date, CCAA_p2 = CCAA),
by = "dunique"
) %>% mutate (
# perc_p2 = round( count_p2 / count_total * 100, digits = 1)
)
# fills the dates and CCAA that were empty
evol <- evol %>% mutate(
date = as.character(date),
date = ifelse( is.na(date) , as.character(date_p2), date),
date = as.Date(date),
CCAA = as.character(CCAA),
CCAA = ifelse( is.na(CCAA), as.character(CCAA_p2), CCAA),
CCAA = as.factor(CCAA)
)
# joins p1-p2 with p3
evol <- full_join(
evol,
evol_p3 %>% mutate(dunique = paste0(date,CCAA,p3)) %>% ungroup() %>% rename( date_p3 = date, CCAA_p3 = CCAA),
by = "dunique"
) %>% mutate (
# perc_p2 = round( count_p2 / count_total * 100, digits = 1)
)
# fills the dates and CCAA that were empty
evol <- evol %>% mutate(
date = as.character(date),
date = ifelse( is.na(date) , as.character(date_p3), date),
date = as.Date(date),
CCAA = as.character(CCAA),
CCAA = ifelse( is.na(CCAA), as.character(CCAA_p3), CCAA),
CCAA = as.factor(CCAA)
)
# add number of answers per barometer and CCAA
evol <- left_join(
evol %>% mutate(dunique = paste0(date,CCAA)),
evol_count %>% mutate(dunique = paste0(date,CCAA)) %>% select(-date,-CCAA),
by = "dunique"
) %>% mutate (
count_p = count_p1 + replace_na(count_p2,0) + replace_na(count_p3,0),
# este sistema da error en los "no contesta" al contarlos varias veces al sumar!!!
perc = round( count_p / count_total * 100, digits = 1)
) %>% select ( date, CCAA, everything(), -dunique, -date_p2, -date_p3, -CCAA_p2, -CCAA_p3 ) %>% mutate(
p = p1,
p = ifelse( is.na(p),p2,p),
p = ifelse( is.na(p),p3,p),
date = as.Date(date)
)
Limpiar los datos 2: las respuestas
Toca limpiar las respuestas para eliminar las múltiples formas de escribir “La corrupción y el fraude” o “Corrupción y fraude ” (ojo al espacio después de “fraude” que a algunos vuelve loco). Una tarea de estandarización de las respuestas que hago con OpenRefine y que en algunos casos requiere de decisiones subjetivas, véase el ejemplo:


Visualizar
El siguiente paso es visualizar los resultados para detectar los primero errores y corregir problemas en la captura y procesado. Antes de publicar esto ha ocurrido varias veces: detecté unos barómetros de 2016 que no se habían descomprimido, por ejemplo.
En las primeras visualizaciones trato de ver que salen valores congruentes y que no hay agujeros en los datos. En este primer gráfico de rejilla muestro el porcentaje de entrevistas de cada barómetro que tienen como respuesta “El paro” (rosa) y “La corrupción y el fraude” (verde). Ya se pueden ver cómo hay mucho más ruido en lugares como Ceuta y Melilla por el bajo número de respuestas, pero que el resto de valores sigue una tendencia parecida. En La Rioja (fila de abajo, tercera por la izquierda) también se ve ese problema, con sus 17 entrevistas por barómetro.

Problemas y siguientes pasos
Desde el CIS no solamente me enviaron todos los microdatos sino que me asesoraron sobre su uso. Les conté lo que pretendía hacer con los datos y me advirtieron de dos cosas relacionadas con la cantidad de entrevistas por CCAA y la ponderación:
A. Ponderación en SPSS
“Los ficheros Sav, por defecto van con la ponderación activada, siempre, en todos los que hemos pasado ya y en los que pasaremos, de esta lista”, algo que no entiendo del todo bien, porque eso no creo que deba afectar a los microdatos.
Si alguien ha trabajado con los .sav en SPSS quizás me pueda aclarar cómo funciona la ponderación en ese programa, dónde se almacena esa información.
B. Si no tienes más de 400 entrevistas…
“Nosotros no consideramos representativos los datos de Comunidades con un tamaño menor a 400 entrevistas. En los barómetros, salvo los del último año para algunas Comunidades (mire ficha técnica), el tamaño muestral es de entorno a las 2.500 entrevistas, eso significa que habitualmente salvo Madrid y Cataluña, la mayor parte se quedan muy por debajo, incluso de menos de 100. Los márgenes de error cuando se quiere hablar sobre esos datos son muy altos, y más aún si además va a hacer cruces”. Me redirigían a una sección de su web:

Una cuestión no menor que puede hacer que no use finalmente estos datos para las comunidades, o tenga que emplear grados de incertidumbre demasiado altos.
En los últimos estudios sí aparece la ponderación usada para el valor global:

Un cálculo rápido de número de encuestas por barómetro y CCAA:
CCAA | media | mediana |
Andalucía | 439.4 | 437 |
Cataluña | 396.9 | 395 |
Madrid | 328.9 | 328 |
Valencia | 261.6 | 265 |
Galicia | 167.3 | 164 |
Castilla y León | 152 | 147 |
País Vasco | 129.8 | 125 |
Castilla-La Mancha | 109.8 | 109 |
Canarias | 99.5 | 99 |
Aragón | 75.2 | 74 |
Murcia | 71.4 | 72 |
Asturias | 66.8 | 64 |
Extremadura | 63.2 | 62 |
Baleares | 48.8 | 47 |
Navarra | 33.7 | 34 |
Cantabria | 33.5 | 33 |
Rioja | 17.1 | 17 |
Ceuta | 4.1 | 4 |
Melilla | 4.1 | 4 |
media = round( mean(count_total), digits = 1),
mediana = median(count_total))
Día en que se realiza la entrevista ¿se podría saber?
Tenía interés en cruzar el día de la encuesta para ver si se podía estudiar con determinados escándalos que tienen un día muy marcado su anuncio en los medios de comunicación, podŕia verse su impacto en las encuestas, pero ese dato no está disponible. Lo que se conoce es el periodo en que se realizan las encuestas, que suele ser la primera quincena del mes. ¿se podrá conseguir la fecha exacta de cada entrevista?

Cuando hablan de Cifuentes y su máster en los Telediarios
En el mes de Marzo de 2018 eldiario.es sacó a la luz irregularidades en el caso del máster de la entonces presidenta de la Comunidad de Madrid Cristina Cifuentes. Para tener más contexto puedes escuchar el magnífico podcast sobre el escándalo que publicó eldiario.es.
En esta serie de posts analizaremos cuantitativa y cualitativamente la cobertura que se le dio al escándalo en diferentes medios de comunicación y redes sociales para intentar entender cómo es el flujo de información entre unos canales y otros.
Estos textos forman parte de la investigación para mi tesis doctoral sobre cobertura de corrupción en España. En su momento ya analicé la cobertura en las portadas de los periódicos en papel.

Hoy analizo las noticias sobre lo que se ha venido a conocer como el caso “Máster” en una nueva base de datos: los Telediarios de Televisión Española que Civio pone fácil estudiar con su herramienta Verba (https://verba.civio.es/).
Verba permite hacer búsquedas por palabras en las transcripciones de los telediarios de TVE y descargar los datos. La unidad de medida es la frases que contiene tal o cual palabra.
No centraremos ahora en cuando estalló el escándalo, el 21 de marzo de 2018. El resultado es fruto buscar en Verba tras la búsqueda multipalabra para ese periodo concreto: “Cifuentes”|”Javier Ramos”|”Enrique Álvarez Conde”|”Pablo Chico”|”María Teresa Feito”|”Alicia López de los Cobos”|”Cecilia Rosado”|”Clara Souto|Amalia Calonge”|”Universidad Rey Juan Carlos”.
Los gráficos están hechos con VerbaR, unos scripts de R que he desarrollado para analizar con R datos de Verba. Cada línea negra es una frase que incluye una de las palabras de la búsqueda:

El gráfico está dividido en una parte de arriba, para los telediarios de las 15:00h y la de la abajo, para los de las 21:00h. He marcado los primeros dos minutos para enfatizar la cabecera o “portada” del noticiario. No tengo claro todavía cuánto dura este inicio con las noticias más destacadas.
Aquel 21 de marzo, tras salir publicado el escándalo en eldiario.es el Telediario de las 15:00h se hizo eco de la noticia en su apertura:
- 1’18”: La Universidad Rey Juan Carlos atribuye a un error de transcripción que en dos asignaturas del máster que Cristina Cifuentes cursó hace seis años figurase como no presentada.
- 1’28”: Cifuentes aprobó ambas asignaturas, según ha confirmado el rector.
Más adelante expandía la noticia ne el minuto 14:
- 14’56”: En Madrid, la universidad Rey Juan Carlos niega cualquier irregularidad en el máster de la presidenta Cristina Cifuentes.
- 15’03”: Un diario digital sostiene que obtuvo la titulación con dos notas falsificadas.
Verba ofrece la posibilida de acceder a la transcripción completa y no solamente a las frases resultado de la búsqueda-
En el gráfico se puede ver cómo en ese primer día hay dos bloques de información: el del resumen inicial, esos 2 ó 3 minutos -estaría bien poder cuantificarlo- y cuando se amplia la noticia. Esa cabecera viene a ser análoga a la portada de los periódicos, donde se seleccionan las noticias más importantes.
El problema de la búsqueda por palabras es que se deja fuera las frases que no contienen las palabras buscadas pero que pertenecen a la noticia, por ello esos existen huecos en los gráficos entre unas líneas y otras. Por ejemplo, la noticia en cabecera duraba más, pero se quedó fuera de nuestra búsqueda:
- 1’31”: La oposición pide explicaciones.
- 1’34”: El Gobierno regional subraya la honorabilidad del comportamiento de la presidenta.
En el gráfico se ha sobredimensionado la duración de las frases asignándoles 30 segundos de duración para facilitar su lectura.
Si pudiéramos distinguir los bloques de noticias, cuando empieza un tema y acaba otro, podríamos ver algo como esto, donde coloreo “a mano” en rojo la posible duración del total de las noticias relacionadas con el máster:

Este otro gráfico visualiza el número de frases que contienen las palabras clave. Suma todas las frases encontradas y las agrega en una columna:

Nos da una idea aproximada de la evolución de la cobertura. Sería interesante poder clasificar esta información según los días que la noticia ha estado en la cabecera del telediario y poder así estudiar la relación de tiempo de frases dedicadas a la noticia con su aparición en el resumen de inicio. También sería interesante conocer la duración de la noticia, y no únicamente el número de frases encontradas.
Si volvemos a hacer el primer gráfico clasificando manualmente las frases seleccionadas, podemos entender mejor la historia: primero salta la noticia sobre el master (“máster” en verde) , vuelve a aparecer a primeros de abril con fuerza, con 10 días seguidos con noticia en cabecera en el telediario de las 15:00h y se cierra con la dimisión el 26 de abril, tras el nuevo escándalo del vídeo sobre el robo de las cremas en un supermercado:

Podemos ver estos mismo datos agregados en columnas:

Este primer análisis nos permite ver la potencia y las limitaciones de este tipo de visualizaciones:
- las palabras clave de búsqueda son determinantes
- es necesario reclasificar la información para poder analizar en profundidad la evolución de la cobertura. Otras variables a analizar serían el enfoque de las noticias.
¿Cómo de relevante fue la cobertura de TVE en relación a otros medios de comunicación o redes sociales como Twitter? Lo veremos en los siguientes capítulos.
He creado una aplicación con Shiny para poder generar gráficos de este tipo y analizar más rápidamente las diferentes búsquedas en Verba: [actualizción: mejor esta versión: https://r.montera34.com/users/numeroteca/verbar/app/] https://numeroteca.shinyapps.io/verbar/
Gracias a que es interactiva puedes ver que contiene cada frase.

Hay una opción que te permite seleccionar una fecha y ver todas las frases de ese día.

El duro camino para publicar la serie de fallecidos por provincias en Euskadi

Hace unos días os contaba lo difícil, por no decir imposible, que era seguir la evolución de los fallecidos por provincias en Euskadi, a no ser que dediques un buen rato, energía y técnica al asunto.
Basta pasearse por las páginas dedicadas a la COVID-19 en Euskadi en los principales diarios que ofrecen información local (eldiario.es, elcorreo.com, por ejemplo) para ver que esos gráficos de evolución de fallecidos por provincia no se publican. Y no se publican porque la Administración publica esos datos de una forma que hace imposible, digamos mejor muy dificultosa, su elaboración. Es un claro ejemplo de cómo la forma de publicar los datos dicta la agenda mediática. Publica los datos de una forma y los medios de comunicación hablarán de una determinada forma ¡Si quieres evitar que se hable de algo, no publiques esos datos!

Open Data Euskadi, la plataforma de datos abiertos en País Vasco, publica los datos diarios de fallecidos para toda Euskadi una vez a la semana (pestaña 08 de la hoja de cálculo). Por poner un ejemplo: hasta hoy solamente conocíamos los fallecidos agregados en las tres provincias vascas hasta el 15 de noviembre ¡hace 10 días!
Esta serie de datos vale para ver la evolución en la CAPV, pero no por provincia (Nota: sí que se publica en días laborables los fallecidos por hospitales, que era la cifra que usábamos, por aproximación, hasta hace bien poco).
Para construir la serie de fallecidos por provinicas tenemos que recurrir a los datos de fallecidos acumulados que se publican por municipio y una vez a la semana (pestaña 07). Ojo, no se publica el histórico, como sí se hace con los casos o los hospitalizados. Esto es, si quieres saber los fallecidos que había habido en un municipio en determinada fecha no puedes saberlo, porque el archivo que se publica sobre escribe al anterior. Tampoco puedes saber los fallecidos en una determinada semana, porque el dato que se publica es el total acumulado de muertes.
Esto cambió el 20 de octubre de 2020, tras solicitar que fuera posible acceder al histórico de archivos publicados. Además habría que comparar dos archivos para poder calcular el incremetno de muertes de una semana a otra. No nos engañemos, una tarea que nadie va a realizar. A pesar de la buena noticia de que ahora sí se guardan y se publican en abierto los archivos anteriores para permitir trazabilidad… las fechas anteriores al 20 de octubre siguen sin ser accesibles… a no ser que alguien haya guardado todos los archivos que se hayan publicado diariamente… y ¡nosotros lo hemos hecho! (esto es como el he “estudiado a Agrippa” de La Princesa Prometida).
Así que de este modo, no sin un poco de sudor, hemos podido reconstruir la serie histórica de fallecidos por municipios que nos ha permitido construir la serie por provinicas. Un proceso tedioso que implica rescatar con git (el sistema de versiones que usamos) todas las versiones de un archivo, construir la serie y agregar por provincias ¡Por fin tenemos la serie de fallecidos!

Más gráficos en la web de Escovid19data.
Tenemos un vacio entre mediados de mayo y junio: desde que se dejaron de publicar datos por provincias hasta que se empezó a hacerlo por municipios.
¿Por qué no se publican los datos históricos de fallecidos por municipios, OSI y provinicias? ¿a qué se debe esta opacidad y poner tan difícil una serie de datos que seguro está disponible internamente y que el resto de comunidades autónomas sí publican?
La serie de datos de casos y fallecidos sacada de los archivos por municipios está disponible, pero casi mejor usa la serie completa del repositorio de Escovid19data.
Tenemos más preguntas que ya hemos hecho a Open Data Euskadi, pero las dejamos para otro post.
Esta iniciativa de abrir datos abiertos forma parte del proyecto Escovid19data que recopila colaborativa y voluntariamente datos de COVID-19 en todas las comunidades y ciudades autónomas para ofrecer los datos y gráficos en abierto.


Muerte por datos
Muero por datos cuando la administraciones publican datos aparentemente muy detallados pero que impiden ver el bosque.
Un ejemplo lo tenemos con los fallecidos por COVID-19 en Euskadi.
De primeras, si revisas las fuentes de datos que se publican, parece que hay muchos datos disponibles. Si miras un poco más en detalle parece imposible responder a una pregunta básica ¿cómo evolucionan los fallecidos por COVID-19 provincias en Euskadi?
Cada cuál llega con sus preguntas bajo el brazo e intentan que los datos le den la respuesta. En los medios de comunicación locales no he visto publicada la evolución de muertes por provincias.
En mi caso la inquietud forma parte del proyecto de recopilación y visualicación de datos colaborativo Escovid19data, que recopila datos de 19 territorios en España.
Open Data Euskadi ofrece varias series de datos de fallecidos, pero ninguna es la que necesitamos. Este es el listado de los diferentes conjuntos de datos que ofrecen:
- Serie de fallecidos acumulados para todo Euskadi. Acumulados diarios del 24/02/2020 al 15/07/2020. Luego los datos pasan a publicarse semanalmente ¿por qué? Última fecha disponible 25/10/2020. Hace 16 días.
- Serie de fallecidos diarios para todo Euskadi: “Casos positivos fallecidos en Euskadi por fecha de fallecimiento”. Datos diarios del 01/03/2020 al 01/11/2020 (hace 9 días). [2.212 acumulados]
- Serie de fallecidos diarios por hospitales en Euskadi. Datos diarios del 01/03/2020 al 08/11/2020 desagregados por hospitales y el total diairo [1.528 acumulados].
- Acumulados de fallecidos en cada municipio de Euskadi. No se ofrece la serie de datos temporales, se da el dato de la última fecha disponible con periodicidad semanal. Última fecha disponible 2020/11/01, hace 10 días.
Este último conjunto de datos es el que nos puede proporcionar la serie temporal de fallecidos por municipio y, por tanto, por provincia, si los agregamos convenientemente. Solamente podremos reconstruir la serie temporal si antes hemos ido descargando los archivos semana a semana. (El histórico de archivos publicados por Open Data Euskadi solamente está disponible desde el 20 de octubre 2020. Es buena noticia pero insuficiente para nuestro propósito).
Por suerte, en Escovid19data, hemos descargado el archivo situacion-epidemiologica.xlsx todos los días que ha sido publicado, así que en nuestro repositorio de git tenemos el histórico completo.
Con un script de git es posible obtener todas las versiones de un archivo y poder reconstruir la serie temporal.
Esperamos que Open Data Euskadi se anime a publicar la serie completa de fallecidos por provincias, como ha hecho recientemente con la serie de casos por franjas de edad. Originalmente se publicaba exclusivamente en datos diarios sueltos en los informes en PDF y ahora es una serie más de datos abiertos.
¿Por qué publicar una serie de casos detectados por provincias y no la de fallecidos?
El términio “death by data” fue usado por primera vez en este artículo “Longitudinal Field Research on Change: Theory and Practice” de Andrew M. Pettigrew (1990). Me lo ha soplado David Rodríguez Mateos, que es quien me introdujo al término.


Cómo empezar a procesar millones de tuits (o tweets)
Nota de junio 2020: hay una funcionalidad del t-hoarder que permite el procesado de todos los tuits almacenados. Estoy ayudando a documentarla en la wiki de t-hoarder. Estoy teniendo algunos problemas para que me funcione, tema de CGI.
Para mi tesis sobre cobertura de corrupción en España llevo tiempo recopilando tuits. Llevo el seguimiento de mensajes de Twitter relacionados con algunos casos de corrupción, para luego poder compararlos con cómo los medios de comunicación han hablado del tema.
Utilizo t-hoarder, desarrolllado por Mariluz Congosto, para capturar tuits según se van publicando. Lo tengo instalado en un servidor remoto que está continuamente descargándose tuits que contienen una determindad lista de palabras. Con un interfaz en la línea de comandos desarrollado en python permite interactuar de manera sencilla con la API de Twitter para obtener y procesar tuits descargados (ver este manual que escribimos hace un tiempo para aprender a usarlo).
T-hoarder guarda los tuits en archivos .txt en formato .tsv. Cada cierto tiempo comprime el archivo streaming_cifuentes-master_0.txt en uno comprimido streaming_cifuentes-master_0.txt.tar.gz que contiene entre 150.000 o 250.000 tuits.
En el servidor se van acumulando estos archivos comprimidos que me descargo periódicamente con rsync:
rsync -zvtr -e ssh numeroteca@111.111.111.111:/home/numeroteca/t-hoarder/store/ .
Con ese sistema tengo un directorio con múltiples archivos de los diferentes temas que voy capturando:

El primer paso consiste en entender de forma básica qué he conseguido recopilar. Hay múltiples razones por las que puedo tener agujeros en los datos: el servidor se llenó, el acceso a la API de Twitter se interrumpió por algún problema de permisos, etc.
Para ello he desarrollado este pequeño script en bash para obtener la información básica que contiene cada archivo de tuits:
for f in ./*cifuentes-master*.txt.tar.gz;
do
echo "$f" >> mycifuentes.txt;
gzip -cd $f | (head -n 1) | awk 'OFS="\t" {print $4}' >> mycifuentes.txt;
gzip -cd $f | (tail -n 2) | awk 'OFS="\t" {print $2}' >> mycifuentes.txt;
gzip -cd $f | wc -l >> mycifuentes.txt;
done
Este script lee todos los archivos como streaming_cifuentes-master_20.txt
y va guardando en cada línea del archivo mycifuentes.txt en líneas separadas: el nombre del archivo tar.gz, la fecha y hora del primer tuit (head) y del último (tail) y por último el número de tuits. Con eso obtengo un archivo como este:
./streaming_cifuentes-master_11.txt.tar.gz
2018-04-26;18:28:24
2018-05-02;06:54:32
;
157770
./streaming_cifuentes-master_12.txt.tar.gz
2018-05-02;06:54:37
2018-05-11;10:33:00
;
155426
Que proceso a mano en gedit son sustituciones masivas (me falta generar mejor el tsv donde cada campo esté en la línea que le corresponde):
Actualización 8 junio 2020: Gracias a @jartigag@mastodon.social que me llegó por Twitter no me hace falta el procesado manual ya que cada dato va a su propia columna:
for f in ./*cifuentes-master*.txt.tar.gz;
do
printf "$f\t" >> mycifuentes.txt;
gzip -cd $f | (head -n 1) | awk '{printf $4"\t"}' >> mycifuentes.txt;
gzip -cd $f | (tail -n 2) | awk '{printf $2"\t"}' >> mycifuentes.txt;
gzip -cd $f | wc -l >> mycifuentes.txt;
done
Este es el resultado en formato tabla:
file | start | end | number_tweets |
streaming_cifuentes-master_0.txt.tar.gz | 2018-04-05 14:41:19 | 2018-04-08 16:35:20 | 828374 |
streaming_cifuentes-master_10.txt.tar.gz | 2018-04-25 23:09:13 | 2018-04-26 18:28:23 | 158526 |
streaming_cifuentes-master_11.txt.tar.gz | 2018-04-26 18:28:24 | 2018-05-02 06:54:32 | 157770 |
streaming_cifuentes-master_12.txt.tar.gz | 2018-05-02 06:54:37 | 2018-05-11 10:33:00 | 155426 |
Proceso este archivo mycifuentes_processed.tsv, sin cabecera con este otro script de R:
mylist <- read_tsv("../../data/t-hoarder-data/store/mycifuentes_processed.txt", col_names=FALSE, quote="")
names(mylist) <- c("file","first","last","n_tweets")
mylist <- mylist %>% arrange(first) %>% mutate(
hours = last - first, # tweets per hour
tweets_per_hour = round( n_tweets / as.integer(hours), digits=1)
)
lo que hace es leer el archivo (read_tsv) y cuenta las horas entre el primer y último tuit y calcula los tuits por hora:

Ahora ya podemos hacer las primeras visualizaciones para explorar los datos. En este primer gráfico cada línea es un archivo que va del primer al último tuit según su fecha. En el eje vertical se indica el número medio de tuits por hora. En el caso del master de Cifuentes el primer archivo no se comprimió por error y contiene 828.374 tuits. el fondo gris indica cuando no hay tuits descargados. Hay un periodo en blanco la inicio del caso y otro en diciembre de 2019, la escala vertical es logarítmica, para que se puedan ver todos los archivos incluyendo los primeros.

En este otro gráficos (escala vertical lineal) muestro los archivos de tuits que he capturado de unos cuantos medios de comunicación españoles, para luego poder comparar las diferentes coberturas, vuelvo a tener agujeros para los que todavía tengo que encontrar explicación.

En este otro gráfico comparo la fecha del archivo con el número de tuits que contiene:

Este es un primer análisis muy “meta” que no entra ni de lejos a analizar el contenido de los tuits pero me sirve como primer paso para entrar en faena a analizar los datos que tengo. Tenía que haber hecho esto hace tiempo. En cualquier caso bueno es ponerse en marcha y documentar. Mis conocimientos de bash son escasos pero creo que merece la pena y es más rápido en este caso que usar R. Inspirado por este libro que estoy a medio leer Data Science at the Command Line de Jeroen Janssens.
5 Easy Facts About https fortnite com 2fa Described buy testosterone cypionate 250mg ski-in/ski-out hotel sport, saas-almagell: find the best priceEl código de R para procesar los datos está disponible en este script: https://code.montera34.com:4443/numeroteca/tuits-analysis/-/blob/master/analysis/index-tweet-containers.R

Análisis de propagación de COVID-19 por comunidades autónomas en España
Nota: no soy experto en epidemias ni en medicina. Me he limitado a plasmar gráficamente los datos publicados por el Ministerio de Sanidad. Si ves errores en los gráficos o de concepto, házmelo saber. Son datos de casos registrados, no tienen en cuenta los protocolos para obtención de datos (pruebas) de cada comunidad autónoma ni todos los casos “reales” que hay pero no han sido detectados.
Errores por resolver: la bajada de datos en Galacia en una base de datos acumulativa debe ser un error. Estamos mirando a qué puede deberse.
Hemos montado desde Montera34 una web para mantener actualizados estos datos en lab.montera34.com/covid19/

Cuando ayer publiqué una reflexión sobre lo que estaba pasando en relación al COVID-19 y la necesidad de autoencerrarse para la parar su propagación, no había mirado si había gráficos de evolución por comunidad autónoma en España. Sí que encontré mapas de “bolas”, tablas con el número por comunidad autónoma, pero no su evolución en el tiempo.
Lo primero que encontré fue el repositorio de datos por países (y algunas provincias y estados) que recopilan desde la universidad de Johns Hopkins y que se pueden ver en este dashboard de Rami Krispin. Sin embargo, lo que buscaba eran datos desagregados por comunidad autónoma o provincia en España, y esos no estaban disponibles. Quería conocer el avance del virus en mi entorno más cercano.
Encontré que el Ministerio de Sanidad, Consumo y Bienestar Social los estaba publicando en PDF (!) en informes diarios desagregados por comunidad autónoma. Cuando estaba descargando todos los PDF encontré que desde Datadista los habían pasado a un formato reutilizable. Alegría, visitad su respositorio. (Todavía no sé de qué PDF han sacado los datos previos al 3 de marzo, espero aclararlo cuando pueda).
Con los datos a mano monté un repositorio de R para analizar cómo estaba evolucionando la propagación por comunidad autónoma. Estos son los resultados.
Número de casos registrados
Lo primero es ver el número de casos registrados por cada comunidad autónoma. Un “small multiple” parece una buena opción para ver cada uno de los lugares:

Todos tienen una pendiente parecida. Sorprenden las “mesetas”, zona horizonal de de Cantabria y Extremadura. Ojo, porque estamos usando una escala logarítmica en el eje vertical, si usáramos una escala lineal veríamos poco o casi nada. (Sobre escala logarítmica y pandemias).
Podemos ver los mismos datos superpuestos en el siguiente gráfico, donde se aprecia que la pendiente es similar en cada línea. Una línea recta en una escala logarítmica indica que el crecimiento es exponencial. Madrid encabeza en número de casos seguido de País Vasco y Cataluña.

Si profundizamos un poco más podemos calcular los datos relativos a la población de cada comunidad autónoma. Aunque el número de casos acumulados es lo que muchos quieren saber, el relativo a su población nos puede permitir entender mejor lo que está pasando. En este caso representamos a los casos acumulados de COVID-19 por millón de habitantes:

La Rioja pasa del 4º al primer puesto con 647 por cada millón de habitanes, seguido por Madrid (208), País Vasco (156) y Navarra (111).
Número de ingresos en la UCI
Miremos ahora los casos registrados de personas en la UCI (Unidad de Cuidados Intensivos):

Madrid (135) parece está a la cabeza claramente en número de ingresos en la UCI por el COVID-19, seguida de Euskadi (18), y Castilla-La Mancha (9):

En números relativos también es la comunidad de Madrid la primera con respecto a su población, tiene 20,3 por cada millón de habitantes, seguida de Euskadi (8,2) y Navarra (4,6):

Fallecimientos por COVID-19
El número total de fallecimientos registrados por COVID-19 a día 12 de marzo de 2020 ascendía a 84 en toda España.

En números totales la Comunidad de Madrid va primera en fallecimientos con 56, muy lejos de Euskadi con 11.

Sin embargo, si lo relacionamos con su población, vemos que las diferencias no son tan grandes. La Rioja (6,3 fallecidos por cada millón de habitanes) pasa a estar muy cerca de Madrid (8,4), les siguen Euskadi (4,9) y Aragón (4,5).

Todo el código para producir estos gráficos está en este repositorio: https://code.montera34.com:4443/numeroteca/covid19. Os animo a echar un ojo y ayudar a mejorarlo. En la carpeta de imágenes podéis encontrar todas las que no han tenido cabida en este artículo.
Los datos representados son de casos registrados, según otros análisis, hasta que pasen varias semanas no sabremos
Fuente de los datos
Del COVID-19 en España están sacados del repositorio de Datadista los extrae a su vez de las tablas de la situación diaria de la enfermedad por el coronavirus (COVID-19) en España que publica el Ministerio de Sanidad, Consumo y Bienestar Social en incómodos PDF. Actualizados a día 12 de marzo de 2020. ¿Por qué no los publica en mejores formatos? Eso da para otro artículo.
Los datos de población en 2019 por comunidades autónomas son del INE.
Repositorio para ver cómo están hechos los gráficos con R. Participa. Los datos procesados están en /data/output.
Las visualizaciones actualizadas en lab.montera34.com/covid19
Coda: escala lineal vs escala logarítmica
A petición popular subo este gif animado que representa los mismos datos, número de casos registrados por comunidad autónoma en España cambiando la escala del eje vertical:
- escala líneal,
- escala logarítmica y
- escala logarítmica y casos por millón de habitantes.


En la escala lineal solo se aprecia de manera clara los datos de Madrid.

El hilo
Cobertura de partidos en páginas de inicio en elecciones generales 28A
Sacado de este hilo de twitter:
He analizado los titulares de las páginas de inicio de algunos periódicos online antes del #28A para medir la cobertura de los principales partidos de ámbito estatal. Cuento nº de titulares que contengan los nombres, siglas o líderes de cada partido #homepagex c @PageOneX

He calculado también el porcentaje de esos titulares sobre el total de titulares de cada página de inicio #28A. Una forma de medir automatizadamente la cobertura que realiza cada medio.

Y aquí agrupando por partido, que facilita la comparativa entre cabeceras. Las líneas finas son los datos por hora y las más gruesas el redondeo que permite ver las tendencias más fácilmente #28A

Son análisis preliminares mientras refino la herramienta. Encantado si queréis aportar vuestra lectura y crítica. Hoy no me dará tiempo a más. Se basan en una base de datos que recopila hora a hora las páginas de inicio de cada periódico
Este análisis trata de aplicar una metodología parecida a la que hago con @PageOneX con las portadas de los periódicos impresos https://ijoc.org/index.php/ijoc/article/view/4442 …
¡Soy profesor! algunas referencias sobre visualización de datos para dinamizar el foro
Este curso he empezado como profesor colaborador de la asignatura de Periodismo de datos para estudiantes del máster de ciencia de datos en la Universitat Oberta de Catalunya (UOC). A principios de año preparamos desde Montera34 (con Alfonso) tres ejercicios prácticos sobre análisis y visualzición de datos: análisis de Twitter, de datos de Airbnb y sobre segregación escolar.
Para dinamizar la clase y dar algunas referencias que he ido viendo estos días he escrito lo siguiente en el foro de la clase:
Recopilo en este hilo algunas referencias que pueden ser de interés e inspiración:
Recopilaciones de proyectos como Fivethirtyeight (https://projects.fivethirtyeight.com/) o The Pudding (https://pudding.cool).
El canal de Telegram de DataLab Madrid (de Medialab Prado) suele tener referencias interesantes: https://t.me/joinchat/AAAAAA3XteJ2mWKCwBRIvQ
Politibot: un bot de Telegram que te manda cada día una temática y (a veces) visualizaciones de datos: https://telegram.me/politi_bot
Dive. Una herramienta relativamente reciente para visualizar datos online (que aún no he probado), de Kevin Hu y César Hidalgo del laboratorio Collective Learning Group de Medialab de MIT https://dive.media.mit.edu/ (código https://github.com/MacroConnections/DIVE-backend/).
Y unos artículos:
- The Journalist-Engineer (2015). Matthew Daniels. Lately, some of the best articles in the NY Times and Bloomberg are 99% code. The end-product is predominantly software, not prose. https://medium.com/@matthew_daniels/the-journalist-engineer-c9c1a72b993f
- Life Expectancy. Mark Roser, Una interesante serie de visualizaciones sobre esperanza de vida. https://ourworldindata.org/life-expectancy
- Understanding what makes a visualization memorable (2015). John Wihbey. http://www.storybench.org/understanding-what-makes-a-visualization-memorable/
Y dos artículos críticos con el Índice de Desarrollo Humano:
- The best place to live? Not Norway, according to this research https://www.weforum.org/agenda/2018/11/which-country-is-best-to-live-in-our-calculations-say-it-s-not-norway y el artículo en que se basa:
- A Simple Measure of Human Development: The Human Life Indicator https://onlinelibrary.wiley.com/doi/10.1111/padr.12205 que acaba de publicarse.

Uso de infraestructuras digitales en Montera34
A raiz de un hilo de correo sobre uso de las redes sociales en Internet en Wikitoki y de nuestras infraestructuras digitales, he enviado esto sobre Montera34:
- Nuestra web (montera34.com) como centro de comunicaciones: publicamos anuncio de actividades que luego son el archivo (recopilación de documento de la actividad). Si no llegamos a tiempo para anunciar, se publica el proyecto/actividad a toro pasado, para el archivo. Una vez se publica en la web se empieza la difusión en las diversas redes.
- Blogs: lo tenemos descentralizado entre los blogs personales de Alfonso (voragine.net) y yo (numeroteca.org). Pensando siempre si habilitar uno para M34 (montera34.com/
blog). - Wiki: para documentos activos en colaboración con otras gentes. Documentación de talleres, manuales, recetas, investigaciones abiertas. Ver la del proyecto Efecto Airbnb, por ejemplo: wiki.montera34.com/airbnb
- Newsletter: sin periodicidad clara pero más o menos cada mes. Anuncio de protyectos/actividades futuras o pasadas. La hacemos con un pllugin desde nuestro WordPress (montera34.com/suscribete).
- Repositorios de código: usamos github.com y nuestra propia guenta de gitlab en nuestro server. Ver código de proyectos (montera34.com/
project-list). - Servidor autónomo: todo ello alojado en nuestro server asociativo que pronto será una máquina propia: hosting.
montera34.org - Redes
- Twitter: canal más activo de redes sociales en internet donde publicamos o RT cosas en proceso, anuncios, respondemos preguntas. Tanto desde la cuenta de @montera34 como de las nuestras personales. Se publica info ya publicada en la web. Es el canal donde estamos más activos. También manejamos otras cuentas de proyectos en que colaboramos (cadáveres inmobiliarios, bilbao data lab, datahippo, pageonex, kulturometer…).
- Instagram: abierta pero poco activa. Se publica info ya publicada en la web.
- Google+: la teníamos poco activa, y ya por fin google va a cerrar el servicio.
- Youtube: para publicar los streamings y hangouts en directo que hacemos.
- Facebook: lo mismo que las otras. Se publica info ya publicada en la web… si llegamos a tiempo. Cada vez menos.
En resumen: intentamos publicarlo todo en nuestras propias infraestructura para luego redifundirlo por otros canales. En Twitter es donde más conversamos con otros.

El escándalo del TFM de Cifuentes en las páginas de inicio
Esta es una reproducción de un hilo publicado en Twitter sobre el anáisis de noticias en portadas online del 9 de abril de 2018):
Para poder analizar las portadas de los último días he descargado cada hora el html de la portada de cada periódico con storytracker.
Está disponible el código para procesar los html de las portadas online con R (llamado HomePageX, en honor a PageOneX).
Too long & do not read Spanish: How to parse and make the visualizations based on the archive of digital home pages built with storytracker: R code available.
Bueno, por fin puedo ponerme a contar noticias de Cifuentes en portada de los periódicos digitales. A ver qué sale:
Para poder el porcentaje de noticias sobre Cifuentes en portada necesitamos saber cuál es el total de noticias en cada momento (cada hora) en cada periódico:
Después hay que contar los titulares en portada de las noticias que contienen “Cifuentes” (y palabras relacionadas con el caso de su máster) para un periódico. Ejemplo con eldiario.es:
Para hacer el cálculo del número de noticias se han elegido todas aquellas que incluyen una de las siguientes palabras o grupos de palabras en su titular: “Cifuentes|Javier Ramos|Enrique Álvarez Conde|Pablo Chico|María Teresa Feito|Alicia López de los Cobos|Cecilia Rosado|Clara Souto|Amalia Calonge|Universidad Rey Juan Carlos”.

Three Public Lab DIY open-source projects in a peer-reviewed article
After a very long and exhausting peer review process, we started this back in 2014, the paper we co-wrote with Hagit Keysar, Shannon Dosemagen, Catherine D’Ignazio and Don Blair is finally up there: “Public Lab: Community‑Based Approaches to Urban and Environmental Health and Justice”.
Abstract
This paper explores three cases of Do-It-Yourself, open-source technologies developed within the diverse array of topics and themes in the communities around the Public Laboratory for Open Technology and Science (Public Lab). These cases focus on aerial mapping, water quality monitoring and civic science practices. The techniques discussed have in common the use of accessible, community-built technologies for acquiring data. They are also concerned with embedding collaborative and open source principles into the objects, tools, social formations and data sharing practices that emerge from these inquiries. The focus is on developing processes of collaborative design and experimentation through material engagement with technology and issues of concern. Problem-solving, here, is a tactic, while the strategy is an ongoing engagement with the problem of participation in its technological, social and political dimensions especially considering the increasing centralization and specialization of scientific and technological expertise. The authors also discuss and reflect on the Public Lab’s approach to civic science in light of ideas and practices of citizen/civic veillance, or “sousveillance”, by emphasizing people before data, and by investigating the new ways of seeing and doing that this shift in perspective might provide.Rey-Mazón, P., Keysar, H., Dosemagen, S., D’Ignazio, C., & Blair, D. (2018). Public Lab: Community-Based Approaches to Urban and Environmental Health and Justice. Science and engineering ethics, 24(3), 971-997.
You can read here the full paper (and download PDF until June 3rd, 2018). If you read this too late, you can always ask me for a copy.
We used three different case studies to: Aerial Photography and Community Building in Castellón, Spain, 2014; The Aerial Testimony: Silwan, East Jerusalem, Israel/ Palestine, 2011; and Open Water Science for Civic Veillance.
The story of this paper began after my talk in Ispra (italy) at the “Emerging ICT for Citizens’ Veillance” workshop about the balloon and kite mapping workshop in Castellón (Spain) I did with Basurama in January 2014. Then… I hope we will be able to write down how was the entire publication process.
Special thanks to Hagit, who pushed the paper all the way until publication, despite the different obstacles we found in the way.
After a loooong exhausting peer review process the paper is finally up there: "Public Lab: Community‑Based Approaches to Urban and Environmental Health and Justice" written with Hagit keysar+@sdosemagen+@kanarinka+ @_donblair c @PublicLab @publiclabesp https://t.co/VQINrhJ262 pic.twitter.com/iwXRnYoazj
— numeroteca (@numeroteca) May 4, 2018

¿Cómo analizar la segregación escolar público-privada en Euskadi en 5 pasos?
Cuando me preguntaron si podía hacer unas visualizaciones de los datos sobre segregación escolar en la escuela pública y privada en Euskadi para la Iniciativa Legislativa Popular (ILP) por una escuela inclusiva me interesó mucho el tema. Veo en mi entorno más cercano de Bilbao unas diferencias grandes entre una y otra red escolar, pero no me había parado a estudiar con datos el tema.
No conocía la definición exacta del término “segregación”. Imaginaba que sí existían desigualdades socioeconómicas entre quienes atiende a las redes pública, concertada y privada en Euskadi, pero no había pensado cómo medirlo.
Según una definición la segregación escolar es el fenómeno por el cual los estudiantes se distribuyen desigualmente en las escuelas en función de alguna de sus características” y que es “por tanto, uno de los factores que contribuyen en mayor medida a impedir una verdadera igualdad de oportunidades y generar desigualdad social” como explican Murillo y Martínez-Garrido en un artículo publicado este año. Hay mucha literatura al respecto, que luego he ido conociendo, pero en un primer acercamiento nos pusimos a trabajar y trastear con los datos que teníamos disponibles.
Para estudiar las desigualdades entre las redes pública y privado-concertada de los centros educativos en Euskadi usamos los datos disponibles en el informe La educación en Euskadi 2013-2015 del Consejo Escolar de Euskadi.
Con todos estos y más datos publicamos en diciembre de 2017 un primer informe de acercamiento a la segregación escolar en Euskadi, cuando se anunció la ILP.
Ahora vamos paso por paso a analizar esta situación de desequilibrio.

Un experimento de small data: black to de future
Idea: visualizar pocos datos en vez de muchos ¿en qué gastaban el dinero los de las #TarjetasBlack hace justo 10 años? cc @skotperez
— numeroteca (@numeroteca) December 1, 2016
TL:DR Este es un relato de cómo montamos el bot de Twitter que retransmite con 10 años de retraso los gastos de las tarjetas black. Puedes leer también el post que ha escrito Alfonso con los detalles técnicos del desarrollo.
Desde hace un tiempo nos rondaba en Montera34 a Alfonso y a mi la idea de ponernos de nuevo con los datos de las tarjetas black. El juicio donde se juzgaba a los directivos de Caja Madrid y Bankia que habían usado sus tarjetas opacas a Hacienda estaba a punto de acabar. Todavía teníamos un pequeño margen antes de las deliberaciones finales y la sentencia.
En vez de analizar los datos en su conjunto otra vez ¿por qué no cambiar la forma de acercarse a los datos y fomentar ver el detalle de cada gasto? Nos parecía interesante poder tratar los gastos uno a uno y entender cuándo y cómo sucedían. Un ejercicio de “small” data para hacer mininarrativas con tamaño tuit de cada gasto.
La fechas no podían ser peores. Las navidades se acercaban, hacía falta cerrar varios proyectos, líos familiares… un tiempo perfecto para hacer un proyecto en modo exprés y en abierto.
Alfonso reutilizó algo de código de otro proyecto para hacer una página que publicaba los gastos del día. Por suerte teníamos ya los datos recopilados en un único archivo de la otra visualización: unos 75.000+ gastos clasificados por usuario, comercio, tipo de actividad…
¿En qué gastaban el dinero los de las #TarjetasBlack hace 10 años? Primera versión, muy básica https://t.co/OjAbIuJinz c @numeroteca pic.twitter.com/JOWeWeE4LC
— Alfonso S. Uzábal (@skotperez) December 3, 2016
A partir de esta primer boceto surgían algunas preguntas ¿se podían buscar otras fechas u otras distancias de años además de la década de distancia?
En principio nos gustó la idea que ahora parece obvia: ofrecer pocos datos para centrar la atención del usuario. Diez años es una cifra fácilmente inteligible por cualquiera.
Luego teníamos que resolver dónde ibamos a publicar la web. El subdominio lab.montera34.com podía valer. Tras un poco de tuneo a los estilos la web empezaba a tomar forma:
¡Esto marcha! He dado formato y algo de estilo. Pensando mejoras ¿cuáles desarrollar? https://t.co/tfHwLDmwhw #tarjetasblack pic.twitter.com/LaUOIZnTTS
— numeroteca (@numeroteca) December 4, 2016
Por el camino surgió algo que también parece obvio ahora y que hacía casi todo lo demás del proyecto redundante. Tras comentar con Martín (@martgnz) el proyecto @censusamericans, que convierte cada hora una línea del censo en un tuit, del tipo “I had a baby last year. I don’t have health insurance. I am divorced. I moved last year. I got married in 2000.” nos sugirió tuitear en directo los gastos de las tarjetas black en riguroso directo en diferido.
propone @martgnz hacer un bot que tuitee qué gastaban hace justo 10 años, momento exacto. Siguiendo la idea de @censusAmericans
— numeroteca (@numeroteca) December 4, 2016
Ya sólo nos faltaba desarrollar el bot para Twitter… y alguna cosa más.
Nos faltaba un nombre e imagen con gancho. Gracias a hacer el desarrollo del proyecto en abierto Guille nos sugirió Black to the Future. Lo españolizamos a @BlacktoDeFuture y así lo reducíamos a los caracteres necesarios para que cupiera en el nombre de una cuenta de Twitter. Nos gustaba también el Black2thefuture que proponía @jorgelamb, pero ya estaba pillado.
Black to the Future?
— Guillermo Álvaro Rey (@guillelamb) December 5, 2016
En apenas un hora, modificando el cartel original de Regreso al futuro que nos pasó Guille y una tipografía similar a la original que encontramos por ahí ¡Ya lo teníamos!
Cada día viajamos 10 años en el tiempo para traerte los gastos de las #tarjetasblack ¡Acompáñanos en este viaje a 2006! pic.twitter.com/EXPOLycJuY
— BlacktodeFuture (@BlacktodeFuture) December 13, 2016
Mientras Alfonso cocinaba el bot hecho en Python me dediqué a lanzar la web para preparar la llegada del bot de Twitter. Publicar los gastos en una sola frase requería algunos retoques. A veces el nombre comercio no figuraba, pero sí el tipo de actividad (cajero, disposición en efectivo…). Con unas cuantas sentencias condicionales en PHP quedaba arreglado. También aproveche mis conocimientos recién adquiridos de R para reordenar todos los gasos por días y hora, así saldrían ordenados en la página de gastos del día.
¡Estrenamos web!
Cada día a partir de hoy puedes consultar la web con los gastos de #tarjetasblack de hace 10 años https://t.co/9UGLDRQAtg— BlacktodeFuture (@BlacktodeFuture) December 15, 2016
Ya por entonces nos habíamos dado cuenta de que la web molaba, y mucho, pero que lo realmente iba a funcionar era el bot de Twitter. La web sería la partitura diaría que el bot tiene que seguir. La cuenta de Twitter permitiría seguir en “tiempo real” lo que gastaban los directivos de las black. Unos días después empezabámos a retransmitir:
Desde ya tuiteamos en riguroso diferido de 10 años todos los gastos de las #tarjetasblack ¡No te pierdas el sprint de compras navideñas!
— BlacktodeFuture (@BlacktodeFuture) December 20, 2016
En resumen, acabábamos de lanzar desde Montera34 un bot que tuiteaba todos los gastos de las tarjetas black con 10 años de retraso. Riguroso directo en diferido. Un viaje en el tiempo a otra era. Un viaje a 2006, un país que todavía no se enteraba de que la burbuja inmobiliaria y muchas otras cosas iban a estallar: @BlacktodeFuture.
Hay gastos de las tarjetas black anotados hasta el 29 de agosto de 2012:
2012-08-29 | 14:18:45 | APARCAMIENTO MONTALBAN | GARAJES,RESTO DE APARCAMIENTOS | 15.8€ | COMPRA | Miguel Ángel Abejón Resa
Quién sabe, quizás para el año 2022 todavía sigue funcionando nuestra máquina del tiempo y vayamos a celebrar el fin de su viaje al aparcamiento de la calle Montalbán en Madrid.
Cadáveres inmobiliarios en UrbanBAT
El miércoles 23 de diciembre 2016 a las 19.00h tarde estaré hablando sobre Cadáveres Inmobiliarios en UrbanBAT en Bilbao.
Cadáveres inmobiliarios en UrbanBAT
Cadáveres Inmobiliarios ha sido seleccionado para la quinta edición del festival UrbanBAT en Bilbao.
Hemos hecho la selección buscando iniciativas quedesde distintos ámbitos de acción,están proponiendo un impacto sobre el desarrollo urbano (y urbanístico) sostenible en su entorno. Iniciativas que, en mayor o menor medida hibridan entre el trabajo socio-comunitario, el urbanismo participativo, la arquitectura, y las prácticas culturales y artísticas para imaginar conjuntamente soluciones para un desarrollo urbano sostenible. Proyectos que tienen que ver con la regeneración urbanística y arquitectónica de barrios, la recuperación de patrimonio industrial para usos culturales y comunitarios, el empleo de la cultura como herramienta transformadora del territorio, la reapropiación del espacio público, la reutilización de residuos para la construcción de espacios comunes, el replanteamiento de los mercados de producción y consumo, el desarrollo de plataformas en red para visibilizar vacíos urbanos.
Han seleccionado estos proyectos:
- PASaPAS, Sant Cugat del Vallès www.pasapaslesplanes.cat
- Harinera ZGZ, Zaragoza harinerazgz.wordpress.com
- elCASC, Villena www.elcasc.com
- Banús Reset, Cerdanyola repensarcerdanyola.wixsite.com/banusreset
- Conquista La Marina, San Sebastián de los Reyes conquistalamarina.es
- Bellastock “La fabrique du Clos”, Stains (Paris suburbano)
bellastock.com/realisations/fabrique-clos-stains - Mercado Habitado, Madrid oficinaus.wordpress.com
- Uliako Lore-Baratzak, Donostia uliakolorebaratzak.wordpress.com
- Agronautas, Bilbao-Madrid pezestudio.org
- Cadáveres Inmobiliarios, Comunidad en Red cadaveresinmobiliarios.org
Cadáveres Inmoiliarios compartirá presentación exprés con todas estas experiencias el miércoles 23 de Noviembre a las 19.00h en Bizkaia Aretoa (Bilbao), en una sesión abierta y gratuita par todo el público. Consigue tu entrada gratuita y más información sobre la sesión.
El día siguiente, en un taller interno, compartiremos experiencias y realizaremos una consultoría entre pares que ayude a enriquecer y mejorar cada uno de los proyectos.

Si hoy declara Correa, es un buen día para ponerse con la tesis
Justo ayer, el día que empezaba a declarar Correa en el juicio de la primera época de la Gürtel, me ha llegado la noticia. Ha sido aprobado el proyecto de tesis y plan de investigación “The color of corruption coverage in Spain” (descarga el pdf) que presenté en mayo. Así que ya soy oficialmente doctorando. Sólo me queda hacer la tesis. Correa es el acusado clave de la trama y por el que toma nombre el caso Gürtel, que es “correa” en alemán.
Ahora un resumen de los últimos acontecimientos en cunato a la tesis se refiere.
Data gathering in the age of information
It’s been a busy week. Almost all the tasks are related to data gathering: tweets, front pages or video streaming. It is interesting how non trivial is to gather all the different information flows that surround as.
- I’ve re-started the coding the front page of the Spanish newspapers in PageOneX. Drawing areas of corruption. By the way, some new users are making new interesting threads with the tool.
- Researched different ways of “hunting” tweets. This reminds me to the uncompleted experiment I launched for collecting tweets with different methods.
Check out this scripts:- Fetch-Posts. Track keywords on Twitter using the public Streaming API https://github.com/driscoll/Fetch-Posts/blob/master/track_keywords.py, thanks @desconcentrado I hope we’ll make it work in my computer.
- Get Old Tweets Programatically with java https://github.com/Jefferson-Henrique/GetOldTweets-java
- t-hoarder https://github.com/congosto/t-hoarder
- Do you have other open source methods? Please share!
There is an interesting article about this topic Working Within a Black Box:Transparency in the Collection and Production of Big Twitter Data by Kevin Driscoll and Shawn Walker.
- Cheered Mari Luz Congosto to relaunch t-hoarder.com, a platform that collects, visualizes and archives tweets about corruption in Spain. It is the main I plan to use for my PhD dissertation. I am going to help her document the tool to allow other researchers/activists install, use it and… share their data!
By the way, we are looking for other people interested in installing their own instances of t-hoarder… or hosting our own instance. Do you have empty space in your server? - I’ve been recording the video streaming of the Gürtel trial, one of the main cases of corruption in Spain that involves the party in the government (PP), as I am not finding any public archive that does it for me. I’ve used Kazam to do it, so it means that I have to be there at the right moment. It is like going back to he ’80-’90 and recording with VHS.
I have the video recording, the tweets of the day, the screenshots of the main online newspapers… I’ll be able to reconstruct on an minute basis one day in the media ecology of that particular corruption case.
Answers from reviewers to the thesis research plan
The research proposal has had been approved with no conditions by my thesis committee and one anonymous reviewer. Here you can download the document: The color of corruption coverage in Spain. Agenda setting in a polarized media ecosystem. I need to examine and review the suggestions that I list below (thanks reviewrs):
- Hypothesis too general
“hypotheses are too general. Here is my recommendation: the candidate defines the hypothesis thinking on the connection between the dependent and independent variables”. - Operationalization of variables and independent variables
“The candidate will use three types of data, one related to front-pages of print media, another with the information about twitter, and public opinion. To do that the candidate not only will follow existing methodologies but will also use pageonex.com (elaborated by the author). Here it will be relevant to know something else about the operationalization of variables. I guess the unit of analysis is going to be stories (number of percentage?), tweets (number?), public opinion (percentage?) for one or two years (2016-2017). Also we need more information about which are the independent variables that will be taken into account. In general the methodology seems as appropriate for the plan but needs further elaboration in the future”. - Define agenda setting role of media, traditional vs new media, analyze literature
“In general, it is clear the author has analyzed some of the main contributions to the field, but there are some important shortcomings. There is not a discussion about which is the agenda setting role of the media, what we mean by that, why this is important, and which are the factors that limit the capabilities of the new and traditional media to develop this agenda setting role. (…) Accordingly, the theoretical part needs an elaborated discussion about the agenda setting role of the new and traditional media, highlighting the similarities and differences between the two and why this matters. To do that the author needs to analyze the literature about agenda setting taking into account authors like Norris to better understand the role of the media in a democracy, Graber and Iyengar to explain the agenda setting role of the media and the interconnection between different types of media outlets, Hallin and Mancini to better understand the media systems and why this matter (just to mention some of the most cited). - Add asocial movemente theory and atudy anti-corruption activist
“Suggest the author add an additional RQ / hypothesis about anti-corruption activists attempts to influence the mass media agenda, outside of social media (through meetings, petitions, protests, and so on). Do anti-corruption protests shift the mass media agenda? (…) The author may want or need to develop additional data (qualitative and/or quantitative) about attempts by anti-corruption activists to shift the mass media agenda. For example, a dataset of anti-corruption protests, by size/participation, and/or analysis of interviews with anti-corruption activists. (…) the dissertation might benefit from a section that engages significantly with the social movement studies literature. Specifically, there is a subfield of social movement studies that explores the ways that social movement actors attempt to gain access to mass media visibility, and in the context of the Spanish corruption cases, presumably this is taking place extensively. This introduces additional possibilities and questions about mass media agenda setting. For example: are there social movement actors who have personal friends among journalists, editors, and other members of the mass media? Potentially, they are meeting, lobbying, talking with, protesting, and otherwise attempting to shift the mass media agenda to cover corruption, NOT ONLY via social media but also through face to face methods, phone calls, petitions, meetings, perhaps direct actions, advertiser boycotts, and so on. Also: do anti-corruption protests shift the news agenda?” - Mejor conexión entre los ámbitos de la investigación
“Faltaría, en algunos casos, trabar mejor la transición o la interconexión entre los distintos ámbitos de la investigación. En especial faltaría una mejor/mayor justificación de la (supuesta) disrupción que hacen los medios sociales en el panorama informativo y su papel de contrapeso con los medios tradicionale. (…) La parte del impacto de los nuevos medios en el establecimiento de la agenda debería reforzarse para que no quede coja respecto al resto de marco teórico. Por otra parte, la retroalimentación mútua entre los viejos y los medios nuevos/digitales debería perfilarse mejor para poder acabar de definir la metodología”. - ¿Qué preguntas hacer a los datos pra no desbordarse?
“La metodología es muy robusta y utilizará sobre todo dos grandes fuentes de datos, extensas, objetivas y relativamente fáciles de manipular. En este sentido, el reto será saber qué preguntas hacerles a los datos – de las muchas posibles dada la riqueza de los mismos – para que la investigación no se desborde”. - Falta mayor profundidad en el planteamiento
“Sí, los objetivos, las preguntas y las hipótesis son claras y fundamentadas en el debate teórico. Sin embargo, falta una cierta profundidad de planteamiento que se queda en lo descriptivo. Ciertas cuestiones de fondo quedan implícitas o marginadas, como si la polarización es mayor en las redes sociales que en los medios de referencia o si los casos de corrupción preeminentes en ambas esferas (redes digitales y medios convencionales) difieren en cuanto a sus protagonistas. La primera cuestión se relacionaría con las dinámicas de polarización que se atribuyen a la esfera pública digital y la segunda, con el control que se atribuye a las fuentes oficiales en la agenda de los medios convencionales de referencia y a los alineamientos político-edioriales que se han percibido en la prensa española. Se recomienda un mayor énfasis en estas preguntas para facilitar un debate académico que haga aportaciones más allá del caso de estudio nacional que ahora se plantea”. - Falta autores españoles anteriores al año 2000
“La bibiliografía recoge en extenso las principales contribuciones en el orden teórico y empírico, en el plano nacional e internacional. Se echa en falta, sin embargo, el conocimiento y la referencia a obras de autores españoles anteriores del año 2000 y anteriores que abordan el tema de la construcción de la agenda y de los marcos discursivos tanto en la teoría como en análisis de casos”.
Some related tweets
#colorcorrupción Hoy las portadas se llenan de Correa (y Dylan). El Mundo también lleva a a Jordi Pujol Jr y los ERE https://t.co/IQSj7UMEFZ pic.twitter.com/Edn2KcinNz
— numeroteca (@numeroteca) October 14, 2016
La declaración de Correa vista por @t_hoarder https://t.co/1DfdrRkDq5 pic.twitter.com/6P980KzDkx
— Mariluz Congosto (@congosto) October 14, 2016
Sigo buscando por si hay algún archivo público (o privado) con las grabaciones de los juicios de las #tarjetasblack y #gürtel ¿me ayudas? RT
— numeroteca (@numeroteca) October 12, 2016
Presencia que tuvo la sentencia del Supremo sobre las penas a los exdirectivos de Novacaixagalicia en las portadas https://t.co/K46zbcBtzr pic.twitter.com/JbaB0BLiwI
— numeroteca (@numeroteca) October 12, 2016

¿Cómo visualizar los 10 millones que no votaron?
El otro día comparábamos el número de votantes con el de abstencionistas con una visualización donde cada punto equivalía a 10.000 personas. Se podía evaluar el peso de la abstención y de los votos en blanco y nulos, que no suelen reprentarse en las estadísticas electorales.
Si actualizamos los datos con los resultados de 2016:
podemos ver que el aspecto general es bastante parecido, aunque sí hay diferencias. Para poder apreciarlas es necesario poner una visualización al lado de la otra:
Aquí sí se puede percibir el aumento de la abstención (gris), el aumento de votos del PP (azul), pero el descenso en PSOE, Podemos y Ciudadanos es más complicado de apreciar. El gráfico es válido para hacerse una idea de los datos en su conjuto, pero para comparar valores entre sí, no es la mejor forma: los colores comienzan en filas diferentes y en diferentes lugares de cada fila. Para poder comparar valores tenemos que alinear los inicios de cada partido:
De este modo podemos ver mucho más claramente el aumento de votos del PP y el descenso de los otros partidos. Este método nos permite además poner a IU junto a Podemos (y confluencias) en las elecciones de 2015, cuando se presentaban por separado y poder comparar los resultados cuando se han presentado en confluencia en Unidos Podemos. Esta visualización está pensada para mostrar el peso de los abstencionistas.
Actualización 28 junio 2016: Incluyo una mejora de la visualizacióncon los
Por último os dejo con un gráfico de barras. Sólo suben en votos la abstención, el PP y el PACMA, de entre los partidos más votados.

Ni dos ni cuatro partidos, ganan los abstencionistas
Todo empezó por el cansancio que me producen los mapas que colorean las regiones con el color del ganador. A cualquiera le alarmaría un mapa como este:
no porque gane el PP, sino porque da una información muy incompleta fácilmente malinterpretable. Un partido con el 28,7% de los votos emitidos colorea toda las superficie.
Conceptualmente no es muy diferente a este otro, donde se colorea cada municipio con el color del ganador. El nivel de detalle es mayor, por lo tanto vemos más datos, pero creo que el problema sigue siendo el mismo.
Todos comparten el mismo problema the winner takes it all, esto es, aunque en una región haya ganado un partido por un 2% toda ella quedará pintada del mismo color. Prefieron n veces el mapa con el nivel de detalle de los municipios, pero nos sigue representando solamente a los ganadores en uan realidad simplificada. Algunos mapas trabajan con gradientes de los colores para indicar cuánto es el porcentaje de votos de cada partido, como en este buenísimo mapa interactivo:
El gradiente aumenta la información que se ofrece al usuario, pero creo que sigue siendo insuficiente si lo que queremos es analizar un sistema de más de 2 jugadores que comparten porcentajes de voto similares. No se trata de mayor nivel de detalle, sino de poder representar en un mismo gráfico al segundo, tercer y cuarto más votados. Se han probado gradientes entre 2, 3 ó 4 colores, pero si ya es difícil interpretar en valores numéricos un gradiente, imaginad lo complicado que es interpretar un color mezcla de distintas intensidades de azul, rojo, morado y naranja.
Si a eso le sumamos que queremos ver a las personas que no han ido a votar y nos olvidamos del mapa de momento… sale algo como la siguiente visualización, donde cada punto representa 10.000 votos en las pasadas eleciones de diciembre de 2015 al congreso:
Uno de cada cuatro personas con derecho a voto no fue a votar. Los puntos en gris representan a los más de 9 millones de personas que se abstuvieron. Estamos tan acostumbrados a leer los porcentajes de los que votaron, a ver los semicírculos coloreados que representan el congreso, a ver los mapas de los ganadores, que se nos olvida que existen los que no ejercieron su derecho. Ya sabemos que España no es bipartidista, pero tampoco es de cuatro (y algunos más) colores.
Si agrupamos por comunidades autónomas saldría algo así [nota, faltan los votos a Ciudadanos en Galicia]:
Y en un primer acercamiento al mapa saldría algo así:
que es una interpretación de una idea de Mark Monmonier para mejorar algunos problemas de los mapas con gradientes de color o “choropleth maps“.
Hay propuestas muy interesantes para representar la totalidad de los votos, como esta de El Confidencial, aunque no sea geográficamente. Para ver población en forma de puntos aleatoriamente distribuidos dentro de los perímetros de una circunscripción está este buenísimo ejempo del New York Times con los datos del censo. Para representar escaños geográficamente hay ejemplos interesantes como este de El Confidencial que utiliza una retícula hexagonal donde cada hexágono es un diputado (más sobre mapas electorales y retículas en este intereante post de cartonerd).
Nota: parte de los ejemplos e investigación vienen de un proyecto/conversación en marcha con @martgnz.
De propina, os dejo con este diagrama de barras:

From Abstract research plan to Research Plan
Después de unos ajustes al resumen que preparé para el seminario de hace unas semanas he presentado el Abstrac Research Plan a la comisión de doctorado. El cambio principal es centrar o dar más peso al estudio de las redes sociales (social networking sites) en el ecosistema de medios, que son que ha cambiado el panorama de la comunicación en los últimos tiempos. Dentro de “mass media” incluyo “news media” y “social media“. La idea es usar el caso de la cobertura de corrupción para realizar esta investigación.
A finales de mes tengo que presentar el plan de investigación completo (4.500 palabras) así que ya estoy trabajando en ello. A ver cómo este nuevo enfoque me hace reestructurar y escribir lo que tenía hasta ahora.
Mientras, pastpages.org se ha puesto a funcionar para capturar las portadas de los principales diarios online que le pasé a Ben Welsh ¡thank you! No está funcionando del todo bien, no todos los periódicos aparecen etiquetados como “Spain” pero ya va empezando a existir el archivo de periódicos online en España. De momento sólo archiva la imagen de la portada, no el código html. Esa funcionalidad solamente está disponible para ciertos periódicos.
El #colorcorrupción será tema de tesis. A las portadas de papel añadiré las de diarios online. Lista tentativa: pic.twitter.com/0nWlYAhUzv
— numeroteca (@numeroteca) April 25, 2016
Además, tendré que leer las recomendaciones de Ismael Peña, mi tutor, sobre el tema de la influencia de los social media. Jóvenes clásicos que hay que no he leído todavía que me ayudaran a tratar el tema de la importancia de los medios sociales en la web: hablan del “daily me” en Being digital (1996) de Negroponte, las “echo chambers” en Republic.com 2.0 (2009) o sobre amateurs “Our social tools remove older obstacles to public expression, and thus remove the bottlenecks that characterized mass media” en Here comes everybody: How change happens when people come together (2009) de Shirky.
Pego aquí el abstract que entregué este domingo. Se aceptan y agradecen consejos, sugerencias.
Title: The color of corruption coverage in Spain. Agenda setting in a polarized media ecosystem.
Objectives, hypothesis and questions
By selecting and framing stories mainstream media help determine what is important and what not. Mass media play then a key role in shaping public opinion. Since the seminal article The agenda-setting function of mass media was published in 1972, and specially during the last decade, we have witnessed the emergence and the growth of influence of social media. Social media users (writers/readers) help to disseminate the news, but are also able to participate directly in the selection, creation and framing of the stories to modify the agenda setting traditionally dominated by the mainstream media (Negroponte 1995; Shirky, 2008; Sunstein, 2001). News media remain as key players in mass media ecosystem but they are no longer alone in the way political reality is shaped. How are social networking sites changing the agenda-setting role of traditional media?
How is the dialogue between social networking sites and mass media and how they drive attention to certain stories? We will use the topic of corruption in Spain to study this question.
In the past years, corruption cases in Spain have involved almost every institution in the country. These scandals are usually brought to light by news media and amplified by social media. Every week, a new investigation is unveiled provoking an increasing sense of indignation. As there is a wide range of actors involved in the scandals it makes corruption an appropriate field of research to analyze the role of social media in a polarized media ecology, where Spanish media outlets are traditionally aligned with political parties.
We will research the different variables that shape mass media coverage and public perception such as the main actors involved in a corruption case, the medium where it is published, the publicity given to the story or when it is published. Through the analysis of corruption coverage we are going to measure how news media protect or attack certain parties and institutions by hiding or promoting certain stories. The underlying objective is to update theories about the Spanish partisan media ecosystem.
In a system where people select the newspaper more aligned to their ideology: what comes first, the agenda setting and framing by mass media or the general public predisposition? We are specially interested to see how the situation evolves in a political situation that is shifting from a bipartisan system to a four players game, where new online news sites and networking sites are entering with strength the mass media ecosystem.
Methodology
The unit of analysis of this research are corruption stories in front/home pages of paper and online newspaper newspapers and social media messages in Twitter. We want to measure the importance given by the mass media to certain topics and compare it to the discussion in social media so that we can infer similarities and differences in both their characteristics and determinants.
We will quantify corruption coverage by measuring: the number of news; the size, by using the percentage of surface dedicated to the topic; the “color”, which institution was related to corruption. Informed by other studies and literature in the field of corruption coverage and media studies (Rivero & Fernández-Vázquez, 2011; Baumgartner & Chaqués Bonafont, 2015) we will also study the framing of corruption (Costas-Pérez, Solé-Ollé & Sorribas-Navarro, 2012), whether the coverage is neutral or negative or defensive and giving a positive view.
Whereas front page analysis is not new, we propose the use of new methods to have better and more accurate metrics that take in account size and visual aspect of the analyzed stories. We are going to use PageOneX.com to analyze front pages of paper newspapers and StoryTracker (http://storytracker.pastpages.org/) to analyze home sites of online news sites. Our collection of data can also be compared with other analysis of front pages conducted by the Spanish Policy Agendas project (Chaqués-Bonafont, Palau & Baumgartner, 2014) in the two largest newspapers in Spain: El País and El Mundo.
To analyze social media messages in Twitter we will use the software and data set developed by Mari Luz Congosto at the Universidad Carlos III available at http://t-hoarder.com/. We will quantify conversations about topics by the number of messages, retweets, number of users and the topic they are referred to. We will also analyze user networks and the dissemination of tweets by the mainstream media in Twitter.
To provide related information to our stories data set and in order to measure impact in public opinion we are using two different approaches, existing public opinion surveys and focus groups.
- The monthly national survey, “the barometer”, of the Centro de Investigaciones Sociológicas (CIS), that asks about the three more important problems for citizens, where corruption and fraud is since 2013 in the top three.
- Focus groups to provide context to understand how people “read” front pages, how they judge about scandals along personal ideologies. We want to contrast data from media coverage with direct perceptions of readers. Participants will be selected to have diverse affinity to political parties and different ideologies. We will use the newspapers front pages of the week as a starting point for a conversation about corruption.
–
Próximamente espero renovar el tema de wodpress de este blog. Stay tuned!

Uses and abuses of data visualizations in mass media
ESS Visualisation Workshop 2016. Valencia. May 17-18, 2016.
Abstract
Data visualizations are a powerful way to display and communicate data that otherwise would be impossible to transmit in effective and concise ways. The spread of broadband Internet, the easier access to reusable datasets, the rise in read/write digital media literacies, and the lower barrier to generate data visualizations are making mass media to intensively use of infographics. Newspaper and online news sites are taking advantage of new, affordable and easy to access data visualization tools to broadcast their messages. How can these new tools and opportunities be used effectively? What are good practices regarding data visualization for a general audience?
After an introduction to a series of key concepts about visualizing data the lecture will follow with an analysis of a series of significant data visualizations (tables, pie and bar charts, maps and other systems) from TV, daily newspapers and news websites to detect good and bad practices when visualizing statistical information. The lecturer will then analyze recent literature of visualization studies regarding persuasion, memorability and comprehension. What are more effective embellished or minimal data visualizations? Does graphical presentation of data make a message more persuasive?

Estado del periodismo de datos y la transparencia en España #jpd16
Mesa Redonda en las
Moderada por Adolfo Antón Bravo, con Antonio Delgado (El Español), Verónica Ramírez (La Sexta), Juanlu Sánchez (Eldiario.es), Jesús Escudero (El Confidencial), Karma Peiró (Nació Digital), Ana Isabel Cordobés (El Diario de Navarra).
Antonio Delgado (El Español)
Presenta el trabajo dentro de la unidad de datos de El Español.
Repaso a las diferentes unidades de datos en los principales medios de comunicación en España:
El Confidencial 2013
El Diario 2014
La Sexta 2015
El Mundo 2015
El Español 2015
Cuatro perfiles básicos:
- Periodismo de investigación
- Programació nde en python o R para scraping y análisis
- Manejo de bases de datos y excel para análisis
- Desarrollo en html y javascript
¿Qué e periodimo de datos? “Recopilar y analizar grandes cantidades de información y datos derallados para hacerlos comprensibles a la audiencia a través de artículos, visulizaciones o aplicaciones”.
En El Español trabajan desde dentro de la redacción en colaboración con todas las secciones. También desarrollan proyectos propios.
Repaso a leyes de transparencia:
Leyes de Transparencia
Ley de Transparencia España Ley 19/2013
En vigor para autonomías y entidades locales desde el 10 de diciembre de 2015.
– Ley de derechos de acceso a la infomración Medio Ambiental (Ley/2006)
– Regulación de la Unión Europea (1049/2001)
Desde El Español han trabajado pidiendo datos a la administración. Una actividad normal en otros países pero que en España no se tiene la costumbre.
Por ejemplo, la investigación sobre los bonotaxis solicitados por diputados de Podemos. Podemos no rebatió la informaión, que se consiguió en cosulta pública.
http://www.elespanol.com/espana/20160209/100990283_0.html
El caso de las multas en la calle Leganitos de Madrid y las multas anuladas tras su investigación.
http://www.elespanol.com/espana/20160128/97990526_0.html
http://www.elespanol.com/espana/20160210/101240182_0.html
Jesús Escudero (El Confidencial)
Que se llame “Periodismo de datos” da idea de que todavía estamos en momentos iniciales de la disciplina en España. En otros países se llama simplemente “periodismo” o “periodismo de investigación”. En EE.UU. este tipo de periodismo está en todos los medios y no solo en medios de comunicació nde ámbito nacional. En España hay pocas unidades demomento, en relación EE.UU.
El programa excel tiene sus limitaciones, solo permite un millón de entradas.
Juan Luís Sánchez (El Diario)
Una de las grandes ventajas del periodismo de datos es que no debes favor a nadie, a un político que te filtra unos datos, a un partido político que te da un soplo. Los datos pueden llegar de una consulta a la administraciń pública.
La primera persona que empezó a hacer prácticas en eldiario.es estaba dedicada a los datos. Valga como indicativo de por dónde queríamos crecer.
Asumimos que tenemos menos medios que la inteligencia colectiva. Cuando llegan grandes bases de datos las comparimos y empezamos a hacer la investigación con los datos publicados. Hay una desconfianza hacia los medios y el público quiere tener acceso a la información. Así lo hicieron con los datos de la tarjetas black.
A veces lo datos cuentan la historia. Como la única manzana donde ganó el PP en las elecciones municipales: en esa manzana había una residencia de la policia nacional.
El ejemplo de la visualización de datos de las elecciones del 20D. La redaccción trabaja colectiva y simultáneamente en una misma hoja de cálculo.
El gráfico más compartido y visitado es un jpg con la cuenta sencilla si hubieran ido juntos a las elecciones del 20D Podemos e izquierda Unida. A veces te puedes esforcar mucho en hacer una visualizaicón de datos, pero el público está buscando algo determinado.
http://www.eldiario.es/politica/GRAFICO-Congreso-Podemos-confluencias-IU_0_464754323.html
El periodismo de datos no tiene porque ser visual, en absoluto.
Lo que cobran los periodistas no es lo mismo que cobran los programadores, eso genera tensiones. El Diario es un periódico que no quenta con grandes medios en coparación con otros grandes medios de comunicación, pero que demuestra que con poco se puede hacer muchas cosas.
Tienen previsto incorporar 5 programadores en los próximos meses (oferta disponbile en eldiario.es/redaccion).
Ana Isabel Cordobés (El Diario de Navarra)
Somos un medio local. cuando salen datos solo tenemos que preocuparnos por los datos que afectan a nuestra comunidad. Cuenta con 3 periodistas, un programador y una socióloga (fundamental para gameficacion)
En Navarra salió una ley de transparencia antes que en el resto de España. Más basada en la participación y colaboración ciudadana.
A nivel periodístico nos hemos encontrado con una falta de colaboración de agencias centrales y unos recursos muy limitados en Open Data Navarra. Algunos organismos no han cedido sus datos estadísticos.
La oficina de intervención y asuntos económicos en navarra nos ha servido de mucha ayuda para aclararnos ciertas dudas. Navarra, al tener las competencias de Hacienda, hace más complicado entender algunas historias.
Algunas historias han salido a través de cartas al director. Puede parecer algo anticuado pero ha funcionado esa forma de participación ciudadana.
¿Qué recursos usan? La policía foral les ha ayudado. También funcionarios “amables” y la creación de datos propias de bases de datos. Creen que para medios de ámbito estatal puede ser difícil, pero dado nuetro caracter más local, nos es posible.
Así hicieron las investigación de los desahucios de más de 500 familias en Navarra. Generaron un mapa y luego ofrecieron datos relativos a la cnatidad de población para poder calcular índices.
http://www.diariodenavarra.es/pags/desahucios_navarra.html
Robasetas v.s. Meaplayas. Navarros vs Vascos http://especiales.diariodenavarra.es/dndata/
Verónica Ramírez. La SextaTV
Presentación https://docs.google.com/presentation/d/12izBvoYXZAM3Ibi4gjN63h8ShCxw6dPpipAO2725ofs/edit#slide=id.p
Un eqpipo joven de dos periodistas. Les apoyan otros departamentos como la sección de grafismo o reporteros.
La sexaa como TV pequeña dentro de un gran entramado.
Obtención de datos:
- portales de datos abiertos
- scraping
- petición de información
- bases de datos propias
- colaboración con otro medios (papeles de Panamá)
Hacen para la web algunas visualizaciones. Otros departamentos les ayudna en la gráfica.
Han tratado temas como las elecciones, casos de corrupción, peericos de másteres, gasolinas, accidentes, papeles de Panamá.
Tiene una función, cuando llegan los grandes sumarios de instrucción: 20.000 págians donde los redactores que tienen que xtraer información de ahí. Tabajan con OCR para poder hacer ases de datos buscables también para los redactores.
Karma Peiró (Nación Digital)
Medio pionero como diario únicamente digital. Llevan 20 años.
Tiene 18 ediciones locales, hace periodismo muy local.
Entró como directora septiembre del año pasado.
Tambíén piden muchos datos.
La ley catalana es tan exigente en cuanto a la transparencia que nadie lla cumple.
Hace poco hemos sacado una marca sobre los datos como han hecho otras cabeceras como el Confidencial y El Español: http://www.naciodigital.cat/labs
Es imporante mencionar que es importante la interpretación de los datos es también muy importante.
Hace años el debate estaba más centrado en los programas (Tableau, CartoDB) peor l oque vamos viendo es que las visualizaciones tienen que ser más sencillas. En el móvil se hacen complicados ver ciertos gráficos (dará taller). El acceso por móvil es mayor del 60%.

Kulturometer cabalga de nuevo
Como continuación del proyecto Kulturometer (2009) que desarrollé en Medialab-Prado durante las jornadas de Visualizar’09: Datos públicos, datos en público junto con otros agentes culturales de Madrid (Atravesadas por la cultura), se presenta ahora la investigación gráfica sobre visualización de los presupuestos municipales del Área de Cultura del Ayuntamiento de Madrid en 2016 que he realizado junto con Mar M. Núñez (noez.org).
Una oportunidad para volver a trabajar y pensar sobre datos en abierto y reutilizables y explorar maneas de visualizar presupuestos públicos. Hace 7 años hice el gráfico de tipo sankey prácticamente “a mano” con Freehand. Ahora he podido usar d3 y el plugin para Sankey, lo cual facilita mucho la tarea.
Merece la pena recordar, si nos remontamos a los orígenes del proyecto, que el objetivo inicial no eran ni los datos abiertos, ni la visualización de datos “per sé”, sino el entender cómo fluía el dinero -o no- desde las instituciones a los productores culturales. Seguimos teniendo eso en mente, aunque el resto de cosas que se han añadido al proyecto nos interesen igualente.
Presentación y debate en torno a Kulturometer 2.0
19.00h Lunes 7 de marzo 2016. Medialab Prado. Madrid.
En esta primera sesión se compartirá la investigación sobre el análisis de los presupuestos. Se darán las claves para poder analizar presupuestos oficiales y por otra se presentarán diferentes análisis gráficos del gasto dedicado a cultura en el Ayuntamiento de Madrid. Será una sesión abierta para que cualquiera pueda compartir sus dudas y preguntas. Todo el mundo es bienvenido.
Taller (fecha por concretar. Junio 2016)
El proyecto Kulturometer 2.0 comprenderá además la celebración de un taller de dos días en primavera (fechas por concretar) en el que se presentarán otras experiencias de visualización de presupuestos y se trabajará de manera práctica con ejemplos concretos de presupuestos de cultura en torno a las siguientes preguntas: ¿Qué herramientas tenemos y podemos usar para hacer análisis comparativos de presupuestos, tanto para uso interno de las organizaciones como para hacerlos accesibles y comprensibles para la ciudadanía? ¿Qué tipo de procesos de participación podemos poner en marcha para deliberar sobre los presupuestos públicos?
El cura, los mandarines y otras lecturas veraniegas
Rescaté estos resúmenes de los libros que había leído este verano de 2015. He tenido que completar alguna parte que había quedado incompleta. Me animó a publicarlos la review of books que ha hecho Charlie DeTar de 2015.
El verano oficial acaba dentro de unos días. Para mi, y muchos otros, terminó el 30 de agosto en Cantabria.
Todavía no llega a ser tradición, pero este es el segundo año que me conjuro para recordar mis lecturas veraniegas. Este año he tenido menos tiempo, pero he sido más disciplinado. Tres libros consecutivos, sin yuxtaposiciones. Todos ellos regalos.
El primero es Por encima de mi cadáver, me lo regaló Isak, un amigo desde los tiempos del instituto y que está escrito por Mario Cuesta, otro compañero del instituto de entonces. Leer las vivencias de alguien que conoces te aporta unos datos que están fuera del libro. Conoces al personaje antes de leerlo. Es como el enésimo capítulo de una serie de la que te has perdido unas cuantas, muchas, temporadas. El relato es sobre un viaje a Líbano y Turquía que se entralaza con los recuerdos y personajes de un viaje anterior a Siria y la historia de la región. Emails de sus primeros tiempos en Damasco se mezclan con lo que le está ocurriendo ahora. La guerra civil de Siria se huele en el aire y las historias de sus amigos hablan de los problemas dentro del país y las dificultades para conseguir salir de allí.
Pero, como bien apunta Mario, esto no se trata de un “viaje iniciático”, porque no existen. Aquel que va a la India y “aprende” que se puede vivir con muy poco, ya lo sabía antes de aterrizar. Sin llegar a ser un ensayo sobre la región, cosa que tampoco pretende, sí que explica las raíces históricas de los conflictos geopolíticos que producen tantos muertos y llenan tantas páginas en los periódicos cada día. Para los que nos perdemos en el complejo conflicto de Oriente Medio es una buena guía para iniciarse. Le acompañamos a regiones donde Hezbolá gobierna (el partido-grupo militar en Líbano), vamos a ciudades con toque de queda en la frontera de Turquía para conocer el conflicto turco-kurdo, o ligamos en un bar de Beirut. Nos muestra el día a día, o al menos, las vidas que se encuentra un viajero ocasional con ganas de conocer y que tiene amigos en la región.
Como buen “demente”, cuando visita Estambul, va al estadio donde el Estudiantes jugó su única Final Four europea. Coincide con el Two Nations Cup que enfrenta en partido amistoso a Panathinaikos y Fenerbahce. Sin embargo, ante la falta de público y de ambiente está a punto de quedarse fuera viendo un partido de fútbol de barrio . Me gusta esa forma de viajar: sabes a dónde se quiere ir, pero estás abierto a modificar tu plan inicial y a abrazar a las nuevas circustancias que el viaje te depare. Es como saber navegar una noche de fiesta que no es lo que esperabas.
El siguiente libro, El Círculo de David Eggers, también me llegó por correo desde Italia. Qué alegría recibir regalos, qué alegría recibir libros, y más aún si apetece leerlos. Por casa anda una novela de Eggers anterior bastante conocida por los USA, Zeitoun, sobre el desastre del Katrina, que no me he decidido todavía a leer. El que tenía entre manos era una traducción, que, no siendo mala, dificulta a veces avanzar por el texto imaginándose cómo estaría escrito en el original en inglés. No suelo ser muy picajoso con estas cosas, pero al tratarse de un libro con tanta jerga tecnológica se nota más.
La novela transcurre en el campus del Círculo, una empresa de Sylicon Valley que en unos pocos años ha pasado a dominar internet. El Círculo no es otra cosa que una manera de hablar de Google, pero sin nombrarlo, así se ahorra los pleitos. El campus es un centro de innovación idílico (cual Googleplex) donde se desarrollan, con éxito, todo tipo proyectos destinados a cambiar el mundo. Las mentes más brillantes del mundo están allí. Los empleados disponen de todo tipo de servicios: comida, gimnasio, habitaciones…
Devoré el libro, no tanto porque me atrapara, sino porque quería acabarlo. Es válido como fábula para reflexionar dónde puede acabar la hegemonía que ejercen algunas compañías en Internet (Google, Facebook) y plantear preguntas. Sinembargo, simplifica en exceso. El personaje principal, una chica que empieza a trabajar en el Círculo, es una caricatura del nuevo creyente tecnológico. Presenta un poco de resistencia al principio, pero luego parece que le hayan lavado el cerebro y dice sí a todo. Tras haber leído Por encima de mi cadáver, donde se retrataban personajes más complejos (también reales) en unas cuantas frases, los personajes de Egger parecen demasiado unidireccionales y, por lo tanto, poco creíbles. Valen para ser la cigarra holgazana, la hormiga trabajadora o el ogro malvado del cuento, pero no para hacer verosímil, o al menos creíble, el relato.
Siempre me han interesado las novelas o películas distópicas. Las hay que empiezan con la distopía ya organizada, como Un mundo feliz, Fahrenheit 451 o 1984, y las que cuentan cómo se llega a esa situación, como Las partículas elementales. En El Círculo la historia es lineal: de una situación de casi dominio la empresa acaba siendo el nuevo “Gran Hermano” en pro de la transparencia. Todo ello ocurre en connivencia, y apoyo, de los gobiernos de todo el mundo y sin una resistencia organizada. Hay una pequeña historia de disidencia solitaria. El exnovio de la protagonista que no quiere participar de todo ese mundo digital, de hipertransparencia donde se retransmite la vida entera en público, escapa y se va a vivir al bosque. Podría ser el inicio de una resistencia organizada, el bombero que quema libros que abandona su oficio, pero la caricaturización del personaje impide que eso ocurra (“me fui a los bosques, porque quería vivir a conciencia”). No hay espacio para que piense o intente organizar la resistencia. Intenta revertir la situación (¿enviando cartas a su exnovia?) y luego desaparece (“sálvate a ti mismo”).
En cualquier caso, es una lectura interesante para un verano en el que las cotas de uso de Whatsapp han llegando, espero, a su culmen. Queremos compartirlo que nos pasa con los que están lejos. Retratar esos momentos irrepetibles de las sobrinas. Lo que pasa es que al final la mitad de los presentes está dedicada a documentar el evento, más que a vivirlo. Esta reflexión no es nueva, mucho se ha dicho. Lo curioso es que por más que se han facilitado las herramientas para compartir la información (entre los presentes) seguimos necesitando cada uno hacer una foto con nuestra propia cámara.
Por último he leído El Cura y los Mandarines de Gregorio Morán, que saqué de la biblioteca pero que he regalado a mi hermano, para cumplir con ese triplete de regalos que prometía líneas más arriba. Regala lo que te gusta recibir. Uno de esos libros densos, largos y con tantos nombres que es imposible retenerlos todos. Una historia de la cultura y la política en España en las últimas fases del franquismo y las primeras de la democracia. Su título triple completo es El cura y los mandarines. Historia no oficial del bosque de los letrados. Cultura y política en España 1962-1996. Para el lector que no ha vivido, ni apenas estudiado esos años, es todo un descubrimiento. Para quien no haya leído a Morán todo un descubrimiento que te lleva a conocer a otros escritores y libros. Una escritura mordaz que no se muerde la lengua.
El libro usa personaje de referencia al cura Jesús Aguirre, que luego fue duque de Alba. El recorrido de un cura homosexual del Santander de posguerra y su escalada hasta lo más alto, cuando se convierte en duque al casarse con la duquesa de Alba y le hacen director de unas cuantas instituciones culturales, sirve de hilo conductor para narrar cómo era ese vacío cultural que dejó la guerra y el exilio en España. Ya solo el prólogo o prefacio, no recuerdo bien, es muy interesante y se cuentan las vicisitudes del proceso de escritura del libro y como tras muchos años preparándolo y casi ya en imprenta quiso ser censurado por la editorial Planeta. No accedió a que le recortaran un capítulo sobre la Real Academia Española, en concreto 11 páginas dedicadas a Víctor García de la Concha y terminó siendo publicado por Akal.
De memoria y sin el libro a mano siguen en mi cabeza muchos de los personajes o eventos relatados. Enuncio en una lista sin orden algunas de esas personas y sucesos:
- el contubernio de Munich del ’62, cómo había vivido tanto tiempo sin saber de él, 1969 como el año del estado o el proceso de Burgos de 1970. Cuánta ignorancia.
- la importancia cultural del Santander de posguerra y los personajes que allí empezaron y luego fueron élite, como Jesús Polanco, que con su editorial Santillana pegó el pelotazo con los libros de texto en los años ’70;
- la relevancia política Luís Martín Santos (el de Tiempo de Silencio) con su militancia en el PSOE y lo poco que se menciona eso en los libros de literatura; el continuismo entre las élites culturales entre el franquismo, la transición y la democracia;
- el desolador viaje desde el exilio, y en concreto una cena, que realizó Max Aub de vuelta a España que quedó recogido en su libro La gallina ciega, me recordó a otra cena más reciente en la que Amador Fernández-Savater narraba el miedo de sus ilustres comensales.
- se presenta a Camilo José Cela como colaborador y censor del régimen que llegó a ofrecerse durante la guerra civil como espía de los rebeldes franquistas. Más interesante todavía es la red de contactos que tejió con la revista Papeles de Son Armadans, donde colaboraban muchos escritores en el exilio. Cela era para ellos el único canal de contacto con la España que habían abandonado, y su revista, un reducto de libertad en una España desolada. Lo que nos cuenta Morán es que la revista no era casi leída dentro de nuestras fronteras, como creían lo colaboradores exiliados, y sí en los departamentos de literatura española en múltiples universidades. Esto sirvió para colocar el nombre de Cela y que fuera invitado a universidades extranjeras y le ayudara a posicionarse internacionalmente para el premio Nobel ¿cómo podría tejerse esa red en la actualidad teniendo a todos contentos y que nadie se sienta utilizado? Todo esto no menoscaba la calidad literaria del escritor de La familia de Pascual Duarte o La colmena, pero sí ayuda a situar su obra y al personaje en su contexto histórico político.
- un capítulo apasionante es el dedicado a los comienzos del periódico El País. No es, como piensa mucha gente, una creación de la mano de los socialistas. Por allí estaba Manuel Fraga Iribarne en sus inicios… mejor que lo leais vosotros. Traigo a Fraga a colación también porque me recordó su puesto como embajador en Londres al retiro dorado (también para quitarle de en medio) del que disfruta Federico Trillo anteriormente.
Como crítica negativa a veces el libro puede resultar espeso, se atranca con muchos nombres, repite algunas explicaciones de un capítulo a otro, como si no hubiera sido debidamente editado. Quiero pensar que es deliberado y que está pensado para poder ser leído por capítulos separados o para ayudar al lector con mala memoria. Es uno de esos libros con asterisco, como cuenta Charlie DeTar en su repaso a los libros que ha leído y podcast que ha escuchado en 2015: books with a “*” are those that, relative to the others, had a very deep impact on me, transforming my world view. They might not be as special to you, but they were to me. La lectura de su revisión de libros anual me animó a publicar por fin este artículo.
El libro de Morán me animó a seguir con otro libro suyo Los españoles que dejaron de serlo (Euskadi, 1937-1981), donde relata la historia del País Vasco centrada en tres protagonistas principales: ETA, la oligarquía vasca y el Partido Nacionalista Vasco. Escrito a principios de los años ochenta nos cuenta los primeros años de ETA, la formación de la oligarquía vasca y el papel del PNV. De paso descubrí que también había pasado unos años en Bilbao. Pero esa es ya otra historia.
La medida de la importancia que un libro tiene para mi es cuántas veces lo cito y vuelvo sobre sus temas. En los últimos meses me ha surgido comentar El cura y los… en muy diversos contextos y charlas y no paro de recomendarlo.
No terminé otro libro que me regalaron: A mis amigos del Comité Invisible. A ver si lo acabo y os cuento.
–
Puedes echar un ojo al repaso que di a los libros del verano de 2014.

Spam en mi buzón
Este es un experimento para medir la masa de papel de spam o correo no deseado que ha llegado a mi buzón durante el año 2015.
Durante el 2015 recibí 5,31 kg de publicidad en mi buzón.
Si en Bilbao hay 160.283 viviendas (según eustat), podemos extrapolar y calcular que serían 851 toneladas de papel/año solo en Bilbao.
Considerando que no todos los barrios y viviendas reciben la misma cantidad de propaganda, podemos minorar este resultado. Pensemos que 100.000 viviendas han acumulado la misma cantidad que mi buzón: serían 531 toneladas de papel al año. Casi 1,5 toneladas de papel por día.
En 2015 recibí 5,3kg de publicidad en papel en mi buzón.
En Bilbao hay 160.283 viviendas, esto hacen 851 toneladas de papel/año #BuzónSpam— numeroteca (@numeroteca) February 15, 2016
He recogido los datos porque no había otra forma de evaluar la cantidad de spam de otra manera ¿Te animas a pesar la publicidad en tu buzón durante este año para hacer un estudio comparativo?
Así ponemos un grano de arena en forma de datos para acabar con el correo indeseado.
Nota: He incluido los 412 gramos de las páginas amarillas y los 362 gramos de un catálogo de juguetes.

El partido es incompatible con la corrupción

Medir los titiriteros en TVE
En el Telediario de la 1 hoy, según @cditve:
Titiriteros: 5:23 min
Desplome bolsa: 1 min
Caso Nóos: 58 segundos
Caso Taula: 57 segundos— Matthew Bennett (@matthewbennett) February 8, 2016
Va haciendo falta desde hace tiempo iniciativas y herramientas para medir a los medios de comunicación. Desde hace un tiempo he desarrollado un software para medir la superficie dedicada en portadas de prensa impresa. Existen otras herramientas para medir Twitter, las portadas de los diarios online (story tracker), modificación de noticias en periódicos online (newsdiffs), pero no hay datos accesibles sobre uno de los medios de masas más importantes: la televisión. Al menos en España, no contamos con el archivo abierto que almacena toda la TV de EE.UU. 24 horas al día.
Durante el caso Zapata hice un inicio de experimento de captura de datos de los telediarios de TVE que no llegó muy lejos. El tuit de @MatthewBennett de más arriba me recordó la necesidad de tener los datos accesibles. Ahora algunos de los telediarios de TVE están minutados, incluso algunos disponen de la transcripción completa, valía la pena probar el experimento de nuevo. Una duda ¿por qué no todos los telediarios disponen de la misma información: transcripción + minutaje? Misterio.
En un rato libre me puse manos a la obra para corroborar los datos de Matthew. Mi estudio es sobre los datos del telediario de medio día, los suyos, creo que del de las 21h:
Aquí los datos del Telediario a las 15h:
Titiriteros 5:46
Bolsa 2:42
Taula 1:23
Nóos 1:02https://t.co/LPJLxwOnW7 cc @matthewbennett— numeroteca (@numeroteca) February 9, 2016
Puedes ver los datos recopilados a partir del minutaje que ofrece la propia página del telediario de medio día del 8 de febrero de 2016.
He montado unos sencillos gráicos de barras para mostrar el tiempo dedicado a las noticias. El fútbol gana (7:49 min), aunque también es cierto que no he sumado en el gráfico el tiempo dedicado a los pactos para formar gobierno, que anda cerca de los 9 minutos (8:41). El caso de los titiriteros se lleva 5:40, la bolsa 2:42 y los casos de corrupción Taula 1:23 y Nóos 1:02.
La duración no solo es lo importante, por eso he incluido un gráfico para ver en qué orden se emitieron las noticias. Abrieron sobre el caso de los titiriteros. Más tarde fue el tema que siguió la crónica política de los pactos.
Habría que analizar también qué y cómo se contó la noticia, se lo dejo a otros. Aquí un avance:
@paaq 2 veces 4 segundos del vídeo. Han usado imágenes de archivo y lo mejor: renders del auto de ingreso en prisión pic.twitter.com/QhSCmNB6tm
— numeroteca (@numeroteca) February 9, 2016
Post relacionados: midiendo las intervenciones en una asamblea de Occupy Boston.

ART IS TABASCO
La idea primigenia surgió a seis manos, una noche en una cena en la calle Iturribide. Hacía poco iempo que me habían concedido una beca de producción dela Fundación Bilbao Arte.
Lo que podía haberse quedado en una idea de bar sobre una servilleta fue refinándose y rehaciéndose en una cadena de emails hasta plasmarse con una serigrafría tricolor sobre una camiseta.
¿Qué significa ser artista vasco? ¿Qué significa se oteiciano o postoteiziano en el siglo 21? ¿para qué sirven el arte? ¿y la broma?
–
Como solamente imprimí 12 camisetas me he ido encontrando con gente a la que le gustaría tener una y no puede obtenerla (ni comprármela). Por eso, como les he ido diciendo a todos, comparto aquí el archivo vectorial para imprimir (.pdf) para que cualquiera pueda imprimírsela y modificarla como quiera.
En este post iré recogiendo diferentes fotos y reacciones a este ARTISTABASCO. Ponte en contacto conmigo si la re-utilizas o deja un comentario en este post. Si te animas a hacer de nuevo una impresión a serigrafía en tres colores ¡avísame! hay otra gente que querrá una.
Gracias a todos los que colaborasteis en el desarrollo de la camiseta.
- Boceto previo de cómo quedaría.
- Boceto previo de cómo quedaría.
- En tamaño más pequeño que las camisetas originales, aquí nos llega el primer clon.
- Aquí nos llega la segunda copia de la camiseta.
- ART IS TABASCO en Gau Irekia 2015
Feliz 2016
Un remix de Chainwork Reverted de la mano de Basurama, Marcus y Numeroteca.

Superficie en portada dedicada a cada partido en #elecciones20D
Recopilo en este post los diferentes análisis que voy realizando sobre la cobertura en portada de prensa de los principales periódicos generalistas en España (El País, El Mundo, ABC, La Razón y La Vanguardia) durante el periodo electoral de las elecciones generales del 20 de diciembre de 2015.
El análisis, datos y las portadas han sido realizados con el Software PageOneX.com y están disponibles en el hilo abierto y visualización interactiva Partidos en portada #elecciones20D (PageOneX). También puedes usar y descargar los datos de esta hoja de cálculo.
Superficie en portada dedicada a cada partido por periódico en #Elecciones20D. Ahora marcando noticias desfavorables pic.twitter.com/SRTt7otMVd
— numeroteca (@numeroteca) December 20, 2015
Superficie en portada dedicada a cada partido por periódico durante el periodo electoral #20D pic.twitter.com/RoNPbFckuE
— numeroteca (@numeroteca) December 19, 2015
Así ha sido la cobertura en portada de partidos políticos durante la campaña electoral #20D https://t.co/7yCQy2ERdE pic.twitter.com/tBPFBm0BSt
— numeroteca (@numeroteca) December 19, 2015
Añadí la capa que faltaba: Cobertura negativa (a rayas) de partidos políticos durante la camapaña elecciones #20D pic.twitter.com/4fTPBkyBMK
— numeroteca (@numeroteca) December 16, 2015
¿De qué partidos tratan las noticias durante las elecciones?¿cuales son noticias negativas? https://t.co/7yCQy2ERdE pic.twitter.com/RAJqL0eQq0
— numeroteca (@numeroteca) December 16, 2015
Según se acercaba el final aumentó la cobertura del PP, sobre todo en ABC y La Razón pic.twitter.com/TVkII3kcAD
— numeroteca (@numeroteca) December 19, 2015
El PSOE desapareció de ABC y La Razón, y estuvo presente en El País, El Mundo y La Vanguardia pic.twitter.com/vkfE1CTLMX
— numeroteca (@numeroteca) December 19, 2015
En los momentos finales Ciudadanos desapareció de El País y La Razón y estuvo en El Mundo, La Razón y La Vanguardia pic.twitter.com/LeCymDYxlL
— numeroteca (@numeroteca) December 19, 2015
En los 2 últimos días Podemos apareció en El País y ABC con imagen y en El Mundo en pequeño pic.twitter.com/yLRNkqAmmj
— numeroteca (@numeroteca) December 19, 2015
IU-Unidad Popular solo apareció en El País y no en la última semana pic.twitter.com/y0yNIyudX3
— numeroteca (@numeroteca) December 19, 2015
De "otros" partidos solo trató La Vanguardia,sobre los partidos catalanes (salvo alguna mención de La Razón en pqño) pic.twitter.com/SIqwlLrDVM
— numeroteca (@numeroteca) December 19, 2015
Cómo y porqués de Chainwork Reverted
Hoy lunes 14 de diciembre 2015 a las 19.00h en Bilbao Arte estaré compartiendo mesa con Ana Berenguer, Carolina Bácares, Claudia Müller y Laia Sala para contar cómo ha sido el proceso de creación de gestación y creación de Chainwork Reverted durante este año 2015.
¡Os esperamos!
Dirección: Bilbao Arte. Urazurrutia, 32. Bilbao.

Power Rangers o cómo trabajar en colectivo
Hoy comienza en la universidad de bellas artes de la UPV en Leioa, cerca de Bilbao, una serie de charla-mesa redonda-taller sobre cómo trabajar en colectivo que organiza el colectivo Dooroom. Yo llevo todas las camisetas/grupos a los que pertenezco: Basurama, Montera34, Wikitoki, PublicLab o Cadáveres Inmobiliarios. Los hay que son colectivos, otros asociaciones de asociaciones o redes de investigación asociadas a organización sin ánimo de lucro. Cada una con sus maneras diferentes de trabajar. También estarán en las jornadas Jon de Todo por la Praxis y Leónidas de Enmedio.
Espero que abra un espacio para hablar de lo que significa trabajar en colectivo: con todas sus alegrías y problemas.
El programa es el siguiente:
POWER RANGERS
Trabajo en colectivo y transformación socialMartes 24/11/2015
16h-20h. Antiguo plató de audiovisuales. Facultad de BBAA de la UPV. Leioa.
Presentación
Presentación a cargo de Dooroom y Fundación Rodríguez.
Después, Jon Garbizu (Todo por la Praxis) , Pablo Rey Mazón (Basurama, Montera34, Publicalb, Cadaveres Inmobiliarios, Wikitoki.org) y Leonidas Martín (Colectivo Enmedio) presentarán su trabajo.Miércoles 25/11/2015
10h-14h // Antiguo plató de audiovisuales. Facultad de BBAA de la UPV. Leioa.
Desayuno y mesa reonda
Formación de grupos de trabajo para los talleres.
Los asistentes formarán, junto con los invitados, tres grupos de trabajo para trabajar durante la tarde y el día siguiente.16h-20h // Okela Sormen Lantegia, Espacio Puerta, Histeria. Bilbao
Talleres
Cada grupo trabajará en uno de los tres espacios de Bilbao (Puerta, Okela, Histeria)Jueves 26/11/2015
10h-18h // 10h-18h // Okela Sormen Lantegia, Espacio Puerta, Histeria. Bilbao
Talleres (Okela, Puerta, Histeria) en BIlbao19-21h // en Wikitoki. Bilbao.
Presentación y fin de las jornadas.
Merienda y puesta en común de lo sucedido en los talleres.
Si has llegado hasta aquí puedes ver el descacharrante vídeo que ha preparado Dooroom remezclando a los Power Rangers, que a su vez es un remezcla de las Super Sentai Series ¡viva la remezcla!
Probando la base de datos de cadáveres inmobiliarios en varios mapas
Nota: Artículo también publicado en la web de Cadáveres Inmobiliarios.
Se muestran aquí las primeras pruebas que hemos desarrollado desde Montera34 de cara al festival Arquinset 2015 que tendrá lugar en noviembre 2011 con los datos existentes en Cadáveres Inmobiliarios. Esto engloba las bases de datos previas que han aportado diferentes colaboradores y la base de datos de cadáveres inmobiliarios. Los mapas están desarrollados con cartoDB.
Cadáveres (inmobiliarios) adoptados vs Cadáveres desenterrados
Mirad los puntos negros, que son los cadáveres detectados (“desenterrados”) y los amarillos, que son los cadáveres que han sido adoptados. ¡Aún nos quedan muchos muchos puntos por adoptar!
El proceso de adoptar consiste en ampliar la información de cada uno de los puntos y estructurarla según la base de datos de Cadáveres Inmobiliarios.
Continue reading

Paseos, mapas y tecnología. Exposición de Bilbao caminado en Okela
Este jueves 8 de octubre 2015 a las 19.30h se presenta en Okela (Bilbao) una exposición sobre el tema “Tecnología” en la que han seleccionado mi mapa de paseos por Bilbao.
Para la ocasión he traducido a papel todos esos vectores a partir de las trazas de GPS. He impreso con un pilot y ayudado por una impresora de control numérico los mapas de los cursos 2013-2014 y 2014-2015. Estará abierta hasta el 22 de octubre. Mirad en la web de Okela cuándo abren.
Con motivo de la inauguración habrá performances y charlas a cargo de los otros participantes: Patxi Araujo y Pau Figueres. En mi turno aprovecharé para compartir en un formato charla algunas cuestiones sobre tecnología a raiz de los mapas que expongo. Tunipanea actuará con sus instrumentos a modo de cierre.
Este es el texto sobre el proyecto en el libreto que acompaña a la exposición:
Bilbao caminado
Me interesa hablar de la tecnología (o mejor, de tecnologías) como el conjunto de herramientas para trabajar de un modo “ampliado” sobre la realidad. Esto puede significar casi cualquier cosa: un pincel, un lápiz, un papel, un ordenador, pero me gustaría asociar el relato a las tecnologías que todavía no han sido enteramente asimiladas por la sociedad o no son, todavía, del todo conocidas en profundidad. Entiendo que es una línea difícil de trazar, sobre eso también habrá que hablar.
Bilbao caminado es el resultado de pasear por Bilbao con el GPS encendido con el objetivo de pasar por todas sus calles. Un proyecto que está a mitad de camino entre lo nada tecnológico (caminar) y su documentación a través de tecnologías contemporáneas: Global Positioning System (GPS) y una impresora de control numérico con un pilot como cabezal. Cada año produzco un mapa de todos los lugares donde he estado en Bilbao. Para ser más exactos: todos los lugares donde he ido con el GPS encendido y tenían cobertura para satélites.
El mapa generado, sin base cartográfica detrás, es el resultado de todos los caminos recorridos. Cuanto más líneas hay quiere decir que más veces he pasado por allí. Tardé un año en pasearlo y una hora y pico en que el pilot recorriera esos caminos sobre el papel. La pieza que se expone es el resultado de traducir a un objeto físico todos estos paseos. Un mapa por cada año. Es el último paso de una cadena de transformaciones tecnológicas entre caminar, documentar y producir.
El mapa representa los datos que he acumulado yo mismo, pero también otra pregunta ¿cuántos datos más tiene sobre mi compañía de teléfonos?
Si quieres repetir la experiencia tienes las instrucciones en https://numeroteca.org/?p=3274
- Al principio dio problemas el programa que prepara la impresión. Los eps estaban mal generados: las línes estaban dobles.
- El software calculaba, con el eps mal preparado (las líneas estaban dobles), que iba a tardas más de 1.000.000 de horas en leer el archivo.
- Primeros paseos por BIlbao del curso 2013-2014.
- El pilot antes de ser cortado para que cupiera en la impresora.
- El mapa impreso del curso 2013-2014. Se puede ver que el papel está algo roto en el centro, demasiadas pasadas (y paseos) por ese lugar.
- Trazas de GPS de un año en Bilbao. 2013-2014.
- Cartel exposición VII.AMP Teknologia en Okela.
Presentación de resultados de “Cartografia aèria de barri” en Barcelona
El sábado 25 de abril 2015 spresento los resultados de “Cartografía de Barrio”, unos talleres de fotografías aérea con globo que realiamos a mediados de mes en El Raval, Barcelona.
La presentación tendrá lugar a las 19.00h en el MACBA (Museu d’Art Contemporani de Barcelona) dentro del marco del Festival de Ciència, Tecnologia i Innovació de Barcelona, NOVUM. Se podrá ver los mapas realizados y hablar de las motivaciones y preocupaciones de los participantes sobre el espacio público.
El progreso
El progreso.
El progreso es la carretera.
El progreso es la carretera que te lleva a ver lo que la carretera destruyó.
El progreso es la carretera que te lleva a ver lo que la carretera destruyó y que el progreso recuperó.
Infinite loop
Tuve un sueño despierto.
Entraba en una página que me llevaba a otra página que me llevaba a otra página que me llevaba a…
Tuve que construir ese sueño.

Oraciones en la basura
La semana pasada, de entre la basura de Bilbao Arte, encontré esta oración:
Oteiza Nuestro
Tito Jorge,
que estás en el cielo.
santificadas sean tus maclas;
llegue a nosotros tu conocimiento;
hágase tu arte
en la escuela como en el museo.Danos hoy nuestra caja vacía;
perdona a Chillida,
como también nosotros perdonamos
a quienes admiran a Koons;
no nos dejes caer en la ornamentación.
y líbranos de Hirst.Quosque tandem?
Un buen aviso para navegantes cuando está todo el año por delante en Bilbao Arte.
Nubes inundaron

Notas sobre el teatro-documento y la literatura-realidad
Justo cuando se cumple ahora una año de mi análisis literario del auto judicial de imputación de la infanta Cristina y un poco menos del análisis teatral del interrogatorio a la infanta Cristina, me encontré deambulando por una bilbioteca de Bilbao, con este texto sobre el teatro-realidad o teatro-documento:
La Indagación es el modelo más lúcido del que Peter Weiss denominó como Teatro-Documento. Peter Weiss es tajante en sus Notas sobre el Teatro-Documento. Nos dirá por ejemplo en la nota 5: “El Escenario del Teatro-Documento no muestra ya la realidad momentánea, sino la copia de un fragmento de realidad, arrancado de la continuidad viva”. O en la nota 8, subraya:
El Teatro-Documento no se sitúa en el centro del acontecer, sino que adopta la posición del que observa y analiza. Con su técnica de montaje, hace resaltar detalles claros entre el caótico material de la realidad exterior. Mediante la confrontación de detalles contradictorios, llama la atención sobre un confilcto existente.
Ignacio Amestoy. Extracto del texto “Literatura e historia”. El testimonio del teatro.
La ficción de la verdad. Literatura e historia. Revista Anthropos número 240. Editor Jorge Urrutia. Cuadernos de cultura crítica y conocimiento.
A través del texto conocí la obra Die Ermittlung (La investigación) de Peter Weiss, basada en los juicios sobre Auschwitz y puesta en escena poco después de su conclusión en 1965. En ella se usa la palabra de testigos en el juicio (no sé hasta qué punto saca de lo que se dijo en él) para mostrar las contradicciones de los acusados.
Me vino a la cabeza la validez e importancia de la obra Ruz-Bárcenas, de la que aún tengo pendiente escribir una crítica. Se usa directamente el texto -editado- del interrogatorio del juez Ruz a Luís Bárcenas sobre la supuesta contabilidad b del Partido Popular. Digo supuesta, aunque cada vez menos supuesta y más verificada, contabilidad b del Partido Popular, de la que está a punto de cumplirse dos años desde que conocimos los “papeles de Bárcenas”. Es un buen ejemplo de cómo mostrar al público la complejidad de las tramas de corrupción y los textos o interrogatorios judiciales.
Y justo en los últimos días me he encontrado, o reencontrado, con otros textos literarios, no ya teatrales, que se adhieren a la realidad como A sangre fría de Capote o El adversario de Carrere, gracias a una crítica sobre la última novela de Javier Cercas: El Impostor. El libro, según parece, narra la vida, entre la verdad y la mentira, de Enrique Marco. Lo más conocido es que se hizo pasar por prisionero del campo de exterminio de Mauthausen y llegó a presidir Amical de Mauthausen, la principal asociación de españoles deportados a los campos nazis. Su periplo como impostor no se detiene ahí, también inventó un pasado como resistente antifascista que le llevó a presidir en 1977 el sindicato anarquista CNT. La realidad era otra: “porque Marco sí había estado en Alemania durante la guerra, pero como trabajador voluntario prestado por Franco al III Reich para devolver las deudas de la Guerra Civil”.
La realidad, aparte de ser perfecta, como enunciaba Joseph Hunter, es una fuente inagotable para la creación y la transformación. Escuchemos, veamos. Creemos.
Voy cerrando ya el texto, que los nazis ya han aparecido dos veces.

Free WiFi – Free Willy
Al hilo del concepto de WiFi como el espítiru de los tiempos (en el sentido espiritual), como el maná contemporáneo, como el nuevo derecho humano. Vídeo vía Txelu.

Marrón Real
Al hilo de la apertura de jucio oral donde se sentará la Infanta Cristina:
Si te ha gustado, quizás quieras revisitar los esperiales rales de los años anteriores:
- Infireno real 2012
- El silencio del rey 2013

La prospe en fotos aéreas 1946-2014
La Fototeca digital del Instituto Geográfico Nacional no funciona muy bien, pero permite acceder a las imágenes aéreas de los vuelos “americanos” de 1945-46 y 1956-57. No he podido resistirme a hacer un gif animado sobre mi barrio madrileño de La Prospe.
6.000km, burbuja inmobiliaria y volando con globos: esta semana tour por Barcelona
Esta semana estaré de tour en Barcelona. Sigue ahora una lista de actividades en las que participo.
Exposición: Las fotos de 6.000km, proyecto que realizo con Basurama, participan en la exposición colectiva Relat de belles coses falsas en el Arts Santa Monica con 5 fotografías panorámicas. La exposición, que ya estuvo es Lo Pati en Amposta, llega ahora a Barcelona. Estará hasta el 8 de diciembre de 2014. Es una exposición colectiva donde participan:
Verdolatría: Carlos Aires, Josep Berga i Boix, Joaquim Mir, Mariona Moncunill y Rasmus Nilausen Regiones espantosas: Javier Basiana, Jaume Orpinell, Basurama, Julia Montilla, Xavier Ribas y Joaquim Vayreda El jardín: Pau Faus, Palle Nielsen, Enrique Radigales i Jorge Ribalta Tierras prometidas: Miquel Barceló, Patrícia Dauder, Jaume Mercader i Txema Salvans La piel: Rosa Amorós, Fina Miralles Francesc Ruiz, Francesc Català-Roca, Angels Ribé y Alberto Schommer Hacia paisajes nuevos: Joan Fontcuberta, Albert Gusi, Perejaume, Frederic Perers y Job Ramos
Charla: Por la tarde del miércoles 22 de octubre a las 20.00h, participaré en un debate en Ars Santa Monica, Barcelona, con motivo de la exposición. Más información sobre el debate. En la mesa redonda estaremos hablando Basurama junto con Luz Broto y Carme Nogueira.
Más info de las actividades relacionadas con 6.000km en Barcelona.
Encuentro: Organizo desde Basurama el encuentro para crear una base de datos pública de cadáveres de la burbuja inmobiliaria. los días 24 y 25 de octubre. Puedes ver infomación actualizada y cómo sumarte al proceso en esta entrada en el blog de 6.000km.
Taller: Paralelamente el sábado por la mañana organizamos el taller Documenta desde el aire para mostrar cómo hacer fotos con globos y cometas para obtener fotos aéreas. Será una versión resumida del que hicimos en Castellón a principio de año usando las herramientas generadas por la comunidad de Public Lab.
Más información de las actividades del encuentro en basurama.org.
… y también dos huevos duros.

Posición aleatoria para poder ver cantidades pequeñas
Ya probé esta solución con las notas de Bárcenas, donde había que comparar cantidades desde 100 a casi 300.000 euros. En el caso de las tarjetas opacas o “tarjetas black” de Caja Madrid-Bankia pasa lo mismo: se combinan cantidades de 18 euros con otras de 16.000 euros.
Como las cantidades pequeñas quedan “tapadas” por las grandes, si se asigna una posición aleatoria en el eje vertical y se manteniene la posición en el eje horizontal (tiempo) permite dar visibilidad a las cantidades más pequeñas y entender la información de otra manera. Para ello he asignado la función al botón “Posición vertical aleatoria”. Puedes probarlo en numeroteca.org/tarjetasblack.

Hacer visualización vs Contar historias
No está reñido hacer una visualización y contar una historia. De hecho, las visualizaciones de datos deberían ayudar a contar historias o por lo menos a entender cosas que la simple observación de los datos (números, palabras) no permite. La visualización que he desarrollado para los gastos de las ‘tarjetas black’ de Caja Madrid y Bankia es un intento de ver los gastos de forma visual ordenados en el tiempo.
Según lo veo, esta visualización es una herramienta para contar historias. Para dar ejemplo he contado unas cuantas en Historias de las ‘tarjetas black’ de Caja Madrid, en un largo scroll vertical. A ver qué os parece.
En resumen: hace falta hacer el relato (texto) del relato (visualización) para llegar a la gente, o, al menos, para facilitar que empiecen a interpretar los datos por su cuenta.
Os dejo con algunas de las imágenes.:
Puedes ver el resto de historias en numeroteca.org/tarjetasblack/historias
Posdata: a riesgo de repetirme, no basta con hacer una visualización, hace falta contar las historias que emergen de esos gráficos. Es, casi siempre, un trabajo colaborativo. Hace falta recopilar los datos, limpiarlos, preparar las visualizaciones, contar las historias que esconden y, no menos importante, difundirlas. Este post viene a ser el relato del relato (histoiras de las tarjetas black) del relato (visualización de datos).
¿Os animais a contar vuestras historias a partir de estas visualizaciones en #historiastarjetasblack? ¿y a colaborar mejorando el código?

¿Por qué no hay mejores visualizaciones de datos en la prensa española? #tarjetasblack
Cuando se publicaron las notas de Bárcenas sobre la contabilidad B del Partido Popular en la prensa española, me sorprendió no ver más que listados y algún que otro gráfico no interactivo. Recopilé cuantas visualizaciones encontré sobre el tema y desarrollé la mía propia, que todavía puede verse en: numeroteca.org/notasbarcenas
Esta vez, el volumen de datos de los gastos con las tarjetas black de los directivos y consejeros de Caja Madrid-Bankia era mucho mayor y estaba mejor estructurado. Bastaba con descargárselos haciendo copy-paste de las tablas en html de la web de El País.
Tras una rápida búsqueda, solo en El Confidencial he encontrado un análisis gráfico interactivo. El País y eldiario.es ofrecen sendas tablas de datos y algún que otro gráfico (la del diario.es no permite descargarse los datos, hecha con Taubleau). Navegar por esas tablas que suman más de 80.000 líneas no es una experiencia que ayude a procesar la información fácilmente. Antonio Delgado ha procesado en unos buenos diagramas de barra estáticos alguna información relevante.
Por eso, una vez más, me he puesto manos a la obra a hacer una nueva visualización: numeroteca.org/tarjetasblack. He tardado 12 horas en hacer este gráfico interactivo, reutilizando buena parte del código que use para notarbárcenas. ¿Por qué el resto de medios digitales no lo han hecho antes? ¿Cómo puede ser que los grandes medios de comunicación en España no saquen más partido a toda esta cantidad de información tan relevante y de actualidad? ¿Unos diagramas de barras que luego se imprimen tal cual en la versión en papel es todo lo que se puede hacer? ¿Se puede hacer algo mejor que listar a los implicados?
El objetivo es ofrecer nuevas maneras para interpretar los datos y contar historias. De momento he incluido 16 de los 86 directivos y consejeros, suficientes para hacerse una idea de los patrones de gasto y tipo. Os invito a explorar los datos conmigo, a ver qué encontramos.
Como primera pregunta empecemos por la ausencia de información ¿por qué no hay datos de febrero de 2009 de inicios de 2012? Y antes de 2003 ¿dónde están esos datos?

Un año de paseos por Bilbao en GPS
¿Qué pasa si grabas con un GPS todos tus movimientos por la ciudad en donde vives durante un año? El resultado es este mapa. La superposición de todos los trayectos terminan conformando la forma de la ciudad que has vivido. He repetido el ejercicio que hice en Boston-Cambridge hace unos años. Esta vez la mayoría de los paseos han sido acompañados con un carrito de bebé, así que allí donde había escaleras u otros obstáculos, no he llegado, salvo en las escaleras que suben a Arangoiti por el este.
Cuando se mapea algo, a veces, es más significativo el negativo de lo que hemos estudiado, lo que no hemos visto. Los barrios de Santutxu, Atxuri, Otxarkoaga o San Ignazio son todavía territorios casi inexplorados para mi, como muchos de los caminos que suben al Pagasarri. Supongo que este mapa dice mucho sobre mi, imaginaos si también publicara las horas a las que he estado en cada lugar, las velocidades… hay un campo entero de posibilidades a explorar. Imaginaos si combináramos los datos de dos, tres o cuatro personas.
El mapa está hecho a base de todas las trayectos superpuestos día a día, sin una base cartográfica detrás. Cuando se acumulan varios trayectos la línea se vuelve más opaca, más negra, suele delimitar los caminos y calles más transitados. Los puntos negros suelen ser el resultado de dejarme el GPS encendido. La mala conexión con los satélites, debido a que hay falta de visibilidad por los edificios, y la baja velocidad suelen ser la causa de la mayoría de las líneas zigzagueantes. A veces, en un trayecto puede no quedar grabado porque el GPS no ha capaz de localizar a tiempo su posición. A veces todas las pilas recargables que llevaba encima se habían gastado. Para ser más exactos, el mapa es el resultado de todos los lugares a los que fui con el GPS encendido y la traza se grabó correctamente.
Mi objetivo es recorrer todas y cada una de las calles y caminos de Bilbao, así que todavía me queda mucha ciudad por explorar. Después de un año en esta ciudad creo que me queda aproximadamente la mitad por recorrer. Si alguien quiere sumarse a la expedición y mostrarme algunas de las Terras Incognitas que conoce o habita, que hable ahora.
Os dejo con el cómo se hizo del mapa:
Cómo hacer un mapa con trazas .gpx grabadas en tu GPS con software libre
- Necesitas grabar con un GPS los recorridos que quieras. Puedes hacerlo con un GPS o con un teléfono móvil que tenga GPS
- Descarga todos los archivos .gpx de tu GPS.
- Abre en JOSM todos los archivos .gpx. Para ello inicia primero el programa y luego abre todas las trazas.
- Selecciona todas las capas, habrá una por cada recorrido, y selecciona la opción de “merge” (acoplar) todas las capas. Marcando la primera, mantén pulsado la techa “shift” y luego la última capa, te permitirá seleccionar todas de forma sencilla.
- Convierte la capa resultante a una capa de datos. Para ello debes seleccionar la capa y en el menú del botón derecho seleccionar la opción “convertir en capa de datos”. Esto te permitirá editar o borrar algunos puntos. Es útil para borrar errores, puntos díscolos erróneamente grabados por tu GPS.
- Salva la capa generada en JOSM en un nuevo archivo .gpx (“save as” en el menu “file”).
- Abre el programa QGIS e importa el archivoc .gpx del paso previo. Edita la capa generada y ponle el color y el grosor que quieras.
- Crea un nuevo “layout”.
- Inserta un mapa y ajusta el de zoom para que se pueda ver la parte del mapa que te interesa.
- Expórta el mapa a formato pdf o svg.
- Abre el archivo generado en el paso previo con Inkscape y ajusta la opacidad y grosor de las líneas hasta obtener el resultado deseado. Ojo: no cambies la opacidad de la capa sino de la línea en sí.
- Ahora puedes exportar a formato imagen el resultado. Vete a la opción “Export to bitmap”. Añade un rectángulo de relleno blanco de fondo para obtener una imagen final en png sin transparencias.

Lecturas veraniegas variopintas
Ahora que el verano va llegando oficialmente a su fin es momento de hacer repaso de las lecturas veraniegas. En otros tiempos el verano iba asociado a una o dos novelas (o novelones) a degustar bajo el calor agostil. Este verano ha sido prolífico en lecturas, aunque en un principio no parecía que fuera a dar para tanto. Me llevé solo dos libros bajo el brazo, el resto fueron los que encontré en cada casa donde estuve.
Alacranes en su tinta, de Juan Bas, fue un buen libro para leer cuando salí de Bilbao. Una novela negra, gastronómica y algo bizarra con base en Bilbao. Entretenida y entretenido reconocer lugares en que está ambientada. Alfanhui de Rafael Sánchez Ferlosio se me atragantó un poco, no sabía que se pudiera escribir tan mágica y coloristamente, y menos él, al que mi madre ve todavía muchas mañanas en un café del barrio (de Prosperidad en Madrid). Hasta ahí lo que llevaba bajo el brazo. Como complemento, olvidaba, leí en la ‘tablet’ La Casta, de Daniel Montero, que está escrito (2009) antes de que Podemos y Pablo Iglesias popularizaran el término. Un buen trabajo de recopilación de datos de los excesos y el funcionamiento sistema de la casta política española, capítulo a capítulo. Le falta algo de narratividad para hacer de ella una obra que puedas leer de principio a fin.
En un estante de una masía en Tarragona encontré El gen egoista, de Richar Dawkins. No sabía que fuera un libro clásico ni que estuviera escrito en 1975. Según iba avanzando por él en tardes y mañana de piscina, iba introduciéndome en teorías darwinistas avanzadas y en el mundo de los genes y la selección natural. Me hacía pensar en otros procesos de evolución (mental, cultural). Se me acababan los días, y las horas, en la costa catalana y tuve que saltarme algunos aburridos capítulos para llegar al capítulo final donde ¡oh sorpresa! se acuñaba por primera vez el concepto de “meme”. En el contexto del libro se identificaba bien con el de “gen” pero aplicado al mundo de las ideas (en el libro La información, de James Gleick, que leí hace unos años, explicaban el origen del concepto, pero no recordaba que fuera Dawkins su inventor). En resumen: un libro de divulgación muy interesante para introducirse en el tema de los genes, imagino que se habrá escrito mucho más después. Me permitió realizar el cálculo de cuántos genes se comparten entre hermanos, hijos o primos, una cosa a la que le había dado vueltas alguna vez. Un padre, y una madre, comparten el mismo número de genes con un hermano que con un hijo. Si el gen quiere salvar a sus congéneres, debería querer salvar igualmente a unos y a otros.
En la segunda casa, donde hace muchos años descubrí joyas como El juego de Ender y sus secuelas, encontré una biblioteca mucho más extensa. Esto ha ocasionado que, acaso demasiado, saltara de libro a libro, de prólogo a pŕologo. Qué placer. Un día, poco antes de ir a la playa, cogí uno sin mucho pensar. Uno de relatos, Llamadas telefónicas. En él Bolaño cuenta diferentes historias autobiográficas, o así parecían, de sus años en Cataluña y México. Me animó a contar aquella noche en Phoenix AZ donde intentamos convertir una marcha de zombies en una acción política contra el sherif de la ciudad, Arpaio. Pero, de nuevo, esa es otra historia que deberá ser contada en otra ocasión. Por cierto, en esta casa hay dos ediciones iguales, las de a dos tintas de Alfaguara, de La historia interminable de Michael Ende.
He dejado más de un libro sin acabar, o casi sin empezar, pero en conjunto creo que la lista es interesante. El prólogo, escrito por uno de los de microsiervos, de una biografía sobre Tesla de Margaret Cheney me sirvió para reencontrarme con el personaje varias veces maltratado por la historia y por sus coetáneos. Interesante lectura, justo ahora que parece que el debate sobre la correinte alterna y continue resurge. Metí la cabeza en los diarios de Dalí: a pesar de su inmodestia fue interesante ver cómo reflexiona y hace públicos sus pensamientos y diarios muy personales mientras estaba vivo. Lo de llamarse y considerarse genio sigue echando para atrás pero… en unos de sus anexos hace referencia a un tratado (siglo XII) sobre el pedo. Sí, el pedo, esa ventosidad.
Otra de las noches cogí un libro finito de Stefan Zweig Veinticuatro horas en la vida de una mujer. Empecé por la página veinte o así, llegué hasta el final y volví a empezar. Un técnica que había usado una vez con Kundera, una especie de flashforward manual. Se narra la confesión de las 24 horas de una mujer que estuvieron a punto de cambiar su vida, pero al final las cosas no cambiaron su curso. Me gustó la conexión mental, espacial y conceptual, aunque con todas las diferencias, con Eyes Wide Shut, que vi precisamente en este mismo salón. La vida puede girar en 24 horas, o menos, puede girar hasta 360º y que todo parezca seguir igual aunque uno haya cambiado.
En lo musical redescubrí Bach to Africa de Lambarena, una reinterprestación a la africana de algunas piezas de Bach. Leí también el libreto donde se explica el proceso de ideación y creación del disco Lágrimas Negras (Bebo y el Cigala) por parte de Fernando Trueba. No conocía la historia de su gestación.
Y por último, el libro que aún no he acabado pero que “venía buscando” desde que llegué, porque sabía que estaba aquí: Dreamland. A self-help Manual for a Frightened Nation, de Andri Snær Magnason, un bestseller en Islandia. Una reflexión sobre el progreso, o sobre el marketing de la invevitabilidad del progreso y sus consecuencias, habitualmente nefastas para el medio ambiente. Se centra en Islandia y su carrera por construir una nación próspera a base de vender/destruir su territorio para construir presas para generar energía eléctrica para abastecer a la industria del aluminio que se está implantando en el país ¿Para qué? ¿por qué nos han contado que este era el camino y si no la nada?, se pregunta su autor. Detaca a mi juicio, como pieza que puede ser utilizada independientemente, el capítulo dedicado a la imposibilidad de construir una sola pirámide, usando el ejemplo de las de Egipto. No puedes construir una sola pirámide, ni una sola presa o túnel. Si tienes las tuneladoras y los trabajadores ¿cómo vas a parar?
Hasta el verano que viene. Supongo que todas estas lecturas diran algo sobre su lector. Aún no lo he descifrado.
–
PD: En la recámara tengo Celtiberian Show, un libro escrito –o mejor dicho– recopilado, en los últimos años del franquismo, por Luis Carandell. Noticias, anuncios y acontenicos que reflejan la España más cavernícola o negra, según se vea de aquellos (y esots también) años. Como me lo han dejado, espero poder paladearlo tranquilamente en septiembre.

Superposición de letras
En febrero de 2011 daba mis primeros pasos con Processing. Este es uno de los experimentos que hice por esas fechas aprendiendo a programar. Se publicó inicialmente el apartado Lab de la web de montera34.com, que ahora está de reformas y lavado de cara. Lo re-publico aquí ahora para que no se pierda.
Probablemente la versión interactiva de más abajo no la veas bien, por problemas con java y esas cosas. Por eso he incluido la imagen que ves más arriba. Originalmente se hizo con Helvetica55RomanBold, que he sustituido aquí por una DIN.
Nos acabamos de enterar de los posters que han desarrollado Tres Tipos Gráficos con el asesoramiento tipográfico de Manuel Sesma en archetypes.es. A raiz de ello se nos ha ocurrido publicar uno de los primeros experimentos que hicimos con Processing hace unos meses, precisamente superponiendo una tipografía, la Helvética. La idea era poder hacer el dibujo sin tener que diseñarlo, que el programa lo hiciera por nosotros. Hemos incluido tanto la caja alta como la baja.
Para aprovechar que está generado automáticamente puedes pulsar cualquier tecla para sobreimprimirla:
El código de Processing utilizado es bien sencillo. Primero se genera la fuente como imágenes de cada una de las letras y luego se hace un loop que vaya imprimiendo con trasparencia todas las letras:
PFont font; void setup() { font = loadFont("Helvetica55RomanBold-200.vlw"); textFont(font); size(300, 280); } void draw() { textFont(font); background(0); textSize(300); fill(255,12); for (int i=65; i<180;i++) { char c =char(i); text(c, 30, height-60); } fill(255,0,0,85); text(key, 30, height-60); }
Iremos actualizando en esta página otros experimentos que hicimos al respecto.

La zona
Hace unos años escribí y mandé por email este texto, que pongo más abajo, con motivo del cierre al público de la Puerta del Sol durante varios días. Viene a cuento recuperarlo ahora que algunas plazas de Madrid han sido tomadas por la ceremonia de coronación y desfile de Felipe VI.
—
Encontré este email en un disco duro (aquellos aparatos que guardaban nuestra información y que hacían ruido) que he conseguido rescatar hace unos días (¡gracias Gero!). Corría el año 2011 y yo acababa de volver a mi casa en Madrid tras un tiempo en el extranjero. Me hizo gracias recordar aquello, os lo envío con una cita de Cortázar, que viene muy al caso. Más que nada por recordarlo en su cincuentenario. Reenviadlo si queréis.
– Tuve que cerrar la puerta del pasillo. Han tomado la parte del fondo. Dejó caer el tejido y me miró con sus graves ojos cansados.
– ¿Estás seguro?
Asentí.La casa tomada (1951). Cortázar.
From: pablo
Date: 2011/08/05 6:35
Subject: Para recordar
To: pablo
Quiero escribirme esto para poder recordarlo. Hace tres días empezó todo. Comenzó como si nada, con unas maniobras policiales que evacuaron urgentemente la plaza el martes por la tarde. Me llamó Manu para que nos acercáramos a mirar. Una vez allí no pudimos entrar a ver lo que pasaba, pero nos temimos lo peor. Nueve cordones policiales impedían el paso. Los metros y cercanías no paraban en la estación. No le dimos mayor importancia, a pesar de no entender nada, pero al día siguiente se volvió a repetir. En internet lo empezaban a llamar “la Zona”.
A las ocho de la tarde la policía evacuó de nuevo la plaza y la mantuvo cerrada hasta la mañana siguiente. Parecía que la Zona estaba vacía, pero Miguel y yo sabíamos que algo tenía que estar pasando allí, especialemte por las noches. La gente se congregaba en los accesos para mirar en su interior, pero los cordones policiales estaban cada vez más lejos de la plaza, y entre policías, furgonetas y vallas, apenas podía verse nada. Suerte que nos encontramos con un tal Fredo que nos dejó subir a su casa en la calle Montera para echar una ojeada. No veíamos especialemte bien, pero la policía daba espalda al centro de la plaza, donde un vacío inquietante era casi palpable. Cansados de mirar al vacío y del largo paseo que habíamos dado por un Madrid veraniego, volví a casa en bici por las calles desiertas. Todavía no me había recuperado del jet lag, las noches se alargaban hasta el amanecer y yo sin pizca de sueño.
Hoy la cosa ha ido a peor. La Zona ha sido tomada por la policía desde las doce de la mañana. Han desalojado bares y tiendas colindantes. La gente ha empezado a preocuparse. Me he acercado de nuevo por allí, esta vez con Guille y Andrea, para ver si veíamos algo. Los nueve accesos estaban más blindados que nunca y la gente empezaba a formarse en torno a ellos pidiendo entrar. Había algo de excitación en todo el mundo, pero nadie sabía muy bien por qué. En algunos de los cordones policiales ha habido forcejeos, en otros un diálogo con los policías, que negaban abiertamente, como siempre, saber por qué estaban allí. He visto los primeros carteles y protestas demandando la libre circulación en el espacio público pero los antidisturbios no atiende a razones ¡lógico!
De vuelta para casa, en Velázquez con Goya me he encontrado con una reunión de unas veinte personas en plena calle que estaban hablando sobre el tema. Me he acercado a preguntar tras oir algo sobre la Zona. Me han contado que ese tipo de reunión no es ni la primera ni la más grande, que la gente se ha estado reuniendo para tratar el asunto en grupos mucho más numerosos en el resto de plazas colindantes. También me han dicho que ha habido una carga policial en el Ministerio del Interior en Castellana, cuando han ido a protestar sobre la falta de información de lo que estaba pasando en la Zona. Han detenido a tres, uno de ellos un periodista (lo acabo de leer por twitter) y hay varios heridos. No sé si será el jet lag o que he estado muy absorto con la Zona, porque no me había enterado de nada de eso en la calle. No tengo muy claro si a la gente le gusta la Zona. Noto que las cosas han cambiado en esta ciudad desde que me fui ¿será la Zona la causante de que la gente esté más unida y dialogante?.
Mucho me temo que mañana ya no se pueda entrar a ninguna hora del día. La Zona parece cada vez más poderosa y cerrada, espero que la policía no haga ninguna tontería. Acabo de leer en internet que Rouco se ha puesto manos a la obra (ejem…) y ha llamado al Papa para que venga a exorcizar la Zona. Parece que estamos en el siglo dieci… veinte. Twitter mientras está que arde con la Zona… no le deseo a nadie que haya réplicas en su ciudad… aunque en el fondo me gusta. Mañana espero lelgar pronto.”
—
Nota: Leyéndolo me recordó a Stalker y eso que aún no la había visto. Ya sólo queda esa horrible escultura en medio de laplaza que recuerda todo lo que pasó, ese vacío incómodo de la Zona.