Extracto del documento del Ayuntamiento donde se dice que el expediente administrativo de la multa no fue debidamente tramitado.

Voy a juicio (o quizás ya no): multa por ir en bici por el parque en Bilbao

¿Os acordáis de la multa que me pusieron por ir con mis hijos en bici por Doña Casilda? Eso fue en mayo de 2023. La recurrí en julio y su desestimación me llegó en octubre. En diciembre presenté una demanda contra el Ayuntamiento de Bilbao para recurrir la multa mediante un recurso contencioso-administrativo en los juzgados. Tras varios aplazamientos, el juicio será el jueves 19 de septiembre, justo en mitad de la Semana Europea de la Movilidad. No creo que hubieran podido escoger mejor fecha. Pero, para ser rigurosos, ya no es seguro que haya juicio, porque el Ayuntamiento ha anuladola multa, al menos aparentemente, para intentar evitarlo.

En un principio me ofrecieron un procedimiento abreviado, pero elegí la vista oral, 

porque el objetivo de todo esto es esclarecer para mi, para mis hijos y para todos mis compañeros, que si alguien vuelve a ir en bici por el parque no le pondrán una nueva multa. Queremos saber qué implican, en la práctica, las confusas normativas municipales sobre ir en bici por el parque de Doña Casilda. Y ya que estamos, sobre todos los parques y otras zonas peatonales donde también han puesto multas a ciclistas, como en el paseo junto a la ría entre el puente de Gehry y Elorrieta.

Extracto del documento del Ayuntamiento donde se dice que el expediente administrativo de la multa no fue debidamente tramitado.

Sin embargo, el gobierno municipal no parece estar interesado en esclarecer nada de esto. Ha propuesto al juzgado que no se lleve a cabo el juicio porque ha anulado la multa “al apreciarse irregularidades procedimentales en su tramitación” y que “se comprueba que no fue debidamente tramitado”. Me quitan la multa, pero por problemas en el trámite, sin especificar, así que nos quedamos como estamos. La dificultad, por no decir imposibilidad, de interpretación de las normas genera una inseguridad jurídica que lleva indirectamente a establecer un margen de arbitrariedad que no permite nuestro ordenamiento jurídico.

Y todo esto ha ocurrido unos días antes de celebrarse el juicio, 16 meses después de ponerme la multa. Precisamente justo después de que el juzgado haya aceptado una serie de preguntas que el Ayuntamiento debía contestar por escrito y unos requerimientos de información que debía aportar. Hacen un requiebro (una cobra) administrativa para evitar responder a esta sencilla pregunta: ¿Es cierto que el Ayuntamiento, a través de sus ordenanzas municipales, permite la circulación en bicicleta en zonas peatonales cuando la concurrencia de personas así lo permite? 

A las 52 personas multadas por este motivo en Bilbao desde el 17 de junio de 2023, según lo publicado por el Área de Seguridad en febrero de este año, seguro que también les interesa conocer la respuesta. Como a mí, también les sancionaron por infracción grave, cuando la nueva Ley de Tráfico no lo permite.

En este viaje me he encontrado con Biziz bizi, asociación de ciclismo urbano de Bilbao, como apoyo. Hemos lanzado una encuesta para conocer otros casos similares al mío. Personas multadas por ir en bici por zonas peatonales y así poder denunciar colectivamente esta situación. Ayudadnos a difundirla. 

Porque, en definitiva, ¿de qué va verdaderamente el discurso de apoyo a la movilidad urbana sostenible si multan a un padre por ir con sus hijos en bici por un parque para luego quitarle la multa 16 meses después solamente porque ha sido capaz de recurrirla en un juicio?

En breve os contaré más novedades sobre el caso.

Desestimación alegaciones multa. Carta oficial. Extracto

Alegaciones, desestimación e impugnación, esta multa no termina

¿Por dónde íbamos? Ah, sí, me habían puesto una multa por ir en bici con mis hijos, menores de edad, por un parque de Doña Casilda semivacío y estaba a punto de presentar mis alegaciones.

En julio de 2023 presenté las bien argumentadas y sentidas alegaciones a la multa (gracias, Aitor, por la ayuda) que apuntan tanto a aspectos formales como de fondo. He aprendido mucho en el proceso. Espero que estas alegacione sean útiles para más ciclistas y hagan recapacitar a las autoridades y técnicos municipales:

Unos meses después, en octubre, me llegó la siguiente respuesta desestimando mis alegaciones:

Desestimación alegaciones multa. Carta oficial.
Desestimación alegaciones multa. Carta certificada oficial.

El Órgano sancionador competente por razón de la materia, en función de los datos, antecedentes y circunstancias existentos en el expediente administrativo debidamente comprobados, en ejercicio de las atribuciones que le corresponden, ha dictado la siguiente:
RESOLUCIÓN

1º.- DESESTIMAR las alegaciones presentadas en el expediente sancionador de referencia por la persona interesada, en razón de las siguientes consideraciones:

  1. El artículo 121.5 del Reglamento General de Circulación establece que la circulación de toda clase de vehículos en ningún caso deberá efectuarse por las aceras y demás zonas peatonales.
  2. El párrafo quinto del artículo 21 de la Ordenanza de Espacio Público de Bilbao señala que los y las menores de 12 años, bajo la exclusiva responsabilidad de las personas que ostenten su patria potestad, podrán utilizar las zonas peatonales, plazas y parques de Bilbao, para circular en bicicleta, monopatín, patines y similares cuando el número de personas concurrentes en dichos espacios lo permita. En el caso que nos ocupa, la circulación con la bicicleta se realizó por una persona mayor de 12 años, no concurriendo por tanto, la excepción preceptuada en el referido artículo.
  3. La referencia que el artículo 21 realiza a la utilización de bicicletas y otros elementos de desplazamiento fuera de las zonas habilitadas al efecto, cuando la concurrencia de personas así lo permita, refiere únicamente a zonas peatonales en sentido estricto, no entendiendo por éstas las plazas y parques de Bilbao.

2.- Enviadas las alegaciones al agente denunciante de conformidad con lo establecido en el art. 95.2 del RDL 6/2015 de 30 de octubre, las ha desestimado ratificándose en los términos de la denuncia.

2º.- ESTIMAR por el organo instructor no necesaria la apertura de período de prueba y audiencia en los términos previstos por el artículo 13 del R.D. 320/1994, por el que se regula el Reglamento del procedimiento sancionador en materia de Tráfico, Circulación de vehículos a motor y Seguridad Vial, para la averiguación y calificación de los hechos o para la determinación de las posibles responsabilidades, por haber resultado debidamente constatados los hechos denunciados en la fase instructora del expediente sancionador.

A los efectos procedentes, el órgano instructor pone a disposición de la persona interesada para su examen el expediente sancionador en las dependencias del Área.

Ahora voy a impugnar esta desestimación mediante Recurso contencioso-administrativo ante el Juzgado de lo contencioso-administrativo del Tribunal Superior de Justicia del País Vasco.

Os seguiré informando. Hasta pronto.

¿Cuándo hablaron de _______ en el pleno municipal de Bilbao?

0. ¿De verdad no hay una forma sencilla de buscar en las actas de los plenos municipales?

Te ha pasado. Bueno, hagamos como si te hubiera pasado.

Quieres saber cuándo, en el pleno de tu ayuntamiento, han hablado de tal o cuál tema. Vas a la web del ayuntamiento y tras un rato navegando encuentras la página ¡bingo!

Una URL maravillosamente larga: https://www.bilbao.eus/cs/Satellite?c=Page&cid=3000015482&language=es&pageid=3000015482&pagename=Bilbaonet%2FPage%2FBIO_ListadoSesionesPlenarias.
Puedes acceder a las actas en PDF. Todo bien.

Basta ahora con descargarlas una a una, abrir cada documento y buscar. Puede resultarte algo tedioso. Lo haces para el 2023, pero cuando llegas a 2022 ya te cansas ¿no existe una manera mejor para poder buscar en todas las actas? Y si las tuvieras descargadas ¿cómo buscar en todas ellas?

En la web del ayuntamiento hay disponibles actas de los plenos desde noviembre de 2007, pero descargarlas todas te llevaría más tiempo del que dispones. Son 193 a día de hoy (y eso sin contar con los extractos de las actas, que están disponibles desde 2002).

Las actas están ahí. Están publicadas. Cualquiera puede acceder a elllas. Otra cosa es que alguien tenga el tiempo para descargarlas y analizarlas.

¡Este es un caso para Abrir Datos Abiertos!

No es la primera vez que me pasa. Tener la información al alcance y no poder procesarla, porque no está publicada de una forma que pueda ser fácilmente consumida. Requiere demasiado trabajo.

Así que me puse manos a la obra.

Lo primero es 1) obtener la lista completa de actas; luego 2) descargar todos los PDF; y por último3) procesar todos los textos para poder hacer búsquedas.

1. Scraping

Para lo primero hace falta “escrapear” (de scraping, en inglés), esto es, descargar sistemáticamente la información de la web. Para ello le pregunté a Ekaitz si se le ocurría algo, porque el escrapeado no era imposible, pero tampoco trivial. En unas horas me mandó este código de python, que sirve para genera un archivo JSON que contiene la lista y URL de todos los documentos para poder descargarlos:

# Copyright 2023 Ekaitz Zárraga <ekaitz@elenq.tech>
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

import requests
from bs4 import BeautifulSoup
from urllib.parse import urlparse, urljoin

import json


if __name__ == "__main__":
    base_url = urlparse("https://www.bilbao.eus/cs/Satellite?c=Page&cid=3000015482&language=es&pageid=3000015482&pagename=Bilbaonet%2FPage%2FBIO_ListadoSesionesPlenarias")
    r = requests.get(base_url.geturl())
    soup = BeautifulSoup(r.text, "html.parser")
    years = { i.text: i["value"] for i in soup.select("select#anioId option[value]") if i.text.isdigit()}
    data = []

    for year, id in years.items():
        r = requests.post(base_url.geturl(), {"anioId": id})
        soup = BeautifulSoup(r.text, "html.parser")

        table = soup.find('table', class_='tablalistados')

        headers = [ th.text.strip() for th in table.find("tr").find_all("th") ]

        data_rows = table.find_all("tr")[1:]
        
        print(year)
        
        for data_row in data_rows:
            line  = { k: v for k, v in zip(headers, data_row.find_all("td"))}
            line["Fecha"] = line["Fecha"].get_text().strip()
            line["Número"] = line["Número"].get_text().strip()
            line["Sesión"] = line["Sesión"].get_text().strip()

            # Los que tienen archivo: guardar enlace (luego se puede hacer un GET)
            for field in ["Orden del día", "Actas", "Resumen sesión", "Extractos", "Vídeos"]:
                link = line[field].find("a")
                url = urlparse(urljoin(base_url.geturl(), link["href"])) if link else None
                line[field] = url.geturl() if url else None
            data.append(line)

    with open("plenos.json", "w") as f:
        f.write(json.dumps(data))¡

2) Descargar los PDF

Para eso me fui a R, que es donde me encuentro más cómodo para trastear. Este archivo de R lee el JSON descargado, descarga todos los PDF y genera un archivo CSV en el que en cada línea guarda: el texto contenido en una página de cada PDF, el número de página, la URL al PDF original del acta y la fecha del pleno municipal.

# Cargar librerías
library(tidyverse)
library(pdftools)
library(tm)
library(rjson)


# Genera archivo .json con el código de plenos.py
# Archivo descargado plenos_230823.json


# Segundo archivo, en vista de que han cambiado las URL
data <- fromJSON(file= paste0("data/original/plenos_230823.json") )

# Apana (flat) el archivo json para operar más fácilmente  --------
for( i in 1:length(data) ) {
  print(i)
# for( i in 1:2 ) {
  fecha <- data[[i]]$Fecha
  num <- data[[i]]$Número
  sesion <- data[[i]]$Sesión
  orden <- data[[i]]$"Orden del día"
  extractos <- data[[i]]$Extractos
  actas <- data[[i]]$Actas
  resumen <- data[[i]]$"Resumen sesión"
  video <- data[[i]]$Videos
  
  if( is.null(orden) ) { orden = NA }
  if( is.null(extractos) ) { extractos = NA }
  if( is.null(actas) ) { actas = NA }
  if( is.null(resumen) ) { resumen = NA }
  if( is.null(video) ) { video = NA }
  
  if ( i == 1 ) {
    
    plenos <- data.frame(fecha = fecha, num = num, sesion = sesion, orden =orden, extractos = extractos, actas = actas, resumen = resumen, video =video)
  } else{
    
    plenos <- rbind( plenos,
                     data.frame(fecha = fecha, num = num, sesion = sesion, orden =orden, extractos = extractos, actas = actas, resumen = resumen, video =video)
    )
  }
}

# Format date  (pon en formato fecha)
plenos <- plenos %>% mutate(
  fecha = as.Date(fecha, format="%d/%m/%Y")
)


# Descarga los PDF - Download ----
for( i in 1:nrow(plenos) ) {
# for( i in 1:22 ) {
  print(plenos$actas[i])
  
  if ( !is.na(plenos$actas[i]) ) {
  
    print(plenos$fecha[i])

    #Descarga el archivo
    download.file(plenos$actas[i],
                  paste0("data/output/actas_230823/",plenos$fecha[i],"_acta_pleno-municipal-bilbao.pdf"))
  }
}

# Read pdf -------

# Guarda el resultado de cada página en una celda, junto con fecha y número de página
for( i in 1:nrow(plenos) ) {
  print( paste(i,"fila"))
  print(plenos$fecha[i])
  
  if ( !is.na(plenos$actas[i]) ) { # Que exista el acta
    
    text <- pdf_text(paste0("data/output/actas/",plenos$fecha[i],"_acta_pleno-municipal-bilbao.pdf"))
    
     if ( i == 5 ) {  # TODO: Para el primer pleno que tiene acta (metido a mano, mejorar!) en este caso el 5
       
       
      for( j in 1:length(text)) { # itera por todas las páginas de cada pdf
        print( paste("row:", j, " ----------------------------------"))
        
        if( j == 1) { # Para la primera iteración
          print("j es 1")
          all_pages <- text[j] %>% as.data.frame() %>% rename( txt = 1) %>% mutate(
            pag = j,
            fecha = plenos$fecha[i],
            actas = plenos$actas[i]
            )
          
        } else (
          page = as.data.frame(text[j]) %>% rename( txt = 1) %>% mutate(
            pag = j,
            fecha = plenos$fecha[i],
            actas = plenos$actas[i]
          )
        )
        
        if( j != 1) {
          
          all_pages = rbind(all_pages, page)
          
        }
      }
      
    } else {
      
      for( j in 1:length(text)) { # itera por todas las páginas de cada pdf
        if( j == 1) {
          print("4")
          all_pages_temp <- text[j] %>% as.data.frame() %>% rename( txt = 1) %>% mutate(
            pag = j,
            fecha = plenos$fecha[i],
            actas = plenos$actas[i]
          )
        } else (
          
          page = as.data.frame(text[j]) %>% rename( txt = 1) %>% mutate(
            pag = j,
            fecha = plenos$fecha[i],
            actas = plenos$actas[i]
          )
        )
        
        if( j != 1) {
          
          all_pages_temp = rbind(all_pages_temp, page)
        }
      }
            
      all_pages = rbind(all_pages, all_pages_temp)
      
    }
  } else { 
    print("No existe acta")
  }
}

# salvar archivo como CSV
write.csv(all_pages, "data/output/paginas-actas-plenos_230823.csv")

3. Página para buscar

A partir del CSV generado en el paso anterior monte un buscador básico (sólo se puede buscar por una palabra) desarrollado en PHP (ver código):

lab.montera34.com/plenosbilbao

¿Qué le sobra, qué le pasa, qué le falta a esta web? ¿os resulta útil? ¿cómo podíais vivir sin ella? ¿encontrais algo interesante? Encantados de escucharos.

Bola extra: si has llegado, quizás te interesa la web que he montado para buscar en las ordenanzas del ayuntamiento de Bilbao u otros proyectos de abrir datos abiertos que hemos hecho desde Montera34.

Multa por ir en bici por doña Casilda (y publicar ordenanzas)

El 3 de mayo de 2023 me pasó lo siguiente:

Me acaban de poner multa por ir con mis hijos en bici por el parque Doña Casilda (Bilbao) el agujero negro para las bicicletas. Parque semi vacío, dos agentes a la espera del ciclistas ¿alguien sabe si hay posibilidades al recurrir la multa?

Me ha pedido la documentación y empezado a escribir la multa sin decir nada más, sin siquiera explicar qué es lo que estaba haciendo mal. Esa es la imagen que mis hijos se llevan de la policía municipal

Tras pregutarle, el agente municipal citaba la ordenanza de bicis (no existe como tal) y no era capaz de indicar qué normativa en concreto había incumplido más alla de “la ordenanza de Bilbao” y el código de circulación. Aquí las ordenanzas municipales de Bilbao. Fuente del mapa.

Apatruyando la ciudad
Por el parque con su coche
Apatruya la ciudad.
(Así estaban los policías minutos después de multarme)

Facilitar el acceso y búsqueda a las ordenanzas municipales

A raíz de la multa por ir en bici por un parque (y ante la imposibilidad de buscar en la web del Ayto. de Bilbao qué normativa trata sobre bicicletas y/o zonas peatonales) he montado esta web para buscar en las ordenanzas. Es un ejercicio rápido de transparencia para abrir datos (que deberían) ser abiertos.

Tuve que pasar las ordenanzas de PDF a html. En un caso tuve que hacer OCR (reconocimiento de caracteres en imágenes) porque la ordenanza estaba publicada como imágenes escaneadas. En otro casono pude usarla porque el link al PDF de la ordenanza daba error.

Como prueba de concepto de lo que debería ser una web municipal creo que vale.

Dejo anotado aquí el cómo se hizo, casi todo desde línea de comandos:

  1. Un script en R para descargar todos los PDF.
  2. Con el comando pdftohtml convierto los PDF en html.
    Algunos los tengo que limpiar ya que tienen demasiadas imágenes repetidas. Además, en la página no usaré imágenes. Lo hago con “sed -e ‘s/]*>//g’ input.html > output.html”
  3. En el caso de la ordenanza del Casco Viejo no se puede copiar el texto, son imágenes:
    3.1 Convertir PDF a imágenes con pdftoppm
    3.2 OCR con tesseract con loop “for i in casco-??.png; do tesseract “$i” “text-$i” -l eng; done;”
    3.3 Unir los textos “cat text-casco-*.png.txt > fin.txt”
    3.4 Sustituyo los múltiples espacios juntos que genera tesseract “&nbsp;” por ” “.
  4. Abro el html generado de cada ordenanza en navegador y copio el contenido y lo pego en una página de wordpress (una página por ordenanza). Cambio de fecha de la página a fecha de aprobación.
  5. Retoques en wordpress mínimos y resaltar buscador.

Borrador de alegaciones

Publiqué en Twitter todo esto y con las sugerencias recibidas (y la ayuda de Bizi Bizi Bilbao) publiqué este borrador y recopilación de información para escribir las alegaciones. Pronto publicaré las alegaciones finales y actualizaré este post. El documento compartido también incluye una recopilación de toda la normativa aplicable en mi caso.

Esto no lo hago por mi solamente, para no pagar la multa, sino para que se reconozca que las bicis sí podemos circular por espacios peatonales.

Por mi y por todos mis compañero/as ciclistas.

Data gathering and analysis techniques for each mass media channel and public opinion data used in the present research.

Read my thesis (chapter by chapter)

Well, I know you are not going to read the entire PhD thesis and annexes, so I am publishing it little by little, chapter by chapter. I am transforming the content to html, so I can use all the hyperlinks features and make it easier to navigate. It will take months, but I’ll complete the job.

I’ve created a page that is a summary of all the extra content of the dissertation: Color of corruption. Visual evidence of agenda-setting in a complex mass media ecosystem submitted on December 2022 and defended successfully on June 2023.

I’ve already uploaded all the code for the data gathering and analysis as well as the data bases that I’ve used.

I haven’t posted as much as I wanted to tell what I was doing, but I hope this page will help introduce what I’ve been doing. It’s been a long very long journey.

Páginas y capítulos de la tesis Color of corruption.
A visual analysis of all the pages of the PhD dissertation.

PS: In the past I’ve also published my research online, see these two examples. The goal was to publish the process, not only the final results, and make them available for everyone else:


Puedes leer en castellano un resumen sobre la evolución del proyecto en Montera34.

What can you do to reduce viral transmision through indoor aerosols?

You can do nothing:

If you want to reduce viral transmission through indoor aerosols, of SARS-Cov-2 and other viruses, three methods can be applied to the air to reduce the chance of infection:

You can ventilate. With ventilation you expel the air with the aerosols outdoors, and introduce outdoor virus-free air. This can be achieved by opening doors and windows or adjusting the HVAC system to introduce more outdoor air. Note that moving air around with a recirculating forced air system, window air conditioner or minisplit air conditioner unit, or with a fan, is not ventilation in this sense, only air mixing.

You can filter. With filtration you keep the air indoors, but remove the floating aerosols. In environments where air is recirculated, or there is inadequate flow of outside air, stationary HVAC systems or portable air filters (e.g. HEPA filters or Corsi-Rosenthal boxes) can remove the virus and other contaminants from the air.

You can disinfect. With disinfection you keep the air and floating aerosols indoors, but “kill” (inactivate) the virus.

A summary of the four situations:

Update (2023-07-24): I’ve made a version in blue-red for people with color blindness:

These are all drawings, in real life you’ll not see things floating in the air:

Made in collaboration with Jose Luis Jiménez.

Imprime “En el aire”

En vista de la nueva ola y de que todavía las cosas no están muy claras ahí fuera, he decidido publicar en papel las viñetas de En el Aire que he ido publicando este año.

Pensé en imprimir y distribuir personalmente en mi entorno más cercano, pero iba a ser imposible gestionarlo en otros lugares, así que os dejo con el PDF por si queréis imprimirlo y regalarlo por ahí. Si lo imprimís, me encantará que mandéis una foto. Lo regalo o lo vendo por el costo de impresión, para producir más.

  1. Imprime el PDF en A4 a doble cara. Importante: no ajustar al imprimir.
  2. Corta en 4 por la mitad.
  3. Ordena los 4 trozos.
  4. Dobla.
  5. Si puedes, grapa.

El resultado es un librito de 16 páginas en formato A7.

Luchando con los barómetros del CIS

TLDR: cómo procesar uan pregunta de todos los barómetros del CIS que no está en los archivos fusionados. Necesito para mi tesis procesar todos los microdatos. Preguntas y próximos pasos al final.

Una de las fuentes de datos que uso para mi tesis son los barómteros del CIS. Cada mes desde hace muchos años el CIS hace una encuesta, barómetro, en donde se pregunta por los tres principales problemas que tiene España.

Como los microdatos de cada barómetro están disponibles, esto es, cada una de las respuestas a los cuestionarios está publicada, es posible analizar y cruzar variables por edad, comunidad autónoma o profesión. El primer problema es conseguir y procesar los datos.

Disponibilidad de los datos: web y FID

Lo primero es dirigirse a la página del CIS a descargarlos (pestaña Estudios http://www.analisis.cis.es/cisdb.jsp), pero se encuentra uno el primer problema: hace falta introudcir tus datos personales (nombre, apellidos, universidad, email, objeto) para descargarlo, lo cual descarta un scrapero rápido automatizado de los datos. Existen datos fusionados de varios barómetros juntos para algunos años, pero no están disponibles para todos los años.

Así que la siguiente opción es usar los Fichero Integrado de Datos (FID) (http://analisis.cis.es/fid/fid.jsp)  “un único fichero, de los microdatos de un conjunto de variables, para los estudios del CIS que se seleccionen”:

“El interfaz permite al usuario elegir de forma rápida y cómoda a partir de una colección, los estudios que desee y, de estos, las variables deseadas de entre las contenidas en el diccionario del FID. Posteriormente, la solicitud se envía al CIS y, una vez que el CIS procede a su autorización, el fichero con los microdatos seleccionados se puede descargar en formato ASCII o SAV, de modo sencillo y fácil de tabular por diversos programas estadísticos. Es necesario el registro del usuario o identificación del mismo (si el usuario ya está registrado), para completar una petición de datos”.

Web del CIS. Explicación sobre los Fichero Integrado de Datos (FID).

El problema es que la pregunta que necesito “¿Cuál es el principal problema que existe en España? ¿ y el segundo? ¿y el tercero?”, aunque su enunciado concreto ha ido variando a lo largo de los años, no está disponible en los FID, ya que solamente se ofrece un subconjunto de las variables integradas.

.zip a .zip

Así que he solicitado por email todos los barómetros disponibles, esta es la lista de todos los disponibles: https://code.montera34.com/numeroteca/barometro_cis/-/blob/master/data/original/barometros-cis.csv

Según me han indicado soy el primero en hacerlo. Me parece raro que nadie lo haya hecho antes, ciertamente. Seguramente hayan usado otros métodos.

Tras una serie de pruebas con unos archivos de prueba para comprobar que los abría bien han procedido a preparar para que descargue todos los microdatos de los barómetros en zips por año. En pocos días me he hecho con la colección completa de microdatos de barómetros.

.zips esperando paciente a ser abiertos.

Un poco de código para descomprimirlos fácilmente:

unzip ‘*.zip’        unzipear todos los archivos
mv */* .            mover los que están en directorios al raiz
mv MD*/* .
rm -r 19* 20*  fu*    eliminar directorios vacíos
Ahora que tengo todos, volver a unzipear:
unzip ‘*.zip’

Ahora creo un archivo con todos los *.sav:
ls | grep sav > files.csv

Ahora tengo el listado de todos los barómetros disponibles (los de 2020 y 2021 me da un problema para abrirlos que tengo que resolver “error reading system-file header”). Puedo procesar todos los microdatos de los barómetros desde junio de 1989, los anteriores solamente están disponibles uno de 1987 (nº 1695), dos de 1985 (nº 1442 y 1435) y otro de 1982 (nº 1320), que me enviarán cuando sea posible. Para el resto desde junio de 1979 no hay microdatos y habría que pagar por ellos si los quisiera.

Encontrar la pregunta y su número

Documentos que se incluyen en un .zip de un barómetro.

Para poder analizar las respuestas por CCAA, que es mi objetivo, tengo que encontrar el código de la pregunta, que, oh sorpresa, va cambiando a lo largo de los años. Para ello he montado una hoja de cálculo para anotar qué código lleva la pregunta (https://docs.google.com/spreadsheets/d/1xxlt8FnWanVzYkIQdU2yaWlE8-HUvnzVXSiE2QvNJRU/edit#gid=0). Así, la primera vez que aparece es en los archivos disponibles es de mayo de 1992, y tiene los códigos P501, P502 y P503, una por cada uno de los problemas percibidos. Ese código ha ido variando a lo largo de los años a la pregunta: P1401, P701, P1601, P1201… los primero números indican el número de la pregunta. Para averiguar el código hay dos maneras. Cada barómetro está compuesto por un conjunto de archivos. Así, el barómetro nº 3134 tiene los siguientes archivos:

  • 3134.sav microdatos
  • DA3134 archivo dat
  • ES3134
  • FT3134.pdf ficha técnica
  • cues31314.pdf cuestionario original
  • codigo3134.pdf códigos utilizados
  • tarjetas3134.pdf tarjetas que usan los encuestadores

Al principio miraba si la pregunta estaba en el cuestionario, pero luego vi que era más rápido mirar directamente si en el archivo con los códigos venía la pregunta y su número: “P.7 Principal problema que existe actualmente en España. El segundo. El tercero” que con suerte correspondería con la variable P701, P702 y P703. 

El problema es que en algunos casos contados ponen la “p” de la variable con minúscula y el código es p701. Algo que solamente se puede averiguar abriendo el archivo .sav. Para ver lo que contiene el archivo.sav con la librería “foreign” en R: df <- read.spss(data, use.value.label=TRUE, to.data.frame=TRUE), siendo data el “path” al archivo .sav correspondiente.

Desde Rstudio se puede previsualizar el archivo .sav cargado y mirar cuál es el código correcto:

Así se ve en Rstudio.

Lo que pasa es que muchos barómetros no tienen disponible esa pregunta, pero ¿cómo saberlo para ahorrarnos tiempo? Existe una página, ya ni recuerdo cómo llegué a ella, que tiene todas las respuestas recogidas y procesadas “Tres problemas principales que existen actualmente en España (Multirrespuesta %)  http://www.cis.es/cis/export/sites/default/-Archivos/Indicadores/documentos_html/TresProblemas.htm, esto pernite de un vistazo saber cuáles son los barómetros que tienen respuesta:

Un trozo de la página resumen a la pregunta http://www.cis.es/cis/export/sites/default/-Archivos/Indicadores/documentos_html/TresProblemas.html

Así se puede ir a tiro hecho a buscar el código en los barómetros que sabemos tienen respuesta. Relleno celdas de la hoja de cálculo de las columnas p1, p2 y p3 (cada una corresponde con una de las respuestas a los 3 principales problemas) copiando el valor anterior, hasta que da error el script que lo procesa (ver más adelante).

Clasificando en p1, p2 y p3 los códigos de las preguintas en cada uno de los barómtreos. En negro si lo he mirado, en gris si lo he “acertado” y no ha fallado el script.

Pero no se detienen los problemas. Los encuestadores recogían la respuesta libre (que no se ofrece en los microdatos) para después clasificarla en unos cajones-respuestas establecidos:

Lo que ocurre es que en algunos años “La corrupción y el fraude” no se ofrecían como respuesta posible, así que de haber habido alguna respuesta corrupción como respuesta en aquello años de bonanza económica habrá ido a la casilla de “otros”. Esto pasó entre septiembre de 2000 y julio de 2001, por ejemplo, lo que hará que la serie tenga algunos agujeros. Habrá que hacerlos explícitos.

Procesar 1: juntar todas las respuestas

Una vez sorteadas estas trabas es la hora de programar un script que vaya abriendo cada archivo .sav, seleccione las variables adecuadas y cree un archivo con todas las respuestas:

# Select and load multiple barometro files ------------

# where are files stored
path <- "~/data/CIS/barometro/almacen/tmp/"

# remove if it hasn't got the questions
cis_files <- cis_files %>% filter( p1 != "" )

# iterate through all the files
for ( i in 1:nrow(cis_files) ) {
# for ( i in 1:8 ) {
  print("--------------------")
  print(paste(i,cis_files$name[i],cis_files$date[i]  ) )
  # create path to file
  data <- paste0(path, cis_files$name[i])
  # load data in the file
  df <- read.spss(data, use.value.label=TRUE, to.data.frame=TRUE)
  
  # chec if variable ESTU exists
  if ( "ESTU" %in% colnames(df) ) {
    df <- df %>% mutate(
      ESTU = as.character(ESTU)
    )
  } else {
    # if ESTU is not in the variables, insert the ID of the barometer
    df <- df %>% mutate(
      ESTU = cis_files$id[i],
      ESTU = as.character(ESTU)
    )
  }
    
  # if REGION exixts, rename it as CCAA 
  if ( "REGION" %in% colnames(df) ) {
      df <- df %>% rename(
        CCAA =  REGION
      )
    }
  
  # add date to data by taking it gtom cis_id dataframe
  df <- left_join(df,
                  cis_id %>% select(id,date),
                  by = c("ESTU"="id")
                  # ) %>% select( date, ESTU, CCAA, PROV, MUN, P701, P702, P703 )
  )
  # select the basic columns and the 3 questions
  # the true name of the question is specified in the online document https://docs.google.com/spreadsheets/d/1xxlt8FnWanVzYkIQdU2yaWlE8-HUvnzVXSiE2QvNJRU/edit#gid=0
  selected <- c( "date", "ESTU", "CCAA", "PROV", "MUN", cis_files$p1[i], cis_files$p2[i], cis_files$p3[i])
  
  df <- df %>% select(selected) %>% rename(
    p1 = cis_files$p1[i],
    p2 = cis_files$p2[i],
    p3 = cis_files$p3[i],
  ) %>% mutate(
    p1 = as.character(p1),
    p2 = as.character(p2),
    p3 = as.character(p3)
  )
  
  # For the first file
  if ( i == 1) {
    print("opt 1")

    # loads df in the final exportdataframe "barometros"
    barometros <- df
    
    print(df$date[1])
    print(df$ESTU[1])
    
  } else {
    print("not i==1")

    barometros <- rbind( df, barometros)
  }
  
}

Por el momento tengo 570.795 respuestas a la pregunta analizada de 223 barómetros, a falta de solventar algunos problemas.

Limpiar datos 1: los nombres de las CCAA

Ahora toca limpiar los datos. Lo primero es limpiar los nombres de las CCAA que a lo claro de los años han ido acumulando diferentes nomenclaturas y alguna vez han tenido el código de la CCAA en vez del nombre (ver https://code.montera34.com/numeroteca/barometro_cis/-/blob/master/analizando-CIS.R#L161), copio solamente un extracto:

barometros <- barometros %>% mutate(
CCAA = as.character(CCAA),
CCAA = CCAA %>% str_replace("\{",""),
CCAA = CCAA %>% str_replace("\}",""),
CCAA = CCAA %>% str_replace("\(",""),
CCAA = CCAA %>% str_replace("\)",""),
CCAA = CCAA %>% str_replace(" "," "),
CCAA = CCAA %>% str_replace("Euskadi","País Vasco"),
CCAA = CCAA %>% str_replace("País Vasco ","País Vasco"),
CCAA = CCAA %>% str_replace("Pais Vasco","País Vasco"),
CCAA = CCAA %>% str_replace("País vasco","País Vasco"),
CCAA = CCAA %>% str_replace("País vascoPV","País Vasco"),
CCAA = CCAA %>% str_replace("País VascoPV","País Vasco"),

)

Procesar 2: Contar respuestas por barómetro

Ahora toca agrupar las respuestas por barómetros de nuevo y calcular el número de encuestas por barómetro que hacen mención a tal o cual tema:

# Group by date and CCAA ----------------------
evol_count <- barometros %>% group_by(CCAA,date) %>% summarise(
  # counts number of elements by barometro and CCAA
  count_total = n()
) %>% ungroup()

evol_p1 <- barometros %>% group_by(CCAA,date,p1) %>% summarise(
  # counts number of answers for each type for question 1 by barometro and CCAA
  count_p1 = as.numeric( n() )
  )
evol_p2 <- barometros %>% group_by(CCAA,date,p2) %>% summarise(
  # counts number of answers for each type for question 1 by barometro and CCAA
  count_p2 = as.numeric( n() )
)
evol_p3 <- barometros %>% group_by(CCAA,date,p3) %>% summarise(
  # counts number of answers for each type for question 1 by barometro and CCAA
  count_p3 = as.numeric( n() )
)

# joins p1 and p2
evol <- full_join(
  evol_p1 %>% mutate(dunique = paste0(date,CCAA,p1)) ,
  evol_p2 %>% mutate(dunique = paste0(date,CCAA,p2)) %>% ungroup() %>% rename( date_p2 = date, CCAA_p2 = CCAA),
  by = "dunique"
) %>% mutate (
  # perc_p2 = round( count_p2 / count_total * 100, digits = 1)
) 

# fills the dates and CCAA that were empty
evol <- evol %>% mutate(
  date = as.character(date),
  date = ifelse( is.na(date) , as.character(date_p2), date),
  date = as.Date(date),
  
  CCAA = as.character(CCAA),
  CCAA = ifelse( is.na(CCAA), as.character(CCAA_p2), CCAA),
  CCAA = as.factor(CCAA)
)

# joins p1-p2 with p3
evol <- full_join(
  evol,
  evol_p3 %>% mutate(dunique = paste0(date,CCAA,p3)) %>% ungroup() %>% rename( date_p3 = date, CCAA_p3 = CCAA),
  by = "dunique"
) %>% mutate (
  # perc_p2 = round( count_p2 / count_total * 100, digits = 1)
) 

# fills the dates and CCAA that were empty
evol <- evol %>% mutate(
  date = as.character(date),
  date = ifelse( is.na(date) , as.character(date_p3), date),
  date = as.Date(date),
  
  CCAA = as.character(CCAA),
  CCAA = ifelse( is.na(CCAA), as.character(CCAA_p3), CCAA),
  CCAA = as.factor(CCAA)
)

# add number of answers per barometer and CCAA
evol <- left_join(
  evol %>% mutate(dunique = paste0(date,CCAA)),
  evol_count %>% mutate(dunique = paste0(date,CCAA)) %>% select(-date,-CCAA),
  by = "dunique"
) %>% mutate (
  count_p = count_p1 + replace_na(count_p2,0) +  replace_na(count_p3,0),
  # este sistema da error en los "no contesta" al contarlos varias veces al sumar!!!
  perc = round( count_p / count_total * 100, digits = 1)
) %>% select ( date, CCAA, everything(), -dunique, -date_p2, -date_p3, -CCAA_p2, -CCAA_p3 ) %>% mutate(
  p = p1,
  p = ifelse( is.na(p),p2,p),
  p = ifelse( is.na(p),p3,p),
  date = as.Date(date)
)

Limpiar los datos 2: las respuestas

Toca limpiar las respuestas para eliminar las múltiples formas de escribir “La corrupción y el fraude” o “Corrupción y fraude ” (ojo al espacio después de “fraude” que a algunos vuelve loco). Una tarea de estandarización de las respuestas que hago con OpenRefine y que en algunos casos requiere de decisiones subjetivas, véase el ejemplo:

Detección de respuestas parecidas para su consolidación en OpenRefine.
Proceso de consolidación de respuestas con OpenRefine.

Visualizar

El siguiente paso es visualizar los resultados para detectar los primero errores y corregir problemas en la captura y procesado. Antes de publicar esto ha ocurrido varias veces: detecté unos barómetros de 2016 que no se habían descomprimido, por ejemplo.

En las primeras visualizaciones trato de ver que salen valores congruentes y que no hay agujeros en los datos. En este primer gráfico de rejilla muestro el porcentaje de entrevistas de cada barómetro que tienen como respuesta “El paro” (rosa) y “La corrupción y el fraude” (verde). Ya se pueden ver cómo hay mucho más ruido en lugares como Ceuta y Melilla por el bajo número de respuestas, pero que el resto de valores sigue una tendencia parecida. En La Rioja (fila de abajo, tercera por la izquierda) también se ve ese problema, con sus 17 entrevistas por barómetro.

Un primer vistazo a las visualizaciones, publicaré más cuando tenga más claro que no hay errores en los datos

Problemas y siguientes pasos

Desde el CIS no solamente me enviaron todos los microdatos sino que me asesoraron sobre su uso. Les conté lo que pretendía hacer con los datos y me advirtieron de dos cosas relacionadas con la cantidad de entrevistas por CCAA y la ponderación:

A. Ponderación en SPSS

“Los ficheros Sav, por defecto van con la ponderación activada, siempre, en todos los que hemos pasado ya y en los que pasaremos, de esta lista”, algo que no entiendo del todo bien, porque eso no creo que deba afectar a los microdatos.
Si alguien ha trabajado con los .sav en SPSS quizás me pueda aclarar cómo funciona la ponderación en ese programa, dónde se almacena esa información.

B. Si no tienes más de 400 entrevistas…

“Nosotros no consideramos representativos los datos de Comunidades con un tamaño menor a 400 entrevistas. En los barómetros, salvo los del último año para algunas Comunidades (mire ficha técnica), el tamaño muestral es de entorno a las 2.500 entrevistas, eso significa que habitualmente salvo Madrid y Cataluña, la mayor parte se quedan muy por debajo, incluso de menos de 100. Los márgenes de error cuando se quiere hablar sobre esos datos son muy altos, y más aún si además va a hacer cruces”. Me redirigían a una sección de su web:

ADVERTENCIA: El error muestral aumenta conforme disminuye el número de entrevistas realizadas. Téngase presente sobre todo en los cruces de variables y las preguntas filtradas. A modo orientativo, bajo la hipótesis de muestreo aleatorio simple, P=Q=1/2 y un 95% de intervalo de confianza, véase la siguiente tabla: Fuente: http://www.analisis.cis.es/aAvisoVars.jsp?tipo=2&w=800&h=600

Una cuestión no menor que puede hacer que no use finalmente estos datos para las comunidades, o tenga que emplear grados de incertidumbre demasiado altos.

En los últimos estudios sí aparece la ponderación usada para el valor global:

Tabla de pnoderaciones (en un PDF) en la ficha técnica de un barómetro. Ejemplo http://www.cis.es/cis/export/sites/default/-Archivos/Marginales/3300_3319/3318/Ft3318.pdf

Un cálculo rápido de número de encuestas por barómetro y CCAA:

CCAAmediamediana
Andalucía439.4437
Cataluña396.9395
Madrid328.9328
Valencia261.6265
Galicia167.3164
Castilla y León152147
País Vasco129.8125
Castilla-La Mancha109.8109
Canarias99.599
Aragón75.274
Murcia71.472
Asturias66.864
Extremadura63.262
Baleares48.847
Navarra33.734
Cantabria33.533
Rioja17.117
Ceuta4.14
Melilla4.14
evol %>% select( date, CCAA, count_total) %>% distinct() %>% group_by(CCAA) %>% filter ( date < as.Date( “2017-12-01”)) %>% summarise(
media = round( mean(count_total), digits = 1),
mediana = median(count_total))

Día en que se realiza la entrevista ¿se podría saber?

Tenía interés en cruzar el día de la encuesta para ver si se podía estudiar con determinados escándalos que tienen un día muy marcado su anuncio en los medios de comunicación, podŕia verse su impacto en las encuestas, pero ese dato no está disponible. Lo que se conoce es el periodo en que se realizan las encuestas, que suele ser la primera quincena del mes. ¿se podrá conseguir la fecha exacta de cada entrevista?

Cuando hablan de Cifuentes y su máster en los Telediarios

En el mes de Marzo de 2018 eldiario.es sacó a la luz irregularidades en el caso del máster de la entonces presidenta de la Comunidad de Madrid Cristina Cifuentes. Para tener más contexto puedes escuchar el magnífico podcast sobre el escándalo que publicó eldiario.es.

En esta serie de posts analizaremos cuantitativa y cualitativamente la cobertura que se le dio al escándalo en diferentes medios de comunicación y redes sociales para intentar entender cómo es el flujo de información entre unos canales y otros.
Estos textos forman parte de la investigación para mi tesis doctoral sobre cobertura de corrupción en España. En su momento ya analicé la cobertura en las portadas de los periódicos en papel.

Porcentaje de noticias en portada Cifuentes (sobre el total) en periódicos digitales.

Hoy analizo las noticias sobre lo que se ha venido a conocer como el caso “Máster” en una nueva base de datos: los Telediarios de Televisión Española que Civio pone fácil estudiar con su herramienta Verba (https://verba.civio.es/). 

Verba permite hacer búsquedas por palabras en las transcripciones de los telediarios de TVE  y descargar los datos. La unidad de medida es la frases que contiene tal o cual palabra.

No centraremos ahora en cuando estalló el escándalo, el 21 de marzo de 2018. El resultado es fruto buscar en Verba tras la búsqueda multipalabra para ese periodo concreto: “Cifuentes”|”Javier Ramos”|”Enrique Álvarez Conde”|”Pablo Chico”|”María Teresa Feito”|”Alicia López de los Cobos”|”Cecilia Rosado”|”Clara Souto|Amalia Calonge”|”Universidad Rey Juan Carlos”.

Los gráficos están hechos con VerbaR, unos scripts de R que he desarrollado para analizar con R datos de Verba. Cada línea negra es una frase que incluye una de las palabras de la búsqueda:

El gráfico está dividido en una parte de arriba, para los telediarios de las 15:00h y la de la abajo, para los de las 21:00h. He marcado los primeros dos minutos para enfatizar la cabecera o “portada” del noticiario. No tengo claro todavía cuánto dura este inicio con las noticias más destacadas.

Aquel 21 de marzo, tras salir publicado el escándalo en eldiario.es el Telediario de las 15:00h se hizo eco de la noticia en su apertura:

  • 1’18”: La Universidad Rey Juan Carlos atribuye a un error de transcripción que en dos asignaturas del máster que Cristina Cifuentes cursó hace seis años figurase como no presentada.
  • 1’28”: Cifuentes aprobó ambas asignaturas, según ha confirmado el rector.

Más adelante expandía la noticia ne el minuto 14:

  • 14’56”: En Madrid, la universidad Rey Juan Carlos niega cualquier irregularidad en el máster de la presidenta Cristina Cifuentes.
  • 15’03”: Un diario digital sostiene que obtuvo la titulación con dos notas falsificadas.

Verba ofrece la posibilida de acceder a la transcripción completa y no solamente a las frases resultado de la búsqueda-

En el gráfico se puede ver cómo en ese primer día hay dos bloques de información: el del resumen inicial, esos 2 ó 3 minutos -estaría bien poder cuantificarlo- y cuando se amplia la noticia. Esa cabecera viene a ser análoga a la portada de los periódicos, donde se seleccionan las noticias más importantes. 

El problema de la búsqueda por palabras es que se deja fuera las frases que no contienen las palabras buscadas pero que pertenecen a la noticia, por ello esos existen huecos en los gráficos entre unas líneas y otras. Por ejemplo, la noticia en cabecera duraba más, pero se quedó fuera de nuestra búsqueda:

  • 1’31”: La oposición pide explicaciones.
  • 1’34”: El Gobierno regional subraya la honorabilidad del comportamiento de la presidenta.

En el gráfico se ha sobredimensionado la duración de las frases asignándoles 30 segundos de duración para facilitar su lectura.

Si pudiéramos distinguir los bloques de noticias, cuando empieza un tema y acaba otro, podríamos ver algo como esto, donde coloreo “a mano” en rojo la posible duración del total de las noticias relacionadas con el máster:

Este otro gráfico visualiza el número de frases que contienen las palabras clave. Suma todas las frases encontradas y las agrega en una columna:

Nos da una idea aproximada de la evolución de la cobertura. Sería interesante poder clasificar esta información según los días que la noticia ha estado en la cabecera del telediario y poder así estudiar la relación de tiempo de frases dedicadas a la noticia con su aparición en el resumen de inicio. También sería interesante conocer la duración de la noticia, y no únicamente el número de frases encontradas.

Si volvemos a hacer el primer gráfico clasificando manualmente las frases seleccionadas, podemos entender mejor la  historia: primero salta la noticia sobre el master (“máster” en verde) , vuelve a aparecer a primeros de abril con fuerza, con 10 días seguidos con noticia en cabecera en el telediario de las 15:00h y se cierra con la dimisión el 26 de abril, tras el nuevo escándalo del vídeo sobre el robo de las cremas en un supermercado:

Podemos ver estos mismo datos agregados en columnas:

Este primer análisis nos permite ver la potencia y las limitaciones de este tipo de visualizaciones:

  • las palabras clave de búsqueda son determinantes
  • es necesario reclasificar la información para poder analizar en profundidad la evolución de la cobertura. Otras variables a analizar serían el enfoque de las noticias.

¿Cómo de relevante fue la cobertura de TVE en relación a otros medios de comunicación o redes sociales como Twitter? Lo veremos en los siguientes capítulos.

He creado una aplicación con Shiny para poder generar gráficos de este tipo y analizar más rápidamente las diferentes búsquedas en Verba: [actualizción: mejor esta versión: https://r.montera34.com/users/numeroteca/verbar/app/] https://numeroteca.shinyapps.io/verbar/

Gracias a que es interactiva puedes ver que contiene cada frase.

Hay una opción que te permite seleccionar una fecha y ver todas las frases de ese día.

El duro camino para publicar la serie de fallecidos por provincias en Euskadi

Así me siento tras conseguir reconstruir la serie de fallecidos por provincias.

Hace unos días os contaba lo difícil, por no decir imposible, que era seguir la evolución de los fallecidos por provincias en Euskadi, a no ser que dediques un buen rato, energía y técnica al asunto.

Basta pasearse por las páginas dedicadas a la COVID-19 en Euskadi en los principales diarios que ofrecen información local (eldiario.es, elcorreo.com, por ejemplo) para ver que esos gráficos de evolución de fallecidos por provincia no se publican. Y no se publican porque la Administración publica esos datos de una forma que hace imposible, digamos mejor muy dificultosa, su elaboración. Es un claro ejemplo de cómo la forma de publicar los datos dicta la agenda mediática. Publica los datos de una forma y los medios de comunicación hablarán de una determinada forma ¡Si quieres evitar que se hable de algo, no publiques esos datos!

Fallecidos diarios en las webs de El Correo y El Diario

Open Data Euskadi, la plataforma de datos abiertos en País Vasco, publica los datos diarios de fallecidos para toda Euskadi una vez a la semana (pestaña 08 de la hoja de cálculo). Por poner un ejemplo: hasta hoy solamente conocíamos los fallecidos agregados en las tres provincias vascas hasta el 15 de noviembre ¡hace 10 días!

Esta serie de datos vale para ver la evolución en la CAPV, pero no por provincia (Nota: sí que se publica en días laborables los fallecidos por hospitales, que era la cifra que usábamos, por aproximación, hasta hace bien poco).

Para construir la serie de fallecidos por provinicas tenemos que recurrir a los datos de fallecidos acumulados que se publican por municipio y una vez a la semana (pestaña 07). Ojo, no se publica el histórico, como sí se hace con los casos o los hospitalizados. Esto es, si quieres saber los fallecidos que había habido en un municipio en determinada fecha no puedes saberlo, porque el archivo que se publica sobre escribe al anterior. Tampoco puedes saber los fallecidos en una determinada semana, porque el dato que se publica es el total acumulado de muertes.

Esto cambió el 20 de octubre de 2020, tras solicitar que fuera posible acceder al histórico de archivos publicados. Además habría que comparar dos archivos para poder calcular el incremetno de muertes de una semana a otra. No nos engañemos, una tarea que nadie va a realizar. A pesar de la buena noticia de que ahora sí se guardan y se publican en abierto los archivos anteriores para permitir trazabilidad… las fechas anteriores al 20 de octubre siguen sin ser accesibles… a no ser que alguien haya guardado todos los archivos que se hayan publicado diariamente… y ¡nosotros lo hemos hecho! (esto es como el he “estudiado a Agrippa” de La Princesa Prometida).

Así que de este modo, no sin un poco de sudor, hemos podido reconstruir la serie histórica de fallecidos por municipios que nos ha permitido construir la serie por provinicas. Un proceso tedioso que implica rescatar con git (el sistema de versiones que usamos) todas las versiones de un archivo, construir la serie y agregar por provincias ¡Por fin tenemos la serie de fallecidos!

Fallecidos diarios por provincias en Euskadi. Se pueden ver los escalones de las últimas fechas al publicarse los datos de forma semanal. Para los últmos días se usan los datos de fallecidos en hospitales.
Más gráficos en la web de Escovid19data.

Tenemos un vacio entre mediados de mayo y junio: desde que se dejaron de publicar datos por provincias hasta que se empezó a hacerlo por municipios.

¿Por qué no se publican los datos históricos de fallecidos por municipios, OSI y provinicias? ¿a qué se debe esta opacidad y poner tan difícil una serie de datos que seguro está disponible internamente y que el resto de comunidades autónomas sí publican?

La serie de datos de casos y fallecidos sacada de los archivos por municipios está disponible, pero casi mejor usa la serie completa del repositorio de Escovid19data.

Tenemos más preguntas que ya hemos hecho a Open Data Euskadi, pero las dejamos para otro post.


Esta iniciativa de abrir datos abiertos forma parte del proyecto Escovid19data que recopila colaborativa y voluntariamente datos de COVID-19 en todas las comunidades y ciudades autónomas para ofrecer los datos y gráficos en abierto.

Fallecidos semanales en municpios de más de 10.000 habitantes en País Vasco. Más gráficos en la web de Escovid19data (se cambió la imagen, originalmente tenía un error en los colores),

Muerte por datos

Muero por datos cuando la administraciones publican datos aparentemente muy detallados pero que impiden ver el bosque.

Un ejemplo lo tenemos con los fallecidos por COVID-19 en Euskadi.

De primeras, si revisas las fuentes de datos que se publican, parece que hay muchos datos disponibles. Si miras un poco más en detalle parece imposible responder a una pregunta básica ¿cómo evolucionan los fallecidos por COVID-19 provincias en Euskadi?

Cada cuál llega con sus preguntas bajo el brazo e intentan que los datos le den la respuesta. En los medios de comunicación locales no he visto publicada la evolución de muertes por provincias.

En mi caso la inquietud forma parte del proyecto de recopilación y visualicación de datos colaborativo Escovid19data, que recopila datos de 19 territorios en España.

Open Data Euskadi ofrece varias series de datos de fallecidos, pero ninguna es la que necesitamos. Este es el listado de los diferentes conjuntos de datos que ofrecen:

  • Serie de fallecidos acumulados para todo Euskadi. Acumulados diarios del 24/02/2020 al 15/07/2020. Luego los datos pasan a publicarse semanalmente ¿por qué? Última fecha disponible 25/10/2020. Hace 16 días.
  • Serie de fallecidos diarios para todo Euskadi: “Casos positivos fallecidos en Euskadi por fecha de fallecimiento”. Datos diarios del 01/03/2020 al 01/11/2020 (hace 9 días). [2.212 acumulados]
  • Serie de fallecidos diarios por hospitales en Euskadi. Datos diarios del 01/03/2020 al 08/11/2020 desagregados por hospitales y el total diairo [1.528 acumulados].
  • Acumulados de fallecidos en cada municipio de Euskadi. No se ofrece la serie de datos temporales, se da el dato de la última fecha disponible con periodicidad semanal. Última fecha disponible 2020/11/01, hace 10 días.

Este último conjunto de datos es el que nos puede proporcionar la serie temporal de fallecidos por municipio y, por tanto, por provincia, si los agregamos convenientemente. Solamente podremos reconstruir la serie temporal si antes hemos ido descargando los archivos semana a semana. (El histórico de archivos publicados por Open Data Euskadi solamente está disponible desde el 20 de octubre 2020. Es buena noticia pero insuficiente para nuestro propósito).

Por suerte, en Escovid19data, hemos descargado el archivo situacion-epidemiologica.xlsx todos los días que ha sido publicado, así que en nuestro repositorio de git tenemos el histórico completo.

Con un script de git es posible obtener todas las versiones de un archivo y poder reconstruir la serie temporal.

Esperamos que Open Data Euskadi se anime a publicar la serie completa de fallecidos por provincias, como ha hecho recientemente con la serie de casos por franjas de edad. Originalmente se publicaba exclusivamente en datos diarios sueltos en los informes en PDF y ahora es una serie más de datos abiertos.

¿Por qué publicar una serie de casos detectados por provincias y no la de fallecidos?


El términio “death by data” fue usado por primera vez en este artículo “Longitudinal Field Research on Change: Theory and Practice” de Andrew M. Pettigrew (1990). Me lo ha soplado David Rodríguez Mateos, que es quien me introdujo al término.

Más gráficos sobre COVID-19 en Euskadi en la web de Escovid19data.

Cómo empezar a procesar millones de tuits (o tweets)

Nota de junio 2020: hay una funcionalidad del t-hoarder que permite el procesado de todos los tuits almacenados. Estoy ayudando a documentarla en la wiki de t-hoarder. Estoy teniendo algunos problemas para que me funcione, tema de CGI.

Para mi tesis sobre cobertura de corrupción en España llevo tiempo recopilando tuits. Llevo el seguimiento de mensajes de Twitter relacionados con algunos casos de corrupción, para luego poder compararlos con cómo los medios de comunicación han hablado del tema.

Utilizo t-hoarder, desarrolllado por Mariluz Congosto, para capturar tuits según se van publicando. Lo tengo instalado en un servidor remoto que está continuamente descargándose tuits que contienen una determindad lista de palabras. Con un interfaz en la línea de comandos desarrollado en python permite interactuar de manera sencilla con la API de Twitter para obtener y procesar tuits descargados (ver este manual que escribimos hace un tiempo para aprender a usarlo).

T-hoarder guarda los tuits en archivos .txt en formato .tsv. Cada cierto tiempo comprime el archivo streaming_cifuentes-master_0.txt en uno comprimido streaming_cifuentes-master_0.txt.tar.gz que contiene entre 150.000 o 250.000 tuits.

En el servidor se van acumulando estos archivos comprimidos que me descargo periódicamente con rsync:
rsync -zvtr -e ssh numeroteca@111.111.111.111:/home/numeroteca/t-hoarder/store/ .

Con ese sistema tengo un directorio con múltiples archivos de los diferentes temas que voy capturando:

El primer paso consiste en entender de forma básica qué he conseguido recopilar. Hay múltiples razones por las que puedo tener agujeros en los datos: el servidor se llenó, el acceso a la API de Twitter se interrumpió por algún problema de permisos, etc.

Para ello he desarrollado este pequeño script en bash para obtener la información básica que contiene cada archivo de tuits:

for f in ./*cifuentes-master*.txt.tar.gz; 
do 
echo "$f" &gt;&gt; mycifuentes.txt; 
gzip -cd  $f |  (head -n 1) | awk 'OFS="\t" {print $4}' &gt;&gt; mycifuentes.txt; 
gzip -cd  $f  |  (tail -n 2) | awk 'OFS="\t" {print $2}' &gt;&gt; mycifuentes.txt; 
gzip -cd  $f | wc -l &gt;&gt; mycifuentes.txt; 
done

Este script lee todos los archivos como streaming_cifuentes-master_20.txt
y va guardando en cada línea del archivo mycifuentes.txt en líneas separadas: el nombre del archivo tar.gz, la fecha y hora del primer tuit (head) y del último (tail) y por último el número de tuits. Con eso obtengo un archivo como este:

./streaming_cifuentes-master_11.txt.tar.gz
2018-04-26;18:28:24
2018-05-02;06:54:32
;
157770
./streaming_cifuentes-master_12.txt.tar.gz
2018-05-02;06:54:37
2018-05-11;10:33:00
;
155426

Que proceso a mano en gedit son sustituciones masivas (me falta generar mejor el tsv donde cada campo esté en la línea que le corresponde):

Actualización 8 junio 2020: Gracias a @jartigag@mastodon.social que me llegó por Twitter no me hace falta el procesado manual ya que cada dato va a su propia columna:

for f in ./*cifuentes-master*.txt.tar.gz;
do
printf "$f\t" >> mycifuentes.txt;
gzip -cd  $f | (head -n 1) | awk '{printf $4"\t"}'  >> mycifuentes.txt;
gzip -cd  $f  | (tail -n 2) | awk '{printf $2"\t"}'  >> mycifuentes.txt;
gzip -cd  $f | wc -l >> mycifuentes.txt;
done

Este es el resultado en formato tabla:

filestartendnumber_tweets
streaming_cifuentes-master_0.txt.tar.gz2018-04-05 14:41:192018-04-08 16:35:20828374
streaming_cifuentes-master_10.txt.tar.gz2018-04-25 23:09:132018-04-26 18:28:23158526
streaming_cifuentes-master_11.txt.tar.gz2018-04-26 18:28:242018-05-02 06:54:32157770
streaming_cifuentes-master_12.txt.tar.gz2018-05-02 06:54:372018-05-11 10:33:00155426

Proceso este archivo mycifuentes_processed.tsv, sin cabecera con este otro script de R:

mylist <- read_tsv("../../data/t-hoarder-data/store/mycifuentes_processed.txt", col_names=FALSE,  quote="")
names(mylist) <- c("file","first","last","n_tweets")
mylist <- mylist %>% arrange(first) %>% mutate(
  hours = last - first, # tweets per hour
  tweets_per_hour = round( n_tweets / as.integer(hours), digits=1)
)

lo que hace es leer el archivo (read_tsv) y cuenta las horas entre el primer y último tuit y calcula los tuits por hora:

Ahora ya podemos hacer las primeras visualizaciones para explorar los datos. En este primer gráfico cada línea es un archivo que va del primer al último tuit según su fecha. En el eje vertical se indica el número medio de tuits por hora. En el caso del master de Cifuentes el primer archivo no se comprimió por error y contiene 828.374 tuits. el fondo gris indica cuando no hay tuits descargados. Hay un periodo en blanco la inicio del caso y otro en diciembre de 2019, la escala vertical es logarítmica, para que se puedan ver todos los archivos incluyendo los primeros.

En este otro gráficos (escala vertical lineal) muestro los archivos de tuits que he capturado de unos cuantos medios de comunicación españoles, para luego poder comparar las diferentes coberturas, vuelvo a tener agujeros para los que todavía tengo que encontrar explicación.

En este otro gráfico comparo la fecha del archivo con el número de tuits que contiene:

Este es un primer análisis muy “meta” que no entra ni de lejos a analizar el contenido de los tuits pero me sirve como primer paso para entrar en faena a analizar los datos que tengo. Tenía que haber hecho esto hace tiempo. En cualquier caso bueno es ponerse en marcha y documentar. Mis conocimientos de bash son escasos pero creo que merece la pena y es más rápido en este caso que usar R. Inspirado por este libro que estoy a medio leer Data Science at the Command Line de Jeroen Janssens.

5 Easy Facts About https fortnite com 2fa Described buy testosterone cypionate 250mg ski-in/ski-out hotel sport, saas-almagell: find the best price

El código de R para procesar los datos está disponible en este script: https://code.montera34.com:4443/numeroteca/tuits-analysis/-/blob/master/analysis/index-tweet-containers.R

Brand new features: edit areas, fork threads, multi taxonomy!

After a while we are glad to announce brand new features in PageOneX.

We developed these features last summer, but until now they have not been available in the hosted version at pageonex.com. We worked with Juanjo Bazán (@xuanxu) in this.

Export a thread in raw format

Download raw areas

Rebuilding the thread in R it is now possible. It also works for multiple newspapers. Here a cleaner version. Compare it with the thread in @PageOneX website. You can do it downloading Raw Areas Data json. R code available: https://t.co/4bVMRMbRws pic.twitter.com/gQXBhR2T1Y

— numeroteca (@numeroteca) May 10, 2019

Until now you could export the percentage of coverage per day and paper in json and spreadsheet, now there is an extra feature that allows you to export the raw data: the extact location of every area and all its classifications (read following feature). We are starting a new project pageonexR that allows you to import your threads to R and analyse their data.

Classify by multiple taxonomies

This new feature would add the capability to add extra information to drawn areas. A highlighted area could have multiple taxonomies and open fields.

Until this new release you could only classify each area with one taxonomy. For example, an area could be categorized as “International coveragae” but not as “International  coverage” AND “Nigeria” AND “positive framing”. Now you can do it . This feature is only available for certain users. If you want to use it write a comment to this post. We are studying how to make this available for all the users.

Fork a thread

Another cool feature is that you can fork a thread in @pageonex.
If you see a thread that you like you can clone it and work on it! pic.twitter.com/BxsH9wq6Ub

— numeroteca (@numeroteca) May 10, 2019

If you like another’s user thread: you can clone and edit it.

For a thread in PageOneX

Edit and remove areas

Something basic that is now possible is to edit and delete areas in https://t.co/TSwWbvktjk. Very useful for everyone, specially for heavy users. Before you have to delete all the areas in a day to edit the category of one! @PageOneX pic.twitter.com/PosXAwteTl

— numeroteca (@numeroteca) May 10, 2019

Before you had to erase all the areas in a front page to remove one. Now you can remove them separately and re-classify them.


Another great thing is the new containerized versions of PageOneX. Rafa Porres (@walter_burns)  developed it and Rahul Bhargava  (@rahulbot) deployed it at Civic media server. Thanks for your support!!

Containeraized versions, make your own deployment

Pageonex is an open-source project. Thanks to Rafa Porres (@walter_burns) we have PageOneX ready to use in a docker container. In fact, the new containerized version is what we are using now in the production version at pageonex.com. If you don’t want to use the hosted version of pageonex at http://pageonex.com you have a few options to run it yourself. Read our documentation and choose the best option for you. We hope this helps other developers help extending the features of PageOneX.

x-posted from PageOneX blog.

Cobertura de partidos en páginas de inicio en elecciones generales 28A

Sacado de este hilo de twitter:

He analizado los titulares de las páginas de inicio de algunos periódicos online antes del #28A para medir la cobertura de los principales partidos de ámbito estatal. Cuento nº de titulares que contengan los nombres, siglas o líderes de cada partido #homepagex c @PageOneX

He calculado también el porcentaje de esos titulares sobre el total de titulares de cada página de inicio #28A.  Una forma de medir automatizadamente la cobertura que realiza cada medio.

Y aquí agrupando por partido, que facilita la comparativa entre cabeceras. Las líneas finas son los datos por hora y las más gruesas el redondeo que permite ver las tendencias más fácilmente #28A

Son análisis preliminares mientras refino la herramienta. Encantado si queréis aportar vuestra lectura y crítica. Hoy no me dará tiempo a más. Se basan en una base de datos que recopila hora a hora las páginas de inicio de cada periódico

Este análisis trata de aplicar una metodología parecida a la que hago con @PageOneX con las portadas de los periódicos impresos https://ijoc.org/index.php/ijoc/article/view/4442 …

Primer museo de las letras en Berlín

Escribí este artículo hace 10 años para la revista Pasajes. Lo rescató con motivo de la exposición Paco Graco sobre rotulación comercial rescatada que cierra hoy.


Se prepara en Berlín el museo de las letras: rótulos y letras de todos los tamaños esperan en su almacén mientras buscan dónde ser expuestos. Desde las letras de la AEG de Behrens hasta la U de su U-bahn. Para visitar una parte del Berlín que ya no es el que era (ni nunca lo fue).


El legado tipográfico de de las ciudades ha sido recopilado hasta el momento, si hubo suerte, en catálogos fotográficos. Existen extensos libros que recogen las gráficas de las ciudades pero hasta el momento no se conocía un lugar donde mostrar los rótulos que las ciudades van tirando a la basura. Por cualquierchatarrería del mundo van pasando siempre kilos de letras que ya nadie quiere, como las toneladas que vieron los ferro-velhos de São Paulo tras la ley que suprimía toda la rotulación de sus calles.

En Madrid hemos visto desaparecer hace poco tiempo uno de sus más bellos rótulos, tanto por su tipografía como por su contenido. Estaba en la Plaza de los Mostenses y ha sido sustituido por unvinilo infame. Además, el rótulo daba nombre a uno de los primeros libros sobre la gráfica de Madrid: El sol sale para todos. Seguramente tendría que haber viajado a este nuevo Walhalla de la letras,  pero ¿no hubiera sido suficiente con que los nuevos dueños se dieran cuanta de lo que tenían entre manos?

Para echar un ojo al museo buchstabenmuseum.de

Siguen las tribulaciones de un autónomo vizcaíno

Desde hace un tiempo me debato entre contratar a alguien para que me solucione todos mis asuntos con Hacienda (vizcaína) o seguir por mi cuenta. En el fondo, me gusta estar al tanto de mis obligaciones fiscales, de lo que tengo que preparar, pero también pienso que puede que no sea la mejor inversión de mi tiempo. Los trámites que tengo que hacer, iguales para cualquier autónomo, son presentar los modelos 303 (trimestral) y 390 (anual) de IVA, los 110 (trimestral) y 140 (anual) de IRPF, el 140 (anual) , que es el libro de con todas las facturas emitidas y recibidas y la declaración de la renta.

Me lo he he tomado como una gincana en la que cada año se van añadiendo nuevas pruebas que tienes que aprender cómo solucionar. Desde hace poco, por ejemplo, hay que enviar en febrero el libro de facturas, que te obliga a meter una a una a mano todas las facturas de gastos y las emitidas. No te facilitan un método para poder introducirlas masivamente.

Así que hoy, 25 de abril de 2019, aquí estoy de nuevo entregando el documento que acredita mis ingresos y gastos del IVA trimestral. Esta vez me salía a compensar y he tenido que instalar una nueva cosa (id@zki) para que me permitiera firmar digitalmente con mi certificado digital habitual de la FNMT.

Habitualmente, como los bancos donde tengo cuenta, no son entidades colaboradoras con la hacienda vizcaína, tengo que hacer la engorrosa operación de sacar el dinero en efectivo y pagarlo en cualquier de los bancos que sí tienen un convenio colaborador. Esto obliga, cuando el importe supera los 3.000€, a que la entidad informe a la AEAT o hacienda correspondiente, para prevenir el blanqueo de capitales.

Además está el repetido tema de tener que pagar el IVA de facturas que no has cobrado todavía. Si esas facturas son de la Diputación de Vizcaya la cosa tiene se da la paradoja de tener que pagarles (“devolver”) el IVA que no te han pagado.

Bueno, lo dejo por hoy, es un post de queja, que hacía casi 6 años que no escribía sobre el tema. Estamos en el cierre de la campaña electoral y escucho hablar a muchos candidatos de apoyar a los autónomos, pero en nada se han simplificado mis trámites (al contrario) o reducido los costes en mis 15 años de autónomo. Sigo pagando a la Seguridad Social un fijo, da igual lo que facture, ni puedo pagar digitalmente (ni domiciliando cuenta ni con tarjeta de crédito o débiro).

Lo que he mejorado ha sido la gestión de mis facturas con unas tablas dinámicas desde LibreOffice. Algo básico pero que me ha facilitado la vida. Os lo cuento en otra ocasión. O no.

Actualización (octubre 2019): si se realizan operaciones intracomunitarias, esto es, facturas a mientros de la EU que están dados de alta (comprobar aquí http://ec.europa.eu/taxation_customs/vies/?locale=es con su número identificador) hace falta presentar el modelo 349 trimestralmente, no llevan IVA. Se incluirá la cantidad en el modelo 303 del IVA trimestral en la casilla 108 “Prestaciones intracomunitarias de servicios localizadas fuera del territorio de aplicación del impuesto (TAI)”. En la casilla 106 “Otras operaciones no sujetas o exentas con derecho a deducción” se indican las que no llevan IVA por otras razones (por ejemplo, las que docentes).

Actualización (enero 2022): para la liquidación anual de IVA:

  • En la casilla 200, régimen general, se pone la base de los ingresos “regulares” (con IVA)
  • En la 204 “Operaciones exentas sin derecho a deduccón” se ponen las que no llevan IVA: clases, premios…
  • En la 205 “Operaciones no sujetas por reglas de localización” se ponen las que no llevan IVA por hacer a fuera de la UE, por ejemplo las de UK,

¡Soy profesor! algunas referencias sobre visualización de datos para dinamizar el foro

Este curso he empezado como profesor colaborador de la asignatura de Periodismo de datos para estudiantes del máster de ciencia de datos en la Universitat Oberta de Catalunya (UOC). A principios de año preparamos desde Montera34 (con Alfonso) tres ejercicios prácticos sobre análisis y visualzición de datos: análisis de Twitter, de datos de Airbnb y sobre segregación escolar.

Para dinamizar la clase y dar algunas referencias que he ido viendo estos días he escrito lo siguiente en el foro de la clase:

Recopilo en este hilo algunas referencias que pueden ser de interés e inspiración:

Recopilaciones de proyectos como Fivethirtyeight (https://projects.fivethirtyeight.com/) o The Pudding (https://pudding.cool).

El canal de Telegram de DataLab Madrid (de Medialab Prado) suele tener referencias interesantes: https://t.me/joinchat/AAAAAA3XteJ2mWKCwBRIvQ

Politibot: un bot de Telegram que te manda cada día una temática y (a veces) visualizaciones de datos: https://telegram.me/politi_bot

Dive. Una herramienta relativamente reciente para visualizar datos online (que aún no he probado), de Kevin Hu y César Hidalgo del laboratorio Collective Learning Group de Medialab de MIT https://dive.media.mit.edu/ (código https://github.com/MacroConnections/DIVE-backend/).

Y unos artículos:

Y dos artículos críticos con el Índice de Desarrollo Humano:

Uso de infraestructuras digitales en Montera34

A raiz de un hilo de correo sobre uso de las redes sociales en Internet en Wikitoki y de nuestras infraestructuras digitales, he enviado esto sobre Montera34:

  • Nuestra web (montera34.com) como centro de comunicaciones: publicamos anuncio de actividades que luego son el archivo (recopilación de documento de la actividad). Si no llegamos a tiempo para anunciar, se publica el proyecto/actividad a toro pasado, para el archivo. Una vez se publica en la web se empieza la difusión en las diversas redes.
  • Blogs: lo tenemos descentralizado entre los blogs personales de Alfonso (voragine.net) y yo (numeroteca.org). Pensando siempre si habilitar uno para M34 (montera34.com/blog).
  • Wiki: para documentos activos en colaboración con otras gentes. Documentación de talleres, manuales, recetas, investigaciones abiertas. Ver la del proyecto Efecto Airbnb, por ejemplo: wiki.montera34.com/airbnb
  • Newsletter: sin periodicidad clara pero más o menos cada mes. Anuncio de protyectos/actividades futuras o pasadas. La hacemos con un pllugin desde nuestro WordPress (montera34.com/suscribete).
  • Repositorios de código: usamos github.com y nuestra propia guenta de gitlab en nuestro server. Ver código de proyectos (montera34.com/project-list).
  • Servidor autónomo: todo ello alojado en nuestro server asociativo que pronto será una máquina propia: hosting.montera34.org
  • Redes
    • Twitter: canal más activo de redes sociales en internet donde publicamos o RT cosas en proceso, anuncios, respondemos preguntas. Tanto desde la cuenta de @montera34 como de las nuestras personales. Se publica info ya publicada en la web. Es el canal donde estamos más activos. También manejamos otras cuentas de proyectos en que colaboramos (cadáveres inmobiliarios, bilbao data lab, datahippo, pageonex, kulturometer…).
    • Instagram: abierta pero poco activa. Se publica info ya publicada en la web.
    • Google+: la teníamos poco activa, y ya por fin google va a cerrar el servicio.
    • Youtube: para publicar los streamings y hangouts en directo que hacemos.
    • Facebook: lo mismo que las otras. Se publica info ya publicada en la web… si llegamos a tiempo. Cada vez menos.

En resumen: intentamos publicarlo todo en nuestras propias infraestructura para luego redifundirlo por otros canales. En Twitter es donde más conversamos con otros.

El escándalo del TFM de Cifuentes en las páginas de inicio

Esta es una reproducción de un hilo publicado en Twitter sobre el anáisis de noticias en portadas online del 9 de abril de 2018):

Para poder analizar las portadas de los último días he descargado cada hora el html de la portada de cada periódico con storytracker.

Está disponible el código para procesar los html de las portadas online con R (llamado HomePageX, en honor a PageOneX).

Too long & do not read Spanish: How to parse and make the visualizations based on the archive of digital home pages built with storytracker: R code available.

Bueno, por fin puedo ponerme a contar noticias de Cifuentes en portada de los periódicos digitales. A ver qué sale:

Para poder el porcentaje de noticias sobre Cifuentes en portada necesitamos saber cuál es el total de noticias en cada momento (cada hora) en cada periódico:

Noticias en portada por hora en eldiario.es.

Después hay que contar los titulares en portada de las noticias que contienen “Cifuentes” (y palabras relacionadas con el caso de su máster) para un periódico. Ejemplo con eldiario.es:

Número de noticias en portada en eldiario.es sobre Cifuentes.

Para hacer el cálculo del número de noticias se han elegido todas aquellas que incluyen una de las siguientes palabras o grupos de palabras en su titular: “Cifuentes|Javier Ramos|Enrique Álvarez Conde|Pablo Chico|María Teresa Feito|Alicia López de los Cobos|Cecilia Rosado|Clara Souto|Amalia Calonge|Universidad Rey Juan Carlos”.

Continue reading

Paseando con el globo para fotografiar desde el aire el polígono industrial El Serrallo, en el puerto de Castellón de la Plana

Three Public Lab DIY open-source projects in a peer-reviewed article

Paseando con el globo para fotografiar desde el aire el polígono industrial El Serrallo, en el puerto de Castellón de la Plana
Paseando con el globo para fotografiar desde el aire el polígono industrial El Serrallo, en el puerto de Castellón de la Plana.

After a very long and exhausting peer review process, we started this back in 2014, the paper we co-wrote with Hagit Keysar, Shannon Dosemagen, Catherine D’Ignazio and Don Blair is finally up there: “Public Lab: Community‑Based Approaches to Urban and Environmental Health and Justice”.

Abstract
This paper explores three cases of Do-It-Yourself, open-source technologies developed within the diverse array of topics and themes in the communities around the Public Laboratory for Open Technology and Science (Public Lab). These cases focus on aerial mapping, water quality monitoring and civic science practices. The techniques discussed have in common the use of accessible, community-built technologies for acquiring data. They are also concerned with embedding collaborative and open source principles into the objects, tools, social formations and data sharing practices that emerge from these inquiries. The focus is on developing processes of collaborative design and experimentation through material engagement with technology and issues of concern. Problem-solving, here, is a tactic, while the strategy is an ongoing engagement with the problem of participation in its technological, social and political dimensions especially considering the increasing centralization and specialization of scientific and technological expertise. The authors also discuss and reflect on the Public Lab’s approach to civic science in light of ideas and practices of citizen/civic veillance, or “sousveillance”, by emphasizing people before data, and by investigating the new ways of seeing and doing that this shift in perspective might provide.

Rey-Mazón, P., Keysar, H., Dosemagen, S., D’Ignazio, C., & Blair, D. (2018). Public Lab: Community-Based Approaches to Urban and Environmental Health and Justice. Science and engineering ethics, 24(3), 971-997.

You can read here the full paper (and download PDF until June 3rd, 2018). If you read this too late, you can always ask me for a copy.

We used three different case studies to: Aerial Photography and Community Building in Castellón, Spain, 2014; The Aerial Testimony: Silwan, East Jerusalem, Israel/ Palestine, 2011; and Open Water Science for Civic Veillance.

The story of this paper began after my talk in Ispra (italy) at the “Emerging ICT for Citizens’ Veillance” workshop about the balloon and kite mapping workshop in Castellón (Spain) I did with Basurama in January 2014. Then… I hope we will be able to write down how was the entire publication process.

Special thanks to Hagit, who pushed the paper all the way until publication, despite the different obstacles we found in the way.

¿Cómo analizar la segregación escolar público-privada en Euskadi en 5 pasos?

Cuando me preguntaron si podía hacer unas visualizaciones de los datos sobre segregación escolar en la escuela pública y privada en Euskadi para la Iniciativa Legislativa Popular (ILP) por una escuela inclusiva me interesó mucho el tema. Veo en mi entorno más cercano de Bilbao unas diferencias grandes entre una y otra red escolar, pero no me había parado a estudiar con datos el tema.

No conocía la definición exacta del término “segregación”. Imaginaba que sí existían desigualdades socioeconómicas entre quienes atiende a las redes pública, concertada y privada en Euskadi, pero no había pensado cómo medirlo.

Según una definición la segregación escolar es el fenómeno por el cual los estudiantes se distribuyen desigualmente en las escuelas en función de alguna de sus características” y que es “por tanto, uno de los factores que contribuyen en mayor medida a impedir una verdadera igualdad de oportunidades y generar desigualdad social” como explican Murillo y Martínez-Garrido en un artículo publicado este año. Hay mucha literatura al respecto, que luego he ido conociendo, pero en un primer acercamiento nos pusimos a trabajar y trastear con los datos que teníamos disponibles.

Para estudiar las desigualdades entre las redes pública y privado-concertada de los centros educativos en Euskadi usamos los datos disponibles en el informe La educación en Euskadi 2013-2015 del Consejo Escolar de Euskadi.

Con todos estos y más datos publicamos en diciembre de 2017 un primer informe de acercamiento a la segregación escolar en Euskadi, cuando se anunció la ILP.

Ver informe: Análisis de cohesión e igualdad del sistema educativo en Euskadi.

 

Ahora vamos paso por paso a analizar esta situación de desequilibrio.

Continue reading

Un experimento de small data: black to de future

TL:DR Este es un relato de cómo montamos el bot de Twitter que retransmite con 10 años de retraso los gastos de las tarjetas black. Puedes leer también el post que ha escrito Alfonso con los detalles técnicos del desarrollo.

Desde hace un tiempo nos rondaba en Montera34 a Alfonso y a mi la idea de ponernos de nuevo con los datos de las tarjetas black. El juicio donde se juzgaba a los directivos de Caja Madrid y Bankia que habían usado sus tarjetas opacas a Hacienda estaba a punto de acabar. Todavía teníamos un pequeño margen antes de las deliberaciones finales y la sentencia.

En vez de analizar los datos en su conjunto otra vez ¿por qué no cambiar la forma de acercarse a los datos y fomentar ver el detalle de cada gasto? Nos parecía  interesante poder tratar los gastos uno a uno y entender cuándo y cómo sucedían. Un ejercicio de “smalldata para hacer mininarrativas con tamaño tuit de cada gasto.

La fechas no podían ser peores. Las navidades se acercaban, hacía falta cerrar varios proyectos, líos familiares… un tiempo perfecto para hacer un proyecto en modo exprés y en abierto.

Alfonso reutilizó algo de código de otro proyecto para hacer una página que publicaba los gastos del día. Por suerte teníamos ya los datos recopilados en un único archivo de la otra visualización: unos 75.000+ gastos clasificados por usuario, comercio, tipo de actividad…

A partir de esta primer boceto surgían algunas preguntas ¿se podían buscar otras fechas u otras distancias de años además de la década de distancia?
En principio nos gustó la idea que ahora parece obvia: ofrecer pocos datos para centrar la atención del usuario. Diez años es una cifra fácilmente inteligible por cualquiera.

Luego teníamos que resolver dónde ibamos a publicar la web. El subdominio lab.montera34.com podía valer. Tras un poco de tuneo a los estilos la web empezaba a tomar forma:

Por el camino surgió algo que también parece obvio ahora y que hacía casi todo lo demás del proyecto redundante. Tras comentar con Martín (@martgnz) el proyecto @censusamericans, que convierte cada hora una línea del censo en un tuit, del tipo “I had a baby last year. I don’t have health insurance. I am divorced. I moved last year. I got married in 2000.” nos sugirió tuitear en directo los gastos de las tarjetas black en riguroso directo en diferido.

Ya sólo nos faltaba desarrollar el bot para Twitter… y alguna cosa más.

Nos faltaba un nombre e imagen con gancho. Gracias a hacer el desarrollo del proyecto en abierto Guille nos sugirió Black to the Future. Lo españolizamos a @BlacktoDeFuture y así lo reducíamos a los caracteres necesarios para que cupiera en el nombre de una cuenta de Twitter. Nos gustaba también el Black2thefuture que proponía @jorgelamb, pero ya estaba pillado.

En apenas un hora, modificando el cartel original de Regreso al futuro que nos pasó Guille y una tipografía similar a la original que encontramos por ahí ¡Ya lo teníamos!

Mientras Alfonso cocinaba el bot hecho en Python me dediqué a lanzar la web para preparar la llegada del bot de Twitter. Publicar los gastos en una sola frase requería algunos retoques. A veces el nombre comercio no figuraba, pero sí el tipo de actividad (cajero, disposición en efectivo…). Con unas cuantas sentencias condicionales en PHP quedaba arreglado. También aproveche mis conocimientos recién adquiridos de R para reordenar todos los gasos por días y hora, así saldrían ordenados en la página de gastos del día.

Ya por entonces nos habíamos dado cuenta de que la web molaba, y mucho, pero que lo realmente iba a funcionar era el bot de Twitter. La web sería la partitura diaría que el bot tiene que seguir. La cuenta de Twitter permitiría seguir en “tiempo real” lo que gastaban los directivos de las black. Unos días después empezabámos a retransmitir:

En resumen, acabábamos de lanzar desde Montera34 un bot que tuiteaba todos los gastos de las tarjetas black con 10 años de retraso. Riguroso directo en diferido. Un viaje en el tiempo a otra era. Un viaje a 2006, un país que todavía no se enteraba de que la burbuja inmobiliaria y muchas otras cosas iban a estallar: @BlacktodeFuture.

Hay gastos de las tarjetas black anotados hasta el 29 de agosto de 2012:

2012-08-29 | 14:18:45 | APARCAMIENTO MONTALBAN | GARAJES,RESTO DE APARCAMIENTOS | 15.8€ | COMPRA | Miguel Ángel Abejón Resa

Quién sabe, quizás para el año 2022 todavía sigue funcionando nuestra máquina del tiempo y vayamos a celebrar el fin de su viaje al aparcamiento de la calle Montalbán en Madrid.

Continue reading

Cadáveres inmobiliarios en UrbanBAT

El miércoles 23 de diciembre 2016 a las 19.00h  tarde estaré hablando sobre Cadáveres Inmobiliarios en UrbanBAT en Bilbao.

Cadáveres inmobiliarios en UrbanBAT

prototipando-la-ciudad-en-transicion-publicacion-cadaveres

Cadáveres Inmobiliarios ha sido seleccionado para la quinta edición del festival UrbanBAT en Bilbao.

Hemos hecho la selección buscando iniciativas quedesde distintos ámbitos de acción,están proponiendo un impacto sobre el desarrollo urbano (y urbanístico) sostenible en su entorno. Iniciativas que, en mayor o menor medida hibridan entre el trabajo socio-comunitario, el urbanismo participativo, la arquitectura, y las prácticas culturales y artísticas para imaginar conjuntamente soluciones para un desarrollo urbano sostenible. Proyectos que tienen que ver con la regeneración urbanística y arquitectónica de barrios, la recuperación de patrimonio industrial para usos culturales y comunitarios, el empleo de la cultura como herramienta transformadora del territorio, la reapropiación del espacio público, la reutilización de residuos para la construcción de espacios comunes, el replanteamiento de los mercados de producción y consumo, el desarrollo de plataformas en red para visibilizar vacíos urbanos.

Han seleccionado estos proyectos:

Cadáveres Inmoiliarios compartirá presentación exprés con todas estas experiencias el miércoles 23 de Noviembre a las 19.00h en Bizkaia Aretoa (Bilbao), en una sesión abierta y gratuita par todo el público. Consigue tu entrada gratuita y más información sobre la sesión.

El día siguiente, en un taller interno, compartiremos experiencias y realizaremos una consultoría entre pares que ayude a enriquecer y mejorar cada uno de los proyectos.

Si hoy declara Correa, es un buen día para ponerse con la tesis

161013_buen-dia-empezar-tesis-correa

Justo ayer, el día que empezaba a declarar Correa en el juicio de la primera época de la Gürtel, me ha llegado la noticia. Ha sido aprobado el proyecto de tesis y plan de investigación “The color of corruption coverage in Spain” (descarga el pdf) que presenté en mayo. Así que ya soy oficialmente doctorando. Sólo me queda hacer la tesis. Correa es el acusado clave de la trama y por el que toma nombre el caso Gürtel, que es “correa” en alemán.

160930_colorcorrupcion_septiembre-2016
Modo interactivo en PageOneX.com

Ahora un resumen de los últimos acontecimientos en cunato a la tesis se refiere.

Data gathering in the age of information

It’s been a busy week. Almost all the tasks are related to data gathering: tweets, front pages or video streaming. It is interesting how non trivial is to gather all the different information flows that surround as.

Answers from reviewers to the thesis research plan

The research proposal has had been approved with no conditions by my thesis committee and one anonymous reviewer. Here you can download the document: The color of corruption coverage in Spain. Agenda setting in a polarized media ecosystem. I need to examine and review the suggestions that I list below (thanks reviewrs):

  • Hypothesis too general
    “hypotheses are too general. Here is my recommendation: the candidate defines the hypothesis thinking on the connection between the dependent and independent variables”.
  • Operationalization of variables and independent variables
    “The candidate will use three types of data, one related to front-pages of print media, another with the information about twitter, and public opinion. To do that the candidate not only will follow existing methodologies but will also use pageonex.com (elaborated by the author). Here it will be relevant to know something else about the operationalization of variables. I guess the unit of analysis is going to be stories (number of percentage?), tweets (number?), public opinion (percentage?) for one or two years (2016-2017). Also we need more information about which are the independent variables that will be taken into account. In general the methodology seems as appropriate for the plan but needs further elaboration in the future”.
  • Define agenda setting role of media, traditional vs new media, analyze literature
    “In general, it is clear the author has analyzed some of the main contributions to the field, but there are some important shortcomings. There is not a discussion about which is the agenda setting role of the media, what we mean by that, why this is important, and which are the factors that limit the capabilities of the new and traditional media to develop this agenda setting role. (…) Accordingly, the theoretical part needs an elaborated discussion about the agenda setting role of the new and traditional media, highlighting the similarities and differences between the two and why this matters. To do that the author needs to analyze the literature about agenda setting taking into account authors like Norris to better understand the role of the media in a democracy, Graber and Iyengar to explain the agenda setting role of the media and the interconnection between different types of media outlets, Hallin and Mancini to better understand the media systems and why this matter (just to mention some of the most cited).
  • Add asocial movemente theory and atudy anti-corruption activist
    “Suggest the author add an additional RQ / hypothesis about anti-corruption activists attempts to influence the mass media agenda, outside of social media (through meetings, petitions, protests, and so on). Do anti-corruption protests shift the mass media agenda? (…) The author may want or need to develop additional data (qualitative and/or quantitative) about attempts by anti-corruption activists to shift the mass media agenda. For example, a dataset of anti-corruption protests, by size/participation, and/or analysis of interviews with anti-corruption activists. (…) the dissertation might benefit from a section that engages significantly with the social movement studies literature. Specifically, there is a subfield of social movement studies that explores the ways that social movement actors attempt to gain access to mass media visibility, and in the context of the Spanish corruption cases, presumably this is taking place extensively. This introduces additional possibilities and questions about mass media agenda setting. For example: are there social movement actors who have personal friends among journalists, editors, and other members of the mass media? Potentially, they are meeting, lobbying, talking with, protesting, and otherwise attempting to shift the mass media agenda to cover corruption, NOT ONLY via social media but also through face to face methods, phone calls, petitions, meetings, perhaps direct actions, advertiser boycotts, and so on. Also: do anti-corruption protests shift the news agenda?”
  • Mejor conexión entre los ámbitos de la investigación
    “Faltaría, en algunos casos, trabar mejor la transición o la interconexión entre los distintos ámbitos de la investigación. En especial faltaría una mejor/mayor justificación de la (supuesta) disrupción que hacen los medios sociales en el panorama informativo y su papel de contrapeso con los medios tradicionale. (…) La parte del impacto de los nuevos medios en el establecimiento de la agenda debería reforzarse para que no quede coja respecto al resto de marco teórico. Por otra parte, la retroalimentación mútua entre los viejos y los medios nuevos/digitales debería perfilarse mejor para poder acabar de definir la metodología”.
  • ¿Qué preguntas hacer a los datos pra no desbordarse?
    “La metodología es muy robusta y utilizará sobre todo dos grandes fuentes de datos, extensas, objetivas y relativamente fáciles de manipular. En este sentido, el reto será saber qué preguntas hacerles a los datos – de las muchas posibles dada la riqueza de los mismos – para que la investigación no se desborde”.
  • Falta mayor profundidad en el planteamiento
    “Sí, los objetivos, las preguntas y las hipótesis son claras y fundamentadas en el debate teórico. Sin embargo, falta una cierta profundidad de planteamiento que se queda en lo descriptivo. Ciertas cuestiones de fondo quedan implícitas o marginadas, como si la polarización es mayor en las redes sociales que en los medios de referencia o si los casos de corrupción preeminentes en ambas esferas (redes digitales y medios convencionales) difieren en cuanto a sus protagonistas. La primera cuestión se relacionaría con las dinámicas de polarización que se atribuyen a la esfera pública digital y la segunda, con el control que se atribuye a las fuentes oficiales en la agenda de los medios convencionales de referencia y a los alineamientos político-edioriales que se han percibido en la prensa española. Se recomienda un mayor énfasis en estas preguntas para facilitar un debate académico que haga aportaciones más allá del caso de estudio nacional que ahora se plantea”.
  • Falta autores españoles anteriores al año 2000
    “La bibiliografía recoge en extenso las principales contribuciones en el orden teórico y empírico, en el plano nacional e internacional. Se echa en falta, sin embargo, el conocimiento y la referencia a obras de autores españoles anteriores del año 2000 y anteriores que abordan el tema de la construcción de la agenda y de los marcos discursivos tanto en la teoría como en análisis de casos”.

Some related tweets

Un artículo sobre el software que utiliza “El color de la corrupción”

Hace unos meses publicamos un artículo en una revista científica sobre PageOneX, el software con el que analizamos las portadas.

The paper Sasha and I have been working on for quite a long time
has just been published at the International Journal of Communication PageOneX: New Approaches to Newspaper Front Page Analysis. We hope it provides an useful guide and resource to the field of the newspapers front page analysis.

PageOneX: New Approaches to Newspaper Front Page Analysis
Sasha Costanza-Chock, Pablo Rey-Mazón

Abstract

PageOneX is a Free/Libre and Open Source Software tool that we
designed to aid in the coding, analysis, and visualization of newspaper
front pages. Communication scholars have long analyzed newspaper front
pages, using column inches as an important indicator of mass media
attention. In the past, this involved obtaining physical copies of
newspapers, coding and measurement by hand, and manual input of
measurements into a spreadsheet or database, followed by calculation,
analysis, and visualization. PageOneX automates some of these steps,
simplifies others, and makes it possible for teams of investigators to
conduct shared newspaper front page analysis online. We review
scholarship in this area, describe our approach in depth, provide
concrete examples of analysis conducted by media scholars using
PageOneX, and discuss future directions for research and development.

Download article (pdf).

¿Cómo visualizar los 10 millones que no votaron?

El otro día comparábamos el número de votantes con el de abstencionistas con una visualización donde cada punto equivalía a 10.000 personas. Se podía evaluar el peso de la abstención y de los votos en blanco y nulos, que no suelen reprentarse en las estadísticas electorales.
votos-abstenciones-20d_02

Si actualizamos los datos con los resultados de 2016:

votos-abstenciones-26j_01

podemos ver que el aspecto general es bastante parecido, aunque sí hay diferencias. Para poder apreciarlas es necesario poner una visualización al lado de la otra:

votos-abstenciones-20d-26j_b01

Aquí sí se puede percibir el aumento de la abstención (gris), el aumento de votos del PP (azul), pero el descenso en PSOE, Podemos y Ciudadanos es más complicado de apreciar. El gráfico es válido para hacerse una idea de los datos en su conjuto, pero para comparar valores entre sí, no es la mejor forma: los colores comienzan en filas diferentes y en diferentes lugares de cada fila. Para poder comparar valores tenemos que alinear los inicios de cada partido:

votos-abstenciones-20d-26j_a01

De este modo podemos ver mucho más claramente el aumento de votos del PP y el descenso de los otros partidos. Este método nos permite además poner a IU junto a Podemos (y confluencias) en las elecciones de 2015, cuando se presentaban por separado y poder comparar los resultados cuando se han presentado en confluencia en Unidos Podemos. Esta visualización está pensada para mostrar el peso de los abstencionistas.

Actualización 28 junio 2016: Incluyo una mejora de la visualizacióncon los

votos-abstenciones-20d-26j_03

Por último os dejo con un gráfico de barras. Sólo suben en votos la abstención, el PP y el PACMA, de entre los partidos más votados.

votos-abstenciones-20d-26j_barras_01

 

 

Ni dos ni cuatro partidos, ganan los abstencionistas

Todo empezó por el cansancio que me producen los mapas que colorean las regiones con el color del ganador. A cualquiera le alarmaría un mapa como este:
spanish-elections-2016-3
no porque gane el PP, sino porque da una información muy incompleta fácilmente malinterpretable. Un partido con el 28,7% de los votos emitidos colorea toda las superficie.

Conceptualmente no es muy diferente a este otro, donde se colorea cada municipio con el color del ganador. El nivel de detalle es mayor, por lo tanto vemos más datos, pero creo que el problema sigue siendo el mismo.

Mapa de elecciones generales 2015. 20D en El País http://elpais.com/elpais/2015/12/18/media/1450461184_895079.html
Mapa de elecciones generales 2015. 20D en El País.

Todos comparten el mismo problema the winner takes it all, esto es, aunque en una región haya ganado un partido por un 2% toda ella quedará pintada del mismo color. Prefieron n veces el mapa con el nivel de detalle de los municipios, pero nos sigue representando solamente a los ganadores en uan realidad simplificada. Algunos mapas trabajan con gradientes de los colores para indicar cuánto es el porcentaje de votos de cada partido, como en este buenísimo mapa interactivo:

Elecciones 20D Congreso 2015 en El Español http://datos.elespanol.com/elecciones-generales/resultados/congreso/
Lukas APpelhans y Martín González. Elecciones 20D Congreso 2015 en El Español http://datos.elespanol.com/elecciones-generales/resultados/congreso/

El gradiente aumenta la información que se ofrece al usuario, pero creo que sigue siendo insuficiente si lo que queremos es analizar un sistema de más de 2 jugadores que comparten porcentajes de voto similares. No se trata de mayor nivel de detalle, sino de poder representar en un mismo gráfico al segundo, tercer y cuarto más votados. Se han probado gradientes entre 2, 3 ó 4 colores, pero si ya es difícil interpretar en valores numéricos un gradiente, imaginad lo complicado que es interpretar un color mezcla de distintas intensidades de azul, rojo, morado y naranja.

Si a eso le sumamos que queremos ver a las personas que no han ido a votar y nos olvidamos del mapa de momento… sale algo como la siguiente visualización, donde cada punto representa 10.000 votos en las pasadas eleciones de diciembre de 2015 al congreso:

votos-abstenciones-20d
Puedes ver el interactivo en https://numeroteca.org/electiondots/

Uno de cada cuatro personas con derecho a voto no fue a votar. Los puntos en gris representan a los más de 9 millones de personas que se abstuvieron. Estamos tan acostumbrados a leer los porcentajes de los que votaron, a ver los semicírculos coloreados que representan el congreso, a ver los mapas de los ganadores, que se nos olvida que existen los que no ejercieron su derecho. Ya sabemos que España no es bipartidista, pero tampoco es de cuatro (y algunos más) colores.

Si agrupamos por comunidades autónomas saldría algo así [nota, faltan los votos a Ciudadanos en Galicia]:

elecciones-20d-comunidades-abstenciones-votos

Y en un primer acercamiento al mapa saldría algo así:

elecciones-20d-comunidades-abstenciones-votos-mapa

que es una interpretación de una idea de Mark Monmonier para mejorar algunos problemas de los mapas con gradientes de color o “choropleth maps“.

Lying with Maps. Mark Monmonier. http://archi-intranet.ulb.ac.be/cours/sis/conception/lyingwithmaps.pdf
Lying with Maps. Mark Monmonier.

Hay propuestas muy interesantes para representar la totalidad de los votos, como esta de El Confidencial, aunque no sea geográficamente. Para ver población en forma de puntos aleatoriamente distribuidos dentro de los perímetros de una circunscripción está este buenísimo ejempo del New York Times con los datos del censo. Para representar escaños geográficamente hay ejemplos interesantes como este de El Confidencial que utiliza una retícula hexagonal donde cada hexágono es un diputado (más sobre mapas electorales y retículas en este intereante post de cartonerd).

Nota: parte de los ejemplos e investigación vienen de un proyecto/conversación en marcha con @martgnz.

De propina, os dejo con este diagrama de barras:

abstencione-votos_barras-01

Qué y cuánto nos contaron en precampaña #26J

Animado por la buena acogida del estudio de cobertura de las eleccciones del 20D he mejorado el análisis con las portadas en precampaña de las elecciones generales del 26J.

Porcentaje dedicado a partidos e internacional en portadas de prensa en España, precampaña 26J.
Porcentaje dedicado a partidos e internacional en portadas de prensa en España, precampaña 26J.

En vez de ofrecer los valores agregados de los diferentes medios, o la suma de valores por dia, esta vez muestro la cobertura de cada partido por separado y diferenciando los datos de cada medio. En cada uno de los “small multiple” (uno por cada partido, internacional y Venezuela) se puede ver la frecuencia, tamaño, posición y cantidad de la cobertura de cada tema. A la derecha en un diagrama de barras se puede ver la media total por tema y periódico. Separando los colores en diferentes gráficos es más sencillo analizar los datos que cuando están todos juntos (arriba del todo).

Algunas conclusiones en formato breves:

  • Se habla de Ciudadanos cuando Rivera se va de viaje a Venezuela o se le entrevista
  • Si el ABC habla de Podemos es para desfavorecerlo
  • El País es el que más noticias no desfavorables da del PSOE
  • El País, el periódico con más noticias internacionales
  • Más de la mitad de noticias internacionales en ABC y La Razón son de Venezuela
  • La Razón, los que más número de noticias sobre el PP (22) y sólo 3 desfavorbles

Además, como acabo de descubrir que el Consejo de informativos de TVE ha protestado por el sesgo informativo de las noticias en el Canal 24h y que ha realizado un estudio del tiempo dedicado a partidos políticos y otros temas. He comparado los datos de cobertura en portadas con los de la televisión pública:

Cobertura en precampaña 26J. Portadas y TVE.
Cobertura en precampaña 26J. Portadas y TVE.

Los datos del estudio del Consejo de informativos incluidos en el informe, salen de las escaletas a las que tienen acceso los trabajadores de TVE y que no se hacen públicos. El propio informe no está disponible desde la noticias que haban de él ni desde la propia página web del consejo, que lleva caída, al menos, desde el jueves pasado.

Puedes ver la visualización interactiva en en PageOneX de la que se extraen todos estos datos.

preelectoral-26J-pageonex-numeroteca

Fuentes

Portadas de periódicos: 13 mayo – 9 junio 2016. Fuente: numeroteca.org + PageOneX.com.
Tiempo en Canal 24h (TVE): 4 mayo – 8 junio 2016. Fuente: Consejo de informativos TVE.
Votos elecciones generales 20 diciembre 2015.

Metodología

Para los datos de portadas se ha medido con PageOneX.com el porcentaje que ocupan las noticias respecto del total de noticias donde aparecen partidos o miembros de partidos políticos de ámbito municipal, autonómico y estatal.
Para el tiempo en el Canal 24h hemos usado los datos del Consejo de Informativos de TVE que ha contabilizado los tiempos de emisión de actos de partido y/o de gobierno.

Esta es mi primera colaboración con Politibot.es y toda la buena gente que está metida en sus  tripas y cables. Politibot es un robot de Telegram que acaba de nacer (el pasado jueves) para informar sobre las elecciones del 26J tomando noticias y datos de diferntes mediso de comunicación y fuentes de información.

Agradecimienos: a @wanalanda por su labor de editora-correctora.

El color de la corrupción en el Anuari dels Silencis Mediàtics 2015

El color de la corrupció nen el Anuari dels Silencis Mediàtics Mèdia.cat
El color de la corrupción en el Anuari dels Silencis Mediàtics Mèdia.cat 2015.

El Anuario de los silencios mediáticos 2015, que produce Mèdia.cat cada año, ha incluido datos de El color de la corrupción como unos gráficos de barras producidos por ellos mismo. El pdf del anuario completo se puede descargar de su web. Es una alegría que se les de uso a estos datos y un buen momento para recordar que todos los datos del proyecto están publicados en abierto.

Recientemente vi también que usaron también los datos en un artículo en revista científica: Podemos and Ciudadanos Shake up the Spanish Party System: The 2015 Local and Regional Elections (2016) de Toni Rodon y María José Hierro, South European Society and Politics:

“During the first months of 2013, news related to corruption scandals took, on average, 15 per cent of Spanish newspapers’ front pages [note]. In April 2015, one month before the local and regional elections took place, each newspaper devoted 20 per cent of their front pages to news related to corruption”.

Note: “The evolution of newspapers’ front pages devoted to corruption scandals since 2013 can be found here: https://numeroteca.org/wp-content/uploads/2015/06/1505_mayo-corrupcion-elecciones.png. For more information about the project see: http://pageonex.com/”

Ante la ausencia de datos disponibles en formato libre y reutilizable sobre cobertura mediática El color de la corrupción está encontrando su hueco. Quizás hay que encontrar una mejor y más organizada forma para citarlo, de momento, como sugería a Mèdia.cat es poner un link a la web numeroteca.org/colorcorrupcion.

 

From Abstract research plan to Research Plan

pastpages-for-spanish-newspapers

Después de unos ajustes al resumen que preparé para el seminario de hace unas semanas he presentado el Abstrac Research Plan a la comisión de doctorado. El cambio principal es centrar o dar más peso al estudio de las redes sociales (social networking sites) en el ecosistema de medios, que son que ha cambiado el panorama de la comunicación en los últimos tiempos. Dentro de “mass media” incluyo “news media” y “social media“. La idea es usar el caso de la cobertura de corrupción para realizar esta investigación.

A finales de mes tengo que presentar el plan de investigación completo (4.500 palabras) así que ya estoy trabajando en ello. A ver cómo este nuevo enfoque me hace reestructurar y escribir lo que tenía hasta ahora.

Mientras, pastpages.org se ha puesto a funcionar para capturar las portadas de los principales diarios online  que le pasé a Ben Welsh ¡thank you! No está funcionando del todo bien, no todos los periódicos aparecen etiquetados como “Spain” pero ya va empezando a existir el archivo de periódicos online en España. De momento sólo archiva la imagen de la portada, no el código html. Esa funcionalidad solamente está disponible para ciertos periódicos.

Además, tendré que leer las recomendaciones de Ismael Peña, mi tutor, sobre el tema de la influencia de los social media. Jóvenes clásicos que hay que no he leído todavía que me ayudaran a tratar el tema de la importancia de los medios sociales en la web:  hablan del “daily me” en Being digital (1996) de Negroponte, las “echo chambers” en Republic.com 2.0 (2009) o sobre amateurs “Our social tools remove older obstacles to public expression, and thus remove the bottlenecks that characterized mass media” en Here comes everybody: How change happens when people come together (2009) de Shirky.

Pego aquí el abstract que entregué este domingo. Se aceptan y agradecen consejos, sugerencias.

Title: The color of corruption coverage in Spain. Agenda setting in a polarized media ecosystem.

Objectives, hypothesis and questions

By selecting and framing stories mainstream media help determine what is important and what not. Mass media play then a key role in shaping public opinion. Since the seminal article The agenda-setting function of mass media was published in 1972, and specially during the last decade, we have witnessed the emergence and the growth of influence of social media. Social media users (writers/readers) help to disseminate the news, but are also able to participate directly in the selection, creation and framing of the stories to modify the agenda setting traditionally dominated by the mainstream media (Negroponte 1995; Shirky, 2008; Sunstein, 2001). News media remain as key players in mass media ecosystem but they are no longer alone in the way political reality is shaped. How are social networking sites changing the agenda-setting role of traditional media?

How is the dialogue between social networking sites and mass media and how they drive attention to certain stories? We will use the topic of corruption in Spain to study this question.

In the past years, corruption cases in Spain have involved almost every institution in the country. These scandals are usually brought to light by news media and amplified by social media. Every week, a new investigation is unveiled provoking an increasing sense of indignation. As there is a wide range of actors involved in the scandals it makes corruption an appropriate field of research to analyze the role of social media in a polarized media ecology, where Spanish media outlets are traditionally aligned with political parties.

We will research the different variables that shape mass media coverage and public perception such as the main actors involved in a corruption case, the medium where it is published, the publicity given to the story or when it is published. Through the analysis of corruption coverage we are going to measure how news media protect or attack certain parties and institutions by hiding or promoting certain stories. The underlying objective is to update theories about the Spanish partisan media ecosystem.

In a system where people select the newspaper more aligned to their ideology: what comes first, the agenda setting and framing by mass media or the general public predisposition? We are specially interested to see how the situation evolves in a political situation that is shifting from a bipartisan system to a four players game, where new online news sites and networking sites are entering with strength the mass media ecosystem.

Methodology

The unit of analysis of this research are corruption stories in front/home pages of paper and online newspaper newspapers and social media messages in Twitter. We want to measure the importance given by the mass media to certain topics and compare it to the discussion in social media so that we can infer similarities and differences in both their characteristics and determinants.

We will quantify corruption coverage by measuring: the number of news; the size, by using the percentage of surface dedicated to the topic; the “color”, which institution was related to corruption. Informed by other studies and literature in the field of corruption coverage and media studies (Rivero & Fernández-Vázquez, 2011; Baumgartner & Chaqués Bonafont, 2015) we will also study the framing of corruption (Costas-Pérez, Solé-Ollé & Sorribas-Navarro, 2012), whether the coverage is neutral or negative or defensive and giving a positive view.

Whereas front page analysis is not new, we propose the use of new methods to have better and more accurate metrics that take in account size and visual aspect of the analyzed stories. We are going to use PageOneX.com to analyze front pages of paper newspapers and StoryTracker  (http://storytracker.pastpages.org/) to analyze home sites of online news sites. Our collection of data can also be compared with other analysis of front pages conducted by the Spanish Policy Agendas project (Chaqués-Bonafont, Palau & Baumgartner, 2014) in the two largest newspapers in Spain: El País and El Mundo.

To analyze social media messages in Twitter we will use the software and data set developed by Mari Luz Congosto at the Universidad Carlos III available at http://t-hoarder.com/. We will quantify conversations about topics by the number of messages, retweets, number of users and the topic they are referred to. We will also analyze user networks and the dissemination of tweets by the mainstream media in Twitter.

To provide related information to our stories data set and in order to measure impact in public opinion we are using two different approaches, existing public opinion surveys and focus groups.

  • The monthly national survey, “the barometer”, of the Centro de Investigaciones Sociológicas (CIS), that asks about the three more important problems for citizens, where corruption and fraud is since 2013 in the top three.
  • Focus groups to provide context to understand how people “read” front pages, how they judge about scandals along personal ideologies. We want to contrast data from media coverage with direct perceptions of readers. Participants will be selected to have diverse affinity to political parties and different ideologies. We will use the newspapers front pages of the week as a starting point for a conversation about corruption.

 

Próximamente espero renovar el tema de wodpress de este blog. Stay tuned!

Uses and abuses of data visualizations in mass media

Audio (.mp3).

ESS Visualisation Workshop 2016. Valencia. May 17-18, 2016.

Abstract

Data visualizations are a powerful way to display and communicate data that otherwise would be impossible to transmit in effective and concise ways. The spread of broadband Internet, the easier access to reusable datasets, the rise in read/write digital media literacies, and the lower barrier to generate data visualizations are making mass media to intensively use of infographics. Newspaper and online news sites are taking advantage of new, affordable and easy to access data visualization tools to broadcast their messages. How can these new tools and opportunities be used effectively? What are good practices regarding data visualization for a general audience?

After an introduction to a series of key concepts about visualizing data the lecture will follow with an analysis of a series of significant data visualizations (tables, pie and bar charts, maps and other systems) from TV, daily newspapers and news websites to detect good and bad practices when visualizing statistical information. The lecturer will then analyze recent literature of visualization studies regarding persuasion, memorability and comprehension. What are more effective embellished or minimal data visualizations? Does graphical presentation of data make a message more persuasive?

El Color de la Corrupción se va a Valencia

el-color-de-la-corrupcio_valencia-16-junio-2016

Audio (.mp3).

Este lunes 16 de mayo de 2016 estaré en Ca Revolta (Valencia) para hablar sobre El Color de la Corrupción:

El Color de la Corrupción. Conversa Oberta amb Pablo Rey Mazón
Dilluns, dia 16 de maig

Des d’ACICOM, amb la col·laboració de Ca Revolta, L’Observatori Ciutadà contra la CorrupcióHub Cívico i la Unió de Periodistes hem organitzat una CONVERSA OBERTA amb Pablo Rey Mazón (del qual podeu obtindre més informació sota aquestes línies). Volem conèixer de primera mà el treball que desenvolupa Pablo, amb sistemes avançats de visualització de dades, en concret sobre les Portades de la premsa escrita, com a una estratègia d’empoderament de la ciutadania i que ens pot aportar transparència i dades per a la lluita contra la corrupció.

INSCRIPCIÓ GRATUïTA en: https://goo.gl/mALjQm per facilitar organització i interacció.

Peer reviewed paper about PageOneX published at IJoC

160625_pageonex-ijoc

The paper Sasha and I have been working on for quite a long time has just been published at the International Journal of Communication PageOneX: New Approaches to Newspaper Front Page Analysis. We hope it provides an useful guide and resource to the field of the newspapers front page analysis.

PageOneX: New Approaches to Newspaper Front Page Analysis
Sasha Costanza-Chock, Pablo Rey-Mazón

Abstract

PageOneX is a Free/Libre and Open Source Software tool that we designed to aid in the coding, analysis, and visualization of newspaper front pages. Communication scholars have long analyzed newspaper front pages, using column inches as an important indicator of mass media attention. In the past, this involved obtaining physical copies of newspapers, coding and measurement by hand, and manual input of measurements into a spreadsheet or database, followed by calculation, analysis, and visualization. PageOneX automates some of these steps, simplifies others, and makes it possible for teams of investigators to conduct shared newspaper front page analysis online. We review scholarship in this area, describe our approach in depth, provide concrete examples of analysis conducted by media scholars using PageOneX, and discuss future directions for research and development.

Download article (pdf).

Una propuesta: Monitorización de medios

Cobertura de corrupción de enero 2013 a marzo 2014.
Cobertura de corrupción de enero 2013 a marzo 2014.



Monitorización de medios #jpd16 at slideshare.

Audio de la charla (.mp3).

Este sábado estaré dando una charla en las IV jornadas de periodismo de datos en Madrid para tantear el interés en desarrollar un proyecto colaborativo sobre análisis de contenidos de los medios de comunicación en España ¿te animas?

Monitorización de medios (numeroteca)
IVJornadas periodismo de datos 2016
15.30h Sábado 7 de mayo 2016.
Medialab-Prado. Madrid.

Las noticias son noticia. Lo que cuentan, cómo lo cuentan y lo que no cuentan aportan datos para entender cómo los medios de comunicación transmiten la información a los ciudadanos. Necesitamos, en una amplia primera persona del plural que incluye a periodistas y ciudadanos, encontrar formas de archivar toda esa información. Existen bibliotecas y hemerotecas pero ¿qué pasa con los periódicos online? La waybackmachine de archive.org no es suficiente al ritmo con que se actualizan los periódicos en la web.

En mi charla haré un repaso a diferentes herramientas para monitorizar los medios de comunicación. Contaré el proyecto de monitorización de cobertura de corrupción en España a través de las portadas de los diarios impresos (Color Corrupción https://numeroteca.org/colorcorrupcion) y el software que he desarrollado: pageonex.com.

Repaso de iniciativas de monitorización: newsdiff (control de cambios de noticias), Past Pages (pastpages.org), Storytracker (portadas online), PageOneX (portadas papel). Fix the media, T-hoarder (monitorización de Twitter en abierto), monitorización de noticias TV (archive.org), mediacloud…

Porcentaje por género y sección de los 3 periódicos a estudio en el UK News Gender Project.
Porcentaje por género y sección de los 3 periódicos a estudio en el UK News Gender Project.

East Timor vs Cambodia news from film Manufacturing Consent: Noam Chomsky and the Media
East Timor vs Cambodia news from film Manufacturing Consent: Noam Chomsky and the Media

East Timor vs Cambodia news from film Manufacturing Consent: Noam Chomsky and the Media
East Timor vs Cambodia news from film Manufacturing Consent: Noam Chomsky and the Media

Ads vs. News in News York Times Thursday, June 20th 2013 edition of The New York Times
Ads vs. News in News York Times
Thursday, June 20th 2013 edition of The New York Times.

 

Semana grande de la corrupción en PageOneX.com
Semana grande de la corrupción en PageOneX.com

Estado del periodismo de datos y la transparencia en España #jpd16

IMG_20160505_113502

Mesa Redonda en las IV Jornadas Periodismo de Datos
Notas del documento abierto y colaborativo https://titanpad.com/jpd16

Moderada por Adolfo Antón Bravo, con Antonio Delgado (El Español), Verónica Ramírez (La Sexta), Juanlu Sánchez (Eldiario.es), Jesús Escudero (El Confidencial), Karma Peiró (Nació Digital), Ana Isabel Cordobés (El Diario de Navarra).

IMG_20160505_113538

Antonio Delgado (El Español)

@adelgado

Presenta el trabajo dentro de la unidad de datos de El Español.

Repaso a las diferentes unidades de datos en los principales medios de comunicación en España:

El Confidencial 2013
El Diario 2014
La Sexta 2015
El Mundo 2015
El Español 2015

Cuatro perfiles básicos:

  • Periodismo de investigación
  • Programació nde en python o R para scraping y análisis
  • Manejo de bases de datos y excel para análisis
  • Desarrollo en html y javascript

¿Qué e periodimo de datos? “Recopilar y analizar grandes cantidades de información y datos derallados para hacerlos comprensibles a la audiencia a través de artículos, visulizaciones o aplicaciones”.

En El Español trabajan desde dentro de la redacción en colaboración con todas las secciones. También desarrollan proyectos propios.

Repaso a leyes de transparencia:

Leyes de Transparencia
Ley de Transparencia España Ley 19/2013

En vigor para autonomías y entidades locales desde el 10 de diciembre de 2015.
– Ley de derechos de acceso a la infomración Medio Ambiental (Ley/2006)
– Regulación de la Unión Europea (1049/2001)

Desde El Español han trabajado pidiendo datos a la administración. Una actividad normal en otros países pero que en España no se tiene la costumbre.

Por ejemplo, la investigación sobre los bonotaxis solicitados por diputados de Podemos. Podemos no rebatió la informaión, que se consiguió en cosulta pública.
http://www.elespanol.com/espana/20160209/100990283_0.html

El caso de las multas en la calle Leganitos de Madrid y las multas anuladas tras su investigación.
http://www.elespanol.com/espana/20160128/97990526_0.html
http://www.elespanol.com/espana/20160210/101240182_0.html

Jesús Escudero (El Confidencial)

@jescuderoma

Que se llame “Periodismo de datos” da idea de que todavía estamos en momentos iniciales de la disciplina en España. En otros países se llama simplemente “periodismo” o “periodismo de investigación”. En EE.UU. este tipo de periodismo está en todos los medios y no solo en medios de comunicació nde ámbito nacional. En España hay pocas unidades demomento, en relación EE.UU.

El programa excel tiene sus limitaciones, solo permite un millón de entradas.

Juan Luís Sánchez (El Diario)

@juanlusanchez

Una de las grandes ventajas del periodismo de datos es que no debes favor a nadie, a un político que te filtra unos datos, a un partido político que te da un soplo. Los datos pueden llegar de una consulta a la administraciń pública.

La primera persona que empezó a hacer prácticas en eldiario.es estaba dedicada a los datos. Valga como indicativo de por dónde queríamos crecer.

Asumimos que tenemos menos medios que la inteligencia colectiva. Cuando llegan grandes bases de datos las comparimos y empezamos a hacer la investigación con los datos publicados. Hay una desconfianza hacia los medios y el público quiere tener acceso a la información. Así lo hicieron con los datos de la tarjetas black.

A veces lo datos cuentan la historia. Como la única manzana donde ganó el PP en las elecciones municipales: en esa manzana había una residencia de la policia nacional.

El ejemplo de la visualización de datos de las elecciones del 20D. La redaccción trabaja colectiva y simultáneamente en una misma hoja de cálculo.

El gráfico más compartido y visitado es un jpg con la cuenta sencilla si hubieran ido juntos a las elecciones del 20D Podemos e izquierda Unida. A veces te puedes esforcar mucho en hacer una visualizaicón de datos, pero el público está buscando algo determinado.
http://www.eldiario.es/politica/GRAFICO-Congreso-Podemos-confluencias-IU_0_464754323.html

El periodismo de datos no tiene porque ser visual, en absoluto.

Lo que cobran los periodistas no es lo mismo que cobran los programadores, eso genera tensiones. El Diario es un periódico que no quenta con grandes medios en coparación con otros grandes medios de comunicación, pero que demuestra que con poco se puede hacer muchas cosas.
Tienen previsto incorporar 5 programadores en los próximos meses (oferta disponbile en eldiario.es/redaccion).

Ana Isabel Cordobés (El Diario de Navarra)

@Ana_Cordobes

diario-noticias-navarra_presentacion_jpd16

Link a presentación.

Somos un medio local. cuando salen datos solo tenemos que preocuparnos por los datos que afectan a nuestra comunidad. Cuenta con 3 periodistas, un programador y una socióloga (fundamental para gameficacion)

En Navarra salió una ley de transparencia antes que en el resto de España. Más basada en la participación y colaboración ciudadana.

A nivel periodístico nos hemos encontrado con una falta de colaboración de agencias centrales y unos recursos muy limitados en Open Data Navarra. Algunos organismos no han cedido sus datos estadísticos.

La oficina de intervención y asuntos económicos en navarra nos ha servido de mucha ayuda para aclararnos ciertas dudas. Navarra, al tener las competencias de Hacienda, hace más complicado entender algunas historias.

Algunas historias han salido a través de cartas al director. Puede parecer algo anticuado pero ha funcionado esa forma de participación ciudadana.

¿Qué recursos usan? La policía foral les ha ayudado. También funcionarios “amables” y la creación de datos propias de bases de datos. Creen que para medios de ámbito estatal puede ser difícil, pero dado nuetro caracter más local, nos es posible.

Así hicieron las investigación de los desahucios de más de 500 familias en Navarra. Generaron un mapa y luego ofrecieron datos relativos a la cnatidad de población para poder calcular índices.
http://www.diariodenavarra.es/pags/desahucios_navarra.html

Robasetas v.s. Meaplayas. Navarros vs Vascos http://especiales.diariodenavarra.es/dndata/

Verónica Ramírez. La SextaTV

@VeritaRa

160505_periodismo-datos_lasexta

Presentación https://docs.google.com/presentation/d/12izBvoYXZAM3Ibi4gjN63h8ShCxw6dPpipAO2725ofs/edit#slide=id.p
Un eqpipo joven de dos periodistas. Les apoyan otros departamentos como la sección de grafismo o reporteros.
La sexaa como TV pequeña dentro de un gran entramado.

Obtención de datos:

  • portales de datos abiertos
  • scraping
  • petición de información
  • bases de datos propias
  • colaboración con otro medios (papeles de Panamá)

Hacen para la web algunas visualizaciones. Otros departamentos les ayudna en la gráfica.

Han tratado temas como las elecciones, casos de corrupción, peericos de másteres, gasolinas, accidentes, papeles de Panamá.

Tiene una función, cuando llegan los grandes sumarios de instrucción: 20.000 págians donde los redactores que tienen que xtraer información de ahí. Tabajan con OCR para poder hacer ases de datos buscables también para los redactores.

Karma Peiró (Nación Digital)

@kpeiro

Medio pionero como diario únicamente digital. Llevan 20 años.
Tiene 18 ediciones locales, hace periodismo muy local.

Entró como directora septiembre del año pasado.
Tambíén piden muchos datos.

La ley catalana es tan exigente en cuanto a la transparencia que nadie lla cumple.

Hace poco hemos sacado una marca sobre los datos como han hecho otras cabeceras como el Confidencial y El Español: http://www.naciodigital.cat/labs

Es imporante mencionar que es importante la interpretación de los datos es también muy importante.

Hace años el debate estaba más centrado en los programas (Tableau, CartoDB) peor l oque vamos viendo es que las visualizaciones tienen que ser más sencillas. En el móvil se hacen complicados ver ciertos gráficos (dará taller). El acceso por móvil es mayor del 60%.

The color of corruption goes PhD

In September 2015 I started a new phase in my research  about corruption coverage in Spain. I’ve joined the Information and Knowledge Society doctoral programme at the Universitat Oberta de Catalunya (UOC). The plan is to convert my research El color de la corrupción into a PhD dissertation in the following years.

Last semester I took two courses on research methodologies: Advanced Qualitative Methods and Research Design in Social Sciences which lead me to draft a research proposal for my dissertation.

Like I did with my architecture master thesis (Proyecto Final de Carrera in Spanish) I plan to document the entire process openly on line. For the moment I’ll use this blog you are reading at numeroteca.org.

There are a lot of things to talk about: selection of the topic, new areas of research, bibliography, methodology, on line education, why in English… and what it means (and why, how) to make a PhD.

I’ll start with this short presentation I prepared two weeks ago for a seminar at UOC to get some feedback about the research proposal. The following month I have to officially present the research plan.

Abstract

The color of corruption coverage in Spain. Agenda setting in a polarized media system.

In the recent years, the fast-growing list of corruption investigations in Spain have involved almost every institution in the country: the major political parties, the royal house, the main unions, the supreme court or the national bank, just to mention some of them. Everyday, new information and a new case is released/unveiled, provoking an increasing sense of indignation. This situation has pushed up the concern for corruption to the second position of the problems perceived in Spain.

Objectives and questions

The objective of this research is to study how corruption is portrayed in newspapers and analyze how corruption coverage influences public opinion:

  • to update theories about the Spanish partisan media ecosystem and understand how media outlets are reacting to the new wave of corruption scandals.
  • to find out if (and how) corruption coverage influences public opinion in order to help readers understand how persuasive is the mass media ecosystem. In a system where people select the newspaper more aligned to their ideology: what comes first, the agenda setting and framing by mass media or the general public predisposition?
  • to study how is the feedback between social networking sites and mass media regarding corruption coverage and how they drive attention to certain stories?

Methodology

We are going to analyze corruption stories in front pages of paper newspaper and home pages of online newspapers to measure the importance given by the media to certain topics. Whereas front page analysis is not new, we propose the use of new methods (PageOneX.com and StoryTracker software) to have better and more accurate metrics that take in account size and visual aspect of the analyzed stories. We plan to complete our research using existing datasets like opinion surveys and databases of social networking sites, like Twitter. Social networking sites are another key element to analyze the influence of mass media in the public agenda and to help understand the triangle media, politics and public opinion.

State of the research

A data visualization of front page data can be accessed at https://numeroteca.org/colorcorrupcion/

Thesis committe

The thesis committee is formed by Ismael Peña (tutor), Sasha Costanza-Chock and Victor Sampedro.

160418_seminar-presentation_uoc

Empieza a andar el grupo Bilbao Data

bilbao-data

El jueves 28 de abril de 2016 empieza a andar el grupo Bilbao Data. De 18.00h a 20.00h estaremos presentando la iniciativa en Wikitoki (Plaza de la Cantera 5, 2º, Bilbao). Hemos montado este grupo para intentar formar una comunidad en torno a los datos. A ver qué sale de todo esto.

Yo hablaré de los diferentes proyectos sobre datos en los que he particpado “Para trabajar con datos hay que generarlos”, en la mayoría de ellos el proceso ha pasado por crear o recopilar datos que no existían.

¿Qué vamos a hacer?

En esta primera sesión se va a presentar la iniciativa de Bilbao Data. Para mostrar qué cosas se pueden hacer algunos de sus participantes presentarán en sesiones exprés ejemplos de proyectos anteriores que han desarrollado.

El evento se integra dentro de las actividades previas de las IV Jornadas de periodismo de datos que tendrán lugar en Madrid de 5 al 7 de mayo 2016.

¿Qué es Bilbao Data?

El grupo de Datos Bilbao nace para explorar nuevas formas de analizar y visualizar datos. Pretende ser un punto de encuentro en Bilbao para todas las personas interesadas en trabajar con datos desde diferentes temáticas: economía, matemáticas, urbanismo o enfoques como la visualización de datos, la cartografía o el software. Todavía no nos hemos juntado, así que no tenemos una definición clara, pero estamos a medio camino entre una comunidad de aprendizaje un lugar de encuentro o un grupo desde el que generar proyectos.

¿Por qué?

Los medios de comunicación nos bombardean con la idea de que en la actualidad generamos más datos que nunca antes. Sería más acertado decir que somos capaces de acumular más cantidades de datos y que a la vez tenemos acceso a muchos tipos de bases de datos ¿cómo podemos hacer accesibles y usar estos datos para nuestro día a día? ¿cómo convertir la infoxicación en información?

¿Quiénes somos?

Un grupo de personas con ganas de pensar y compartir conocimientos en torno a los datos y la visualización de datos. Somos un grupo abierto (de hecho ¡todavía ni nos hemos formado como grupo ni hemos elegido un nombre!) y nos interesa trabajar principalmente con software libre, pero no es imprescindible.
La asociación y espacio Wikitoki (Laboratorio de procesos colaborativos) quiere servir para estos primeros pasos de anfitrión del grupo.

Programa del evento

  1. Presentación del grupo.
  2. Ronda de presentación de los asistentes.
  3. Presentación en modo Ignite (5 minutos por charla) de ejemplos concretos de trabajo con datos
    • Gorka: Mapa del tráfico o posibilidades con Udalmap (por definir).
    • Asier: “Inteligencia Artificial y predicción de resultados en un proyecto industrial”.
    • Aitana Oltra (@AitanaOltra): “Cuando los datos los aportan los ciudadanos” (ciencia ciudadana).
    • Habib Belaribi (@habsinn): “Familias y autismo en Francia: escuchar sobre los medios sociales para proponer otras terapias”
    • Pablo Rey Mazón (@numeroteca): “Para trabajar con datos hay que generarlos”.
    • ¡Tú! Abierto a la participación. Envíanos tu propuesta dejando un comentario más abajo.
  4. Debate sobre pasos futuros para el grupo: ¿comunidad de prácticas? ¿de aprendizaje? ¿desarrollar proyectos en conjunto? ¿punto de encuentro? ¿Creación de lista de correo? ¿siguientes pasos a dar? Próxima reunión encuentro.

Info actualizada sobre el evento en la web de Wiktoki.org.