El duro camino para publicar la serie de fallecidos por provincias en Euskadi

Así me siento tras conseguir reconstruir la serie de fallecidos por provincias.

Hace unos días os contaba lo difícil, por no decir imposible, que era seguir la evolución de los fallecidos por provincias en Euskadi, a no ser que dediques un buen rato, energía y técnica al asunto.

Basta pasearse por las páginas dedicadas a la COVID-19 en Euskadi en los principales diarios que ofrecen información local (eldiario.es, elcorreo.com, por ejemplo) para ver que esos gráficos de evolución de fallecidos por provincia no se publican. Y no se publican porque la Administración publica esos datos de una forma que hace imposible, digamos mejor muy dificultosa, su elaboración. Es un claro ejemplo de cómo la forma de publicar los datos dicta la agenda mediática. Publica los datos de una forma y los medios de comunicación hablarán de una determinada forma ¡Si quieres evitar que se hable de algo, no publiques esos datos!

Fallecidos diarios en las webs de El Correo y El Diario

Open Data Euskadi, la plataforma de datos abiertos en País Vasco, publica los datos diarios de fallecidos para toda Euskadi una vez a la semana (pestaña 08 de la hoja de cálculo). Por poner un ejemplo: hasta hoy solamente conocíamos los fallecidos agregados en las tres provincias vascas hasta el 15 de noviembre ¡hace 10 días!

Esta serie de datos vale para ver la evolución en la CAPV, pero no por provincia (Nota: sí que se publica en días laborables los fallecidos por hospitales, que era la cifra que usábamos, por aproximación, hasta hace bien poco).

Para construir la serie de fallecidos por provinicas tenemos que recurrir a los datos de fallecidos acumulados que se publican por municipio y una vez a la semana (pestaña 07). Ojo, no se publica el histórico, como sí se hace con los casos o los hospitalizados. Esto es, si quieres saber los fallecidos que había habido en un municipio en determinada fecha no puedes saberlo, porque el archivo que se publica sobre escribe al anterior. Tampoco puedes saber los fallecidos en una determinada semana, porque el dato que se publica es el total acumulado de muertes.

Esto cambió el 20 de octubre de 2020, tras solicitar que fuera posible acceder al histórico de archivos publicados. Además habría que comparar dos archivos para poder calcular el incremetno de muertes de una semana a otra. No nos engañemos, una tarea que nadie va a realizar. A pesar de la buena noticia de que ahora sí se guardan y se publican en abierto los archivos anteriores para permitir trazabilidad… las fechas anteriores al 20 de octubre siguen sin ser accesibles… a no ser que alguien haya guardado todos los archivos que se hayan publicado diariamente… y ¡nosotros lo hemos hecho! (esto es como el he “estudiado a Agrippa” de La Princesa Prometida).

Así que de este modo, no sin un poco de sudor, hemos podido reconstruir la serie histórica de fallecidos por municipios que nos ha permitido construir la serie por provinicas. Un proceso tedioso que implica rescatar con git (el sistema de versiones que usamos) todas las versiones de un archivo, construir la serie y agregar por provincias ¡Por fin tenemos la serie de fallecidos!

Fallecidos diarios por provincias en Euskadi. Se pueden ver los escalones de las últimas fechas al publicarse los datos de forma semanal. Para los últmos días se usan los datos de fallecidos en hospitales.
Más gráficos en la web de Escovid19data.

Tenemos un vacio entre mediados de mayo y junio: desde que se dejaron de publicar datos por provincias hasta que se empezó a hacerlo por municipios.

¿Por qué no se publican los datos históricos de fallecidos por municipios, OSI y provinicias? ¿a qué se debe esta opacidad y poner tan difícil una serie de datos que seguro está disponible internamente y que el resto de comunidades autónomas sí publican?

La serie de datos de casos y fallecidos sacada de los archivos por municipios está disponible, pero casi mejor usa la serie completa del repositorio de Escovid19data.

Tenemos más preguntas que ya hemos hecho a Open Data Euskadi, pero las dejamos para otro post.


Esta iniciativa de abrir datos abiertos forma parte del proyecto Escovid19data que recopila colaborativa y voluntariamente datos de COVID-19 en todas las comunidades y ciudades autónomas para ofrecer los datos y gráficos en abierto.

Fallecidos semanales en municpios de más de 10.000 habitantes en País Vasco. Más gráficos en la web de Escovid19data (se cambió la imagen, originalmente tenía un error en los colores),

Muerte por datos

Muero por datos cuando la administraciones publican datos aparentemente muy detallados pero que impiden ver el bosque.

Un ejemplo lo tenemos con los fallecidos por COVID-19 en Euskadi.

De primeras, si revisas las fuentes de datos que se publican, parece que hay muchos datos disponibles. Si miras un poco más en detalle parece imposible responder a una pregunta básica ¿cómo evolucionan los fallecidos por COVID-19 provincias en Euskadi?

Cada cuál llega con sus preguntas bajo el brazo e intentan que los datos le den la respuesta. En los medios de comunicación locales no he visto publicada la evolución de muertes por provincias.

En mi caso la inquietud forma parte del proyecto de recopilación y visualicación de datos colaborativo Escovid19data, que recopila datos de 19 territorios en España.

Open Data Euskadi ofrece varias series de datos de fallecidos, pero ninguna es la que necesitamos. Este es el listado de los diferentes conjuntos de datos que ofrecen:

  • Serie de fallecidos acumulados para todo Euskadi. Acumulados diarios del 24/02/2020 al 15/07/2020. Luego los datos pasan a publicarse semanalmente ¿por qué? Última fecha disponible 25/10/2020. Hace 16 días.
  • Serie de fallecidos diarios para todo Euskadi: “Casos positivos fallecidos en Euskadi por fecha de fallecimiento”. Datos diarios del 01/03/2020 al 01/11/2020 (hace 9 días). [2.212 acumulados]
  • Serie de fallecidos diarios por hospitales en Euskadi. Datos diarios del 01/03/2020 al 08/11/2020 desagregados por hospitales y el total diairo [1.528 acumulados].
  • Acumulados de fallecidos en cada municipio de Euskadi. No se ofrece la serie de datos temporales, se da el dato de la última fecha disponible con periodicidad semanal. Última fecha disponible 2020/11/01, hace 10 días.

Este último conjunto de datos es el que nos puede proporcionar la serie temporal de fallecidos por municipio y, por tanto, por provincia, si los agregamos convenientemente. Solamente podremos reconstruir la serie temporal si antes hemos ido descargando los archivos semana a semana. (El histórico de archivos publicados por Open Data Euskadi solamente está disponible desde el 20 de octubre 2020. Es buena noticia pero insuficiente para nuestro propósito).

Por suerte, en Escovid19data, hemos descargado el archivo situacion-epidemiologica.xlsx todos los días que ha sido publicado, así que en nuestro repositorio de git tenemos el histórico completo.

Con un script de git es posible obtener todas las versiones de un archivo y poder reconstruir la serie temporal.

Esperamos que Open Data Euskadi se anime a publicar la serie completa de fallecidos por provincias, como ha hecho recientemente con la serie de casos por franjas de edad. Originalmente se publicaba exclusivamente en datos diarios sueltos en los informes en PDF y ahora es una serie más de datos abiertos.

¿Por qué publicar una serie de casos detectados por provincias y no la de fallecidos?


El términio “death by data” fue usado por primera vez en este artículo “Longitudinal Field Research on Change: Theory and Practice” de Andrew M. Pettigrew (1990). Me lo ha soplado David Rodríguez Mateos, que es quien me introdujo al término.

Más gráficos sobre COVID-19 en Euskadi en la web de Escovid19data.

Análisis de propagación de COVID-19 por comunidades autónomas en España

Nota: no soy experto en epidemias ni en medicina. Me he limitado a plasmar gráficamente los datos publicados por el Ministerio de Sanidad. Si ves errores en los gráficos o de concepto, házmelo saber. Son datos de casos registrados, no tienen en cuenta los protocolos para obtención de datos (pruebas) de cada comunidad autónoma ni todos los casos “reales” que hay pero no han sido detectados.

Errores por resolver: la bajada de datos en Galacia en una base de datos acumulativa debe ser un error. Estamos mirando a qué puede deberse.


Hemos montado desde Montera34 una web para mantener actualizados estos datos en lab.montera34.com/covid19/


Cuando ayer publiqué una reflexión sobre lo que estaba pasando en relación al COVID-19 y la necesidad de autoencerrarse para la parar su propagación, no había mirado si había gráficos de evolución por comunidad autónoma en España. Sí que encontré mapas de “bolas”, tablas con el número por comunidad autónoma, pero no su evolución en el tiempo.

Lo primero que encontré fue el repositorio de datos por países (y algunas provincias y estados) que recopilan desde la universidad de Johns Hopkins y que se pueden ver en este dashboard de Rami Krispin. Sin embargo, lo que buscaba eran datos desagregados por comunidad autónoma o provincia en España, y esos no estaban disponibles. Quería conocer el avance del virus en mi entorno más cercano.

Encontré que el Ministerio de Sanidad, Consumo y Bienestar Social los estaba publicando en PDF (!) en informes diarios desagregados por comunidad autónoma. Cuando estaba descargando todos los PDF encontré que desde Datadista los habían pasado a un formato reutilizable. Alegría, visitad su respositorio. (Todavía no sé de qué PDF han sacado los datos previos al 3 de marzo, espero aclararlo cuando pueda).

Con los datos a mano monté un repositorio de R para analizar cómo estaba evolucionando la propagación por comunidad autónoma. Estos son los resultados.

Número de casos registrados

Lo primero es ver el número de casos registrados por cada comunidad autónoma. Un “small multiple” parece una buena opción para ver cada uno de los lugares:

Todos tienen una pendiente parecida. Sorprenden las “mesetas”, zona horizonal de de Cantabria y Extremadura. Ojo, porque estamos usando una escala logarítmica en el eje vertical, si usáramos una escala lineal veríamos poco o casi nada. (Sobre escala logarítmica y pandemias).

Podemos ver los mismos datos superpuestos en el siguiente gráfico, donde se aprecia que la pendiente es similar en cada línea. Una línea recta en una escala logarítmica indica que el crecimiento es exponencial. Madrid encabeza en número de casos seguido de País Vasco y Cataluña.

Si profundizamos un poco más podemos calcular los datos relativos a la población de cada comunidad autónoma. Aunque el número de casos acumulados es lo que muchos quieren saber, el relativo a su población nos puede permitir entender mejor lo que está pasando. En este caso representamos a los casos acumulados de COVID-19 por millón de habitantes:

La Rioja pasa del 4º al primer puesto con 647 por cada millón de habitanes, seguido por Madrid (208), País Vasco (156) y Navarra (111).

Número de ingresos en la UCI

Miremos ahora los casos registrados de personas en la UCI (Unidad de Cuidados Intensivos):

Madrid (135) parece está a la cabeza claramente en número de ingresos en la UCI por el COVID-19, seguida de Euskadi (18), y Castilla-La Mancha (9):

En números relativos también es la comunidad de Madrid la primera con respecto a su población, tiene 20,3 por cada millón de habitantes, seguida de Euskadi (8,2) y Navarra (4,6):

Fallecimientos por COVID-19

El número total de fallecimientos registrados por COVID-19 a día 12 de marzo de 2020 ascendía a 84 en toda España.

En números totales la Comunidad de Madrid va primera en fallecimientos con 56, muy lejos de Euskadi con 11.

Sin embargo, si lo relacionamos con su población, vemos que las diferencias no son tan grandes. La Rioja (6,3 fallecidos por cada millón de habitanes) pasa a estar muy cerca de Madrid (8,4), les siguen Euskadi (4,9) y Aragón (4,5).

Todo el código para producir estos gráficos está en este repositorio: https://code.montera34.com:4443/numeroteca/covid19. Os animo a echar un ojo y ayudar a mejorarlo. En la carpeta de imágenes podéis encontrar todas las que no han tenido cabida en este artículo.

Los datos representados son de casos registrados, según otros análisis, hasta que pasen varias semanas no sabremos

Fuente de los datos

Del COVID-19 en España están sacados del repositorio de Datadista los extrae a su vez de las tablas de la situación diaria de la enfermedad por el coronavirus (COVID-19) en España que publica el Ministerio de Sanidad, Consumo y Bienestar Social en incómodos PDF. Actualizados a día 12 de marzo de 2020. ¿Por qué no los publica en mejores formatos? Eso da para otro artículo.

Los datos de población en 2019 por comunidades autónomas son del INE.

Repositorio para ver cómo están hechos los gráficos con R. Participa. Los datos procesados están en /data/output.

Las visualizaciones actualizadas en lab.montera34.com/covid19

Coda: escala lineal vs escala logarítmica

A petición popular subo este gif animado que representa los mismos datos, número de casos registrados por comunidad autónoma en España cambiando la escala del eje vertical:

  1. escala líneal,
  2. escala logarítmica y
  3. escala logarítmica y casos por millón de habitantes.
A la izquierda escal lineal y a la derecha logarítmica

En la escala lineal solo se aprecia de manera clara los datos de Madrid.

Comparativa escala logarítmica y lineal en el eje vertical.

El hilo