Construyendo GTFS estáticos para el servicio de transporte público de Santander

Uno de los pasos previos para generar feeds GTFS en tiempo real es crear previamente los denominados feeds GTFS estáticos, los cuales contiene información que cambia poco en el tiempo. Estos GTFS modelan aspectos particulares como son los horarios de transporte (viajes, tarificación, etc.)  y la información geográfica asociada (paradas y rutas).

Un feed GTFS estático es una colección de entre 6 y 13 archivos CSV (con extensión .txt) contenidos en un archivo .zip.
Estos feeds incluyen datos sobre los horarios programados, las ubicaciones de parada, la información de la ruta y opcionalmente la información de tarifas y los detalles sobre el trazado de la ruta durante un período programado.

Algunas agencias y operadores de transporte público publican estos feed en formato GTFS. Sin embargo, no es el caso de la empresa de Transporte Urbano de Santander (TUS), por lo que fue necesario un esfuerzo de recopilación y normalización de datos para construir el conjunto de tablas CSV que describen las operaciones programadas del sistema de transporte como visibles para los usuarios.

Fusión de datos de paradas provenientes de las fuentes Organicity y OSM .

Todos los datos relativos a los horarios de transporte público necesarios para construir los feeds GTFS estáticos proceden de fuentes de datos públicas (principalmente de la web de la empresa municipal de transporte de Santander). Nos obstante, uno de los grandes inconvenientes encontrados ha sido que mucha de esta información se encuentra únicamente disponible en formatos no estructurados, como documentos PDF o incluso archivos de imagen. La falta de homogeneización puede causar no pocos quebraderos de cabeza cuando se trata de realizar un análisis de la información, por lo que hubo que abordar su normalización antes de comenzar cualquier proceso.

Todo ello nos ha obligado a recurrir a técnicas de raspado de datos mediante scrapers, el uso de programas de limpieza y análisis de los datos o a la automatización de recolección de fuentes mediante herramientas ETL.

A esto hay que añadir los trabajos para localizar de forma precisa todas las paradas del TUS, así como trazar cada una de las rutas de los autobuses y asociar a cada una de ellas sus paradas correspondientes. Para esta tarea ha sido indispensable la utilización de JOSM, el editor avanzado para datos de OpenStreetMap (OSM), que simplifica los trabajos de cartografiado y edición de rutas de transportes público.

Con todo ello, ya tenemos los datos estáticos necesarios para la generación del feed GTFS. Paso previo y necesario para poder disponer de un feed GTFS en tiempo real que proporcione, por un lado, la posición de los vehículos de transporte cada 30 segundos y, por otro lado, estimaciones actualizadas de tiempos de llegada de los autobuses.

¡Seguimos avanzando en nuestro experimento!

Guardar

Guardar

Guardar

Guardar

Guardar

Guardar

Guardar

Guardar

Guardar

Guardar

Guardar

Guardar

Guardar

Guardar