Introducción a la ciencia de datos geoespaciales#

Trabajo previo#

Lecturas#

Hwang, J. P. (2021, septiembre 3). Building a Big Data Geographical Dashboard with Open-Source Tools. Plotly. https://medium.com/plotly/building-a-big-data-geographical-dashboard-with-open-source-tools-c5108d7d5683

Rey, S. J., Arribas-Bel, D., & Wolf, L. J. (2020). Geographic Data Science with Python. https://geographicdata.science/book/ (Parte I)

Wu, Q. (2021, octubre 25). A streamlit app for creating timelapse of annual Landsat imagery (1984–2021). Medium. https://giswqs.medium.com/a-streamlit-app-for-creating-timelapse-of-annual-landsat-imagery-1984-2021-3db407a8ac32

El componente geoespacial de los datos#

Una gran parte de los datos disponibles contiene algún tipo de componente geográfico o espacial[^footnote-geografico-espacial]. Este componente puede expresarse de varias formas. Por ejemplo:

../../_images/nepal-map.jpg

Fig. 6 Mapa de Nepal que muestra la ubicación del Monte Everest en el sistema de coordenadas geográficas. Fuente: https://www.mapsofworld.com/.#

Las coordenadas correspondientes a lugares y direcciones pueden obtenerse a través de un proceso denominado georreferenciación, mediante el cual, en general, se determina la posición espacial de alguna entidad en un sistema de coordenadas. La georreferenciación puede emplearse también para obtener las coordenadas de, por ejemplo, fotografías aéreas o mapas antiguos. Es un proceso que puede resultar complejo y costoso y para el que se han desarrollado metodologías y plataformas especializadas (ej. Chapman AD & Wieczorek JR (2020) Georeferencing Best Practices, GEOLocate, Nominatim).

En la actualidad, hay una gran cantidad de fuentes que generan datos georreferenciados. Entre estas pueden mencionarse las tecnologías de observación de la Tierra (Earth Observation) (ej. imágenes satelitales), los dispositivos móviles y los sensores remotos, entre muchas otras.

El enfoque de ciencia de datos geoespaciales#

La ciencia de datos geoespaciales es una especialización de la ciencia de datos que considera variables espaciales como la localización, la distancia y las relaciones topológicas (ej. intersección, traslape, cobertura), las cuales usualmente no son tomadas en cuenta por la ciencia de datos convencionales.

Adicionalmente, la ciencia de datos geoespaciales utiliza herramientas y métodos especializados, algunos de los cuales provienen de otras tecnologías de procesamiento de datos espaciales, como los sistemas de información geográfica (SIG). Sin embargo, la ciencia de datos geoespaciales extiende las capacidades de los SIG mediante técnicas estadísticas y computacionales más avanzadas para el análisis y la modelización. Además, puede requerir de una mayor capacidad de procesamiento y de flujos de trabajo (pipelines) más complejos.

El uso masivo de tecnologías como dispositivos móviles, redes sociales y sensores remotos, entre muchas otras, ha incrementado significativamente la disponibilidad de datos geoespaciales en formato digital y la conveniencia de su procesamiento mediante técnicas de ciencia de datos.

Características de los datos geoespaciales#

Toda observación tiene asociada una localización en el espacio (ej. coordenadas geográficas), la cual permite entender mejor sus relaciones con otras observaciones y que puede ser utilizada para realizar mejores inferencias y predicciones. Como lo afirmó el geógrafo estadounidense Waldo Tobler (1930 - 2018):

Todas las cosas están relacionadas entre sí, pero las cosas cercanas están más relacionadas que las distantes [].

Por lo tanto, si se entienden apropiadamente las relaciones espaciales entre los datos, es posible desarrollar mejores modelos [RABW20].

Modelos de datos geoespaciales#

Los modelos de datos geoespaciales se utilizan para representar procesos geográficos en una computadora [RABW20]. Los modelos más utilizados son el vectorial y el raster.

Modelo vectorial#

Se usa para representar objetos discretos como puntos (ej. personas, postes telefónicos), líneas (ej. ríos, caminos) y polígonos (ej. provincias, fincas) que ocupan una posición específica en el espacio y en el tiempo. Los datos vectoriales se almacenan en tablas como la que se muestra en la Fig. 7. Estas tablas contienen una columna para almacenar las geometrías.

../../_images/tabla-vectorial.png

Fig. 7 Datos vectoriales almacenados en un geodataframe del paquete geopandas de Python. Imagen de [RABW20].#

Modelo raster#

Se usa para representar superficies (ej. temperatura, precipitación, densidad de población) que, en teoría, pueden ser medidas en cualquier posición en el espacio y en el tiempo. Los datos raster se almacenan en arreglos multidimensionales (matrices, cubos) como el que se muestra en la Fig. 8.

../../_images/matriz-raster.png

Fig. 8 Datos raster almacenados en un Data.Array del paquete xarray de Python. Imagen de [RABW20].#

Redes#

Sergio Rey, Daniel Arribas-Bel y Levi Wolf [RABW20] incluyen las redes, un conjunto de conexiones entre objetos, como otro modelo de datos, el cual puede implementarse mediante grafos. La Fig. 9 muestra una red.

../../_images/grafo-red.png

Fig. 9 Datos de red. Imagen de [RABW20].#

Herramientas de software geoespacial#

El software geoespacial incluye programas SIG de escritorio (ej. QGIS, ArcGIS), programas utilitarios para la línea de comandos del sistema operativo (ej. GDAL), servidores web de mapas (ej. GeoServer, MapServer) y sistemas administradores de bases de datos (ej. PostgreSQL/PostGIS, Oracle Spatial and Graph). Muchos de estos programas utilizan bibliotecas programadas en C/C++ que han sido migradas a otros lenguajes de programación y proporcionan funcionalidades básicas para conversiones entre formatos, geoprocesamiento y conversiones entre sistemas de coordenadas. Algunas de las principales de estas bibliotecas son:

Referencias bibliográficas#

[RABW20] (1,2,3,4,5,6)

Sergio J. Rey, Daniel Arribas-Bel, and Levi J. Wolf. Geographic Data Science with Python. 2020. URL: https://geographicdata.science/book/ (visited on 2021-12-31).