El objetivo es desarrollar una metodología gratuita y de acceso libre utilizando el servicio JupyterLab de Copernicus para el monitoreo y caracterización de incendios en Colombia. Además, se creará un geoportal, también de acceso libre, a través de Google Looker Studio para presentar los resultados, permitiendo que cualquier usuario los consulte y tome decisiones informadas. Los datos provendrán de sensores remotos como Sentinel2 y MODIS/VIRS.
1. Planteamiento del Problema
El problema que se aborda es la falta de una herramienta eficiente y accesible para el monitoreo y caracterización de incendios forestales en Colombia, lo que dificulta la gestión del riesgo y la respuesta oportuna a emergencias. Actualmente, la capacidad para detectar, mapear y evaluar en tiempo real la extensión y severidad de los incendios es limitada, lo que retrasa la toma de decisiones por parte de las autoridades y organismos encargados de la atención de desastres. Esta situación se agrava con el aumento de la frecuencia y magnitud de los incendios, impulsado por el cambio climático, cuyas condiciones extremas como sequías y olas de calor exacerban los incendios forestales.
La falta de integración de datos satelitales y herramientas tecnológicas avanzadas restringe la posibilidad de identificar áreas vulnerables y evaluar el impacto ambiental y socioeconómico de los incendios. Las entidades gubernamentales, ONGs y la comunidad científica requieren una plataforma que no solo proporcione información en tiempo cuasi real, sino que también genere estadísticas y mapas que faciliten la priorización de recursos y el análisis de las tendencias de incendios en el contexto del cambio climático.
A continuación se presentan el número de eventos asociados a incendios que han ocurrido en Colombia y sus principales efectos:
Figura 1. Registro de eventos asociados a incendios y sus principales efectos en Colombia. Fuente: UNGRD, 2024.
2. Área de estudio
Para el presente proyecto se selecciona como área piloto el departamento del Tolima, el cual es uno de los departamentos donde con mayor frecuencia se presentan incendios.
Tolima es un departamento ubicado en la región andina de Colombia, al occidente de Bogotá, a aproximadamente 160 km de la capital. Limita al norte con los departamentos de Caldas y Cundinamarca, al sur con Huila, al este con Cundinamarca y Meta, y al oeste con Quindío, Risaralda y Valle del Cauca. La capital del departamento es Ibagué, una ciudad conocida por su riqueza cultural y su cercanía al Parque Nacional Natural Los Nevados.
El Tolima tiene una extensión de aproximadamente 23,562 km², con paisajes diversos que incluyen montañas, valles, y zonas planas. El departamento está atravesado por la Cordillera Central y posee importantes cuerpos de agua, como los ríos Magdalena y Saldaña.
La población estimada del Tolima es de 1.3 millones de habitantes, según el censo de 2023, distribuidos en 47 municipios. La economía del departamento se basa principalmente en la agricultura, especialmente el cultivo de arroz, café, maíz y algodón, así como en la ganadería.
En cuanto a emergencias, el Tolima es una de las regiones más afectadas por incendios forestales en Colombia, especialmente durante la temporada seca (diciembre a marzo). Según la Unidad Nacional para la Gestión del Riesgo de Desastres (UNGRD), el departamento registra un promedio de 100 a 150 incendios forestales anualmente. Estas emergencias son exacerbadas por el cambio climático y la deforestación en zonas de alta vulnerabilidad.
Figura 2. Localización del área de estudio: departamento del Tolima, Colombia. Fuente: UNGRD, 2024.
3. Objetivos
4. Datos a usar
Figura 3. Correlación entre la composición de infrarrojo de onda corta y hotspot de NASA FIRMS (MODIS). Fuente: UNGRD, 2024.
5. Metodología
Software JupyterLab
Para la implementación se usará el servicio JupyterLab de Copernicus. JupyterLab es una interfaz de desarrollo interactiva y flexible que forma parte del ecosistema de Jupyter, un proyecto de código abierto que facilita la creación y el uso de cuadernos interactivos (notebooks). Estos cuadernos combinan código ejecutable, texto explicativo, visualizaciones, y otros elementos multimedia en un solo documento. JupyterLab es una evolución más avanzada y versátil del clásico Jupyter Notebook, con más herramientas y características para el análisis de datos y desarrollo colaborativo.
JupyterLab permite explorar, visualizar y analizar datos sin necesidad de instalar otras dependencias o descargar grandes conjuntos de datos, es decir este servicio permite aprovechar los productos del ecosistema de Copernicus y acceder a los datos de manera rápida y fácil.
Software Google Looker Studio
Google Looker Studio es una herramienta gratuita de Google que permite crear informes y dashboards interactivos y personalizados a partir de datos de diversas fuentes. Con Looker Studio, los usuarios pueden visualizar, analizar y compartir datos de manera fácil y dinámica mediante gráficos, tablas, mapas y otros elementos visuales. Esta herramienta permite tomar decisiones basadas en datos.
Desarrollo de metodología de detección
Cada registro de anomalía térmica será clasificado de acuerdo con su verificación, utilizando los siguientes códigos:
Figura 4. Base de datos usada para el entrenamiento del algoritmo de IA. Color amarillo: anomalía asociada a incendio verificada. Color verde: Anomalía que no corresponde a incendio. Fuente: UNGRD, 2024.
Primero, se cargan y procesan datos de MODIS, donde se convierte la columna de fechas al formato adecuado y se reproyectan las geometrías a un sistema de referencia espacial apropiado para la región de interés, en este caso, Colombia. A partir de estos datos, se generan características relevantes, como la cantidad de puntos cercanos dentro de un radio específico y el número de puntos recientes en un período de tiempo determinado. Estas características se estandarizan para asegurar que tengan escalas comparables.
El conjunto de datos se divide en entrenamiento y prueba, y se utiliza la técnica de sobre-muestreo SMOTE para abordar el problema del desequilibrio en las clases, permitiendo que el modelo aprenda de una representación más equitativa de las diferentes etiquetas. A continuación, se entrena el clasificador XGBoost con un conjunto de hiperparámetros optimizados, que incluye un aprendizaje adaptativo y un número controlado de estimadores, lo que ayuda a mejorar la precisión y la generalización del modelo.
Finalmente, el rendimiento del modelo se evalúa utilizando una matriz de confusión y un informe de clasificación que proporciona métricas detalladas sobre la precisión, la recuperación y la puntuación F1. Además, se implementa un pipeline que incluye tanto el balanceo de clases como el clasificador, permitiendo realizar una validación cruzada que refuerza la robustez del modelo mediante múltiples particiones del conjunto de entrenamiento. Este enfoque integrado asegura que el modelo no solo se ajuste bien a los datos de entrenamiento, sino que también generalice adecuadamente a datos no vistos.
6. Implementación y resultados
El código desarrollado en el presente proyecto se encuentra publicado en el repositorio libre de GITHUB para consulta, descarga y uso (https://github.com/jorgealpala/incendiosCOL).asi mismo, el dashboard elaborado en google looker studio esta disponible para consulta en el siguiente link: https://lookerstudio.google.com/reporting/2608d923-416a-4fe4-a5aa-36f7129c6d72
En la primera fase del código incendiosCOL.ipynb el usuario debe ingresar dos periodos de tiempo, antes y después del incendio, con estos datos el código calcula el NBR para cada época y finalmente el dNBR que cuantifica el área quemada en hectáreas.
Figura 5. Cálculo de NBR antes y después del incendio. Fuente: Autores, 2024.
Figura 6. Cálculo de dNBR para el periodo seleccionado por el usuario y cuantificación en hectáreas quemadas. Fuente: Autores, 2024.
Así mismo, con el objeto de brindar mayores herramientas para la identificación de áreas quemadas, en el código se incluyo la función de visualizar la zona antes y después del incendio en color verdadero, falso color y SWIR (infrarrojo de onda corta), a continuación se presenta los resultados de los mismos.
Figura 7. Color verdadero para imágenes sentinel2 antes y después del incendio. Fuente: Autores, 2024.
Figura 8. Falso color para imágenes sentinel2 antes y después del incendio. Fuente: Autores, 2024.
Figura 9. Infrarrojo de onda corta para imágenes sentinel2 antes y después del incendio. Fuente: Autores, 2024.
Posteriormente se realizo el entrenamiento del modelo de inteligencia artificial, donde se obtuvieron las siguientes métricas:
Figura 10. Métricas del modelo de IA. Fuente: Autores, 2024.
Los resultados del modelo revelan información valiosa sobre su rendimiento en la clasificación de los datos. La matriz de confusión muestra que el modelo fue capaz de clasificar correctamente 47 instancias de la clase 0 y 23 de la clase 1, mientras que cometió 7 falsos positivos y 10 falsos negativos. Esto sugiere que el modelo tiene un buen manejo general de la clase mayoritaria (clase 0), con una precisión del 82% y un recall del 87%, lo que significa que está identificando correctamente la mayoría de las instancias de esta clase.
Por otro lado, el rendimiento en la clase 1 es más moderado, con una precisión del 77% y un recall del 70%. Esto indica que aunque el modelo identifica bien muchas instancias de la clase 1, también está fallando en algunos casos al no detectarlas. El F1-score para la clase 1 es de 0.73, lo que refleja un equilibrio más bajo entre la precisión y el recall en comparación con la clase 0.
La precisión global del modelo es del 80%, lo que sugiere un rendimiento bastante bueno en general, aunque aún hay margen de mejora, especialmente en la identificación de la clase menos frecuente.
Los resultados de la validación cruzada ofrecen una visión adicional sobre la estabilidad y la generalización del modelo. Las puntuaciones del F1-score en las diferentes particiones muestran una variabilidad, con valores que oscilan entre 0.56 y 0.88. La media del F1-score de aproximadamente 0.75 indica que, en general, el modelo tiene un rendimiento aceptable en diferentes subconjuntos de datos, pero la variabilidad sugiere que el modelo podría beneficiarse de ajustes adicionales, quizás en la selección de características o en la calibración de hiperparámetros.
En resumen, el modelo muestra un buen desempeño en la clase mayoritaria, pero se debe prestar atención a la mejora de la clasificación de la clase minoritaria, junto con un enfoque en la consistencia de su rendimiento a través de diferentes validaciones.
Con el modelo entrenado, se procedió a clasificar las anomalías recientes detectadas por el sensor MODIS en el departamento del Tolima para el periodo del 01-07-2024 al 25-10-2024. En total para el periodo mencionado y para el área del departamento del Tolima se tenían 336 anomalías y de las cuales 127 resultados clasificadas como anomalías asociadas a incendios. Los resultados se muestran a continuación.
Figura 11. Superior: Anomalías reportadas por MODIS para el periodo de 01-07-2024 al 25-10-2024 en el departamento del Tolima. Inferior: Anomalías clasificadas como incendios para el periodo de 01-07-2024 al 25-10-2024 en el departamento del Tolima. Fuente: Autores, 2024.
Luego, se procedió a descargar del portal de NASA FIRMS los datos anomalías térmicas del sensor MODIS para el periodo del 01-01-2020 a 30-06-2024 de todo el territorio Colombiano (127380 datos), los cuales usando el modelo de IA entrenado previamente, detecto que 49724 anomalías del set de datos inicial si corresponden a incendios, así mismo se calcularon otros parámetros que permiten caracterizar mejor los mismos.
Figura 12. Anomalías térmicas asociadas incendios detectadas por IA para el periodo de 01-01-2020 a 30-06-2024. Fuente: Autores, 2024.
Figura 13. Latitud vs Anomalías térmicas asociadas incendios detectadas por IA para el periodo de 01-01-2020 a 30-06-2024. Fuente: Autores, 2024.
Figura 14. Longitud vs Anomalías térmicas asociadas incendios detectadas por IA para el periodo de 01-01-2020 a 30-06-2024. Fuente: Autores, 2024.
Figura 15. Distribución geográfica de anomalías térmicas asociadas incendios detectadas por IA para el periodo de 01-01-2020 a 30-06-2024. Fuente: Autores, 2024.
Los datos resultantes se compilan en un archivo tipo GeoPackage (modis_nrt_incendios_detectados.gpkg) el cual puede ser descargado de la plataforma para ser analizado en cualquier software SIG.
7. Verificación
Para la verificación, se utilizaron los datos del archivo modis_nrt_incendios_detectados.gpkg, el cual contiene anomalías térmicas clasificadas como incendios mediante un algoritmo de inteligencia artificial. Se seleccionaron aleatoriamente zonas fuera del departamento del Tolima y de fechas diferentes a las del conjunto de datos de entrenamiento. Luego, se superpuso una imagen SWIR de Sentinel-2 con las anomalías reportadas como incendios, utilizando la imagen correspondiente a la fecha más cercana a la reportada en las anomalías. A continuación, se presentan tres ejemplos:
Figura 16. Imagen de Sentinel2 en combinación SWIR para la zona oriental de Bucaramanga el día 23-01-2024, en color amarillo las anomalías de MODIS clasificadas como incendios. Fuente: Autores, 2024.
Figura 17. Imagen de Sentinel2 en combinación SWIR para la zona Mariangola - Valledupar del día 27-02-2024, en color amarillo las anomalías de MODIS clasificadas como incendios. Fuente: Autores, 2024.
Figura 18. Imagen de Sentinel2 en combinación SWIR para la zona Barrancabermeja del día 03-03-2024, en color amarillo las anomalías de MODIS clasificadas como incendios. Fuente: Autores, 2024.
8. Conclusiones
El código desarrollado durante esta hackathon ofrece diversas capacidades que potencian la gestión de incendios en Colombia:
9. Recomendaciones