Exploración de datos con DataVoyager

Tabla de contenidos

Introducción

En busca de herramientas que nos permiten visualizar nuestros datos y a modo de complementar lo que vimos con VegaLite en una entrada anterior, en esta oportunidad probaremos el uso de un paquete de Julia denominado DataVoyager.jl. Nuestro objetivo será mostrar de manera práctica las ventajas de trabajar con una herramienta interactiva de visualización que nos puede ayudar como parte del proceso de exploración inicial de nuestros datos.

Detalles sobre DataVoyager.jl

En principio, debemos entender que este paquete de Julia viene integrado dentro del metapaquete Queryverse, logrando proporcionar herramientas interactivas de exploración de datos. Se basa en el proyecto Voyager y está estrechamente integrado con VegaLite.jl. Como vemos, el paquete usa como fuente Vega, que trabaja a través de una gramática de visualización, un lenguaje declarativo para crear, guardar y compartir diseños de visualización interactivos, el mismo que a través de su aplicativo Voyager presenta una interfaz de visualización para la exploración de datos. Proporciona una interfaz para especificar la especificación Vega-Lite, con recomendaciones de gráficos impulsadas por el motor de recomendación de visualización Compass (como lenguaje de consulta). Como dato adicional, Voyager además de ser utilizado por Julia a través de DataVoyager, para quienes tienen la costumbre de usar JupyterLab, existe una extensión para que lo puedan probar.

Uso de DataVoyager

Para nuestra demostración vamos a emplear unos datos en formato CSV y de libre acceso: Crop Yield and Production. Como primera acción debemos instalar los paquetes requeridos. Podemos desde una IDE como Visual Studio Code, activar el REPL con las teclas Alt j + Alt o, y luego de usar ], adicionamos los paquetes VegaDatasets, DataVoyager, CSVFiles, DataFrames y VegaLite.

(@v1.7) pkg>add <package>

Vamos a generar un archivo que en mi caso lo denominé eda.jl, para iniciar nuestro código activando los paquetes instalados.

using VegaDatasets  
using DataVoyager   
using CSVFiles
using DataFrames
using VegaLite  

Ahora como primer ejemplo emplearemos una de los datos disponibles que tenemos al usar VegaDatasets, nos referimos a «iris«.

dat_iris = dataset("iris") |> Voyager()
Vista de DataVoyager con datos de Iris

Opciones dentro de DataVoyager

Como se aprecia en la imagen previa, en digamos el campo de datos, ha reconocido las columnas de los datos, colocando el símbolo «#» al inicio para aquellos que presentan datos de tipo numérico o cuantitativo y «A«, para aquellos de tipo nominal. A partir de ahora queda a nuestro criterio ir agrupando los datos en los ejes X e Y respectivos (solo se arrastran), teniendo como una de las opciones cuando se visualizan nuestros datos el poder diferenciarlos por colores arrastrando dentro de «Mark» en donde indica «color» por ejemplo la columna de datos «species» y también lo podemos dividirlos en files o columnas si arrastramos los mismos datos dentro de donde indica «Facet«.

Vista de gráficos empleando opciones de marcas y facetas.

Otra opción que podemos apreciar es la posibilidad de incorporar algunos filtros, como ejemplo arrastramos una columna de datos numéricos con la finalidad de reducir los valores a un rango específico de valores, con la finalidad de ajustar nuestro gráfico. Como se aprecia en la figura siguiente, se elimina valores de una especie que esta fuera del rango establecido por el filtro.

Uso de nuestro datos

Ahora nos toca usar los datos que fueron descargados de la fuente ya mencionada. Seguiremos el mismo procedimiento seguido con la diferencia que debemos agregar el paso previo de leer datos en formato CSV, empleando el paquete CSVFiles.jl, luego con el paquete DataFrames.jl generar nuestra estructura de datos bajo el esquema de los Dataframes.

crop_data = load("voyager/data/crop_production.csv") |>DataFrame

v = crop_data |> Voyager()
Vista de nuestros datos dentro de DataVoyager

Luego de ajustar nuestras columnas de datos empleando las opciones que tenemos dentro de esta herramienta, vamos a generar un gráfico que será mostrado en nuestra vista específica. Finalmente si estamos conforme con el resultado, es obvio que necesitamos exportarlo a un formato de imagen por lo general para que puede ser incluido en quizás alguna presentación que necesitamos realizar. Para ello podemos seguir las indicaciones del siguiente código en Julia.

plot1 = v[]

plot1 |> save("voyager/output/prod_media.svg")

Si bien podemos exportarlo a otros formatos como *.png, se recomienda emplear el formato *.svg, con la finalidad de tener una mejor presentación sin alteración en la calidad de la imagen.

Reflexión Final

Siempre considero importante tener la posibilidad de explorar nuestros datos de manera rápida, ahora conocemos una herramienta que nos permite realizarlo de manera interactiva y de manera muy «visual», generando gráficos de manera rápida y de manera intuitiva, aunque es verdad que estamos limitados en el conocimiento más profundo de los datos, sobre todo desde el lado de la calidad de los mismos, es decir, a primera vista no podríamos darnos cuenta si existen datos faltantes por ejemplo. En general considero que esta herramienta podría ser muy útil para datos que de antemano conocemos que son confiables y necesitamos mostrar gráficos para una presentación rápida. Mientras exploraba la herramienta, me pude dar cuenta que la aplicación propia del mismo Voyager, presenta mayores opciones, les recomiendo probarla y si quieren profundizar también pueden revisar su documentación que es muy completa sobre todo lo que podríamos realizar con esta herramienta. También logre encontrar un paper sobre el mismo.

Bueno, espero que la herramienta presentada sea de mucha utilidad al momento de hacer una exploración inicial de sus datos. De la misma manera se ha elaborado un video sobre el uso de esta herramienta para que puedan ver con mayor detalle las opciones que fueron empleadas.

Uso de VegaLite para visualizar mapas

Tabla de contenidos

Introducción

Como lo prometimos en la entrada previa, vamos a profundizar una de las herramientas de Julia para generar gráficos, el mismo que esta presente como parte del paquete Queryverse, nos referimos a VegaLite.jl. Con el objetivo de mostrar todo el camino seguido para lograr nuestros resultados, voy a iniciar planteando el reto de generar mapas empleando VegaLite y algunos paquetes ya vistos previamente, de la misma manera, asumo que mi fuente de datos lo conforman dos capas de datos vectoriales, una de los límites distritales del Departamento de Huánuco en Perú (polígono) y otra de centros poblados (puntos) presentes en el mismo ámbito. Por otro lado, a diferencia de la última entrega, ahora vamos a elaborar un notebook con Pluto, con la finalidad de hacerlo digamos más interactivo.

Características Principales del VegaLite.jl

El paquete se basa en Vega-Lite, que extiende una gramática tradicional de API de gráficos a una gramática de gráficos interactivos (preimpresión). Junto con Vega-Lite, hay soporte básico para gráficos Vega. Como lo menciona su documentación, VegaLite.jl le permite crear una amplia gama de gráficos estadísticos. Expone la funcionalidad completa del Vega-Lite subyacente y, al mismo tiempo, está estrechamente integrado en el ecosistema de Julia.

Una de las principales diferencias al usar Vega-Lite es contar con una sintaxis JSON declarativa y concisa para crear una gama expresiva de visualizaciones para el análisis y la presentación de datos. Las especificaciones de Vega-Lite describen visualizaciones como asignaciones de codificación de datos a propiedades de marcas gráficas – Mark (por ejemplo, puntos o barras). Vega-Lite esta diseñado para admitir el análisis de datos, por lo tanto, admite tanto transformaciones de datos (por ejemplo, agregación, agrupamiento, filtrado, clasificación) como transformaciones visuales (por ejemplo, apilamiento y facetado). Además, las especificaciones de Vega-Lite se pueden componer en pantallas en capas y multivista, e interactuar con las selecciones [1].

Procedimiento:

Fuente de Datos

Como lo mencionamos, partiremos de dos capas de tipo vectorial, una de polígonos (dist_huanucof.geojson)y otra de puntos (ccpp_huanuco.gpkg). Nos apoyaremos del software QGIS para preparar nuestros datos y pueden ser empleados con el paquete VegaLite.jl.

Fig. 1: Fuente de datos

El paso siguiente fue convertir nuestra capa de polígonos en un formato de tipo topojson, siendo uno de los formatos que nos permite trabajar como fuente de datos en Vega-Lite [2]. Para lograrlo vamos a usar un Plugin de QGIS denominado TopoJSON Writer, con la finalidad de tener nuestro archivo con el formato requerido.

Fig.2: Uso del plugin TopoJSON Writer

Luego, nuestra capa de centros poblados que está en formato Geopackage, debemos exportarlo a un formato CSV, para lograrlo simplemente lo hacemos en QGIS seleccionándolo desde el panel de capas y activamos la herramienta de Exportar–> Guardar objetos como…, en la próxima vista en la opción de Formato, seleccionamos CSV.

Uso de Pluto

En mi canal se elaboró un video sobre lo básico de Pluto, por lo tanto, voy asumir que conocen algo sobre como trabajar Notebooks con Pluto, entonces comencemos con el código en Julia, primero activamos Pluto con using Pluto y luego Pluto.run().

fig.3: Vista de Pluto con las primeras celdas

Como se aprecia lo que quiero resaltar en esta primera vista, es que luego de tener nuestra capa que fue convertida a un formato topojson, se debe editar la extensión a json. Es importante mencionar que en los ejemplos de la documentación oficial, la fuente de datos que emplean son extraídos desde una lista que están disponibles de forma directa usando el paquete VegaDatasets. Pero nuestro objetivo fue que VegaLite pueda leer nuestro capa en formato topojson, para ello, revisando posibles ayudas en la red, encontré una solución desde un foro de Julia y la puse en práctica. Como podemos ver, tuve que emplear el paquete JSON, luego como se puede ver, nuestro archivo ya fue reconocido como un VegaJSONDataset.

Generando los primeros gráficos con VegaLite

Ahora que contamos con nuestra fuente de datos en el formato que lo puede reconocer VegaLite, iniciamos una sintaxis relativamente sencilla para generar nuestro primer gráfico. El reto era mostrar el mapa de los Distritos del Departamento de Huánuco.

fig. 4: Primer mapa generado con VegaLite

De lo que podemos apreciar en el código, resalto el hecho que como lo mencionamos en las características del Vega-Lite, podemos definir una «marca gráfica» a representar (Mark), para nuestro caso es Geoshape, la cual representa formas arbitrarias cuya geometría está determinada por datos de formas GeoJSON especificados que se proyectan desde coordenadas geográficas a píxeles. Luego existen indicaciones para incluir título y también para definir las dimensiones de nuestro «lienzo» con width y height. Ahora un punto sensible es cuando debemos indicar la data que debe considerar, en este caso como se aprecia en la fig. 3, el objeto «d» corresponde a nuestra capa de polígonos y que corresponde a un formato topojson. En el caso de feature, si abrimos nuestro archivo convertido, podemos apreciarlo, siendo representado por el objeto que presenta un tipo de geometría (multipolígono).

fig.5: Identificación de la propiedad feature.

Como se trata de datos geoespaciales, debemos definir el sistema de referencia o proyección. Una lista de valores en relación al tipo que debemos emplear lo pueden revisar aquí. En nuestro caso empleamos el denominado «Mercator«.

Para hacerlo más interesante, vamos a incluir los datos de centros poblamos a nuestro mapa, por lo tanto, necesitamos preparar los datos para ser empleados con VegaLite. En este caso estamos empleando las funciones que viene incluida en el paquete CSVFiles.

fig.6: Uso del paquete CSVFiles para abrir un archivo delimitado por comas.

Ahora vamos a generar un mapa con los distritos juntos a los centros poblados.

fig.7: Mapa integrando dos capas de datos vectoriales, límite distrital y centros poblados

Como se aprecia en el código, vemos que podemos dividirlo para contar con una sintaxis más fluida, luego lo podemos unir con «+«, pero lo importante aquí es que además de la marca Geoshape, ahora hemos agregado la marca Circle, indicando que la fuente se refiere a la capa de centros poblados (puntos) que fue definida según lo visto en la fig.6. Por lo tanto, es importante indicarle los campos en donde se encuentras las coordenadas que representan dichos puntos, la indicación «:q«, se refiere a valores cuantitativos (quantitative). Luego se aprecia algunas propiedades relacionadas a temas de estilos.

Aplicando filtros para ser integrado a nuestro mapa

Ahora necesitamos integrar otros datos que sean extraídos de nuestras propias fuentes, para ello vamos a usar filtros gracias a las funciones disponibles en el paquete Query.jl.

fig.8: Uso de filtros empleando el paquete Query.

Ahora podemos definir nuestro objeto que será empleado en nuestro próximo mapa.

fig.9: Vista de los campos de datos como resultado de aplicar filtros.

Finalmente vamos a generar un mapa con todo lo que tenemos hasta ahora.

fig.10: Definición de propiedades más avanzadas a nuestro mapa.

Se presenta la parte del código que fue modificada para obtener nuestro resultado final. Como podemos ver, en esta oportunidad primero estamos coloreando los centros poblados en función a la provincia que pertenecen (ver la propiedad de color), luego vamos a incluir una leyenda en función para ver los nombres y los colores que fueron empleados. Seguidamente apreciamos que para nuestros datos filtrados (cp_cap), vamos a representarlos en función a sus valores cuantitativos de población y relacionados a la propiedad de tamaño (Size), es decir a mayor población el punto tendrá un mayor «tamaño» y todos ellos de color rojo. Al final también decidimos incluir etiquetas, para ello usamos la marca Text, y como se puede apreciar se incluye diversas propiedades para contar con una mejor visualización. El resultado se aprecia en la siguiente figura:

fig.11: Vista del mapa final elaborado con VegaLite

Para poder incluir nuestro mapa en algún informe o presentación podemos guardarlo en un formato de imagen. Empleando la función save se guardó en formato SVG para tener una mejor calidad de visualización de nuestro mapa.

fig.12: Guardando nuestro mapa en formato SVG.

Reflexión Final

En Julia tenemos muchas opciones para generar gráficos, VegaLite nos muestra quizás una de las maneras más distintas pero potente para ser trabajado. Reconozco que al comienzo fue complicado entender la sintaxis, pero nada como la práctica para irse familiarizando, en especial porque podemos tener una gráfico de manera simple en pocas líneas y si seguimos una estructura de manera ordenada podemos ir subiendo en complejidad pero a su vez un gráfico mucho mejor elaborado. No quiero dejar de mencionar que todo el código lo pudimos ejecutar instalando solamente los paquetes de Queryverse y JSON, pero quise mostrarles los paquetes de manera individual para que lo vayan conociendo a mayor profundidad, sobre todo sus utilidades específicas.

Bueno, espero que haya contribuido en el conocimiento de éstas herramientas, aunque no tengo pensado cual sería mi próxima entrada, estoy seguro que buscaré que sea alguna herramienta que sea de mucha utilidad. Todo los datos para que puedan reproducirlo esta en un repositorio que fue creado para este ejemplo (https://github.com/ccarbajal16/vegalite_pluto ). Hasta la próxima.


[1] https://vega.github.io/vega-lite/
[2] https://vega.github.io/vega-lite/docs/data.html

Introducción a la ciencia de datos con Julia- Parte 2

Introducción

En esta oportunidad vamos a continuar presentando las opciones que tenemos empleando paquetes de Julia orientados a la ciencia de datos. Se tiene como principal objetivo lograr obtener resultados similares a los vistos en el post anterior, pero en esta oportunidad realizarlo en menos pasos aprovechando las ventajas de algunos paquetes que nos permiten desarrollar código digamos «encadenado» para una ejecución simultánea de operaciones, con la finalidad de preparar tablas de resultados según algunos criterios establecidos. Por otro lado, nos plantemos el reto de incluir la siguiente etapa del llamado «Proceso de análisis de datos«, es decir, la visualización a través de la generación de gráficos, los mismos que vamos a incluir como parte del código elaborado.

Encadenamiento de código en Julia

En Julia como ya lo venimos adelantando existe la opción de «encadenar» código empleando los llamados operadores Pipe (|>). Para lograr nuestro objetivo vamos a emplear otros paquetes de Julia, nos referimos a Queryverse, siendo uno de los más completos para ciencia de datos. De la misma manera exploraremos al paquete Chain.jl como otra alternativa en manipulación de datos encadenando código. En resumen vamos a demostrar las ventajas que tenemos al usar dos alternativas, primero la combinación DataFrames+DataFramesMeta y luego el uso del paquete Queryverse, que incluye varios paquetes para el manejo de datos tabulares, incluyendo la posibilidad de generar gráficos.

Uso de DataFramesMeta.jl

Si revisamos la documentación del paquete DataFramesMeta, apreciamos que @chain desde Chain.jl, forma parte de la lista de macros disponibles, es decir que podemos emplearlo para unir más de un macro a la vez. A continuación compartimos el código elaborado en Julia, con la diferencia que emplearemos otra fuente de datos, el mismo presenta mayores detalles como por ejemplo la altitud de los centros poblados.

Si revisamos el código, vemos que iniciamos con el uso de los paquetes DataFrames y CSV para incorporar nuestros datos (table_ccpp_inei.csv), luego empleamos el macro @chain con la finalidad de ir encadenando macros como funciones. Un paso importante es el uso del macro @combine, que a diferencia de lo que vimos anteriormente, nos facilita crear y nombrar nuevas columnas definiendo simplemente funciones sobre nuestras columnas de origen. Para el caso del ordenamiento, se menciona la existencia del macro @orderby, pero al no funcionar sobre datos agrupados, empleamos el ya conocido sort. De la misma manera apreciamos el uso del macro @subset, que nos permite realizar filtros, seleccionando un subconjunto de filas sobre las columnas con valores numéricos. También empleamos el macro @transform para incorporar nuevas columnas de datos realizando algunas operaciones, teniendo la ventaja de poder asignar directamente los nombres a las nuevas columnas.

El resultado de este código se aprecia en la siguiente figura:

Uso del Queryverse.jl

Como lo menciona su documentación oficial, Queryverse.jl es un metapaquete que reúne varios paquetes para manejar datos en Julia, teniendo como su principal objetivo facilitar la instalación de todo el Queryverse de una vez. En el presente post exploraremos algunos de las ventajas de éstos paquetes, en especial para la manipulación de datos y la visualización. Para mostrar todo el ecosistema de Queryverse con los paquetes que lo integran se elaboró el siguiente diagrama.

Según información de: https://www.queryverse.org/packages/

Vamos a compartir el código en donde empleamos Queryverse, el mismo asume que fue instalado, siguiendo los pasos ya vistos anteriormente.

En este código hay muchas cosas por analizar, empezaremos con el hecho que solo hemos activado un solo paquete, pero como ya vimos integra varios otros que nos permiten trabajar. Como se aprecia el código se inicia con abrir nuestra tabla de datos, ahora simplemente usamos load(), esto gracias al paquete CSVFiles.jl, desde aquí empezamos a encadenar procesos, siendo uno de los primeros la realización de un filtro doble con @filter, que forma parte del paquete Query.jl, como la mayoría que estaremos usando. Algo nuevo que vemos sucede luego de hacer el agrupamiento con @groupby, porque debemos generar una named tuple, para establecer nuestras columnas de datos agrupados, emplearemos para eso el macro @map y dentro de { } definimos los valores.

Para el caso del ordenamiento de datos, vamos a emplear @orderby_descending sobre el campo donde se almacena la suma de la población por distrito, logrando tener los valores mayores en las primeras filas. Ahora viene algo interesante, el uso del macro @tee, que en realidad si apreciamos el código fue empleado durante la generación de salidas, pero que nos permite que el código no se cierre y pueda realizar otras acciones, en nuestro caso, queríamos generar un gráfico, pero antes, guardar en formatos tanto de CSV como XLSX nuestro resultado.

En relación a la generación de gráficos, ahora simplemente generaremos un simple gráfico de barras a través de VegaLite.jl usando @vlplot, pero que en una próxima entrega será dedicado a mayor profundidad este como otros paquetes similares. Finalmente, tenemos la oportunidad también de salvar nuestro gráfico en formato PNG.

Reflexión Final

En esta oportunidad se pudo ver la gran flexibilidad que tenemos al emplear sobre todo Queryverse, aunque el uso de macros con DataFramesMeta nos permite realizar operaciones rápidas aprovechando sobre todo si trabajamos con DataFrames. Algo que no debo dejar de pasar, es el hecho que es muy recomendable no mezclar ambos procedimientos o conjunto de paquetes, sobre todo porque existen algunos macros que pueden originar conflictos por tener la misma denominación. En resumen, a pesar que solo es una introducción, hemos vistos varias cosas interesantes, aunque es verdad, podemos seguir explorando y profundizando mucho más, además está todavía pendiente el dedicarle toda una entrada al proceso de visualización de datos, por ahora solo se incluyo un simple gráfico de barras, pero Julia tiene todo un ecosistema muy variado para realizar todo lo que nos podemos imaginar.

Para quienes deseen reproducir todos los códigos, se actualizó el repositorio https://github.com/ccarbajal16/IntroDataScience. Muy pronto también se elaborará un video al respecto.

Introducción a la ciencia de datos con Julia-Parte 1

Tabla de contenidos

Introducción

En esta oportunidad iniciare una serie de entradas ligadas a la ciencia de datos empleando el lenguaje Julia, siendo una importante motivación la posibilidad de explorar una alternativa que me permite analizar distintos tipos de datos, siendo mi especial interés aquellos que tienen el componente espacial. En los últimos meses le estuve dedicando tiempo a conocer mejor a Julia y como producto de ello quiero compartir parte de lo aprendido, siendo mi deseo el seguir escribiendo sobre las ventajas que tenemos con Julia. Como primeras acciones se han elaborado un par de vídeos sobre su instalación y los primeros pasos que debemos considerar para iniciarnos en esta aventura.

Proceso de análisis de datos

En esta primera parte me pienso enfocar en tres fases dentro del conocido como proceso de análisis de datos: Importar, Ordenar y Transformar.

Si lo vemos dentro de un flujo, el mismo que corresponde a las etapas definidas por Hadley Wickham, resaltamos en la siguiente gráfica lo considerado por ahora.

Fuente: Ciencia de Datos para Gente Sociable – Antonio Vasquez Brust

Procedimiento

Si bien nos enfocaremos en el uso de Julia, por la naturaleza de los datos iniciaremos apoyándonos en otras herramientas. Los datos a emplear tienen un componente geográfico, por lo tanto, empleará el software QGIS, con la final de realizar un preprocesamiento necesario.

Fuente de Datos – Uso de QGIS

Como fuente de datos vamos a considerar los siguientes:

Como parte de la preparación de nuestros datos para un posterior análisis se ha creado un Proyecto en QGIS con la incorporación de un grupo de capas, tal como se aprecia en la siguiente figura.

El procedimiento seguido para obtener dichas capas a partir de los datos descargados se puede resumir en las siguientes figuras.

Las capas que corresponden a dist_huanuco, prov_huanuco y dep_huanuco, fueron obtenidos desde los datos libres del OpenStreetMap. En QGIS empleamos el plugin QuickOSM para realizar la extracción de elementos que corresponden a los mismos.

Vista del uso del plugin QuickOSM

Al final, todas las capas que fueron preprocesadas en QGIS fueron exportados al formato GeoJSON y de manera adicional las capas que presentan geometría de puntos fueron exportados en un formato tipo CSV.

Exportando a formato CSV

Julia con Visual Studio Code

Ahora que tenemos los datos que vamos a emplear en nuestra carpeta de trabajo, vamos abrir el mismo empleando Visual Studio Code. En la actualidad considero que es una de las mejores opciones para trabajar Julia, en especial por la facilidad que tenemos para incorporar extensiones que permiten tener un mejor entorno de trabajo. Para nuestro objetivo voy a dividirlos en extensiones que son necesarios y aquellos recomendados, los últimos buscan principalmente mejorar la visualización de nuestro código.

  • Necesarios: Julia, Jupyter, Geo Data Viewer, HTML Preview, Office Viewer, Tabnine.
  • Recomendados: Julia Color Themes, Better TOML, Rainbow End, Prettify JSON, Rainbow CSV, Better Comments, vscode-icons

Luego de instalar las extensiones necesarias en VSCode, debemos realizar los siguientes pasos:

  1. Abrir la vista del terminal (habilitarlo desde el menú view)
  2. Iniciamos el REPL (por defecto se usa Alt + j Alt + o)
  3. Activamos nuestro entorno en nuestra carpeta (usamos la tecla ] y luego activate .)
  4. Dentro de nuestro entorno iniciamos la instalación de los paquetes de Julia requeridos, solo ingresamos el comando add seguido del nombre del paquete. Para esta primera parte usaremos los siguientes: IJulia, CSV, ArchGDAL, DataFrames, DataFramesMeta, PrettyTables)
  5. Luego ejecutamos el comando status, para verificar que todos los paquetes fueron instalados.
  6. Finalmente verificamos que se han generado dos archivos, el Project.toml y el Manifest.toml (incluyen información de los paquetes instalados como las dependencias, versiones, compatibilidad, nombres, etc.).

Es importante resaltar que al contar con Project.toml + Manifest.toml, es posible crear una instancia del mismo entorno de paquetes, lo cual es muy útil para la reproducibilidad.

Importación de datos

En Julia tenemos a las extensiones de CSV, DataFrames y ArchGDAL para apoyarnos en la importación de datos que tenemos en nuestra carpeta de trabajo. Para el caso de archivos en formato CSV podemos emplear el siguiente código.

En el caso que necesitemos trabajar con formatos de tipo GeoJSON, emplearemos el paquete ArchGDAL, que usa la librería GDAL para trabajar con diversos formatos de datos geoespaciales vectoriales y ráster.

Considerar que el resultado a diferencia del anterior, se incluye una columna con la geometría de los datos (wkbPoint). Se recomienda ejecutar typeof(dat_geo) y typeof(layer_geo), para conocer los tipos de datos generados.

Para realizar una exploración a nuestros datos en nuestro Dataframe emplearemos la función describe, obteniendo una tabla en donde se presenta algunos datos estadísticos, pero lo que quiero resaltar es la identificación de datos faltantes en algunas columnas.

Generando Tablas en formato HTML

Con la finalidad de ir visualizando nuestros resultados tabulares, vamos a generarlos en un formato más amigable como el html, para ello empleamos el paquete PrettyTables. Para automatizar la generación y posterior guardado de nuestras tablas usaremos una función específica, aunque en su documentación mencionan el procedimiento para guardar las tablas, para la función debo reconocer que seguí las indicaciones mostradas por el canal julia for talented amateurs.

Ordenar los datos

En Julia podemos ordenar rápidamente nuestros datos empleando la función sort, el uso de «!» seguido de la función indica una solicitud para cambiar los datos originales de manera permanente, en otras palabras, es considerado como la versión «in-place«. De la misma manera vamos a emplear la función dropmissing para eliminar los datos faltantes a nuestro Dataframe. Ambos resultados serán guardados en html.

Transformar los datos

En Julia para realizar una operación de agrupamiento, primero se debe crear un objeto GroupedDataFrame a partir del DataFrame empleando la función groupby. La función toma dos argumentos, el mismo DataFrame y un conjunto de columnas para agrupar. Luego se puede aplicar a cada grupo las funciones Combine, Select y Transform. En nuestro caso vamos a usar el primero, siendo muy útil para calcular estadísticas resumidas por grupo. Mayor detalle sobre la opciones de dichas funciones lo pueden encontrar aquí.

Como podemos apreciar en nuestro último resultado, no existe una columna que enumere las filas, por lo tanto, vamos a crear una columna índice, de la misma manera, al crear la columna en donde se sumaron los valores de población por distrito (name) y se identificaron los valores únicos (pe_ubigeo), por defecto se nombraron dichas columnas, en nuestro caso vamos a modificar los encabezados empleando la función rename. También vamos a convertir la última columna para que represente un valor de tipo String y finalmente el resultado lo guardaremos en un archivo con formato CSV.

Uso de Macros

Sobre herramientas de metaprogramación para DataFrames, Julia a través de los denominados macros presentes gracias al paquete DataFramesMeta, nos brinda la oportunidad de contar con una sintaxis más conveniente. En esta oportunidad exploraremos una de sus bondades como por ejemplo el uso de filtros y también opciones que tenemos para encadenar procesos (uso de operadores «Pipe«). En posteriores entradas profundizaré estos temas con otros paquetes, por ahora solo es un ejemplo básico pero muy útil.

Incorporando tablas a nuestro mapa

Como punto adicional, quisiera mostrarles la ventaja que tenemos ante la posibilidad de incorporar tablas en formato html a nuestro compositor de mapas en el QGIS. A continuación se muestra una imagen como ejemplo.

Reflexión Final

Considero que lo presentado hasta el momento nos puede dar una idea del gran potencial que tenemos al manejar nuestros datos empleando algunos paquetes de Julia. Para quienes ya tienen conocimiento de Python y R, se habrán fijado cierta similitud, incluso al leer la documentación de los paquetes de Julia, algunos de ellos fueron inspirados en dichos lenguajes. Si llegaron hasta aquí espero que haya despertado el interés en el uso de Julia, porque como dije, esto solo es el inicio de un grupo de entradas en donde me dedicaré a explorar otros paquetes que nos permitan realizar otro de los procesos importantes como la visualización.

Para quienes deseen probar todo lo visto hasta el momento, se ha generado un repositorio en donde se comparte todo el código y el proyecto de QGIS para visualizar el mapa. https://github.com/ccarbajal16/IntroDataScience.

También comparto un video elaborado sobre el procedimiento seguido.