Introducción a la ciencia de datos con Julia- Parte 2

Introducción

En esta oportunidad vamos a continuar presentando las opciones que tenemos empleando paquetes de Julia orientados a la ciencia de datos. Se tiene como principal objetivo lograr obtener resultados similares a los vistos en el post anterior, pero en esta oportunidad realizarlo en menos pasos aprovechando las ventajas de algunos paquetes que nos permiten desarrollar código digamos «encadenado» para una ejecución simultánea de operaciones, con la finalidad de preparar tablas de resultados según algunos criterios establecidos. Por otro lado, nos plantemos el reto de incluir la siguiente etapa del llamado «Proceso de análisis de datos«, es decir, la visualización a través de la generación de gráficos, los mismos que vamos a incluir como parte del código elaborado.

Encadenamiento de código en Julia

En Julia como ya lo venimos adelantando existe la opción de «encadenar» código empleando los llamados operadores Pipe (|>). Para lograr nuestro objetivo vamos a emplear otros paquetes de Julia, nos referimos a Queryverse, siendo uno de los más completos para ciencia de datos. De la misma manera exploraremos al paquete Chain.jl como otra alternativa en manipulación de datos encadenando código. En resumen vamos a demostrar las ventajas que tenemos al usar dos alternativas, primero la combinación DataFrames+DataFramesMeta y luego el uso del paquete Queryverse, que incluye varios paquetes para el manejo de datos tabulares, incluyendo la posibilidad de generar gráficos.

Uso de DataFramesMeta.jl

Si revisamos la documentación del paquete DataFramesMeta, apreciamos que @chain desde Chain.jl, forma parte de la lista de macros disponibles, es decir que podemos emplearlo para unir más de un macro a la vez. A continuación compartimos el código elaborado en Julia, con la diferencia que emplearemos otra fuente de datos, el mismo presenta mayores detalles como por ejemplo la altitud de los centros poblados.

Si revisamos el código, vemos que iniciamos con el uso de los paquetes DataFrames y CSV para incorporar nuestros datos (table_ccpp_inei.csv), luego empleamos el macro @chain con la finalidad de ir encadenando macros como funciones. Un paso importante es el uso del macro @combine, que a diferencia de lo que vimos anteriormente, nos facilita crear y nombrar nuevas columnas definiendo simplemente funciones sobre nuestras columnas de origen. Para el caso del ordenamiento, se menciona la existencia del macro @orderby, pero al no funcionar sobre datos agrupados, empleamos el ya conocido sort. De la misma manera apreciamos el uso del macro @subset, que nos permite realizar filtros, seleccionando un subconjunto de filas sobre las columnas con valores numéricos. También empleamos el macro @transform para incorporar nuevas columnas de datos realizando algunas operaciones, teniendo la ventaja de poder asignar directamente los nombres a las nuevas columnas.

El resultado de este código se aprecia en la siguiente figura:

Uso del Queryverse.jl

Como lo menciona su documentación oficial, Queryverse.jl es un metapaquete que reúne varios paquetes para manejar datos en Julia, teniendo como su principal objetivo facilitar la instalación de todo el Queryverse de una vez. En el presente post exploraremos algunos de las ventajas de éstos paquetes, en especial para la manipulación de datos y la visualización. Para mostrar todo el ecosistema de Queryverse con los paquetes que lo integran se elaboró el siguiente diagrama.

Según información de: https://www.queryverse.org/packages/

Vamos a compartir el código en donde empleamos Queryverse, el mismo asume que fue instalado, siguiendo los pasos ya vistos anteriormente.

En este código hay muchas cosas por analizar, empezaremos con el hecho que solo hemos activado un solo paquete, pero como ya vimos integra varios otros que nos permiten trabajar. Como se aprecia el código se inicia con abrir nuestra tabla de datos, ahora simplemente usamos load(), esto gracias al paquete CSVFiles.jl, desde aquí empezamos a encadenar procesos, siendo uno de los primeros la realización de un filtro doble con @filter, que forma parte del paquete Query.jl, como la mayoría que estaremos usando. Algo nuevo que vemos sucede luego de hacer el agrupamiento con @groupby, porque debemos generar una named tuple, para establecer nuestras columnas de datos agrupados, emplearemos para eso el macro @map y dentro de { } definimos los valores.

Para el caso del ordenamiento de datos, vamos a emplear @orderby_descending sobre el campo donde se almacena la suma de la población por distrito, logrando tener los valores mayores en las primeras filas. Ahora viene algo interesante, el uso del macro @tee, que en realidad si apreciamos el código fue empleado durante la generación de salidas, pero que nos permite que el código no se cierre y pueda realizar otras acciones, en nuestro caso, queríamos generar un gráfico, pero antes, guardar en formatos tanto de CSV como XLSX nuestro resultado.

En relación a la generación de gráficos, ahora simplemente generaremos un simple gráfico de barras a través de VegaLite.jl usando @vlplot, pero que en una próxima entrega será dedicado a mayor profundidad este como otros paquetes similares. Finalmente, tenemos la oportunidad también de salvar nuestro gráfico en formato PNG.

Reflexión Final

En esta oportunidad se pudo ver la gran flexibilidad que tenemos al emplear sobre todo Queryverse, aunque el uso de macros con DataFramesMeta nos permite realizar operaciones rápidas aprovechando sobre todo si trabajamos con DataFrames. Algo que no debo dejar de pasar, es el hecho que es muy recomendable no mezclar ambos procedimientos o conjunto de paquetes, sobre todo porque existen algunos macros que pueden originar conflictos por tener la misma denominación. En resumen, a pesar que solo es una introducción, hemos vistos varias cosas interesantes, aunque es verdad, podemos seguir explorando y profundizando mucho más, además está todavía pendiente el dedicarle toda una entrada al proceso de visualización de datos, por ahora solo se incluyo un simple gráfico de barras, pero Julia tiene todo un ecosistema muy variado para realizar todo lo que nos podemos imaginar.

Para quienes deseen reproducir todos los códigos, se actualizó el repositorio https://github.com/ccarbajal16/IntroDataScience. Muy pronto también se elaborará un video al respecto.

Introducción a la ciencia de datos con Julia-Parte 1

Tabla de contenidos

Introducción

En esta oportunidad iniciare una serie de entradas ligadas a la ciencia de datos empleando el lenguaje Julia, siendo una importante motivación la posibilidad de explorar una alternativa que me permite analizar distintos tipos de datos, siendo mi especial interés aquellos que tienen el componente espacial. En los últimos meses le estuve dedicando tiempo a conocer mejor a Julia y como producto de ello quiero compartir parte de lo aprendido, siendo mi deseo el seguir escribiendo sobre las ventajas que tenemos con Julia. Como primeras acciones se han elaborado un par de vídeos sobre su instalación y los primeros pasos que debemos considerar para iniciarnos en esta aventura.

Proceso de análisis de datos

En esta primera parte me pienso enfocar en tres fases dentro del conocido como proceso de análisis de datos: Importar, Ordenar y Transformar.

Si lo vemos dentro de un flujo, el mismo que corresponde a las etapas definidas por Hadley Wickham, resaltamos en la siguiente gráfica lo considerado por ahora.

Fuente: Ciencia de Datos para Gente Sociable – Antonio Vasquez Brust

Procedimiento

Si bien nos enfocaremos en el uso de Julia, por la naturaleza de los datos iniciaremos apoyándonos en otras herramientas. Los datos a emplear tienen un componente geográfico, por lo tanto, empleará el software QGIS, con la final de realizar un preprocesamiento necesario.

Fuente de Datos – Uso de QGIS

Como fuente de datos vamos a considerar los siguientes:

Como parte de la preparación de nuestros datos para un posterior análisis se ha creado un Proyecto en QGIS con la incorporación de un grupo de capas, tal como se aprecia en la siguiente figura.

El procedimiento seguido para obtener dichas capas a partir de los datos descargados se puede resumir en las siguientes figuras.

Las capas que corresponden a dist_huanuco, prov_huanuco y dep_huanuco, fueron obtenidos desde los datos libres del OpenStreetMap. En QGIS empleamos el plugin QuickOSM para realizar la extracción de elementos que corresponden a los mismos.

Vista del uso del plugin QuickOSM

Al final, todas las capas que fueron preprocesadas en QGIS fueron exportados al formato GeoJSON y de manera adicional las capas que presentan geometría de puntos fueron exportados en un formato tipo CSV.

Exportando a formato CSV

Julia con Visual Studio Code

Ahora que tenemos los datos que vamos a emplear en nuestra carpeta de trabajo, vamos abrir el mismo empleando Visual Studio Code. En la actualidad considero que es una de las mejores opciones para trabajar Julia, en especial por la facilidad que tenemos para incorporar extensiones que permiten tener un mejor entorno de trabajo. Para nuestro objetivo voy a dividirlos en extensiones que son necesarios y aquellos recomendados, los últimos buscan principalmente mejorar la visualización de nuestro código.

  • Necesarios: Julia, Jupyter, Geo Data Viewer, HTML Preview, Office Viewer, Tabnine.
  • Recomendados: Julia Color Themes, Better TOML, Rainbow End, Prettify JSON, Rainbow CSV, Better Comments, vscode-icons

Luego de instalar las extensiones necesarias en VSCode, debemos realizar los siguientes pasos:

  1. Abrir la vista del terminal (habilitarlo desde el menú view)
  2. Iniciamos el REPL (por defecto se usa Alt + j Alt + o)
  3. Activamos nuestro entorno en nuestra carpeta (usamos la tecla ] y luego activate .)
  4. Dentro de nuestro entorno iniciamos la instalación de los paquetes de Julia requeridos, solo ingresamos el comando add seguido del nombre del paquete. Para esta primera parte usaremos los siguientes: IJulia, CSV, ArchGDAL, DataFrames, DataFramesMeta, PrettyTables)
  5. Luego ejecutamos el comando status, para verificar que todos los paquetes fueron instalados.
  6. Finalmente verificamos que se han generado dos archivos, el Project.toml y el Manifest.toml (incluyen información de los paquetes instalados como las dependencias, versiones, compatibilidad, nombres, etc.).

Es importante resaltar que al contar con Project.toml + Manifest.toml, es posible crear una instancia del mismo entorno de paquetes, lo cual es muy útil para la reproducibilidad.

Importación de datos

En Julia tenemos a las extensiones de CSV, DataFrames y ArchGDAL para apoyarnos en la importación de datos que tenemos en nuestra carpeta de trabajo. Para el caso de archivos en formato CSV podemos emplear el siguiente código.

En el caso que necesitemos trabajar con formatos de tipo GeoJSON, emplearemos el paquete ArchGDAL, que usa la librería GDAL para trabajar con diversos formatos de datos geoespaciales vectoriales y ráster.

Considerar que el resultado a diferencia del anterior, se incluye una columna con la geometría de los datos (wkbPoint). Se recomienda ejecutar typeof(dat_geo) y typeof(layer_geo), para conocer los tipos de datos generados.

Para realizar una exploración a nuestros datos en nuestro Dataframe emplearemos la función describe, obteniendo una tabla en donde se presenta algunos datos estadísticos, pero lo que quiero resaltar es la identificación de datos faltantes en algunas columnas.

Generando Tablas en formato HTML

Con la finalidad de ir visualizando nuestros resultados tabulares, vamos a generarlos en un formato más amigable como el html, para ello empleamos el paquete PrettyTables. Para automatizar la generación y posterior guardado de nuestras tablas usaremos una función específica, aunque en su documentación mencionan el procedimiento para guardar las tablas, para la función debo reconocer que seguí las indicaciones mostradas por el canal julia for talented amateurs.

Ordenar los datos

En Julia podemos ordenar rápidamente nuestros datos empleando la función sort, el uso de «!» seguido de la función indica una solicitud para cambiar los datos originales de manera permanente, en otras palabras, es considerado como la versión «in-place«. De la misma manera vamos a emplear la función dropmissing para eliminar los datos faltantes a nuestro Dataframe. Ambos resultados serán guardados en html.

Transformar los datos

En Julia para realizar una operación de agrupamiento, primero se debe crear un objeto GroupedDataFrame a partir del DataFrame empleando la función groupby. La función toma dos argumentos, el mismo DataFrame y un conjunto de columnas para agrupar. Luego se puede aplicar a cada grupo las funciones Combine, Select y Transform. En nuestro caso vamos a usar el primero, siendo muy útil para calcular estadísticas resumidas por grupo. Mayor detalle sobre la opciones de dichas funciones lo pueden encontrar aquí.

Como podemos apreciar en nuestro último resultado, no existe una columna que enumere las filas, por lo tanto, vamos a crear una columna índice, de la misma manera, al crear la columna en donde se sumaron los valores de población por distrito (name) y se identificaron los valores únicos (pe_ubigeo), por defecto se nombraron dichas columnas, en nuestro caso vamos a modificar los encabezados empleando la función rename. También vamos a convertir la última columna para que represente un valor de tipo String y finalmente el resultado lo guardaremos en un archivo con formato CSV.

Uso de Macros

Sobre herramientas de metaprogramación para DataFrames, Julia a través de los denominados macros presentes gracias al paquete DataFramesMeta, nos brinda la oportunidad de contar con una sintaxis más conveniente. En esta oportunidad exploraremos una de sus bondades como por ejemplo el uso de filtros y también opciones que tenemos para encadenar procesos (uso de operadores «Pipe«). En posteriores entradas profundizaré estos temas con otros paquetes, por ahora solo es un ejemplo básico pero muy útil.

Incorporando tablas a nuestro mapa

Como punto adicional, quisiera mostrarles la ventaja que tenemos ante la posibilidad de incorporar tablas en formato html a nuestro compositor de mapas en el QGIS. A continuación se muestra una imagen como ejemplo.

Reflexión Final

Considero que lo presentado hasta el momento nos puede dar una idea del gran potencial que tenemos al manejar nuestros datos empleando algunos paquetes de Julia. Para quienes ya tienen conocimiento de Python y R, se habrán fijado cierta similitud, incluso al leer la documentación de los paquetes de Julia, algunos de ellos fueron inspirados en dichos lenguajes. Si llegaron hasta aquí espero que haya despertado el interés en el uso de Julia, porque como dije, esto solo es el inicio de un grupo de entradas en donde me dedicaré a explorar otros paquetes que nos permitan realizar otro de los procesos importantes como la visualización.

Para quienes deseen probar todo lo visto hasta el momento, se ha generado un repositorio en donde se comparte todo el código y el proyecto de QGIS para visualizar el mapa. https://github.com/ccarbajal16/IntroDataScience.

También comparto un video elaborado sobre el procedimiento seguido.