Crear flujo de datos

 

1. Introducción

Un flujo de datos es una utilidad que permite, dado un juego de datos o conjunto de juegos de datos, obtener un juego de datos final, el cual ha sido tratado. Podemos verlo como un script que realiza múltiples tareas sobre unos datos de entrada y devuelve otros datos. Lo que nosotros estamos acostumbrados a hacer es descargar los datos en un fichero en formato xlsx o csv, para después procesarlo y trabajar con él en otra herramienta o con Python/Java/Julia…

 

En la versión actual, estas son las posibilidades que nos ofrecen dentro de un flujo de datos:

  • Agregar datos (juegos de datos).

  • Unir: lo usaremos cuando tengamos más de un juego de datos.

  • Unir filas, filtrar, y agregar.

  • Guardar juego de datos.

  • Agregar, seleccionar, renombrar y transformar columnas (esto nos resultará muy familiar si hemos trabajado con DataFrames de la librería pandas de Python).

  • Columnas de fusión y dividir columnas.

  • Bin, grupo y bifurcar.

  • Valor acumulativo, previsión de serie temporal y analizar sentimientos.

  • Entrenar predicción numérica, multiclasificador, agrupación en clústers y clasificador binario.

  • Aplicar modelo, modelo de IA y script personalizado.

  • Análisis de gráficos y de base de datos.

2. Guía para crear un flujo de datos sencillo

Antes de crear un flujo de datos, hay que fijarse bien en sí lo que queremos conseguir es suficientemente sencillo como para hacerlo en el propio juego de datos o en un libro de trabajo. En caso de que consideremos que el procesamiento y transformación de los datos de entrada es algo más complejo y requiera de operaciones que no podemos hacer con las otras herramientas, podemos intentarlo con un flujo de datos. La ventaja del flujo de datos es que podemos ejecutarlo cuando queramos y nos devolverá un juego de datos tratado.

A continuación, se explican los pasos a seguir a la hora de crear un flujo de datos. No se entra en detalle en todas las posibilidades si no que se comenta a nivel general como proceder, ya dependerá de cada usuario que operaciones necesita introducir:

  1. Aunque es menos habitual el uso de flujo de datos, al igual que con los juegos de datos y libros de trabajo, recomendamos revisar los flujos de datos existentes antes de crear uno nuevo. Para ello haremos una búsqueda por palabras clave en el buscador de la página de inicio. En caso de no encontrar nada similar, pulsaremos ‘Crear' y seleccionaremos ‘Flujo de Datos’.

  2. De la misma forma que lo hacíamos en los juegos y libros, elegiremos un nombre representativo compuesto por los siguientes términos:

    1. FDD (mayúsculas).

    2. Nombre del esquema (mayúsculas): entre 3-5 letras (GRH, GRE, EST, PER, …). Si ves que utiliza muchos campos de varios esquemas, puedes elegir el predominante y poner ambos separados por un guión ('-'). Por ejemplo (GRH-PER, GRH-EXP, …).

    3. Nombre que resume la información que devuelve el flujo de datos (primera en mayúscula). Utiliza un nombre intuitivo y descriptivo para que otros usuarios puedan encontrarlo si están buscando esos flujos.

Algunos ejemplos pueden ser FDD GRE Liquidación, FDD PER Jubilaciones o FDD GRH Coste plantilla.

  1. Una vez dentro del editor de creación de flujos de datos, nos aparecerá una pantalla para agregar datos. Aquí elegiremos todos los juegos de datos que queremos incluir en el flujo. En caso de que no aparezca esta pantalla o que necesitemos añadir juegos de datos más tarde, lo podemos hacer desde la opción image-20240906-094423.pngque aparece en el menú de la izquierda.

  2. Una vez tengamos los juegos de datos seleccionados, ya podemos empezar a añadir pasos a nuestro flujo de datos. Lo haremos desde el botón '+' situado al lado del juego de datos o arrastrando directamente el paso encima del juego de datos:

     

    fdd_01.gif
  3. Conforme vamos añadiendo pasos, si hacemos clic en cualquier de ellos (se marcará en verde), debajo podemos ir viendo el resultado de nuestro juego de datos de salida. Una vez hayamos finalizado de agregar pasos y tengamos lo que necesitamos, procedemos a guardar el flujo y a ejecutarlo. Para poder hacer eso tiene que haber al final del flujo un paso llamado ‘Guardar Juego de Datos’. Si no existe este paso, nos dará un error al ejecutarlo.

 

Una vez creado, podemos buscar nuestro flujo de datos tanto en Inicio como en Datos (se accede desde el Navegador de Oracle Analytics). Una vez encontrado, podemos ejecutarlo, abrirlo para modificarlo o programarlo (Nuevo Programa). En la siguiente ilustración podemos ver las diferentes opciones de las que disponemos a la hora de programar un flujo de datos:

fdd_02.gif