Preparación de datos con Zoho DataPrep

Preparación de datos con Zoho DataPrep

Zoho DataPrep es un software avanzado de preparación de datos de autoservicio que ofrece una solución integral para preparar grandes volúmenes de datos de varias fuentes de datos. El complemento Zoho DataPrep proporciona contextualmente la funcionalidad de preparación de datos de Zoho DataPrep en Zoho Analytics. Esto permite mejorar significativamente la calidad de sus datos mediante su clasificación y preparación antes del análisis.


DataPrep durante la importación

Si tiene el complemento Zoho DataPrep, puede importar sus datos y utilizar la opción Prepara datos para limpiar y preparar los datos durante la importación.

En los siguientes pasos se explica cómo invocar Preparar datos durante la importación:
  1. Seleccione el archivo que desee importar.
  2. En el panel Crear tabla (importar), haga clic en Preparar datos.


  3. Se abrirá el panel Preparar datos. Puede aplicar varias transformaciones, como cambiar el formato de números, encontrar y reemplazar, y definir conjuntos de reglas para enriquecer la calidad de los datos.
  4. Haga clic en Aplicar cambios.
  5. Se abrirá el panel Crear tabla (importar). Puede revisar la configuración de la tabla, como el nombre de la tabla o si la primera fila contiene el nombre de la columna. Realice los cambios que sean necesarios.


Nota: La columna Formato de fecha y Configuración de CSV (separador de miles y separador decimal) no se pueden cambiar después de utilizar la opción Preparar datos.

Prepare los datos a partir de una tabla

En el caso de que no haya podido comprobar la calidad de los datos o preparar los datos durante la importación, siempre puede utilizar las opciones que se encuentran en Más, y hacer clic en la opción Ver la calidad de los datos para analizar la calidad de los datos de su tabla o utilizar la opción Preparar datos a fin de transformar datos.



Ver la calidad de los datos

Con esta opción se proporciona una descripción general de la calidad de los datos de la tabla. Hay tres apartados en el panel de análisis de la calidad de datos:

  1. Resumen: muestra el número de columnas, filas y tipos de datos disponibles.
  2. Calidad de los datos: muestra el gráfico de calidad de los datos de la tabla.
  3. Calidad de datos a nivel de columna: indica solamente las columnas que contienen datos no válidos.

Prepare los datos

Si hace clic en la opción Preparar datos, se abrirá el panel de preparación de datos. Veamos los componentes disponibles en el panel DataPrep.

Barra de calidad de datos

DataPrep ofrece numerosas opciones para medir y mejorar la calidad de los datos. La calidad de los datos se puede evaluar en las siguientes áreas en el panel de preparación de datos.

Una barra de calidad de datos representa la calidad de los datos en cada columna. Divide la calidad de los datos en datos válidos, datos no válidos y valores faltantes, según el tipo de datos de la columna. 

El color verde representa datos válidos, el rojo representa datos no válidos y el gris representa los valores faltantes. Cuando se hace clic en una sección, DataPrep filtra las filas adecuadas para gestionar fácilmente los valores no válidos o faltantes en su conjunto de datos. 

Pase el cursor sobre la barra de calidad de datos para ver rápidamente la calidad de los datos de una columna. En el gráfico de calidad de los datos específico de la columna se revela esta información. Puede optar por filtrar los datos válidos, no válidos y faltantes en la columna mediante las opciones proporcionadas.

Haga clic en la opción Mostrar para todas las columnas a fin de mostrar la calidad de los datos de todas las columnas. 

Detalles del conjunto de datos 

En los detalles del conjunto de datos se revela la calidad de los datos de todo el conjunto de datos mediante un gráfico de calidad de los datos. El número se deriva de la calidad colectiva de las columnas individuales. 

Verá esta sección por primera vez cuando se cargue un conjunto de datos en la pantalla de preparación de datos y cuando no se seleccione ninguna de las columnas. 

En los detalles del conjunto de datos se muestra la siguiente información.

  • Tamaño de la muestra.
  • Estrategia de muestra (incluye muestras de datos aleatorios, erróneos, basadas en columnas e iniciales).
  • Número de filas.
  • Número de columnas.
  • Número de tipos de datos en el conjunto de datos.

Si los datos importados son lo suficientemente pequeños, se importará todo el conjunto de datos para la preparación de los datos y los detalles de la muestra no se mostrarán en la sección de detalles del conjunto de datos.

Estrategia de muestra


La generación de datos de muestra basados en los datos importados se denomina estrategia de muestra. Puede elegir uno de los cuatro métodos para crear una muestra. También puede cambiar la estrategia en cualquier momento durante el proceso de preparación de datos. Haga clic en el icono Editar para cambiar la estrategia de muestra.

Las siguientes son las diferentes estrategias de muestra disponibles: 

  • Muestra inicial: generada a partir de las filas iniciales del archivo importado.
  • Muestra aleatoria: filas seleccionadas aleatoriamente del archivo importado. 
  • Muestra errónea: filas que contienen entradas no válidas o faltantes. 
  • Muestra basada en la columna: generada según los distintos valores de la columna seleccionada.

Gráfico de calidad de los datos

El gráfico de calidad de los datos divide estos en un porcentaje de datos válidos, no válidos y valores faltantes. Haga clic en los apartados del gráfico para ver selectivamente los datos válidos, no válidos y los valores faltantes en su conjunto de datos. A continuación, se muestra una instantánea del gráfico de calidad de los datos.


Distribución de datos

En la parte superior de cada columna se muestra una representación gráfica de la distribución de datos y el rango de valores presentes en una columna como un histograma. Con el histograma, puede detectar valores atípicos y anomalías en los datos. También puede seleccionar una barra del histograma para filtrar los datos dentro de un rango específico. 

Detalles de la columna

Los detalles de la columna se muestran en el panel lateral cada vez que se selecciona una columna. 
  • En la sección de detalles de la columna, se muestra un resumen de cada columna con su tipo de datos, el número de valores únicos en la columna y el número de entradas faltantes, no válidas y válidas. 
  • Puede cambiar el tipo de datos de la columna mediante el botón de edición junto a la opción Tipo de datos
  • También puede hacer clic en el enlace Mostrar más detalles para ver la vista ampliada de la sección de detalles de la columna.  

Histograma

En los detalles de la columna hay una versión detallada del histograma. Puede buscar y filtrar los datos de la columna a partir de este histograma. También puede editar los valores presentes en el histograma y modificarlos en toda la columna, como se muestra en la siguiente captura de pantalla.

 
Sugerencias inteligentes

También puede utilizar las sugerencias inteligentes de DataPrep para resolver rápidamente algunos de los problemas comunes y mejorar la calidad de los datos. DataPrep predice las siguientes operaciones en función de los datos importados y hace sugerencias para la preparación efectiva de los datos. Las transformaciones del nivel de columna se sugieren cuando se selecciona una columna y se sugiere la transformación del nivel de conjunto de datos cuando no se selecciona una columna en particular en la tabla.
  • Cuando haga clic en una de las operaciones sugeridas, será dirigido a la barra de operaciones con una vista previa en tiempo real de la transformación que se aplicará a sus datos. 
  • Puede optar por editar las opciones y las condiciones en la barra de operaciones antes de aplicar la operación sugerida. 

Detalles de columna expandidos

En la sección de detalles de columna expandidos hay más detalles sobre los datos de la columna, incluidos los patrones de datos autoidentificados y los valores atípicos.

Las siguientes aplicaciones están disponibles en la vista de detalles de columna expandidos:

  • Resumen: consta de un resumen detallado de los datos de la columna.
  • Estadísticas: consta de puntos de datos estadísticos en los datos de la columna
  • Histograma: consta de distintos valores o el rango de datos según el tipo de datos de la columna
  • Valores atípicos: consta de valores atípicos de extensión de texto o patrón según el tipo de datos.
  • Calidad de datos de la columna: consta del gráfico de calidad de los datos con opciones para filtrar valores válidos, no válidos y faltantes en la columna.
  • Patrones: consta de patrones de datos autoidentificados a partir de los datos de la columna.
  • Sugerencias: consiste en sugerencias inteligentes para aumentar la calidad de los datos de la columna seleccionada. 

Buscar y filtrar

Realice operaciones de búsqueda y aplique filtros al conjunto de datos mediante el cuadro Buscar y filtrar. Puede utilizar las sugerencias que aparecen a medida que escribe para obtener resultados en menos tiempo. 

También puede seleccionar filtros predeterminados con condiciones predefinidas si usa el icono del cuadro Buscar y filtrar

  • Cuando agrega un filtro, aparece un fragmento junto al cuadro de búsqueda. Puede seleccionar el fragmento y editar la palabra clave de búsqueda y las condiciones asociadas en cualquier momento. 
  • Las condiciones disponibles en el filtro son:
    • Contiene (opción predeterminada)
    • No contiene
    • Comienza con
    • No comienza con
    • Termina con
    • No termina con
    • Es
    • No es
  • Cuando agregue más filtros, cada filtro se agregará como un fragmento.
  • Para eliminar un filtro, haga clic en el botón para cerrar del fragmento.
  • Para eliminar todos los filtros, haga clic en el botón Borrar todo a la derecha del último fragmento.

Deshacer y rehacer

Los botones Deshacer y Rehacer se encuentran a la izquierda del cuadro de búsqueda. Puede utilizar estas opciones para deshacer las transformaciones anteriores aplicadas, editadas, desactivadas o eliminadas, o volver a realizar las operaciones anteriores.


Ejecución de transformaciones

En el panel DataPrep, puede hacer clic con el botón secundario del mouse en cualquier columna para ver la lista de transformaciones disponibles. A continuación, puede hacer clic en una de las transformaciones y proporcionar entradas para aplicar y realizar los cambios necesarios en la columna. DataPrep muestra una vista previa en tiempo real de la columna durante la transformación.

También puede aplicar la misma transformación en varias columnas si selecciona más columnas en la sección Columnas que se deben aplicar. Cada transformación se registra como una regla en el área Conjunto de reglas


DataPrep independiente frente al complemento de DataPrep

Existen algunas diferencias en la disponibilidad de transformaciones entre el complemento de Zoho DataPrep y la solución independiente durante y después de la importación de datos. Las diferencias se explican en la siguiente tabla:

FuncionesDataPrepComplemento de DataPrep
Durante la importaciónDespués de la importación
Transformaciones del conjunto de datos   
Desduplicar
UnirseNoNo
AnexarNoNo
Tabla dinámicaNoNo
Sin tabla dinámicaNo
Filtros
SeleccionarNo
Agregar fórmulaNo
Funciones de la ventanaNo
Derivar conjunto de datosNoNo
    
Transformaciones de la columna   
Cambiar tipo de datosNo
Reemplazar
DividirNo

 

No
Recortar espacios
Truncar
Agregar prefijo o sufijo
Llenado de celdas vacías
RecuentoNo
ExtraerNo
Cambiar formatoNo
Redondear
Crear depósitosNo
Agrupar y fusionar
Cambiar entre mayúsculas y minúsculas
Detección de idiomaNo
Extracción de palabras claveNo
Análisis de opinionesNo
Cambiar formato de fechaNo
Unificar formatos de fechaNo
Extraer del mapaNo aplicable
Extraer de la listaNo aplicable
Clasificar columna
Cambiar nombre de columnaNo
Eliminar columnaNo
Mover columnaNo

Para obtener más información sobre las transformaciones en el producto independiente, visite este enlace.

Conjunto de reglas

Cada transformación aplicada en el conjunto de datos se almacena como una regla, en función de proceder con su ejecución. La lista ordenada de estas reglas se denomina un conjunto de reglas. Puede acceder al conjunto de reglas desde el panel Conjuntos de reglas, donde puede agregar, editar, previsualizar o eliminar las reglas aplicadas. 


Para acceder al conjunto de reglas, haga lo siguiente:

  1. Haga clic en el icono Conjunto de reglas en la esquina superior derecha de la página Operaciones para ver el panel Conjunto de reglas.
  2. El panel Conjuntos de reglas se abrirá en la vista. Puede ver la fuente de datos de su conjunto de datos agregado de forma predeterminada a la parte superior de su conjunto de datos. 
  3. Si selecciona una regla previa a la más reciente (la última) en su conjunto de reglas, la cuadrícula de datos se actualiza para reflejar el estado de los datos en ese momento. Puede editar esta transformación aplicada en la regla mediante la barra Operaciones
  4. Cuando se encuentre en un estado anterior de la muestra, todas las reglas subsiguientes estarán atenuadas en el panel Conjunto de reglas.  
  5. Si solicita una nueva transformación en un estado anterior, la nueva regla se agregará después de la selección actual.  
  6. En este punto, todas las reglas posteriores a la nueva regla se volverán a calcular para efectos de transformación y las reglas con errores aparecerán resaltadas en color rojo. 
  7. Por ejemplo, si elimina la columna "first_name" en la nueva regla con la columna en uso en la siguiente regla, no se podrá ejecutar y se resaltará en color rojo para que pueda abordar el problema. 
Detalles del análisis 


Los detalles del análisis estarán disponibles para los archivos .csv, .tsv y .txt durante el flujo de importación. No se puede acceder a los detalles del análisis cuando se prepare una tabla existente, debido a que ya se analiza durante la importación. Para acceder a los detalles del análisis, haga lo siguiente:
  1. Haga clic en el icono Conjunto de reglas <stack icon> en la esquina superior izquierda de la página Operaciones para ver el panel Conjunto de reglas
  2. El panel Conjunto de reglas se abrirá en la vista. Puede ver la fuente de datos de su conjunto de datos agregado de forma predeterminada a la parte superior de su conjunto de datos. 
  3. Haga clic en el icono de configuración <settings icon> en el mosaico de origen de datos para abrir la ventana Detalles del análisis
  4. Así se mostrarán los detalles del análisis que incluyen codificación de archivos, delimitador, calificador de texto, etc. 
  5. En el menú desplegable de codificación de archivos aparecen todos los mecanismos de codificación diferentes de la siguiente tabla.
    IBM00858IBM857ISO-8859-6US-ASCIIwindows-1253
    UTF-8IBM862ISO-8859-7UTF-16windows-1254
    IBM437IBM866ISO-8859-8UTF-16BEwindows-1255
    IBM775ISO-8859-1ISO-8859-9UTF-16LEwindows-1256
    IBM850ISO-8859-2ISO-8859-13windows-1250windows-1257
    IBM852ISO-8859-3KOI8-Rwindows-1251x-IBM737
    IBM855ISO-8859-4KOI8-Uwindows-1252x-IBM874
    x-UTF-16LE-BOM
  6. En el menú desplegable Delimitador, se muestran los valores separadores, como la coma (,), el tabulador, el punto y coma (;), el espacio y la barra vertical (|).
  7. Calificador de texto permite calificar datos con tipo de datos de texto solo si están dentro de comillas simples o dobles.
  8. Omitir filas iniciales permite omitir las primeras "n" filas mientras importa datos en Zoho DataPrep.
  9. Cuando selecciona la opción Los datos contienen el encabezado, puede ingresar el número de fila que se debe establecer como el encabezado en el elemento archivado Fila como encabezado. Es decir, los datos del número de fila seleccionado reemplazan los nombres de columna de su columna correspondiente.
Operaciones del conjunto de reglas


Mediante las operaciones del conjunto de reglas, puede buscar una regla en el conjunto de reglas o ver el historial de ediciones. Veamos cada una de estas opciones: 
  • Historial del conjunto de reglas
  • Buscar

Historial del conjunto de reglas: haga clic en Historial del conjunto de reglas en <horizontal hamburger menu> para ver los cambios en la cronología del conjunto de reglas. El historial de reglas incluye la información del usuario que creó o modificó las reglas, la marca de hora y fecha en que se realizaron los cambios y las diversas operaciones agregadas al conjunto de reglas. 

Buscar: seleccione Buscar en el icono <horizontal hamburger menu> para realizar una búsqueda en su conjunto de reglas.  Por ejemplo, puede buscar el nombre de la columna para encontrar todas las reglas aplicadas en esa columna.

Opciones con reglas individuales

Puede modificar reglas individuales mediante las acciones asociadas con ellas. Haga clic en el menú <vertical hamburger dots> en las reglas para editar, deshabilitar o eliminar la regla. También puede utilizar la opción Insertar regla antes para insertar una regla antes de su selección actual. La opción Mostrar información se utiliza para recuperar la información de la regla.

Editar: haga clic en Editar cuando desee editar la transformación aplicada con la regla. Puede realizar cambios en la transformación en la barra Operaciones y verificar el resultado en la vista previa. Haga clic en Aplicar para guardar los cambios. La transformación se volverá a calcular para reflejar los cambios. 

Eliminar: haga clic en Eliminar cuando desee eliminar una regla del conjunto de reglas. Así eliminará la regla y volverá a calcular las transformaciones en los datos de las reglas restantes. 

Nota: Siempre podrá deshacer la eliminación en caso de que haya eliminado una regla por error. El botón Deshacer se ubica en la parte superior izquierda, justo encima de la cuadrícula de datos. 

Deshabilitar: utilice esta opción para deshabilitar una regla en su conjunto de reglas. Así desactivará la regla y volverá a calcular las transformaciones en los datos de las reglas restantes. Siempre puede volver a habilitar la regla en el menú <3 vertical dots>. 

Insertar regla antes: utilice la opción Insertar regla antes para incluir un paso anterior antes de una regla. Cuando haga clic, verá un marcador de posición en blanco. Una vez que aplique una transformación, la regla de esta transformación se almacenará en el marcador de posición. 

Mostrar información: haga clic en la opción Mostrar información para obtener información sobre una regla específica, como quién creó o modificó las reglas. También incluye otros detalles, como cuándo se creó o modificó la regla y la lista de usuarios que realizaron los cambios. 

Aplicación de cambios a la tabla

Después de aplicar las transformaciones necesarias como reglas, puede hacer clic en el botón Aplicar cambios para aplicar los cambios a su tabla. 

Puede optar por aplicar estos cambios: 

  • Solo ahora
  • Ahora y para todas las importaciones programadas
  • Solo para las importaciones programadas

Flujo de datos

Puede ver el flujo de sus datos en la sección Flujo de datos de la página Fuentes de datos. Con el flujo de datos, puede enterarse de cuál fue la etapa en qué se ordenaron y prepararon los datos para el análisis, y luego editar o eliminar las transformaciones según sea necesario.

Editar

Si hace clic en la opción Editar, será redirigido al panel DataPrep, en el cual podrá realizar más cambios en sus datos y aplicarlos.

Eliminar 

Si hace clic en la opción Eliminar, se elimina el flujo de preparación de datos de la próxima importación programada y se conservan los datos importados originalmente. 

Deshacer datos preparados

Con la opción Deshacer datos preparados, puede deshacer todas las transformaciones aplicadas a los datos importados. Esto resulta especialmente útil si cometió un error y desea deshacer todos los cambios realizados a sus datos mediante DataPrep.

Después de aplicar los cambios a la tabla, se habilitará la opción de deshacer los datos preparados. Con esta opción, puede deshacer todos los cambios realizados en la sesión anterior de preparación de datos.

Con la opción Deshacer datos preparados solo se revertirá la última sesión de preparación de datos, pero ninguna de las sesiones de datos preparadas antes de eso. Deshacer los datos preparados es una acción permanente. A partir de este punto, solamente es posible preparar más datos.


Importar o exportar datos desde DataPrep

Importación de datos desde DataPrep a Zoho Analytics

Zoho Analytics permite importar datos preparados con Zoho DataPrep sin problemas mediante el conector de DataPrep para Zoho Analytics. Con el conector, puede configurar el proceso de importación y sincronización de datos entre Zoho DataPrep y Zoho Analytics. Puede obtener más información sobre el conector de Zoho DataPrep para análisis aquí.

Importación de datos de Zoho Analytics a DataPrep

En la aplicación independiente Zoho DataPrep, puede importar datos de Zoho Analytics a DataPrep sin problemas mediante el conector de análisis de Zoho DataPrep. Con el conector, puede configurar las importaciones de datos y configurar los programas de importación desde Analytics, como se muestra en la siguiente captura de pantalla. Puede obtener más información acerca de la importación de datos mediante el conector de Zoho Analytics aquí.

Exportación de datos de DataPrep a Zoho Analytics

En la aplicación independiente Zoho DataPrep, puede exportar datos preparados a Zoho Analytics sin problemas mediante el conector de análisis de Zoho DataPrep. Con el conector, puede configurar las exportaciones de datos y los programas de exportación a Zoho Analytics, como se muestra en la siguiente captura de pantalla. Puede obtener más información acerca de la exportación de datos mediante el conector de Zoho Analytics aquí.

Solución de problemas

1. ¿Cómo corregir los errores cometidos durante el proceso de preparación de datos en una tabla?

Puede corregir los errores si hace clic en Más y, luego, en la opción Deshacer datos preparados de la tabla. Esto revertirá todos los cambios realizados en la sesión de preparación de datos anterior

2. ¿Cómo solucionar problemas de calidad de los datos durante la importación de datos? 

Puede corregir problemas de calidad de datos mediante el uso de las distintas transformaciones, como desduplicar, encontrar y reemplazar, truncar, cambiar formato, completar celdas vacías, unificar el formato de fecha, cambiar el tipo de datos, etc.


3. Las opciones de preparación de datos están limitadas para una tabla en Zoho Analytics. ¿Cómo puedo aprovechar al máximo todas las funciones de Zoho DataPrep?

Para utilizar todo el potencial de Zoho DataPrep, importe los datos de Zoho Analytics a Zoho DataPrep, organice los datos y, a continuación, vuelva a exportarlos a Zoho Analytics en otra tabla.

4. ¿Qué sucederá si veo un problema en los datos durante el programa de importación? 

En este caso, tendrá que volver a importar los datos desde la fuente y volver a aplicar las transformaciones según los datos.

5. ¿Cómo configurar un flujo perfecto de entrada de datos con Zoho DataPrep? 

El flujo ideal es cuando se utiliza DataPrep para ingresar datos que después se envían los datos a Zoho Analytics mediante la opción Exportar a Zoho Analytics

6. ¿Cómo insertar datos en una tabla existente de Zoho DataPrep?

No puede insertar datos en una tabla existente actualmente. Sin embargo, esta función está en trabajo y estará disponible pronto.