Limpiar datos de Excel, CSV, PDF y Hojas de cálculo de Google con el intérprete de datos
Cuando se realiza el seguimiento de datos en hojas de cálculo de Excel, estas se crean teniendo en cuenta una interfaz humana. Para que las hojas de cálculo sean más fáciles de leer, se incluyen títulos, encabezados apilados, notas, e incluso filas y columnas vacías para añadir espacios en blanco. También es probable que haya varias hojas de datos.
Al analizar los datos en Tableau, estos elementos estéticos dificultan su interpretación. El intérprete de datos puede ayudar en estos casos.
Consejo: aunque ya no se admite el complemento de Excel de Tableau, el intérprete de datos puede ayudarle a reestructurar sus datos para analizarlos en Tableau.
¿Cómo funciona el intérprete de datos?
El intérprete de datos puede ser su mejor aliado para limpiar datos. Detecta elementos como títulos, notas, pies de página, celdas vacías, etc., y las omite para identificar los campos y valores reales en su conjunto de datos.
Puede incluso detectar tablas y subtablas adicionales para que pueda trabajar con un subconjunto independiente del resto de los datos.
Una vez finalizadas las operaciones del intérprete de datos, puede comprobar los resultados para asegurarse de que ha recopilado los datos que deseaba y que se han identificado correctamente. A continuación, podrá realizar los ajustes necesarios.
Después de seleccionar los datos con los que desea trabajar, es probable que tenga que realizar una limpieza adicional, como crear tablas dinámicas de los datos, dividir campos o añadir filtros para obtener el formato de datos que desea antes de iniciar el análisis.
Nota: Si los datos requieren más limpieza que la proporcionada por el intérprete de datos, pruebe Tableau Prep(El enlace se abre en una ventana nueva).
Activar el intérprete de datos y consultar los resultados
Desde el panel Conectar, conecte una hoja de cálculo de Excel u otro conector compatible con el intérprete de datos, como archivos de texto (.csv), archivos PDF u hojas de cálculo de Google.
Arrastre una tabla al lienzo (si es necesario) y, en el panel izquierdo de la página Fuente de datos, seleccione la casilla de verificación Usar el intérprete de datos para averiguar si el intérprete de datos puede ayudarle a limpiar los datos.
Nota: Al limpiar los datos con el intérprete de datos, este limpia todos los datos asociados a una conexión de la fuente de datos. El intérprete de datos no modifica los datos subyacentes.
En el panel Datos, haga clic en el enlace Revisar los resultados para revisar los resultados del intérprete de datos.
Se abrirá una copia de la fuente de datos en Excel, en la pestaña Clave para el intérprete de datos. Revise la clave para averiguar cómo leer los resultados.
Haga clic en cada pestaña para revisar cómo el intérprete de datos interpretó la fuente de datos.
Si el intérprete de datos ha encontrado tablas adicionales, también llamadas tablas encontradas o subtablas, se identifican en la pestaña <nombre de la hoja>_subtablas destacando el rango de las células. También se incluye una pestaña independiente para cada subtabla, con un código de colores para identificar el encabezado y las filas de datos.
Si el intérprete de datos no proporciona los resultados esperados, puede desactivar la casilla de verificación Limpiado con intérprete de datos para utilizar la fuente de datos original.
Para sustituir la tabla actual con cualquiera de las tablas encontradas, arrastre la tabla actual fuera del lienzo y arrastre la tabla encontrada que desea usar al lienzo.
Si el intérprete de datos no ha identificado correctamente el rango de la tabla encontrada, arrastre la tabla encontrada al lienzo, haga clic en la flecha desplegable de la tabla y seleccione Editar tabla encontrada para ajustar las esquinas de la tabla encontrada (la celda superior izquierda y la celda inferior derecha de la tabla).
Una vez que tenga los datos con los que desea trabajar, puede aplicarles cualquier operación de limpieza adicional para analizarlos.
Ejemplo del intérprete de datos
En este ejemplo estableceremos una conexión con una hoja de cálculo de Excel con datos de crímenes violentos por ciudad y estado en 2016. Esta hoja de cálculo incluye varias tablas en una hoja y elementos de formato adicionales.
Título
Células de encabezado fusionadas
Espacio en blanco adicional
Subtablas
Los elementos de formato adicionales de esta hoja de cálculo dificultan a Tableau determinar cuáles son los valores y los encabezados de los campos.
En su lugar, lee los datos verticalmente y asigna a cada columna el valor predeterminado F1, F2, F3, etc. (campo 1, campo 2, campo 3, etc.). Las celdas en blanco se leen como valores nulos.
Para averiguar si el intérprete de datos puede ayudar a limpiar este conjunto de datos, seleccionamos Usar el intérprete de datos.
El intérprete de datos detecta los encabezados adecuados de los campos, elimina el formato adicional y encuentra varias subtablas. Las subtablas aparecen en la sección Hojas del panel Datos y se les asigna un nombre en función del nombre de la hoja original y del rango de celdas de cada subtabla.
En este ejemplo hay tres subtablas: Crimes 2016 A4:H84, Crimes 2016 K5:L40 y Crimes 2016 O5:P56.
Para estudiar los resultados del intérprete de datos con más detenimiento, hacemos clic en el enlace Revisar los resultados en el panel Datos para ver una copia anotada de la hoja de cálculo.
Aquí vemos una copia de los datos originales con un código de colores para mostrar los datos identificados como encabezados y los identificados como valores de los campos.
La pestaña siguiente muestra las subtablas encontradas por el intérprete de datos, destacadas por los rangos de celdas.
En este ejemplo, la primera subtabla, Crimes 2016 A4:H84, contiene los datos principales con los que queremos trabajar. Para usar esta tabla como nuestra tabla de datos, basta con arrastrar la tabla original fuera del lienzo y arrastrar la nueva tabla al lienzo.
Una vez que tengamos los datos con los que deseamos trabajar en el lienzo, podemos realizar la limpieza adicional de los datos. Por ejemplo:
Cambie los nombres de campo para que representen los nombres de la ciudad, el estado y los meses.
Cree tablas dinámicas con los campos de los meses.
Arrastre la tercera subtabla, Crimes 2016 O5:P56, y únala a la primera subtabla en el campo Estado para incluir la población de los estados en el análisis.
Oculte los campos duplicados añadidos como resultado de la unión.
Los resultados pueden tener este aspecto:
Ahora ya estamos listos para comenzar a analizar los datos en Tableau.
Cuando el intérprete de datos no está disponible
La opción del intérprete de datos podría no estar disponible por los siguientes motivos:
La fuente de datos ya tiene un formato que Tableau puede interpretar: si Tableau Desktop no necesita más ayuda del intérprete de datos para tratar el formato único o la información superflua, la opción del intérprete de datos no está disponible.
Muchas filas o columnas: la opción del intérprete de datos no está disponible si los datos tienen los siguientes atributos:
Los datos contienen más de 2000 columnas.
Los datos contienen más de 3000 filas y más de 150 columnas.
La fuente de datos no es compatible: el intérprete de datos solo está disponible para Microsoft Excel, archivos de texto (.csv), archivos PDF y hojas de cálculo de Google. Para Excel, los datos deben estar en formato .xls y .xlsx.