Archivo PDF
En este artículo se describe cómo conectar Tableau a los datos de un archivo .pdf y cómo configurar la fuente de datos.
Nota: Tableau no admite los idiomas escritos de derecha a izquierda (RTL). Si su PDF incluye texto RTL, los caracteres podrían aparecer en orden inverso en Tableau
Establecer la conexión y buscar tablas en el documento
Después de abrir Tableau, vaya a Conectar y haga clic en Archivo PDF.
Seleccione el archivo al que quiere conectarse y, a continuación, haga clic en Abrir.
En el cuadro de diálogo Escanear archivo PDF, especifique las páginas del archivo en las que quiere que Tableau busque tablas. Puede elegir entre escanear tablas en todas las páginas, en solo una página o en un intervalo de páginas.
Nota: el escaneo contabiliza la primera página del archivo como la página 1, de forma parecida a la mayoría de los lectores PDF. Al escanear tablas, especifique el número de página que muestra el lector PDF, y no el número de página que se puede utilizar en el documento en cuestión, que podría o no empezar en la página 1.
Por ejemplo, imagínese que desea utilizar la "Tabla 1" de la siguiente imagen. El lector PDF muestra un número, mientras que el archivo .pdf muestra otro. Para escanear esta página correctamente, especifique el número de página que muestra el lector PDF. En este ejemplo se ha especificado la página 15.
En la página de la fuente de datos, haga lo siguiente:
(Opcional) Seleccione el nombre predeterminado de la fuente de datos en la parte superior de la página y luego escriba un nombre único para su uso en Tableau. Por ejemplo, utilice una nomenclatura de fuente de datos que ayude a que los demás usuarios de la fuente de datos puedan deducir a qué fuente de datos deben conectarse. El nombre predeterminado se genera automáticamente según el nombre de archivo.
Si el archivo contiene una tabla, haga clic en la pestaña de la hoja para iniciar el análisis. Otra opción es arrastrar al lienzo una tabla desde el panel izquierdo y, a continuación, hacer clic en la pestaña de la hoja para iniciar el análisis.
Acerca de las tablas del panel izquierdo
Las tablas que se identifican en el archivo .pdf reciben nombres únicos y se muestran en el panel izquierdo tras efectuar un escaneo. Por ejemplo, se podría dar el caso de que viera el nombre de tabla "Página 1, tabla 1". La primera parte del nombre de la tabla indica la página del archivo .pdf de la que procede la tabla. La segunda parte del nombre de la tabla indica el orden en que se ha identificado la tabla. En el caso de que Tableau haya identificado más de una tabla en una página, la segunda parte del nombre de la tabla puede indicar dos cosas:
- Tableau ha identificado otra tabla o subtabla única en la página.
- Tableau ha interpretado de otra manera la tabla de la página. Tableau puede ofrecer varias interpretaciones de una tabla en función de cómo se presente esta en el archivo .pdf.
Ejemplo de fuente de datos de archivo PDF
A continuación, se muestra un ejemplo de fuente de datos de archivo PDF:
Incorporar más datos
Incorpore más datos a la fuente de datos añadiendo otras tablas o conectándose a los datos de otra base de datos.
Añadir más datos desde el archivo actual:
Desde el panel de la izquierda, arrastre más tablas al lienzo para combinar datos mediante una unión o combinación. Para obtener más información, consulte Combinar datos o Unir los datos.
Si las páginas analizadas en el paso 3 del procedimiento anterior no muestran las tablas que necesita en el panel de la izquierda, haga clic en la flecha desplegable que hay junto a la conexión del archivo PDF y luego en Volver a analizar el archivo PDF. Esta opción permite crear un análisis nuevo donde especificar otras páginas del archivo .pdf en las que quiera buscar tablas.
Añadir más datos de otra base de datos: en el panel de la izquierda, haga clic en Añadir, junto a Conexiones. Para obtener más información, consulte Combinar datos.
Si en el panel de la izquierda no figura un conector que desea, seleccione Datos > Nueva fuente de datos para añadir una fuente de datos nueva. Para obtener más información, consulte Combinar datos.
Configurar las opciones de tabla
Las opciones de tabla se pueden establecer. En el lienzo, haga clic en la flecha desplegable de la tabla y especifique si los datos incluyen nombres de campos en la primera fila. En caso afirmativo, estos nombres se convertirán en los nombres de los campos en Tableau. Si los nombres de los campos no están incluidos, Tableau los generará automáticamente. Puede cambiar el nombre de los campos más adelante.
Utilizar el intérprete de datos para limpiar los datos
Si Tableau detecta que puede ayudar a optimizar la fuente de datos para el análisis, le solicitará que utilice el intérprete de datos. El intérprete de datos puede detectar subtablas que puede usar y eliminar formatos únicos que puedan causar problemas más adelante en el análisis. Para obtener más información, consulte Limpiar datos de Excel, CSV, PDF y Hojas de cálculo de Google con el intérprete de datos.
Unir tablas en los archivos .pdf
Es posible unir tablas en un archivo. Para obtener más información sobre las uniones, consulte Unir los datos.
Al usar la búsqueda con comodines para unir tablas, el resultado se restringe a las páginas que se analizaron en el archivo inicial al que se conectó. Imagine, por ejemplo, que tiene tres archivos: A.pdf, B.pdf y C.pdf. El primer archivo al que se conecta es el A y restringe la búsqueda de tablas a la página 1. Al usar la búsqueda con comodines para unir tablas de los archivos B y C, las tablas adicionales incluidas en la unión solo pueden proceder de la página 1 de los archivos B y C.
Consejos para trabajar con archivos .pdf
Estos consejos le ayudarán a trabajar con archivos .pdf en Tableau.
Utilice el conector de archivos PDF para identificar solo las tablas del archivo .pdf.
La función principal del conector de archivo PDF es buscar e identificar las tablas que hay en el archivo .pdf. Por lo tanto, ignora el resto de la información que hay en el archivo y que no parece formar parte de una tabla, incluidos títulos, subtítulos y notas a pie de página. Si una de estas áreas almacena datos relacionados (por ejemplo, en el título de la tabla), puede utilizar Tableau para exportar los datos del archivo .pdf a un archivo .csv, añadir manualmente los datos almacenados en el título de la tabla y, por último, conectarse al archivo .csv. Para obtener más información, consulte Exportar los datos a un archivo .csv.
Utilice tablas estándar.
Por norma general, Tableau funciona mejor con tablas estándar que utilicen un formato tabular.
Lo ideal sería que las tablas del archivo .pdf tuvieran encabezados de columna en una línea y valores de fila también en una línea, como se muestra en el siguiente ejemplo.
Los colores y el sombreado utilizados dentro o alrededor de las tablas puede afectar al modo de identificación de las tablas.
Es posible que las tablas que tienen un formato único se tengan que limpiar o editar manualmente fuera de Tableau. El formato único puede incluir encabezados jerárquicos, nombres de encabezados que abarcan varias líneas, valores de fila que abarcan varias líneas, encabezados en ángulo y tablas apiladas, como se muestra en los siguientes ejemplos.
Nota: Tableau no admite las conexiones con archivos .pdf generados por software de escaneo (reconocimiento óptico de caracteres).
Valide los datos.
Asegúrese de validar los datos contenidos en las tablas que Tableau identifica en el archivo .pdf. Puede validar los datos usando la cuadrícula de datos o, si utilizó el intérprete de datos, el libro de trabajo de resultados.
Intente no utilizar tablas que abarquen varias páginas.
Si el archivo .pdf contiene una tabla que abarca varias páginas, Tableau la interpretará como si fueran varias tablas. Para corregir este problema, utilice una unión para combinar las tablas. Para obtener más información, consulte Unir los datos.
Cambie el nombre de los archivos .pdf cuyo nombre contiene caracteres Unicode.
Al conectarse a un archivo .pdf cuyo nombre contiene caracteres Unicode, es posible que vea el siguiente error.
Para corregir este error, cambie el nombre del archivo utilizando caracteres que no sean Unicode y vuelva a conectarse al archivo .pdf.
No utilice archivos .pdf protegidos con contraseña.
Después de conectarse a un archivo .pdf y escanear las tablas que pueda tener, es posible que vea el siguiente error.
Tableau muestra este error si el archivo .pdf está protegido con contraseña y no puede acceder al contenido. Tableau no admite las conexiones a archivos .pdf protegidos con contraseña.
Asigne un alias a los valores que se interpretan de forma diferente o incorrecta.
Puede que vea que algunos valores de la cuadrícula de datos se interpretan de manera diferente que en el archivo .pdf. Puede corregir esta interpretación utilizando alias para cambiar el nombre de determinados valores de un campo.
Imagine, por ejemplo, que ve la tabla siguiente tras conectarse al archivo .pdf. Algunas abreviaturas de estados se interpretan en minúsculas (están resaltadas de color azul).
Puede corregir este error utilizando alias para cambiar las abreviaturas escritas en minúsculas por abreviaturas en mayúsculas. Para ello, haga clic en la flecha desplegable situada junto al nombre de la columna y seleccione Alias.
Resuelva los encabezados de columna que se interpretan como valores de tabla.
Es posible que también vea que algunos encabezados de columna de la cuadrícula de datos del archivo .pdf se interpretan como valores de tabla. Esto puede suceder si el archivo .pdf contiene tablas con un formato único o encabezados jerárquicos. En este caso, se debe usar primero el intérprete de datos. Si el intérprete de datos no resuelve este error, plantéese la posibilidad de cambiar manualmente el nombre de las columnas por los nombres adecuadas y de filtrar como valores los nombres de los encabezados que se están tratando utilizando filtros de fuente de datos.
Imagine, por ejemplo, que ve la tabla siguiente tras conectarse al archivo .pdf. Los encabezados de tabla del archivo .pdf se han interpretado como valores de tabla, que aparecen resaltados en azul.
Una forma de solucionar un problema de este tipo con los encabezados es seguir estos pasos:
Haga doble clic en el nombre de la columna y cambie el nombre F1 por el de Año. Repita este paso para F2, F3 y F4 usando, respectivamente, los nombres Carbón, Gas y Petróleo.
Haga clic en el tipo de datos de la columna Año y cámbielo al tipo de datos numérico. Esto hace que los valores no numéricos de esta columna se conviertan en valores nulos.
En la esquina superior derecha de la página de la fuente de datos, haga clic en Añadir, haga clic en el botón Añadir y luego seleccione el campo Año.
En el cuadro de diálogo Filtrar, seleccione las casillas de verificación Nulo y Excluir.
Las filas de la columna Año que contienen valores nulos se eliminan de la cuadrícula de datos y esto repercute en las filas de las otras columnas de la tabla.
Acerca de los archivos .ttde y .hyper
Cuando navegue por el directorio de su equipo, verá que hay archivos .ttde o .hyper. Al crear una fuente de datos de Tableau que se conecta a sus datos, Tableau crea un archivo .ttde o .hyper. Este archivo, también denominado "extracción de respaldo", se utiliza para mejorar la velocidad a la que se carga la fuente de datos en Tableau Desktop. Aunque las extracciones de respaldo contienen datos subyacentes y otros datos similares al extracto estándar de Tableau, se guardan con otro formato y no se pueden utilizar para recuperar los datos.
Nota: Los archivos .tde ya no son compatibles con las versiones de Tableau posteriores a la 2024.2. Todas las extracciones están ahora en formato .hyper.
Consulte también
- Configurar fuentes de datos: añada más datos a esta fuente de datos o prepare sus datos antes de analizarlos.
- Crear gráficos y analizar datos: empiece su análisis de datos.