Nota: a partir de la versión 2020.4.1, puede crear y editar flujos en Tableau Server y Tableau Cloud. El contenido de este tema se aplica a todas las plataformas, a menos que se especifique lo contrario. Para obtener más información acerca de la creación de flujos en la web, consulte Tableau Prep en la web en la ayuda de Tableau Server(El enlace se abre en una ventana nueva) y Tableau Cloud(El enlace se abre en una ventana nueva).
Para determinar la proporción del conjunto de datos con el que desea trabajar en el flujo, puede configurar el conjunto de datos. Cuando se conecta a los datos o arrastra tablas al panel de flujo, se añade automáticamente un paso de entrada al flujo.
El paso Entrada es donde puede decidir qué y cuántos datos incluir en su flujo. Este siempre es el primer paso del flujo.
Si está conectado a un archivo de Excel o de texto, también puede actualizar los datos en el paso de entrada. Para obtener más información, consulte Añadir más datos en el paso de entrada(El enlace se abre en una ventana nueva).
En el paso Entrada, puede:
- Haga clic con el botón derecho del ratón o Cmd + clic (MacOS) en el paso de entrada del panel Flujo para cambiar su nombre o eliminarlo.
- Realice la unión de filas de varios archivos en el mismo directorio principal o secundario. Para obtener más información, consulte Unir filas y tablas de bases de datos en el paso de entrada.
- (versión 2023.1 y posteriores) Incluya números de fila generados automáticamente según el orden de clasificación original de su conjunto de datos. Consulte Incluir números de fila de su conjunto de datos.
- Busque campos.
- Ver ejemplos de valores de campo.
Configure las propiedades de los campos cambiando el nombre de campo o configure las propiedades de los campos para los archivos de texto.
Nota: los valores de campo que incluyan corchetes se convierten automáticamente en paréntesis.
- Realice acciones para cambiar los datos con los que traaja en su flujo. Consulte Definir el tamaño de la muestra.
- Configure la muestra de datos insertada en su flujo.
- Elimine los campos que no necesite. Siempre puede volver al paso de entrada e incluirlos más tarde.
- Oculte los campos que no necesita limpiar, pero que sigue queriendo incluir en la salida de su flujo. Puede mostrarlos en cualquier momento si los necesita.
- Aplique los filtros a los campos seleccionados.
Cambie el tipo de datos del campo para las conexiones de datos que lo admitan.
Por ejemplo, Microsoft Excel, archivos de texto y PDF, y datos de Box, Dropbox, Google Drive y OneDrive. Para otras fuentes de datos, puede cambiar el tipo de datos con un paso de limpieza.
Para obtener más información, consulte Revisar los tipos de datos asignados a los datos.
Incluir números de fila de su conjunto de datos
Compatible con Tableau Prep Builder versión 2023.1 y posteriores y en la web para Microsoft Excel y archivos de texto (.csv).
Nota: Esta opción no se admite actualmente para los archivos incluidos en una unión de filas de entrada.
A partir de la versión 2023.1, Tableau Prep genera automáticamente números de fila según el orden de clasificación original de sus datos que puede incluir como un nuevo campo en su flujo. Esto está disponible solo para los tipos de archivo de Microsoft Excel o Texto (.csv).
En versiones anteriores, si deseaba incluir estos números de fila, tenía que agregarlos manualmente a la fuente antes de agregar el conjunto de datos a su flujo.
Este campo se genera en el paso de entrada cuando se conecta a sus datos. De forma predeterminada, se excluye del flujo, pero puede incluirlo con un solo clic. Si decide incluirlo, se comporta como cualquier otro campo y puede usarse en sus operaciones de flujo y campos calculados.
Tableau Prep también admite la función ROW_NUMBER para campos calculados. Esta función es útil cuando hay campos en su conjunto de datos que pueden definir la ordenación, como ID de fila o Marca de tiempo. Para obtener más información sobre el uso de esta función, consulte Crear cálculos de nivel de detalle, de clasificación y de sección.
Agregar el campo Número de fila de origen a su flujo
Haga clic con el botón derecho o Cmd-clic (MacOS) en el campo, o haga clic en menú Mas opciones
y seleccione Incluir campo.
La lista de cambios se borra, el campo ahora forma parte de los datos de flujo y puede ver los números de fila generados en los pasos de flujo posteriores.
Detalles del número de fila de origen
Cuando incluye el Número de fila de origen en su conjunto de datos, se aplican las siguientes opciones y consideraciones.
- Los números de fila de la fuente de datos se aplican antes de cualquier muestreo o filtro de datos.
- Esto crea un nuevo campo llamado Source Row Number que persiste durante todo el flujo. Este nombre de campo no está traducido, pero se puede cambiar de nombre en cualquier momento.
- Si ya existe un campo con este nombre, el nuevo nombre de campo se incrementa en 1. Por ejemplo Source Row umber-1, Source Row Number-2, etc.
- Puede cambiar el tipo de datos del campo en los pasos siguientes.
- Puede utilizar este campo en cálculos y operaciones de flujo.
- Este valor se regenera para todo el conjunto de datos cada vez que se actualizan los datos de entrada o se ejecuta el flujo.
- Este campo no está disponible para uniones de fila de entrada.
Conectarse a una consulta de SQL personalizada
Si la base de datos admite SQL personalizado, aparece SQL personalizado cerca de la parte inferior del panel Conexiones. Haga doble clic en SQL personalizado para abrir la pestaña SQL personalizado, donde podrá introducir consultas para preseleccionar datos y usar operaciones específicas de la fuente. Una vez que la consulta ha recuperado el conjunto de datos, puede seleccionar los campos que desee incluir, aplicar filtros o cambiar el tipo de datos antes de añadir los datos al flujo.
Para obtener más información sobre el uso de SQL personalizado, consulte Usar SQL personalizado para conectarse a datos.
Aplicar operaciones de limpieza en un paso de entrada
En un paso de entrada solo hay disponibles algunas operaciones de limpieza. Puede realizar cualquiera de los cambios siguientes en la lista de campos de entrada. Los cambios se registran en el panel Cambios y se añaden anotaciones a la izquierda del paso de entrada en el panel Flujo y en la lista de campos de entrada.
- Ocultar campo: Oculte campos en lugar de eliminarlos para reducir el desorden en su flujo. Más tarde podrá volver a mostrarlos si lo necesita. Los campos ocultos aún se incluirán en la salida cuando ejecute su flujo.
- Filtrar: Use el editor de cálculo para filtrar valores o, a partir de la versión 2023.1, también puede usar el cuadro de diálogo Filtro de fecha relativa para especificar rápidamente rangos de fechas para cualquier campo de fecha o fecha y hora.
Cambiar nombre de campo: En el campo Nombre de campo, haga doble clic o Ctrl + clic (MacOS) en el nombre del campo y escriba un nombre para el mismo.
Cambiar tipo de datos: haga clic en el tipo de datos del campo y seleccione un nuevo tipo de datos en el menú. Esta opción actualmente es compatible con fuentes de datos de Microsoft Excel, archivos de texto y PDF, Box, Dropbox, Google Drive y OneDrive. Todas las demás fuentes de datos se pueden cambiar en un paso limpio.
Seleccionar campos que desea incluir en el flujo
Nota: A partir de la versión 2023.1, puede seleccionar varios campos para ocultarlos, mostrarlos, eliminarlos o incluirlos. En versiones anteriores, puede trabajar con un campo a la vez y activar o desactivar las casillas de verificación para incluir o eliminar campos.
En el panel Entrada se muestra una lista de los campos del conjunto de datos. De forma predeterminada, se incluyen todos los campos, excepto el campo generado automáticamente, Número de fila de origen. Utilice las siguientes opciones para administrar sus campos.
- Buscar: busque campos en el esquema.
- Ocultar: haga clic en el icono del ojo
o seleccione Ocultar campos desde el menú Mas opciones
para ocultar los campos que desea incluir en la salida de su flujo, pero que no necesita limpiar. Los campos son procesados por el flujo durante el tiempo de ejecución. También puede Mostrar campos en cualquier momento si los necesita. Para obtener más información, consulte Ocultar campos(El enlace se abre en una ventana nueva).
- Incluir campos: seleccione una o más filas y haga clic con el botón derecho, Cmd-clic (MacOS), o haga clic en el menú Mas opciones
y seleccione Incluir campos para volver a agregar campos que están marcados como eliminados.
- Eliminar campos: seleccione una o más filas y haga clic con el botón derecho, Cmd-clic (MacOS), haga clic en la "X" o haga clic en el menú Mas opciones
y seleccione Eliminar campos para eliminar campos que no desea incluir en el flujo.
Aplicar filtros a los campos en el paso de entrada
Aplique filtros en el paso de entrada para reducir la cantidad de datos que ingiere de sus fuentes de datos. Puede obtener eficiencia de rendimiento interactivo y una muestra de datos más útil eliminando los datos que no desea procesar cuando ejecuta el flujo.
En el paso de entrada, puede aplicar filtros utilizando el Editor de cálculos. A partir de la versión 2023.1, también puede utilizar el cuadro de diálogo Filtro de fecha relativa para especificar un intervalo de fechas exacto de valores para incluir para los tipos de campo de fecha y fecha y hora. Para obtener más información, consulte "Filtro de fecha relativa" en Filtrar datos(El enlace se abre en una ventana nueva).
Puede usar otras opciones de filtro en el paso Limpiar u otros tipos de pasos. Para obtener más información, consulte Filtrar datos(El enlace se abre en una ventana nueva).
Aplicar un filtro de cálculo
En la barra de herramientas, haga clic en Valores de filtro, o en la cuadrícula de campo, haga clic en el menú Mas opciones
y seleccione Filtrar > Cálculo...
Escriba los criterios de filtrado en el editor de cálculo.
Aplicar un filtro de fecha relativa
En la cuadrícula de entrada, seleccione un campo con un tipo de datos de Fecha o Fecha y hora. Luego haga clic derecho, Cmd-clic (MacOS), o haga clic en el menú Mas opciones
y seleccione Filtrar > Fechas relativas.
En el cuadro de diálogo Filtro de fechas relativas, especifique el intervalo exacto de años, trimestres, meses, semanas o días que desea incluir en el flujo. También puede configurar un valor fijo relativo a una fecha específica e incluir valores nulos.
Nota: De forma predeterminada, el filtro funciona en relación con la fecha en que se ejecuta o se obtiene una vista previa del flujo dentro de la experiencia de creación.
Cambiar nombres de campo
Para cambiar el nombre de un campo, en la columna Nombre de campo, seleccione el nombre y escriba el nuevo nombre del campo. Se añade una anotación en la cuadrícula de campos y en el panel de flujo a la izquierda del paso de entrada. También se realiza un seguimiento de los cambios en el panel Cambios.
Cambiar tipos de datos
Actualmente compatible con fuentes de datos de Microsoft Excel, archivos de texto y PDF, Box, Dropbox, Google Drive y OneDrive. Todas las demás fuentes de datos se pueden cambiar en un paso limpio.
Nota: El tipo de datos para el número de fila de origen (versión 2023.1 y posterior) solo se puede cambiar en un paso de limpieza u otro tipo de paso.
Para cambiar el tipo de datos de un campo, haga lo siguiente:
Haga clic en el tipo de datos del campo.
Seleccione el nuevo tipo de datos en el menú.
También puede modificar el tipo de datos para campos en otros tipos de paso del flujo o asignar funciones de datos para ayudar a validar los valores de campo. Para obtener más información sobre cómo modificar el tipo de datos o utilizar funciones de datos, consulte Revisar los tipos de datos asignados a los datos(El enlace se abre en una ventana nueva) y Utilice funciones de datos para validar sus datos(El enlace se abre en una ventana nueva).
Configurar propiedades de los campos
Si trabaja con archivos de texto, aparece una pestaña Configuración, donde podrá editar la conexión y configurar las propiedades del texto (por ejemplo, el separador de campos en archivos de texto). También puede editar la conexión del archivo en el panel Conexiones o establecer la configuración de la actualización incremental. Para obtener más información sobre cómo configurar la actualización incremental de su flujo, consulte Actualizar datos de flujo mediante la actualización incremental.
Si trabaja con archivos de Excel o de texto, puede corregir los tipos de datos que no se hayan identificado correctamente incluso antes de iniciar el flujo. Los tipos de datos siempre pueden cambiarse en los pasos siguientes desde el panel de perfil una vez iniciado el flujo.
Configurar el texto en archivos de texto
Para cambiar la configuración utilizada en el análisis de archivos de texto, seleccione una de estas opciones:
La primera línea contiene un encabezado (opción predeterminada): seleccione esta opción para utilizar la primera fila como la etiqueta de campo.
Generar los nombres de campo automáticamente: seleccione esta opción si desea que Tableau Prep Builder genere automáticamente los encabezados de los campos. La convención para el nombre del campo sigue el mismo modelo que en Tableau Desktop. Por ejemplo, F1, F2, etc.
Separador de campos: seleccione un carácter en la lista para usarlo como el separador de columnas. Seleccione Otro para introducir un carácter personalizado.
Calificador de texto: seleccione el carácter que delimite los valores en el archivo.
Conjunto de caracteres: seleccione el conjunto de caracteres que describa la codificación del archivo de texto.
Configuración regional: seleccione la configuración regional que desea utilizar al analizar el archivo. Esta opción indica qué separador de decimales y de millares debe utilizarse.
Definir el tamaño de la muestra
Para mantener un rendimiento óptimo, Tableau Prep limita los datos incluidos en el flujo a una muestra representativa del conjunto de datos de forma predeterminada. La muestra de datos se determina calculando el número óptimo de filas en función del número total de campos en el conjunto de datos y el tipo de datos de estos campos. A continuación, Tableau Prep recupera el mayor número de filas según la cantidad calculada del modo más rápido posible.
La muestra resultante podría incluir todas las filas que necesita o no, en función del modo con el que se calculó y se devolvió la muestra. Si no ve los datos que esperaba, puede cambiar la configuración de la muestra de datos para volver a ejecutar la consulta.
Al crear o editar flujos en la web, se aplican límites a la cantidad de datos que puede incluir en un flujo y las opciones disponibles para cambiar la muestra de datos son ligeramente diferentes de cuando se trabaja en Tableau Prep Builder. Para obtener más información, consulte Datos de muestra y límites de procesamiento en la ayuda de Tableau Server(El enlace se abre en una ventana nueva) o Tableau Cloud(El enlace se abre en una ventana nueva).
Nota: si se muestrean los datos, aparece un indicador Muestreado en el panel de perfil, que persiste en cada paso que añada. Todos los cambios realizados se aplicarán a la muestra con la que se esté trabajando en el flujo. Todos los cambios se aplicarán a todo el conjunto de datos cuando ejecute el flujo.
Para cambiar la configuración de la muestra de datos, seleccione un paso de entrada y, en la pestaña Muestra de datos, seleccione una de estas opciones:
(2023.1—Automático) (2022.4 y anteriores—Cantidad de muestra predeterminada): Tableau Prep calcula el número total de filas para devolver. Este es el valor predeterminado.
(2023.1—Máximo) (2022.4 y anteriores—Usar todos los datos): (solo para Tableau Prep Builder) recupera todas las filas del conjunto de datos independientemente del tamaño. Esta opción puede afectar al rendimiento o agotar el tiempo de espera de Tableau Prep Builder.
Nota: Para mantener el rendimiento, incluso si selecciona esta opción, se aplica un límite de muestra de datos de 1 millón de filas a los tipos de pasos Agregación y Unión de filas, y un límite de muestra de datos de 3 millones de filas a los tipos de pasos Unión de columnas y Tabla dinámica.
(2023.1—Especificar) (2022.4 y anteriores—Número fijo de filas): seleccione el número de filas que desea devolver del conjunto de datos. El número recomendado de filas es un millón o menos. Se establece un número de filas superior a un millón, el rendimiento puede verse afectado.
- En la creación web: el administrador configura el número máximo de filas que un usuario puede seleccionar al usar grandes conjuntos de datos. Como usuario, puede seleccionar el número de filas hasta ese límite.
Selección rápida (opción predeterminada): la base de datos devuelve el número de filas solicitado del modo más rápido posible. Podrían ser las primeras N filas o las filas que la base de datos ha almacenado en la memoria caché en una consulta anterior.
Muestra aleatoria: la base de datos devuelve el número de filas solicitado, pero analiza cada fila del conjunto de datos y devuelve una muestra representativa de todas las filas. Esta opción puede afectar al rendimiento cuando los datos se recuperan por primera vez.