Configurar el conjunto de datos

Nota: a partir de la versión 2020.4.1, puede crear y editar flujos en Tableau Server y Tableau Online. El contenido de este tema se aplica a todas las plataformas, a menos que se especifique lo contrario. Para obtener más información acerca de la creación de flujos en la web, consulte Tableau Prep en la web.

Para determinar la proporción del conjunto de datos que desea incluir en el flujo, puede configurar el conjunto de datos. Cuando se conecta a los datos o arrastra tablas al panel de flujo, se añade automáticamente un paso de entrada al flujo. Este siempre es el primer paso del flujo. Puede hacer clic con el botón derecho en el paso de entrada para eliminarlo o cambiar el nombre. Si está conectado a un archivo de Excel o de texto, también puede actualizar los datos en el paso de entrada. Para obtener más información sobre cómo actualizar datos en el paso de entrada, consulte Añadir más datos en el paso de entrada(Link opens in a new window).

En el paso de entrada, puede ver los detalles del conjunto de datos. Desde aquí, puede buscar campos, ver valores de muestra y llevar a cabo acciones para reducir el tamaño del conjunto de datos (por ejemplo, seleccionar los campos que desea incluir, seleccionar la muestra de datos con la que desea trabajar, o aplicar filtros a campos o filas seleccionados). También puede configurar las propiedades de los campos cambiando el nombre de campo o configurando las propiedades de los campos para los archivos de texto.

También puede cambiar el tipo de datos en el paso de entrada para las conexiones de datos que lo admiten. Por ejemplo, Microsoft Excel, archivos de texto y PDF, y datos de Box, Dropbox, Google Drive y OneDrive. Para otras fuentes de datos, puede cambiar el tipo de datos con un paso de limpieza. Para obtener más información, consulte Revisar los tipos de datos asignados a los datos.

Nota: los valores de campo que incluyan corchetes se convierten automáticamente en paréntesis.

Conectarse a una consulta de SQL personalizada

Si la base de datos admite SQL personalizado, aparece SQL personalizado cerca de la parte inferior del panel Conexiones. Haga doble clic en SQL personalizado para abrir la pestaña SQL personalizado, donde podrá introducir consultas para preseleccionar datos y usar operaciones específicas de la fuente. Una vez que la consulta ha recuperado el conjunto de datos, puede seleccionar los campos que desee incluir, aplicar filtros o cambiar el tipo de datos antes de añadir los datos al flujo.

Para obtener más información sobre el uso de SQL personalizado, consulte Usar SQL personalizado para conectarse a datos.

Aplicar operaciones de limpieza en un paso de entrada

En un paso de entrada solo hay disponibles algunas operaciones de limpieza. Puede realizar cualquiera de los cambios siguientes en la lista de campos de entrada. Los cambios se registran en el panel Cambios y se añaden anotaciones a la izquierda del paso de entrada en el panel Flujo y en la lista de campos de entrada.

  • Filtrar: haga clic en Filtrar valores en la barra de herramientas y escriba los criterios de filtrado en el editor de cálculo.

  • Cambiar nombre de campo: En el campo Nombre de campo, haga doble clic o Ctrl + clic (MacOS) en el nombre del campo y escriba un nombre para el mismo.

  • Cambiar tipo de datos: haga clic en el tipo de datos del campo y seleccione un nuevo tipo de datos en el menú.

  • Eliminar campo: desactive la casilla de verificación junto a los campos que no desea incluir en el flujo.

Seleccionar los campos que desea incluir en el flujo

En el panel Entrada se muestra una lista de los campos del conjunto de datos. Use el campo Buscar para buscar campos en la lista y las casillas de verificación para seleccionar los campos que desea incluir o excluir. Para incluir o excluir todos los campos del flujo, active o desactive la casilla de verificación en la parte superior izquierda de la cuadrícula.

Aplicar filtros a los campos en el paso de entrada

Para filtrar un campo, haga lo siguiente:

  1. En la barra de herramientas, haga clic en Filtrar valores.

  2. Escriba los criterios de filtrado en el editor de cálculo.

El tipo de filtro de cálculo es la única opción de filtro disponible en el paso Entrada. Otras opciones de filtro están disponibles en otros tipos de pasos. Para obtener más información, consulte Filtrar datos(Link opens in a new window).

Cambiar nombres de campo

Para cambiar el nombre de un campo, en la columna Nombre de campo, seleccione el nombre y escriba el nuevo nombre del campo. Se añade una anotación en la cuadrícula de campos y en el panel de flujo a la izquierda del paso de entrada. También se realiza un seguimiento de los cambios en el panel Cambios.

Cambiar tipos de datos

Para cambiar el tipo de datos de un campo, haga lo siguiente:

  1. Haga clic en el tipo de datos del campo.

  2. Seleccione el nuevo tipo de datos en el menú.

    También puede modificar el tipo de datos para campos en otros tipos de paso del flujo o asignar funciones de datos para ayudar a validar los valores de campo. Para obtener más información sobre cómo modificar el tipo de datos o utilizar funciones de datos, consulte Revisar los tipos de datos asignados a los datos(Link opens in a new window) y Utilice funciones de datos para validar sus datos(Link opens in a new window).

Configurar propiedades de los campos

Si trabaja con archivos de texto, aparece una pestaña Configuración, donde podrá editar la conexión y configurar las propiedades del texto (por ejemplo, el separador de campos en archivos de texto). También puede editar la conexión del archivo en el panel Conexiones o establecer la configuración de la actualización incremental. Para obtener más información sobre cómo configurar la actualización incremental de su flujo, consulte Actualizar datos de flujo mediante la actualización incremental.

Si trabaja con archivos de Excel o de texto, puede corregir los tipos de datos que no se hayan identificado correctamente incluso antes de iniciar el flujo. Los tipos de datos siempre pueden cambiarse en los pasos siguientes desde el panel de perfil una vez iniciado el flujo.

Configurar el texto en archivos de texto

Para cambiar la configuración utilizada en el análisis de archivos de texto, seleccione una de estas opciones:

  • La primera línea contiene un encabezado (opción predeterminada): seleccione esta opción para utilizar la primera fila como la etiqueta de campo.

  • Generar los nombres de campo automáticamente: seleccione esta opción si desea que Tableau Prep Builder genere automáticamente los encabezados de los campos. La convención para el nombre del campo sigue el mismo modelo que en Tableau Desktop. Por ejemplo, F1, F2, etc.

  • Separador de campos: seleccione un carácter en la lista para usarlo como el separador de columnas. Seleccione Otro para introducir un carácter personalizado.

  • Calificador de texto: seleccione el carácter que delimite los valores en el archivo.

  • Conjunto de caracteres: seleccione el conjunto de caracteres que describa la codificación del archivo de texto.

  • Configuración regional: seleccione la configuración regional que desea utilizar al analizar el archivo. Esta opción indica qué separador de decimales y de millares debe utilizarse.

Definir el tamaño de la muestra

Para mantener un rendimiento óptimo, Tableau Prep limita los datos incluidos en el flujo a una muestra representativa del conjunto de datos de forma predeterminada. La muestra de datos se determina calculando el número óptimo de filas en función del número total de campos en el conjunto de datos y el tipo de datos de estos campos. A continuación, Tableau Prep recupera el mayor número de filas según la cantidad calculada del modo más rápido posible.

La muestra resultante podría incluir todas las filas que necesita o no, en función del modo con el que se calculó y se devolvió la muestra. Si no ve los datos que esperaba, puede cambiar la configuración de la muestra de datos para volver a ejecutar la consulta.

Al crear o editar flujos en la web, se aplican límites a la cantidad de datos que puede incluir en un flujo y las opciones disponibles para cambiar la muestra de datos son ligeramente diferentes de cuando se trabaja en Tableau Prep Builder. Para obtener más información, consulte Datos de muestra y límites de procesamiento.

Nota: si se muestrean los datos, aparece un indicador Muestreado en el panel de perfil, que persiste en cada paso que añada. Todos los cambios realizados se aplicarán a la muestra con la que se esté trabajando en el flujo. Todos los cambios se aplicarán a todo el conjunto de datos cuando ejecute el flujo.

Para cambiar la configuración de la muestra de datos, seleccione un paso de entrada y, en la pestaña Muestra de datos, seleccione una de estas opciones:

  • Cantidad de muestra predeterminada (opción predeterminada): Tableau Prep calcula el número total de filas que se devolverán.

  • Usar todos los datos (solo para Tableau Prep Builder): recupera todas las filas del conjunto de datos independientemente del tamaño. Esta opción puede afectar al rendimiento o agotar el tiempo de espera de Tableau Prep Builder.

    Nota: Para mantener el rendimiento, incluso si selecciona esta opción, se aplica un límite de muestra de datos de 1 millón de filas a los tipos de pasos Agregación y Unión de filas, y un límite de muestra de datos de 3 millones de filas a los tipos de pasos Unión de columnas y Tabla dinámica.

  • Número fijo de filas: seleccione el número de filas que desea devolver del conjunto de datos. El número recomendado de filas es un millón o menos. Se establece un número de filas superior a un millón, el rendimiento puede verse afectado.

    • En la creación web: el administrador configura el número máximo de filas que un usuario puede seleccionar al usar grandes conjuntos de datos. Como usuario, puede seleccionar el número de filas hasta ese límite.
  • Selección rápida (opción predeterminada): la base de datos devuelve el número de filas solicitado del modo más rápido posible. Podrían ser las primeras N filas o las filas que la base de datos ha almacenado en la memoria caché en una consulta anterior.

  • Muestra aleatoria: la base de datos devuelve el número de filas solicitado, pero analiza cada fila del conjunto de datos y devuelve una muestra representativa de todas las filas. Esta opción puede afectar al rendimiento cuando los datos se recuperan por primera vez.

¡Gracias por sus comentarios!