Combinar datos

La combinación de datos es un método para unir datos de múltiples fuentes. La combinación de datos trae información adicional de una fuente de datos secundaria y la muestra con datos de la fuente de datos primaria directamente en la vista.

Hay muchas maneras de combinar datos, cada una con sus ventajas y desventajas.

Las relaciones son el método predeterminado y se pueden utilizar en la mayoría de los casos, incluso en tablas con diferentes niveles de detalle. Las relaciones son flexibles y se adaptan a la estructura del análisis hoja por hoja. Sin embargo, no se pueden establecer relaciones entre tablas de fuentes de datos publicadas en Tableau Server o Tableau Online.

Las uniones de columnas combinan tablas agregando más columnas de datos en estructuras de fila similares. Esto puede provocar la pérdida o duplicación de datos si las tablas están en diferentes niveles de detalle y las fuentes de datos unidas deben corregirse antes de que pueda comenzar el análisis.

Las combinaciones, a diferencia de las relaciones o uniones, nunca combinan realmente los datos. En su lugar, las combinaciones consultan cada fuente de datos de forma independiente, los resultados se agregan al nivel adecuado y, a continuación, los resultados se presentan juntos en la vista. Debido a esto, las mezclas pueden manejar diferentes niveles de detalle y trabajar con fuentes de datos publicadas. Las combinaciones también se establecen individualmente en cada hoja y nunca se pueden publicar, porque no hay una verdadera "fuente de datos combinada", simplemente resultados combinados de varias fuentes de datos en una visualización.

La combinación de datos es especialmente útil cuando la relación de combinación (vincular campos) debe variar hoja por hoja o al combinar fuentes de datos publicadas.

Importante: Antes de la versión 2020.2, la combinación de datos era a menudo la mejor manera de manejar fuentes de datos en diferentes niveles de detalle. Ahora se pueden combinar con relaciones. Las relaciones tienen menos limitaciones técnicas que la combinación de datos y son la forma recomendada de combinar datos cuando es posible. La combinación solo se recomienda cuando es el mejor método para sus datos o las relaciones no están disponibles.

Pasos para la combinación de datos

La combinación de datos se realiza hoja por hoja y se establece cuando se utiliza un campo de una segunda fuente de datos en la vista. Para crear una combinación de datos en un libro de trabajo conectado con, al menos, dos fuentes de datos, lleve un campo de una fuente de datos a la hoja: se convierte en la fuente de datos primaria. Cambie a la otra fuente de datos y utilice un campo en la misma hoja: se convierte en una fuente de datos secundaria. En el panel Datos aparecerá un icono naranja de enlace que indica qué campo(s) se están usando para combinar las fuentes de datos.

GIF de una combinación de datos básicos

Nota: Las imágenes de este tema no se han actualizado para reflejar la interfaz de usuario más reciente. El panel Datos ya no muestra Dimensiones y Medidas como etiquetas.

  1. Asegúrese de que el libro de trabajo tenga múltiples fuentes de datos. La segunda fuente de datos debe agregarse yendo a Datos > Nueva fuente de datos.

    Consejo: Agregar otra conexión a la primera fuente de datos habilita las relaciones y uniones en la página de fuente de datos. La combinación requiere dos o más fuentes de datos distintas, listadas de forma independiente en el panel Datos.

  2. Arrastrar un campo a la vista. Cualquiera que sea la fuente de datos de la que provenga este primer campo se convertirá en la fuente de datos primaria.
  3. Cambie a otra fuente de datos y asegúrese de que exista una relación de combinación con la fuente de datos primaria.
    • Si hay un icono de campo de enlace naranja (), las fuentes de datos se vinculan automáticamente. Los datos pueden combinarse siempre y cuando haya al menos un enlace activo.
    • Si hay iconos de enlaces rotos grises (), haga clic en el icono situado junto al campo que debe vincular las dos fuentes de datos. Se volverá naranja, lo que indica que el enlace está activo.
    • Si un icono de enlace no aparece junto al campo deseado, consulte Definir relaciones de combinación para la combinación.
  4. Arrastre un campo a la vista desde la fuente de datos secundaria.

En cuanto esta segunda fuente de datos se utiliza en la misma vista, se establece una combinación. En el siguiente ejemplo, nuestra fuente de datos primaria es Objetivos de ventas y la fuente de datos secundaria es Sample - Superstore

  • La fuente de datos primaria se indica con una marca de verificación azul en la fuente de datos. Los campos de la fuente de datos primaria utilizada en la vista no tienen ninguna indicación.
  • La fuente de datos secundaria se indica con una marca de verificación naranja en la fuente de datos y una barra naranja en el lateral del panel Datos. Los campos de la fuente de datos secundaria utilizada en la vista tienen una marca de verificación naranja.

Comprender las fuentes de datos primarias y secundarias

La combinación de datos requiere una fuente de datos primaria y por lo menos una secundaria. La primera fuente de datos utilizada en la vista se convierte en la fuente de datos primaria y define la vista. Es posible que esto limite los valores de la fuente de datos secundaria: en la vista solo aparecen los valores que tienen coincidencias en la fuente de datos primaria. Esto es parecido a una unión a la izquierda.

Por ejemplo, si la fuente de datos primaria tiene un campo Mes que solo contiene abril, mayo y junio, cualquier vista generada alrededor de los meses solo mostrará abril, mayo y junio, incluso si la fuente de datos secundaria tiene valores para doce meses. Si el análisis deseado involucra los doce meses, intente cambiar la fuente de datos primaria reconstruyendo la hoja y usando primero la otra fuente de datos.

Más información: los efectos del orden de las fuentes de datos

En los ejemplos siguientes se utilizan las mismas fuentes de datos enlazadas en el mismo campo, y la visualización se crea de la misma manera las dos veces. La diferencia entre los resultados se debe a la fuente de datos designada como primaria.

  1. Aquí, el campo Mes de la fuente de datos Precipitaciones aparece primero en la vista. Debido a que Precipitaciones solo contiene tres meses, cuando se agrega el conjunto de datos Polen como secundario, solo aparecen tres meses en la vista.
  2. captura de pantalla del producto de una visualización que muestra tres meses
  3. En otra hoja, el campo Mes del conjunto de datos Polen aparece primero en la vista. Se visualizan los doce meses. Cuando el conjunto de datos Precipitaciones se agrega como secundario, Precipitaciones solo está disponible para los tres meses de ese conjunto de datos.
  4. captura de pantalla del producto de una visualización que muestra doce meses

Trabajar con fuentes de datos combinadas

Debido a la naturaleza de una combinación de datos, hay algunas cosas a tener en cuenta cuando se trabaja con fuentes de datos combinadas.

La realización de cálculos con campos de más de una fuente de datos puede ser ligeramente diferente a la de un cálculo ordinario. Se debe crear un cálculo en una fuente de datos; esto se indica en la parte superior del editor de cálculo.

  • Agregación. Cualquier campo usado desde otra fuente de datos vendrá con una agregación por defecto, SUM, pero puede cambiarse. Dado que los cálculos no pueden mezclar argumentos agregados y no agregados, también deben agregarse los campos de la fuente de datos en la que se realiza el cálculo. (En las imágenes de abajo, la agregación SUMA se agregó automáticamente y la agregación suma se agregó manualmente.)
  • Notación por puntos. Cualquier campo referenciado en el cálculo que pertenezca a otra fuente de datos se referirá a su fuente de datos utilizando notación por puntos. (En las imágenes de abajo, para el cálculo creado en Sample - Superstore, el campo Destino de ventas pasa a ser [Objetivos.Ventas].[Objetivo de ventas]. Cuando el cálculo se construye en Objetivos de ventas, el campo Ventas pasa a ser [Sample - Superstore].[Ventas]).
  • Estas son versiones equivalentes del mismo cálculo creado en cada fuente de datos. En ambos casos, se trata de SUMA(Ventas) / SUMA(Objetivo de ventas).

Además de manejar los cálculos de manera ligeramente diferente, existen algunas limitaciones en las fuentes de datos secundarias. Es posible que no pueda ordenar por un campo de una fuente de datos secundaria y que los filtros de acción no funcionen como se espera con los datos combinados. Para obtener más información, consulte Otros problemas relacionados con la combinación de datos.

Definir relaciones de combinación para la combinación

Para que Tableau sepa cómo combinar los datos de múltiples fuentes, debe haber una dimensión o dimensiones comunes entre las fuentes de datos. Esta dimensión común se llama campo de vinculación. Los campos de enlace activos se identifican en el panel Datos de la fuente de datos secundaria con un icono de enlace activo () y los campos de enlace potenciales se identifican con un icono de enlace roto ().

Por ejemplo, en una combinación de datos transaccionales y de cuotas, un campo geográfico puede ser el campo de enlace deseado para que pueda analizar la cuota de una región y el rendimiento hacia esa cuota.

Nota: Para que la combinación funcione, los campos de enlace también deben compartir valores o miembros. Tableau construye la vista de datos combinados basados en los valores compartidos. Por ejemplo, si Color es el campo de enlace en ambas fuentes de datos, Tableau hará coincidir los datos sobre "Púrpura" de la primaria y "Púrpura" de la secundaria. Pero "Azul cl." no se mapeará correctamente con "Azul claro", así que uno de ellos tendría que volver a enlazarse. Al igual que al renombrar los campos para ayudar a Tableau a identificar los campos de enlace, puede editar alias para los miembros en esos campos. Para obtener más información, consulte Crear alias para cambiar el nombre de los miembros en la vista.

Establecer un enlace

Si el campo de enlace en las fuentes de datos primarias y secundarias tiene el mismo nombre, Tableau crea automáticamente la relación. Cuando se ha establecido una fuente de datos primaria (es decir, se utiliza un campo en la vista) y se selecciona la fuente de datos secundaria en el panel Datos, cualquier campo con el mismo nombre entre las dos fuentes de datos mostrará un icono de enlace ( o ) en la fuente de datos secundaria. Si en la vista se usa el campo relacionado de la fuente de datos primaria, el vínculo se activa automáticamente.

Si no hay iconos de enlace en la fuente de datos secundaria, es posible que deba ayudar a Tableau a establecer el enlace de una de estas dos maneras: 

  1. Si las dimensiones comunes no tienen el mismo nombre (como "Región" y "Región de ventas"), al renombrar se permitirá que Tableau las identifique como dimensiones comunes y establezca el enlace.

  2. O bien, puede definir manualmente una relación entre los campos de las fuentes de datos primarias y secundarias. A continuación, podrá obtener más información sobre la creación de una relación de enlace manual

Puede haber tantos campos de enlace activos o potenciales como sea necesario. Haga clic en el icono de enlace roto () en el panel Datos para activar la relación.

Definir manualmente una relación de enlace

Si las dimensiones comunes no tienen el mismo nombre, tendrá que definir una relación entre ellas manualmente.

  1. Seleccione Datos > Editar relaciones de combinación...

  2. En el cuadro de combinación diálogo Relaciones de combinación, asegúrese de seleccionar la fuente de datos primaria en la lista desplegable Fuente de datos primaria.

  3. Seleccione la fuente de datos secundaria en el panel Fuente de datos secundaria. Podrá ver cualquier relación de combinación automática existente. Seleccione Personalizado en la lista de relaciones y, a continuación, haga clic en Añadir.

  4. En el cuadro de diálogo Añadir/Editar asignación de campos, siga este procedimiento:

    1. Seleccione un campo de la fuente de datos primaria.

    2. Seleccione un campo de la fuente de datos secundaria para establecer el campo vinculante o la relación de combinación entre las fuentes de datos, aunque los campos no tengan el mismo nombre.

    3. Haga clic en Aceptar.

      En este ejemplo, se crea una asignación entre Segmento y Segmento de cliente.

      Interfaz del producto para el cuadro de diálogo agregar/editar relaciones

      Sugerencia: para las fechas, la relación puede especificarse con precisión. Expanda el campo de fecha y seleccione el aspecto deseado para la fecha, como la fecha exacta, el mes, el año, etc.

  5. Cree tantas de asignaciones de campos como desee y, a continuación, haga clic en Aceptar.

Enlaces múltiples

Al igual que con las relaciones o uniones, hay ocasiones en las que los enlaces entre las fuentes de datos están definidos por más de un campo. Por ejemplo, si las cuotas de ventas regionales son mensuales, es necesario establecer una combinación entre los datos de ventas transaccionales y los datos de cuotas tanto en la región como en el mes para que los datos correctos se recopilen en la vista. Puede haber varios enlaces activos al mismo tiempo.

Más información: el impacto de múltiples campos de enlace

Cuando los datos se combinan en base a múltiples campos, los valores se incluyen en la vista solo cuando la combinación de datos de esos campos coincide en ambos conjuntos de datos. Veamos un ejemplo para entender esto.

Tenemos dos tablas, una para las aves que fueron vistas por los observadores de aves, y otra para las aves que se informó que se vieron.

y

Si configuramos una vista combinada con los campos Observadores de aves y Número de aves de la fuente de datos primaria (Aves vistas) y traemos el campo Número de informes de la fuente de datos secundaria (Aves reportadas), Tableau automáticamente se combina con Observadores de aves.

Nota: Las imágenes de este tema no se han actualizado para reflejar la interfaz de usuario más reciente. El panel Datos ya no muestra Dimensiones y Medidas como etiquetas.

Vemos que el observador de aves A vio tres aves e hizo dos informes, B vio cuatro aves e hizo un informe, y C vio ocho aves e hizo dos informes.

Pero hay otro campo de enlace posible, Especies vistas. ¿Por qué no se combina este también? ¿Implicará alguna diferencia? 

Implica una diferencia bastante grande. Ahora vemos que solo hay un informe para cada uno de los observadores de aves A y C, y que B tiene un valor nulo. ¿Qué está pasando? 

Resulta que estos observadores de aves no son muy honestos. Cuando solo informaron de sus avistamientos basados en una anotación en un diario (barras azules en la imagen de arriba), las especies que reportaron haber visto no coincidían con lo que realmente vieron (vea los valores nulos en la segunda columna de la fuente de datos secundaria Aves vistas). Cuando respaldaron el informe con una fotografía (barras naranjas), fueron honestos (ambas columnas de Especies vistas coinciden). Debido a que tres informes no coincidían con las especies, esas filas de datos se eliminaron cuando los campos Observador de aves y Especies vistas se utilizaron como campo de enlace. La vista solo muestra datos en los que coinciden los valores de ambos campos de enlace.

Tenga cuidado al enlazar varios campos. Aunque puede ser muy fácil hacer clic en el icono y establecer un enlace activo, enlazar demasiados campos o campos no deseados puede tener un gran impacto en el análisis.

Diferencias entre las combinaciones y la combinación de datos

La combinación de datos simula una combinación izquierda tradicional. La diferencia principal entre los dos es el momento en el que se efectúa la agregación. Una unión combina los datos y luego los agrega. Una combinación agrega y luego combina los datos.

Combinación izquierda

Cuando usa una combinación izquierda para juntar datos, se envía una consulta a la base de datos en la que se lleva a cabo la combinación. Una unión a la izquierda indica todas las filas de la tabla de la izquierda y las filas correspondientes de la tabla de la derecha. A continuación, los resultados de la combinación se vuelven a enviar a Tableau para que los agregue y los muestre en la visualización.

Una unión a la izquierda toma todas las filas de la tabla de la izquierda. Las columnas comunes son ID de usuario e ID de patrocinador; si hay información correspondiente en la tabla de la derecha, se indican esos datos. De lo contrario, hay un nulo.

 

Suponga que tiene las mismas mesas, pero cambia el orden. Esta nueva unión a la izquierda produce diferentes resultados. Una vez más, una unión a la izquierda toma todos los datos de la nueva tabla izquierda, pero esencialmente ignora una fila de la tabla derecha. La fila de datos para ID de usuario = 4 no se incluye porque no hay ninguna fila para ID de usuario = 4 en la tabla de la izquierda.

Combinación de datos

Cuando usa la combinación de datos para juntar datos, se envía una consulta a la base de datos para cada fuente de datos que se usa en la hoja. Los resultados de las consultas se vuelven a enviar a Tableau como datos agregados y se presentan juntos en la visualización.

Nota: Las medidas de agregación son sencillas: podemos calcular la suma, el promedio, el máximo u otra agregación de un número con facilidad. Los valores de medidas se agregan en función de cómo se agrega el campo en la vista. Sin embargo, todos los campos de una fuente de datos secundaria deben agregarse. ¿Cómo funciona para las dimensiones? Los valores de dimensión se agregan con la función de agregación ATTR, de modo que la que la agregación indica un único valor para todas las filas de la fuente de datos secundaria. Si hay varios valores en dichas filas, se muestra un asterisco (*). Esto puede interpretarse como "hay múltiples valores en la fuente de datos secundaria para esta marca en la vista".

La vista utiliza todos los valores de la fuente de datos primaria (que funciona como la tabla izquierda) y las correspondientes filas de la fuente de datos secundaria (la tabla derecha), según los campos enlazados.

Supongamos que tiene las siguientes tablas. Si los campos de enlace son ID de usuario e ID de patrocinador, no todos los valores pueden formar parte de la tabla resultante debido a lo siguiente:

  • Hay una fila de la tabla izquierda que no tiene una coincidencia de fila correspondiente en la tabla derecha, como indica el valor nulo de los resultados.

  • Hay varios valores correspondientes en las filas de la tabla derecha, como indica el asterisco (*) de los resultados.

Cuando se trata de medidas, también se agregan, como se muestra a continuación:

Importante: Un asterisco (*) en una vista con datos combinados indica múltiples valores. Esto puede resolverse asegurando que solo hay un valor coincidente en la fuente de datos secundaria para cada marca de la fuente de datos primaria, posiblemente intercambiando las fuentes de datos primarias y secundarias. Para obtener más información, consulte Solucionar problemas de combinación de datos.

Combinación de datos de un vistazo

  • La combinación de datos se realiza hoja por hoja.
  • El orden en que se utilizan los campos determina qué fuente de datos es la primaria y qué fuente de datos es la secundaria.
  • La fuente de datos primaria se indica con una marca de verificación azul, mientras que cualquier fuente de datos secundaria y sus campos tienen una marca de verificación naranja.
  • Los campos de enlace se pueden determinar automáticamente basándose en nombres de campo compartidos, o bien se puede crear la relación de combinación manualmente.
  • La combinación de datos se comporta de forma similar a una unión a la izquierda, lo que puede provocar la falta de datos de la fuente de datos secundaria.
  • Es posible que aparezcan asteriscos (*). Esto indica valores de múltiples dimensiones en una sola marca, porque la combinación de datos toma resultados agregados y los combina en la vista.
  • Puede usar una fuente de datos secundaria para volver a asignar un alias a los valores de campo de una fuente de datos primaria. Para obtener más información, consulte Asignar un alias a valores de campo utilizando la combinación de datos.

Limitaciones de la combinación de datos

  • Existen algunas limitaciones de combinación de datos relacionadas con agregados no aditivos, como COUNTD, MEDIAN y RAWSQLAGG. Para obtener más información, consulte Solucionar problemas de combinación de datos.
  • Las fuentes de datos combinadas no pueden publicarse como una unidad. En su lugar, publique cada fuente de datos por separado (en el mismo servidor) y luego combine las fuentes de datos publicadas.
  • Los datos de fuentes de datos secundarias deben agregarse siempre en los cálculos.
  • Si está combinando una fuente de datos multidimensional, debe ser la fuente de datos primaria.

Otros artículos de esta sección

¡Gracias por sus comentarios!