Combinar datos
La combinación de datos es un método para unir datos de múltiples fuentes. La combinación de datos trae información adicional de una fuente de datos secundaria y la muestra con datos de la fuente de datos primaria directamente en la vista.
La combinación de datos es especialmente útil cuando la relación de combinación (vincular campos) debe variar hoja por hoja o al combinar fuentes de datos publicadas.
Opciones para combinar datos
Hay muchas maneras de combinar datos, cada una con sus ventajas y desventajas.
Las relaciones son el método predeterminado y se pueden utilizar en la mayoría de los casos, incluso en tablas con diferentes niveles de detalle. Las relaciones son flexibles y se adaptan a la estructura del análisis hoja por hoja. No obstante, no puede crear relaciones entre tablas creadas a partir de fuentes de datos publicadas.
Las uniones de columnas combinan tablas agregando más columnas de datos en estructuras de fila similares. Esto puede provocar la pérdida o duplicación de datos si las tablas están en diferentes niveles de detalle y las fuentes de datos unidas deben establecerse antes de que pueda comenzar el análisis. No puede usar una fuente de datos publicada en una unión de columnas.
Las combinaciones, a diferencia de las relaciones o uniones de columnas, nunca combinan realmente los datos. En su lugar, las combinaciones consultan cada fuente de datos de forma independiente, agregan los resultados al nivel adecuado y, a continuación, muestran los resultados juntos en la vista. Debido a esto, las mezclas pueden manejar diferentes niveles de detalle y también trabajar con fuentes de datos publicadas. Las combinaciones no crean una nueva fuente de datos combinada (y, por lo tanto, no se pueden publicar como una "fuente de datos combinada"). En cambio, son simplemente resultados combinados visualizados por hoja.
Pasos para la combinación de datos
La combinación de datos se realiza hoja por hoja y se establece cuando se utiliza un campo de una segunda fuente de datos en la vista.
Para crear una combinación en un libro de trabajo, debe conectarse al menos a dos fuentes de datos. Luego, traiga un campo de una fuente de datos a la hoja; se convierte en la fuente de datos principal. Cambie a la otra fuente de datos y utilice un campo en la misma hoja: se convierte en una fuente de datos secundaria. En el panel Datos aparecerá un icono naranja de enlace que indica qué campos se están usando para combinar las fuentes de datos.
- Asegúrese de que el libro de trabajo tenga múltiples fuentes de datos. La segunda fuente de datos debe agregarse yendo a Datos > Nueva fuente de datos.
Consejo: La combinación requiere dos o más fuentes de datos distintas, listadas de forma independiente en el panel Datos. Agregar otra conexión a la primera fuente de datos habilita las relaciones y uniones en la página de fuente de datos.
- Arrastrar un campo a la vista. Esta fuente de datos será la fuente de datos principal.
- Cambie a otra fuente de datos y asegúrese de que exista una relación de combinación con la fuente de datos primaria.
- Si hay un icono de campo de enlace (), las fuentes de datos se vinculan automáticamente. Los datos pueden combinarse siempre y cuando haya al menos un enlace activo.
- Si hay iconos de enlaces rotos (), haga clic en el icono situado junto al campo que debe vincular las dos fuentes de datos. La barra inclinada desaparecerá y representará un enlace activo.
- Si un icono de enlace no aparece junto al campo deseado, consulte Definir relaciones de combinación para la combinación.
- Arrastre un campo a la vista desde la fuente de datos secundaria.
En cuanto esta segunda fuente de datos se utiliza en la misma vista, se establece una combinación. En el siguiente ejemplo, nuestra fuente de datos primaria es Movie adaptations y la fuente de datos secundaria es Bookshop.
- La fuente de datos primaria se indica con una marca de verificación azul en la fuente de datos. Los campos de la fuente de datos primaria utilizada en la vista no tienen ninguna indicación.
- La fuente de datos secundaria se indica con una marca de verificación naranja en la fuente de datos y una barra naranja en el lateral del panel Datos. Los campos de la fuente de datos secundaria utilizada en la vista tienen una marca de verificación naranja.
Comprender las fuentes de datos primarias y secundarias
La combinación de datos requiere una fuente de datos primaria y por lo menos una secundaria. La primera fuente de datos utilizada en la vista se convierte en la fuente de datos primaria y define la vista. Es posible que esto limite los valores de la fuente de datos secundaria: en la vista solo aparecen los valores que tienen coincidencias en la fuente de datos primaria. Esto es parecido a una unión a la izquierda.
Por ejemplo, si la fuente de datos primaria tiene un campo Mes que solo contiene abril, mayo y junio, cualquier vista generada alrededor de los meses solo mostrará abril, mayo y junio, incluso si la fuente de datos secundaria tiene valores para doce meses. Si el análisis deseado involucra los doce meses, intente cambiar la fuente de datos primaria reconstruyendo la hoja y usando primero la otra fuente de datos.
En los ejemplos siguientes se utilizan las mismas fuentes de datos enlazadas en el mismo campo, y la visualización se crea de la misma manera las dos veces. La diferencia entre los resultados se debe a la fuente de datos designada como primaria.
- Aquí, el campo Mes de la fuente de datos Precipitaciones aparece primero en la vista. Debido a que Precipitaciones solo contiene tres meses, cuando se agrega el conjunto de datos Polen como secundario, solo aparecen tres meses en la vista.
- En otra hoja, el campo Mes del conjunto de datos Polen aparece primero en la vista. Se visualizan los doce meses. Cuando el conjunto de datos Precipitaciones se agrega como secundario, Precipitaciones solo está disponible para los tres meses de ese conjunto de datos.
Trabajar con fuentes de datos combinadas
Debido a la naturaleza de una combinación de datos, hay algunas cosas a tener en cuenta cuando se trabaja con fuentes de datos combinadas.
La realización de cálculos con campos de más de una fuente de datos puede ser ligeramente diferente a la de un cálculo ordinario. Se debe crear un cálculo en una única fuente de datos; la parte superior del editor de cálculo indica en qué fuente de datos se encuentra el cálculo.
- Agregación. Cualquier campo usado desde otra fuente de datos vendrá con una agregación por defecto, SUM, pero puede cambiarse. Dado que los cálculos no pueden mezclar argumentos agregados y no agregados, también deben agregarse los campos de la fuente de datos del host del cálculo. (En las imágenes de abajo, la agregación SUMA se agregó automáticamente y la agregación suma se agregó manualmente.)
- Notación por puntos. Cualquier campo referenciado en el cálculo que pertenezca a otra fuente de datos se referirá a su fuente de datos utilizando notación por puntos. (En las imágenes de abajo, para el cálculo creado en Muestra - Supertienda, el campo Destino de ventas pasa a ser [Objetivos.Ventas].[Objetivo de ventas]. Cuando el cálculo se construye en Objetivos de ventas, el campo Ventas pasa a ser [Muestra - Supertienda].[Ventas]).
- Estas son versiones equivalentes del mismo cálculo creado en cada fuente de datos. En ambos casos, se trata de SUMA(Ventas) / SUMA(Objetivo de ventas).
Además de manejar los cálculos de manera ligeramente diferente, existen algunas limitaciones en las fuentes de datos secundarias. Es posible que no pueda ordenar por un campo de una fuente de datos secundaria y que los filtros de acción no funcionen como se espera con los datos combinados. Para obtener más información, consulte Otros problemas relacionados con la combinación de datos.
Definir relaciones de combinación para la combinación
Para que Tableau sepa cómo combinar los datos de múltiples fuentes, debe haber una dimensión o dimensiones comunes entre las fuentes de datos. Esta dimensión común se llama campo de vinculación. Los campos de enlace activos se identifican en el panel Datos de la fuente de datos secundaria con un icono de enlace activo () y los campos de enlace potenciales se identifican con un icono de enlace roto (). Los campos de enlace no se indican en la fuente de datos principal.
Por ejemplo, en una combinación de datos transaccionales y de cuotas, un campo geográfico puede ser el campo de enlace deseado para que pueda analizar la cuota y el rendimiento en comparación con la cuota de la misma región.
Nota: Para que la combinación funcione, los campos de enlace también deben compartir valores o miembros. Tableau construye la vista de datos combinados basados en los valores compartidos. Por ejemplo, si Color es el campo de enlace en ambas fuentes de datos, Tableau hará coincidir los datos sobre "Púrpura" de la primaria y "Púrpura" de la secundaria. Pero "Azul cl." no se mapeará correctamente con "Azul claro", así que uno de ellos tendría que volver a enlazarse. Al igual que al renombrar los campos para ayudar a Tableau a identificar los campos de enlace, puede editar alias para los miembros en esos campos. Para obtener más información, consulte Crear alias para cambiar el nombre de los miembros en la vista.
Establecer un enlace
Si el campo de enlace en las fuentes de datos primarias y secundarias tiene el mismo nombre, Tableau crea automáticamente la relación. Cuando se ha establecido una fuente de datos primaria (es decir, se utiliza un campo en la vista) y se selecciona la fuente de datos secundaria en el panel Datos, cualquier campo con el mismo nombre entre las dos fuentes de datos mostrará un icono de enlace ( o ) en la fuente de datos secundaria. Si en la vista se usa el campo relacionado de la fuente de datos primaria, el vínculo se activa automáticamente.
Si no hay iconos de enlace en la fuente de datos secundaria, es posible que deba ayudar a Tableau a establecer el enlace de una de estas dos maneras:
Si las dimensiones comunes no tienen el mismo nombre (como "Título" y "Título del libro"), al renombrar se permitirá que Tableau las identifique como dimensiones comunes y establezca el enlace.
O bien, puede definir manualmente una relación entre los campos de las fuentes de datos primarias y secundarias. A continuación, podrá obtener más información sobre la creación de una relación de enlace manual
Puede haber tantos campos de enlace activos o potenciales como sea necesario. Haga clic en el icono de enlace roto () en el panel Datos para activar la relación.
Si las dimensiones comunes no tienen el mismo nombre, tendrá que definir una relación entre ellas manualmente.
Seleccione Datos > Editar relaciones de combinación...
En el cuadro de combinación diálogo Relaciones de combinación, asegúrese de seleccionar la fuente de datos primaria en la lista desplegable Fuente de datos primaria.
Seleccione la fuente de datos secundaria en el panel Fuente de datos secundaria. Todas las relaciones de combinación automáticas existentes están visibles (y se pueden eliminar pasando el cursor sobre la fila y haciendo clic en la x). Seleccione Personalizado en la lista de relaciones y, a continuación, haga clic en Añadir.
En el cuadro de diálogo Añadir/Editar asignación de campos, siga este procedimiento:
Seleccione un campo de la fuente de datos primaria.
Seleccione el campo comparable de la fuente de datos secundaria.
Haga clic en Aceptar.
En este ejemplo, Segmento está asignado a Segmento de clientes.
Sugerencia: para las fechas, la relación puede especificarse con precisión. Expanda el campo de fecha y seleccione el aspecto deseado para la fecha, como la fecha exacta, el mes, el año, etc.
Cree tantas de asignaciones de campos como desee y, a continuación, haga clic en Aceptar.
Enlaces múltiples
Al igual que con las relaciones o uniones, hay ocasiones en las que los enlaces entre las fuentes de datos están definidos por más de un campo. Por ejemplo, si las cuotas de ventas regionales son mensuales, es necesario establecer una combinación entre los datos de ventas transaccionales y los datos de cuotas tanto en la región como en el mes para que los datos correctos se recopilen en la vista. Puede haber varios enlaces activos al mismo tiempo.
Cuando los datos se combinan en base a múltiples campos, los valores se incluyen en la vista solo cuando la combinación de datos de esos campos coincide en ambos conjuntos de datos. Veamos un ejemplo para entender esto.
Tenemos dos tablas, una para las aves que fueron vistas por los observadores de aves, y otra para las aves que se informó que se vieron.
y
Si configuramos una vista combinada con los campos Observadores de aves y Número de aves de la fuente de datos primaria (Aves vistas) y traemos el campo Número de informes de la fuente de datos secundaria (Aves reportadas), Tableau automáticamente se combina con Observadores de aves.
Vemos que el observador de aves A vio tres aves e hizo dos informes, B vio cuatro aves e hizo un informe, y C vio ocho aves e hizo dos informes.
Pero hay otro campo de enlace posible, Especies vistas. ¿Por qué no se combina este también? ¿Implicará alguna diferencia?
Implica una diferencia bastante grande. Ahora vemos que solo hay un informe para cada uno de los observadores de aves A y C, y que B tiene un valor nulo. ¿Qué está pasando?
Resulta que estos observadores de aves no son muy honestos. Cuando solo informaron de sus avistamientos basados en una anotación en un diario (barras azules en la imagen de arriba), las especies que reportaron haber visto no coincidían con lo que realmente vieron (vea los valores nulos en la segunda columna de la fuente de datos secundaria Aves vistas). Cuando respaldaron el informe con una fotografía (barras naranjas), fueron honestos (ambas columnas de Especies vistas coinciden).
Debido a que tres informes no coincidían con las especies, esas filas de datos se eliminaron el campo Especies vistas se utilizó como campo de enlace. La vista solo muestra datos en los que coinciden los valores de ambos campos de enlace.
Conclusiones
Tenga cuidado al enlazar varios campos. Aunque puede ser muy fácil hacer clic en el icono y establecer un enlace activo, enlazar demasiados campos o campos no deseados puede tener un gran impacto en el análisis.
Diferencias entre las combinaciones y la combinación de datos
La combinación de datos simula una combinación izquierda tradicional. La diferencia principal entre los dos es el momento en el que se efectúa la agregación. Una unión combina los datos y luego los agrega. Una combinación agrega y luego combina los datos.
Combinación izquierda
Cuando usa una combinación izquierda para juntar datos, se envía una consulta a la base de datos en la que se lleva a cabo la combinación. Una unión a la izquierda indica todas las filas de la tabla de la izquierda y las filas correspondientes de la tabla de la derecha. A continuación, los resultados de la combinación se vuelven a enviar a Tableau para que los agregue y los muestre en la visualización.
Una unión a la izquierda toma todas las filas de la tabla de la izquierda. Las columnas comunes son ID de usuario e ID de patrocinador; si hay información correspondiente en la tabla de la derecha, se indican esos datos. De lo contrario, hay un nulo.
Suponga que tiene las mismas mesas, pero cambia el orden. Esta nueva unión a la izquierda produce diferentes resultados. Una vez más, una unión a la izquierda toma todos los datos de la nueva tabla izquierda, pero esencialmente ignora una fila de la tabla derecha. La fila de datos para ID de usuario = 4 no se incluye porque no hay ninguna fila para ID de usuario = 4 en la tabla de la izquierda.
Combinación de datos
Cuando usa la combinación de datos para juntar datos, se envía una consulta a la base de datos para cada fuente de datos que se usa en la hoja. Los resultados de las consultas se vuelven a enviar a Tableau como datos agregados y se presentan juntos en la visualización.
Nota: Las medidas de agregación son sencillas: podemos calcular la suma, el promedio, el máximo u otra agregación de un número con facilidad. Los valores de medidas se agregan en función de cómo se agrega el campo en la vista. Sin embargo, todos los campos de una fuente de datos secundaria deben agregarse. ¿Cómo funciona para las dimensiones? Los valores de dimensión se agregan con la función de agregación ATTR, de modo que la que la agregación indica un único valor para todas las filas de la fuente de datos secundaria. Si hay varios valores en dichas filas, se muestra un asterisco (*). Esto puede interpretarse como "hay múltiples valores en la fuente de datos secundaria para esta marca en la vista".
La vista utiliza todos los valores de la fuente de datos primaria (que funciona como la tabla izquierda) y las correspondientes filas de la fuente de datos secundaria (la tabla derecha), según los campos enlazados.
Supongamos que tiene las siguientes tablas. Si los campos de enlace son ID de usuario e ID de patrocinador, no todos los valores pueden formar parte de la tabla resultante debido a lo siguiente:
Hay una fila de la tabla izquierda que no tiene una coincidencia de fila correspondiente en la tabla derecha, como indica el valor nulo de los resultados.
Hay varios valores correspondientes en las filas de la tabla derecha, como indica el asterisco (*) de los resultados.
Cuando se trata de medidas, también se agregan, como se muestra a continuación:
Importante: Un asterisco (*) en una vista con datos combinados indica múltiples valores. Esto puede resolverse asegurando que solo hay un valor coincidente en la fuente de datos secundaria para cada marca de la fuente de datos primaria, posiblemente intercambiando las fuentes de datos primarias y secundarias. Para obtener más información, consulte Solucionar problemas de combinación de datos.
Combinación de datos de un vistazo
- La combinación de datos se realiza hoja por hoja.
- El orden en que se utilizan los campos determina qué fuente de datos es la primaria y qué fuente de datos es la secundaria.
- La fuente de datos primaria se indica con una marca de verificación azul, mientras que cualquier fuente de datos secundaria y sus campos tienen una marca de verificación naranja.
- Los campos de enlace se pueden determinar automáticamente basándose en nombres de campo compartidos, o bien se puede crear la relación de combinación manualmente.
- La combinación de datos se comporta de forma similar a una unión a la izquierda, lo que puede provocar la falta de datos de la fuente de datos secundaria.
- Es posible que aparezcan asteriscos (*). Esto indica valores de múltiples dimensiones en una sola marca, porque la combinación de datos toma resultados agregados y los combina en la vista.
- Puede usar una fuente de datos secundaria para volver a asignar un alias a los valores de campo de una fuente de datos primaria. Para obtener más información, consulte Asignar un alias a valores de campo utilizando la combinación de datos.
Limitaciones de la combinación de datos
- Existen algunas limitaciones de combinación de datos relacionadas con agregados no aditivos, como COUNTD, MEDIAN y RAWSQLAGG. Para obtener más información, consulte Solucionar problemas de combinación de datos.
- Las fuentes de datos combinadas no pueden publicarse como una unidad. En su lugar, publique cada fuente de datos por separado (en el mismo servidor) y luego combine las fuentes de datos publicadas.
- Los datos de fuentes de datos secundarias deben agregarse siempre en los cálculos.
- Si está combinando una fuente de datos multidimensional, debe ser la fuente de datos primaria.