Encontrar buenos conjuntos de datos

Una buena manera de aprender a utilizar Tableau Desktop (o construir contenido de muestra o prueba de concepto) es encontrar un conjunto de datos que le resulte interesante. Cuando tiene preguntas que quiere responder con datos, los pasos del análisis se vuelven más fáciles y significativos.

La realidad de los conjuntos de datos

Hay dos hechos inevitables en el intento de encontrar un conjunto de datos que no son oficiales, datos sancionados por los negocios.

No encontrará lo que está buscando.

  • Trate de evitar expectativas estrictas de lo que necesita.
  • Sea flexible en cuanto a lo que puede usar para un proyecto determinado.
  • A veces deberá pagar para obtener los datos que quiere, decida si merece la pena o no.

Tendrá que limpiar los datos.

Componentes de un buen conjunto de datos

Un buen conjunto de datos es el que se ajusta a su propósito. Siempre que satisfaga una necesidad, es un buen conjunto de datos. Sin embargo, hay algunas consideraciones que pueden ayudarle a eliminar los conjuntos de datos que probablemente no se ajusten a su propósito. En general, busque conjuntos de datos que cumplan las siguientes condiciones:

  1. Contiene los elementos que necesita
  2. Tienen datos desagregados
  3. Tienen al menos un par de dimensiones y un par de medidas
  4. Tienen buenos metadatos o un diccionario de datos
  5. Se pueden utilizar (no en un formato confidencial, demasiado desordenado o demasiado engorroso)
¿Qué es lo que hace que Superstore sea una muestra ideal?

Superstore es una de las fuentes de datos de ejemplo incluidas en Tableau Desktop. ¿Por qué es un conjunto de datos tan bueno?

  • Elementos necesarios: Superstore tiene fechas, datos geográficos, campos con una relación jerárquica (Categoría, Subcategoría, Producto), medidas que son positivas y negativas (Beneficio), etc. Hay muy pocos tipos de gráficos que no se puedan realizar gracias a Superstore y pocas funcionalidades que no se pueden utilizar para estas muestras.
  • Desglosado: los datos a nivel de línea son cada elemento de una transacción. Esos elementos se pueden seguir hasta el nivel de pedido (a través de un Order ID) o por cualquiera de las dimensiones (como la fecha, el cliente, la región, etc.)
  • Dimensiones y medidas: Superstore tiene varias dimensiones que nos permiten "rebanar y cortar" por cosas como la categoría o la ciudad. También hay varias medidas y fechas, lo que amplía las posibilidades de tipos de gráficos y cálculos.
  • Metadatos: Superstore tiene campos y valores con nombres adecuados. No necesita buscar lo que significan los valores.
  • Pequeño y ordenado: Superstore solo tiene unos pocos megabytes, así que ocupa poco espacio en el instalador de Tableau. También son datos muy ordenados, con solo los valores correctos en cada campo y una buena estructura de datos.

1. Un buen conjunto de datos tiene los elementos necesarios para sus objetivos

Si está buscando un conjunto de datos para construir una visualización específica o para mostrar funcionalidades específicas, compruebe que el conjunto de datos tiene los tipos de campos que necesita. Por ejemplo, los mapas son una vista genial pero requieren datos geográficos. Las demostraciones básicas a menudo implican un desglose por fechas, por lo que los datos necesitarían al menos un campo de fechas (y tendría que ser más granular que el año para mostrar el desglose). No todos los conjuntos de datos necesitan estos elementos: sepa lo que necesita para su objetivo y no pierda tiempo con conjuntos de datos a los que les faltan elementos clave.

Elementos comunes para el análisis:

  • Fechas
  • Datos geográficos
  • Datos jerárquicos
  • Medidas "interesantes": ya sea una variación sustancial en la magnitud o valores positivos y negativos

Algunas funcionalidades o tipos de visualización pueden requerir características específicas de los datos, como por ejemplo: 

  • Clústeres
  • Pronóstico
  • Líneas de tendencia
  • Filtros de usuario
  • Cálculos espaciales
  • Cálculos ciertos
  • Gráficos de bala
  • Gráficos de control

2. Un buen conjunto de datos es el de los datos desagregados (en bruto)

Si los datos están demasiado agregados, no hay mucho que se pueda hacer para el análisis. Por ejemplo, si quiere ver las tendencias de la gente que busca en Google "Especias de calabaza" pero tiene datos anuales, solo obtendrá datos superficiales resumidos. Lo ideal sería tener en sus manos los datos diarios, así podría ver el enorme pico cuando Starbucks empezó a ofrecer cafés con especias de calabaza.

Los que cuenta como desagregado puede variar según el análisis. Tenga en cuenta que, debido a la privacidad o a la practicidad, algunos conjuntos de datos nunca serán totalmente granulares. Por ejemplo, es poco probable que se encuentre un conjunto de datos con información sobre casos de paludismo caso por dirección, por lo que los totales mensuales por región podrían ser lo suficientemente granulares.

Agregación y granularidad

Comprender la agregación y la granularidad es un concepto crítico por varias razones. Afecta a aspectos como la búsqueda de conjuntos de datos útiles, crear la visualización que se desea, combinar los datos correctamente y usar expresiones de LOD. La agregación y la granularidad son conceptos opuestos.

La agregación se refiere a la forma en que se combinan los datos, como sumar todas las búsquedas en Google de Especia de calabaza (Pumpkin Spice) o tomar el promedio de todas las lecturas de temperatura alrededor de Seattle en un día determinado.

  • De forma predeterminada, las medidas de Tableau se agregan. La agregación predeterminada es SUM (suma). Puede cambiar la agregación a Promedio, Mediana, Conteo distinto, Mínimo, etc.

La granularidad se refiere al nivel de detalle de los datos. ¿Qué representa una fila (o registro) en el conjunto de datos? ¿Una persona con malaria? ¿El total de casos de malaria de una provincia durante el mes? Esa es la granularidad. Conocer la granularidad de los datos es crucial.

Para obtener más información, consulte Agregación de datos en Tableau.

3. Un buen conjunto de datos tiene dimensiones y medidas

Muchos tipos de visualización necesitan dimensiones y medidas

  • Si solo tiene dimensiones, se limita principalmente a contar, calcular porcentajes o usar el campo Recuento de la tabla.
  • Si solo tiene medidas, no podrá desglosar los valores por nada. Puede desagregar los datos por completo o trabajar con las funciones SUM o AVG generales, etc.

Lo que no quiere decir que un conjunto de datos que solo tenga dimensiones no pueda ser útil. Los datos demográficos son un ejemplo de datos muy marcados por dimensiones y gran parte de los análisis en torno a la demografía se basan en recuentos o porcentajes. Pero, para un conjunto de datos analíticamente más rico, necesitará al menos unas cuantas dimensiones y medidas.

Dimensiones y medidas, discretas y continuas

El panel Datos y la tarjeta Marcas que muestran varios tipos de pastillas

En la imagen de arriba, vemos que la Dimensión numérica no tiene una agregación en la tarjeta Marcas, a diferencia de la Medida continua y la Medida discreta.

Dimensiones y medidas

Los campos se dividen en dimensiones y medidas con una línea horizontal en el panel Datos. En Tableau, las dimensiones salen a la vista como tales, mientras que las medidas se agregan automáticamente; la agregación predeterminada para una medida es SUM (suma).

  • Las dimensiones son cualitativas, es decir, se describen, no se miden.
    • Las dimensiones suelen ser cosas como la ciudad o el país, el color de los ojos, la categoría, el nombre del equipo, etc.
    • Las dimensiones suelen ser discretas.
  • Las medidas son cuantitativas, lo que significa que pueden medirse y registrarse (numéricas).
    • Las medidas tratan a menudo conceptos como las ventas, la altura, el número de clics, etc.
    • Las medidas suelen ser continuas.

Si puede realizar operaciones matemáticas con un campo, se trata de una medida. Si no está seguro de si un campo debe ser una medida o una dimensión, piense en si puede realizar operaciones matemáticas significativas con sus valores. ¿Tiene algún significado AVG(RowID), la suma de dos números de la Seguridad Social, o la división de un código postal por 10? No. Se trata de dimensiones que están escritas como números. Piense en cuántos países tienen códigos postales alfanuméricos; son solo etiquetas, aunque en EE. UU. son solo numéricos. Tableau puede reconocer varios nombres de campo que indican que un campo numérico es en realidad un identificador o un código postal e intenta convertirlos en dimensiones, pero no es un sistema perfecto. Utilice la prueba "¿podría realizar operaciones matemáticas con esto?" para decidir si un campo numérico debe ser una medida o una dimensión y reorganice el panel Datos según sea necesario.

Nota: Aunque se pueden realizar operaciones matemáticas con las fechas (como el cálculo DATEDIFF), la convención estándar es categorizar las fechas como dimensiones.

Discreto y Continuo

Los campos Discretos o Continuos están de alguna manera alineados con los conceptos de dimensión y medida, pero no son idénticos.

  • Los campos Discretos contienen valores distintos. Conforman los encabezados o las etiquetas en la vista y están marcados con óvalos de color azul
  • Los campos Continuos "forman un todo ininterrumpido". Conforman un eje en la vista y están marcados con óvalos de color verde

Una buena forma de entender los valores discretos y continuos es mirar un campo de fechas. Las fechas pueden ser discretas o continuas.

  • Analizar las temperaturas medias del mes de agosto en la última década o siglo significa que "Agosto" se está utilizando como una fecha discreta y cualitativa.
  • Al examinar la tendencia general de los casos de paludismo reportados desde 1960, se usaría un único eje ininterrumpido, lo que significa que la fecha se utiliza como un valor cuantitativo continuo.

Para obtener más información, consulte Dimensiones y medidas, azul y verde.

Campos creados por Tableau

Tableau creará al menos tres campos, sin importar el conjunto de datos:

  • Nombres de medidas (una dimensión)
  • Valores de la medida (una medida)
  • TableName(Count) (una medida)

Si hay campos geográficos en el conjunto de datos, Tableau también creará campos de Latitud (generados) y Longitud (generados).

Los nombres de las medidas y los valores de las medidas son dos campos útiles. Para obtener más información, consulte Valores de medidas y nombres de medidas.

Recuento de la tabla proporciona el número de registros de la tabla contando las filas. Esto le permite tener al menos una medida en su conjunto de datos y puede ayudar con algún análisis. Debe comprender la granularidad de sus datos (lo que representa una fila) para poder definir lo que significa el número de filas.

Aquí, cada fila es un día, por lo que el recuento de la tabla sería el número de días:

Aquí, cada fila es un mes, por lo que el recuento de la tabla sería el número de meses:

4. Un buen conjunto de datos tiene metadatos o un diccionario de datos

Un conjunto de datos solo puede ser útil si se sabe cuáles son los datos. Hay pocas cosas más frustrantes en la búsqueda de buenos datos que abrir un archivo como este:

vista de hoja de cálculo de datos completamente numéricos

¿Qué significa una Fuente de 4 o 12? ¿Y qué información hay en los campos OTU0-OTU4?

Un buen conjunto de datos es aquel que tiene campos y miembros bien etiquetados o un diccionario de datos para que usted mismo pueda volver a etiquetar los datos. Volvamos a pensar en el ejemplo de Superstore: es inmediatamente obvio cuáles son los campos y sus valores, como la categoría y los campos de Tecnología, Muebles y Suministros de oficina de sus miembros. O, para el conjunto de datos de los microbiomas en la imagen de arriba, hay un diccionario de datos(El enlace se abre en una ventana nueva) que explica cada Fuente (4 es heces y 12 es estómago) y la taxonomía de cada OTU (OTU3 es una bacteria del género Parabacteroides).

Los diccionarios de datos también pueden llamarse metadatos, indicadores, definiciones de variables, glosarios o cualquier otra cosa. Al fin y al cabo, un diccionario de datos proporciona información sobre los nombres de las columnas y los miembros en una columna. Esa información se puede introducir en la fuente de datos o visualización de varias maneras, entre ellas:

  • Cambie el nombre de las columnas para que sean más fáciles de entender (esto se puede hacer en el propio conjunto de datos o en Tableau).
  • Reajustar los miembros del campo (esto se puede hacer en el propio conjunto de datos o en Tableau).
  • Crear cálculos para añadir la información del diccionario de datos.
  • Comentario sobre el campo en Tableau (los comentarios no aparecen en las visualizaciones publicadas, solo en el entorno de creación).
  • Utilice el diccionario de datos como otra fuente de datos y combine las dos fuentes de datos.

Perder un diccionario de datos puede hacer que un conjunto de datos sea inútil. Si marca un conjunto de datos, marque también el diccionario de datos. Si está descargando, descargue ambos y manténgalos en el mismo lugar.

5. Un buen conjunto de datos es aquel que se pueda utilizar

Mientras pueda entender el conjunto de datos y tenga la información que necesita, incluso un pequeño conjunto de datos puede ser muy útil para el análisis. Los conjuntos de datos más pequeños también son fáciles de almacenar, compartir y publicar, y es probable que funcionen bien.

Del mismo modo, incluso si encuentra el conjunto de datos "perfecto" para sus necesidades, si requiere una cantidad de esfuerzo poco realista para limpiar, no es perfecto después de todo. Es importante saber cuándo alejarse de un conjunto de datos demasiado desordenado.

Por ejemplo, este conjunto de datos es de un artículo de Wikipedia sobre las frecuencias relativas de las letras. Empezó como 84 filas y 16 columnas (se convirtió en una tabla dinámica para que tuviera 1245 filas y 3 columnas). El archivo de Excel es de 16 KB. Pero con algunos grupos, conjuntos, cálculos y otras manipulaciones, permite un análisis completo y tiene información visual interesante.

Haga clic en la imagen para descargar el libro de trabajo.

Volver a etiquetar los datos

Una vez que encuentre un buen conjunto de datos, a menudo tendrá que volver a etiquetarlo. Volver a etiquetar los datos puede ser útil para crear datos falsos para las muestras o pruebas de concepto, o para hacer los datos más legibles.

El cambio de nombre de un campo cambia la forma en que ese campo aparece en Tableau, como el cambio de nombre de "Ventas" a "Ventas por conducto" o de "Estado" a "Provincia".

La readaptación cambia la forma en que se muestran los miembros de un campo, como el reajuste de los valores en un campo de país, de modo que el CHN se convierte en China y el RUS en Rusia.

  • Los valores en un campo de dimensiones discretas se llaman miembros. Solo los miembros se pueden reajustar. Para la temperatura, plantéese utilizar un campo de medida. Un valor de 54°F no se puede cambiar sin modificar los datos en sí. Pero readaptar el miembro "CHN" como "China" en un campo de País es la misma información, solo que etiquetada de otra manera.

Cambiar el nombre y readaptar significa casi lo mismo. En Tableau, los campos se nombran y los miembros se ajustan. Para obtener más información, consulte Organizar y personalizar campos en el panel Datos y Crear alias para cambiar el nombre de los miembros en la vista.

Nota: Cambiar el nombre o readaptar un miembro solo modifica su apariencia en Tableau Desktop, no se cambian en los datos subyacentes.

Reetiquetado para crear datos falsos

El reetiquetado de los conjuntos de datos existentes es una excelente manera de hacer más convincentes las muestras o el contenido de las pruebas de concepto.

  1. Utilice un sencillo conjunto de datos (como Superstore) para crear lo que quiera (un tipo de gráfico específico, muestras de ciertas funcionalidades, etc.)
  2. Cambie el nombre de los campos relevantes, cambie los datos de las herramientas o cambie los aspectos textuales para enmascarar lo que los datos representan realmente.

Importante: Solo hágalo cuando esté claro que la información es falsa. Tenga cuidado, los usuarios deben tener claro que los datos no son reales y no deben intentar usarlos para el análisis. Por ejemplo, use nombres absurdos o nombres de campo sin sentido como colores o animales.

Readaptar el nombre para hacer más sencillo el uso de los datos

Es más eficiente almacenar los datos como valores numéricos que como valores de cadena, aunque la codificación numérica puede hacer que los datos sean más difíciles de entender. Para pequeños conjuntos de datos, no tendría un impacto en el rendimiento, así que priorice la capacidad de entender los datos con facilidad.

Una desventaja de readaptar los nombres es que se pierde el acceso a esos valores numéricos (lo que hace más difícil ordenar, asignar gradientes de color, etc.). Considere la posibilidad de duplicar el campo y readaptar el nombre de la copia. Por otra parte, un cálculo en Tableau puede ser una buena manera de conservar la información original y, al mismo tiempo, hacer que se comprenda con mayor facilidad.

Readaptación con la función CASE

Los cálculos pueden ser muy útiles para la readaptación. Por ejemplo, las funciones CASE permiten decir, esencialmente, "cuando este campo tiene un valor de A, dame X. Cuando el valor es B, dame Y".

Aquí, la función CASE mira la escala F en un conjunto de datos de tornados y proporciona la descripción escrita asociada a cada valor numérico:

CASE [F-scale]
WHEN "0" THEN "Some damage to chimneys; branches broken off trees; shallow-rooted trees pushed over; sign boards damaged."
WHEN "1" THEN "The lower limit is the beginning of hurricane wind speed; peels surface off roofs; mobile homes pushed off foundations or overturned; moving autos pushed off the roads..."
WHEN "2" THEN "Roofs torn off frame houses; mobile homes demolished; boxcars overturned; large trees snapped or uprooted; highrise windows broken and blown in; light-object missiles generated."
WHEN "3" THEN "Roofs and some walls torn off well-constructed houses; trains overturned; most trees in forest uprooted; heavy cars lifted off the ground and thrown."
WHEN "4" THEN "Well-constructed houses leveled; structures with weak foundations blown away some distance; cars thrown and large missiles generated."
WHEN "5" THEN "Strong frame houses lifted off foundations and carried considerable distances to disintegrate; ... trees debarked; steel reinforced concrete structures badly damaged."
END

Ahora podemos elegir usar el campo original de "escala F" (0-5) o el campo de "descripción de daños de escala F" en la visualización.

Consejos al buscar conjuntos de datos

Nota: Compruebe que puede responder a la pregunta "¿Qué representa una fila (o registro) en el conjunto de datos?" Si no es capaz de responder, es posible que no se entiendan los datos lo suficientemente bien como para poder utilizarlos o que estén mal estructurados para el análisis.

  • Lleve un registro del origen de los datos.
  • Conserve la información del diccionario de datos con los datos mismos.
  • Evite usar datos obsoletos si necesita que el contenido permanezca siempre actualizado. Busque:
    • datos actualizables (existencias, clima, informes publicados regularmente, etc.)
    • datos atemporales (la masa media de varios animales no va a cambiar de año en año)
    • datos que puede probar en el futuro cambiando artificialmente a fechas históricas o futuras
  • Intente simplemente buscar en Google, podría sorprenderse.
  • No tenga miedo de renunciar a un conjunto de datos si prepararlo conlleva demasiado trabajo.

Lugares para buscar datos

¿Dónde puede buscar datos? Hay un número abrumador de lugares para encontrar conjuntos de datos. Aquí tiene algunas opciones. Tenga en cuenta que la realidad de los conjuntos de datos se aplica a estos sitios, probablemente no encontrará lo que está pensando en este momento y lo más probable es que tenga que hacer una limpieza para que los datos estén listos para el análisis.

Exención de responsabilidades: aunque intentamos en la medida de lo posible garantizar que los vínculos a sitios web externos sean precisos, actualizados y relevantes, Tableau no se responsabiliza de que las páginas mantenidas por proveedores externos sean precisas y actuales. La inclusión de un sitio en esta lista no constituye la aprobación de ningún contenido u organización. Póngase en contacto con el sitio externo para obtener respuestas a preguntas en relación con su contenido.

Tableau Public(El enlace se abre en una ventana nueva): Tableau Public es un recurso ideal para los conjuntos de datos de Tableau. Busque los libros de trabajo que tratan un tema que le interese, busque la inspiración que necesita y descargue el libro de trabajo para acceder a los datos. También puede consultar Datos de muestra(El enlace se abre en una ventana nueva) procesados.

Tablas de Wikipedia(El enlace se abre en una ventana nueva): Puede obtener los datos de tablas de Wikipedia mediante uno de estos pasos: copiar y pegar en una hoja de cálculo, copiar y pegar directamente en Tableau o utilizar Google Sheets y la función IMPORTHTML(El enlace se abre en una ventana nueva) para crear una hoja de cálculo de Google Sheets con los datos.

Búsqueda en un conjunto de datos de Google(El enlace se abre en una ventana nueva): "Un motor de búsqueda para unir el fragmentado mundo de los conjuntos de datos en línea."

Data is Plural(El enlace se abre en una ventana nueva): Suscríbase a un boletín semanal con conjuntos de datos, o explore el archivo(El enlace se abre en una ventana nueva) de conjuntos.

Makeover Monday(El enlace se abre en una ventana nueva): "Únase a nosotros cada lunes para trabajar con un determinado conjunto de datos y crear visualizaciones más eficaces y ayudarnos a que la información sea más accesible." Puede ver lo que otras personas han hecho con el mismo conjunto de datos, iniciando su análisis o ayudando a otros usuarios. Use #makeovermonday(El enlace se abre en una ventana nueva) en Twitter para participar.

Otros sitios

¡Gracias por sus comentarios!