데이터 전략

이 콘텐츠는 조직이 데이터를 사용하여 영향력을 높이는 방법을 분석 및 개선하는 데 도움을 주는 성숙도 프레임워크인 Tableau Blueprint의 일부입니다. 여정을 시작하려면 평가(링크가 새 창에서 열림)를 수행하십시오.

모든 조직의 데이터 인프라에 대한 요구 사항 및 솔루션은 상이합니다. Tableau는 조직의 선택을 존중하며, 기존 데이터 전략과 통합합니다. 엔터프라이즈 데이터 웨어하우스 외에도, 조직 내부 및 외부에 클라우드 응용 프로그램 및 데이터, 빅 데이터 데이터베이스, 구조적 및 비구조적 리포지토리와 같은 많은 새로운 데이터 원본이 있습니다. Hadoop 클러스터에서 NoSQL 데이터베이스 및 기타 여러 데이터베이스에 이르기까지, 더 이상 EDW(엔터프라이즈 데이터 웨어하우스)를 최종 목적지로 하여 데이터 흐름을 중앙에 집중할 필요가 없습니다.

최신 데이터 아키텍처는 새로운 비즈니스 요구 사항(속도, 민첩성, 볼륨) 및 새로운 기술에 의해 주도되고 있습니다. 적절한 데이터 액세스를 제공할지 또는 다른 원본으로 데이터를 보강할지 선택하면 됩니다. 최신 데이터 아키텍처를 클라우드 솔루션과 결합하면, 인프라와 서비스에서 데이터 파이프라인을 수 시간 내에 실행할 수 있으며 이전과는 전혀 다른 방식으로 조직에 데이터를 배포할 수 있습니다. 유감스럽게도, 조직의 데이터 관리 핸드북이 기존 EDW의 단일 데이터 버킷 사고방식을 토대로 작성된 경우에는 새로운 기회를 놓치게 됩니다. 버킷에서 파이프라인으로 전환하는 비결은 조직 내에서 하나의 데이터 원본이 모든 데이터 요청에 응답할 수 없다는 사실을 받아들이는 것입니다. 다음은 최신 데이터 아키텍처의 패턴입니다.

최신 데이터 아키텍처

  1. 원시 데이터: 데이터 원본(예: 정리, PII 검사 등 여러 방식으로 변환할 필요가 있는 데이터 플랫폼에 로드된 트랜잭션 데이터)입니다.
  2. 준비용 계산: 원시 데이터를 처리하려면 상당한 계산 리소스가 필요할 수 있으므로 기존의 ETL(데이터 준비)을 넘어섭니다. 흔히 데이터 과학 응용 프로그램을 여기에 둡니다. 실제로 많은 가치를 지닌 새로운 데이터를 만들 수 있습니다.
  3. 저장소: 최신 데이터 플랫폼은 데이터가 향후 어떻게 사용될지 알 수 없기 때문에 데이터 저장 원칙을 기반으로 합니다. 점진적으로 중간 데이터, 그리고 동일한 데이터의 여러 버전 및 형식을 저장합니다. 따라서 저장소는 계층화됩니다.
  4. 쿼리 계산: 일반적인 분석 데이터베이스 엔진으로, Hyper 추출은 물론 Hadoop 등도 포함됩니다.
  5. 분석: Tableau의 핵심은 분석에 있습니다.

Tableau의 하이브리드 데이터 아키텍처

Tableau의 하이브리드 데이터 아키텍처는 라이브 연결 또는 인메모리 추출을 사용하여 데이터와 상호 작용하는 두 가지 모드를 제공합니다. 사용 사례에 적합한 옵션을 선택하는 것만큼이나 두 가지 모드 간에 쉽게 전환할 수 있습니다.

라이브 연결

Tableau의 데이터 커넥터는 모든 데이터를 가져오는 대신 동적 쿼리를 원본 데이터베이스로 직접 보냄으로써 기존 데이터 인프라를 활용합니다. 즉, 분석에 최적화된 빠른 데이터베이스에 투자한 경우 데이터에 실시간으로 연결함으로써 투자의 이점을 누릴 수 있음을 의미합니다. 그러면 세부 데이터는 원본 시스템에 그대로 남고, 쿼리 집계 결과가 Tableau로 전송됩니다. 이는 또한 Tableau가 무제한의 데이터를 효과적으로 활용할 수 있음을 의미합니다. Tableau는 실제로 세계 최대 규모의 여러 데이터베이스에 대한 프런트엔드 분석 클라이언트입니다. Tableau는 각 데이터 원본의 고유한 특성을 활용할 수 있도록 각 커넥터를 최적화했습니다.

인메모리 추출

트랜잭션 데이터베이스를 기반으로 구축된 데이터 아키텍처가 있거나 핵심 데이터 인프라의 워크로드를 줄이고자 하는 조직을 위해, Hyper 기술이 사용된 Tableau의 데이터 엔진은 분석에 최적화된 인메모리 데이터 저장소를 제공합니다. 데이터를 인메모리로 가져와서 연결 및 추출하여 한 번의 클릭으로 Tableau에서 쿼리를 수행할 수 있습니다. Tableau 데이터 추출을 사용하면 데이터베이스를 다시 쿼리하는 데 걸리는 시간을 줄임으로써 사용자 경험을 크게 향상할 수 있습니다. 추출은 또한 데이터베이스 서버에서 중복된 쿼리 트래픽을 비웁니다.

추출은 빈번한 쿼리를 처리할 리소스를 제공할 여력이 없는 매우 활동적인 트랜잭션 시스템에 적합한 솔루션입니다. 야간에 추출 새로 고침을 수행하여 주간에 사용될 수 있도록 설정할 수 있습니다. 추출은 고정된 레코드 수, 총 레코드 백분율 또는 필터링된 기준에 근거하는 데이터의 하위 집합일 수도 있습니다. 데이터 엔진은 새로운 데이터로 기존 추출을 업데이트하는 증분 추출을 수행할 수도 있습니다. 추출은 데이터베이스를 교체하기 위한 것이 아니므로, 분석에 적합한 규모로 수행하십시오.

기초 데이터 원본에 직접 액세스할 수 없는 사용자와 통합 문서를 공유해야 하는 경우 추출을 활용할 수 있습니다. Tableau의 패키지 통합 문서(.twbx 파일 형식)에는 해당 통합 문서에 사용된 모든 분석 및 데이터가 포함되어 있어 휴대 및 다른 Tableau 사용자와의 공유가 가능합니다.

사용자가 추출을 사용하여 통합 문서를 게시하면, 해당 추출도 Tableau Server 또는 Tableau Cloud에 게시됩니다. 향후 통합 문서와의 상호 작용에서는 라이브 데이터를 요청하는 대신 추출이 사용됩니다. 활성화된 경우, 일정에 따라 추출에 대한 자동 새로 고침을 요청하도록 통합 문서를 설정할 수 있습니다.

쿼리 연합

관련된 데이터가 서로 다른 데이터베이스 또는 파일의 테이블에 저장된 경우, 교차 데이터베이스 조인을 사용하여 테이블을 결합할 수 있습니다. 교차 데이터베이스 조인을 생성하려면, 테이블을 조인하기 전에 각기 다른 데이터베이스(Excel 및 텍스트 파일 포함)를 추가하고 연결하여 다중 연결 Tableau 데이터 원본을 만듭니다. 교차 데이터베이스 조인은 라이브 연결 또는 인메모리 추출과 함께 사용할 수 있습니다.

데이터 서버

Tableau Server 및 Tableau Cloud에 포함된 데이터 서버는 추출 및 공유 프록시 데이터베이스 연결을 공유하고 중앙에서 관리하므로, Tableau Server 또는 Tableau Cloud의 모든 사용자가 통합 문서 전체에서 추출 또는 데이터 연결을 복제하지 않고도 통제, 측정 및 관리되는 데이터 원본을 사용하도록 지원할 수 있습니다.

하나의 데이터 원본에 여러 통합 문서를 연결할 수 있으므로, 내장된 데이터 원본의 남용을 최소화하고 저장 공간 및 처리 시간을 절약할 수 있습니다. 사용자가 게시된 데이터 원본에 연결하는 통합 문서를 다운로드하는 경우, 거기에 추출 연결이 있다면, 그 추출은 Tableau Server 또는 Tableau Cloud에 위치하므로 네트워크 트래픽이 줄어듭니다. 마지막으로, 연결에 데이터베이스 드라이버가 필요한 경우에는 해당 드라이버를 각 사용자의 컴퓨터 대신 Tableau Server에만 설치하고 유지 관리하면 됩니다. Tableau Cloud의 경우처럼, Tableau는 지원되는 데이터 원본용 데이터베이스 드라이버를 관리합니다.

DBA 및/또는 데이터 관리자는 각 팀에서 수집한 초기 데이터 사용 사례를 사용하여, 적절한 액세스 권한이 있는 사용자를 위해 식별된 각 데이터 원본의 인증된 데이터 원본을 게시합니다. 사용자는 Tableau Desktop 및 Tableau Server 또는 Tableau Cloud에서 게시된 데이터 원본에 직접 연결할 수 있습니다.

게시된 데이터 원본은 추출과 라이브 연결 모두에 대한 데이터 사일로 및 신뢰할 수 없는 데이터의 확산을 방지합니다. 추출 새로 고침을 예약할 수 있으며, 조직 전체의 사용자들은 동일한 공유 데이터와 정의를 사용하므로 최신 상태를 유지할 수 있습니다. 프록시 데이터베이스 연결을 통해 게시된 데이터 원본을 라이브 데이터에 직접 연결하도록 구성할 수 있습니다. 즉, 조직은 데이터 연결, 조인 로직, 메타데이터 및 계산된 필드를 중앙에서 관리할 수 있습니다.

이와 동시에, 사용자는 셀프 서비스 및 유연성을 제공하기 위해 새로운 데이터를 혼합하거나 새로운 계산을 생성하여 데이터 모델을 확장하고, 새로 정의된 데이터 모델을 프로덕션에 민첩하게 전달할 수 있습니다. 중앙에서 관리되는 데이터는 변경되지 않지만, 사용자는 유연성을 유지합니다.

인증된 데이터 원본

데이터베이스 관리자 및/또는 데이터 관리자는 게시된 데이터 원본을 인증하여 사용자에게 신뢰할 수 있는 데이터임을 표시해야 합니다. 인증된 데이터 원본은 Tableau Server, Tableau Cloud 및 Tableau Desktop에서 모두 고유한 인증 배지로 표시됩니다. 인증 참고 사항에 특정 데이터 원본을 신뢰할 수 있는 이유를 설명할 수 있습니다. 해당 데이터 원본을 볼 때와 이를 인증한 사람을 확인할 때 Tableau 전체에서 이러한 참고 사항에 액세스할 수 있습니다. 인증된 데이터 원본은 검색 결과에 우선적으로 나타나며 Tableau Server, Tableau Cloud 및 Tableau Desktop의 데이터 원본 목록에 구분되어 표시됩니다. 프로젝트 리더, Tableau Cloud 사이트 관리자 및 Tableau Server/사이트 관리자는 데이터 원본을 인증할 사용 권한이 있습니다. 자세한 내용은 인증된 데이터 원본을 참조하십시오.

데이터 보안

데이터 보안은 모든 기업에서 가장 중요한 부분입니다. Tableau 고객은 기존에 구현된 데이터 보안을 기반으로 구축할 수 있습니다. IT 관리자는 데이터베이스 내에서 데이터베이스 인증으로 보안을 구현하거나, Tableau 내에서 사용 권한으로 보안을 구현하거나, 이 두 방식을 혼합하여 보안을 구현할 수 있습니다. 사용자가 웹에 게시된 뷰, 휴대기기에 게시된 뷰 또는 Tableau Desktop 및 Tableau Prep Builder를 통해 게시된 뷰 등 어디에서 데이터에 액세스하든 보안이 적용됩니다. 고객은 종종 다양한 사용 사례를 처리할 수 있는 유연성 때문에 하이브리드 방식을 선호합니다. 데이터 보안 분류를 설정함으로써 조직에 존재하는 다양한 유형의 데이터 및 민감도 수준을 정의하는 것에서부터 시작하십시오.

데이터베이스 보안 활용 시에는 데이터베이스 인증을 위해 선택한 방법이 핵심이라는 점에 유의해야 합니다. 이 수준의 인증은 Tableau Server 또는 Tableau Cloud 인증과 별개입니다(즉, 사용자가 Tableau Server 또는 Tableau Cloud에 로그인할 때 아직 데이터베이스에 로그인하지 않음). 즉, 데이터베이스 수준의 보안을 적용하려면 Tableau Server 및 Tableau Cloud 사용자가 데이터베이스에 연결할 때 자격 증명(자신의 사용자 이름/비밀번호 또는 서비스 계정 사용자 이름/암호)도 필요합니다. 데이터를 더 잘 보호하기 위해 Tableau에서는 데이터베이스에 대한 읽기 액세스 자격 증명만 요구하는데, 이렇게 하면 게시자가 실수로 기초 데이터를 변경하는 것을 방지할 수 있습니다. 아니면, 경우에 따라 데이터베이스 사용자에게 임시 테이블을 작성할 수 있는 권한을 부여하는 것이 유용합니다. 임시 데이터는 Tableau가 아닌 데이터베이스에 저장되므로 성능 및 보안상의 이점이 있습니다. Tableau Cloud의 경우 데이터 원본에 대한 연결 정보에서 자동 새로 고침을 사용하려면 자격 증명을 포함해야 합니다. Google 및 Salesforce.com 데이터 원본의 경우, OAuth 2.0 액세스 토큰의 형태로 자격 증명을 포함할 수 있습니다.

저장된 추출 암호화는 .hyper 추출이 Tableau Server에 저장되어 있는 동안 이를 암호화할 수 있는 데이터 보안 기능입니다. Tableau Server 관리자는 사이트의 모든 추출에 암호화를 적용하거나 게시된 특정 통합 문서 또는 데이터 원본에 연결된 모든 추출을 암호화하도록 지정할 수 있습니다. 자세한 내용은 저장된 추출 암호화를 참조하십시오.

조직에서 저장된 데이터 추출 암호화를 배포하는 경우, 선택적으로 추출 암호화를 위해 AWS를 KMS로 사용하도록 Tableau Server를 구성할 수 있습니다. AWS KMS 또는 Azure KMS를 사용하려면 각각 AWS 또는 Azure에 Tableau Server를 배포하고 Advanced Management for Tableau Server에 대한 라이선스가 있어야 합니다. AWS 시나리오에서 Tableau Server는 AWS KMS 고객 마스터 키(CMK)를 사용하여 AWS 데이터 키를 생성합니다. Tableau Server는 모든 암호화된 추출에 대한 루트 마스터 키로 AWS 데이터 키를 사용합니다. Azure 시나리오에서 Tableau Server는 Azure Key Vault를 사용하여 모든 암호화된 추출의 RMK(루트 마스터 키)를 암호화합니다. 그러나 AWS KMS 또는 Azure KMS 통합용으로 구성되어 있는 경우에도, Tableau Server에 암호를 안전하게 저장하기 위해 여전히 기본 Java 키 저장소와 로컬 KMS가 사용됩니다. AWS KMS 또는 Azure KMS는 암호화된 추출을 위해 루트 마스터 키를 암호화하는 데만 사용됩니다. 자세한 내용은 키 관리 시스템을 참조하십시오.

Tableau Cloud의 경우, 모든 데이터는 기본적으로 암호화되어 저장됩니다. 하지만 Advanced Management for Tableau Cloud를 사용하면 고객 관리형 암호화 키를 활용하여 키 순환 및 감사를 더 강력하게 통제할 수 있습니다. 고객 관리형 암호화 키를 통해 고객이 관리하는 사이트에 한정되는 키로 사이트의 데이터 추출을 암호화할 수 있어서 보안 수준을 더욱 높여 줍니다. Salesforce KMS(키 관리 시스템) 인스턴스는 사이트에서 암호화를 사용하는 모든 사용자의 기본 사이트별 암호화 키를 저장합니다. 암호화 프로세스는 키 계층 구조를 따릅니다. 우선, Tableau Cloud가 추출을 암호화합니다. 다음으로, Tableau Cloud KMS가 키 캐시에 적절한 데이터 키가 있는지 검사합니다. 키가 없으면 키에 연결된 키 정책에 의해 부여된 사용 권한을 사용하여 KMS GenerateDataKey API를 통해 키가 생성됩니다. AWS KMS는 CMK를 사용하여 데이터 키를 생성하고 일반 텍스트 복사본과 암호화된 복사본을 Tableau Cloud로 반환합니다. Tableau Cloud는 데이터 키의 일반 텍스트 복사본을 사용하여 데이터를 암호화하고 암호화된 데이터와 함께 키의 암호화된 복사본을 저장합니다.

Tableau Server와 Tableau Cloud에서 모두 데이터 원본에 사용자 필터를 설정하여 사용자별로 볼 수 있는 데이터를 제한할 수 있습니다. 이를 통해 Tableau Server 로그인 계정을 토대로 사용자가 게시된 뷰에서 볼 수 있는 데이터를 더 효과적으로 제어할 수 있습니다. 지역 관리자는 이 기술을 사용하여 자신의 지역에 대한 데이터는 볼 수 있지만, 다른 지역 관리자에 대한 데이터는 볼 수 없습니다. 이러한 데이터 보안 접근 방식을 통해, Tableau Cloud 또는 Tableau Server의 광범위한 사용자에게 개인화된 안전한 데이터 및 분석을 제공하는 방식으로 단일 뷰 또는 대시보드를 게시할 수 있습니다. 자세한 내용은 데이터 보안데이터 행 수준에서 액세스 제한을 참조하십시오. 행 수준 보안이 귀사의 분석 사용 사례에 다른 무엇보다 중요하다면 Tableau Data Management를 사용해 데이터 정책과 가상 연결을 활용하여 규모에 맞게 사용자 필터링을 구현할 수 있습니다. 자세한 내용은 가상 연결 및 데이터 정책을 참조하십시오.

피드백을 제공해 주셔서 감사합니다!귀하의 피드백이 제출되었습니다. 감사합니다!