기술의 발전으로 방대한 양의 데이터를 다룰 수 있게 되면서 데이터 활용이 확대되고 있습니다. 하지만 증가하는 데이터를 어떻게 관리할 것인가라는 데이터 관리(Data Management)는 여전히 큰 과제로 남아 있습니다.
이 글에서는 빅데이터 관리에서 큰 강점을 발휘하는 데이터 카탈로그에 대해 설명합니다. 또한 마지막에는 데이터 카탈로그 실천에 도움이 될 만한 조언도 함께 소개해 드리겠습니다.
"데이터가 어떤 구조인지", "현재 어디에 있는지", "어떻게 수집되었는지" 등을 설명하는 데이터를 메타데이터라고 합니다. 그리고 데이터 카탈로그는 간단히 말해 메타데이터를 관리하는 시스템입니다. 메타데이터 관리를 통해 원본 데이터에 대해 보다 고도화된 데이터 관리를 가능하게 하는 것이 데이터 카탈로그의 주요 역할입니다.
메타데이터 관리는 어렵게 느껴질 수 있지만, 개념적으로는 도서관의 장서 목록을 중앙에서 관리하는 것과 비슷합니다. 도시 내 각 도서관이 자체 장서 목록을 작성하고, 이를 중앙에서 관리하기 때문에 도서관 이용자는 하나의 도서관 창구에서 도시 전체 도서관의 장서를 검색할 수 있습니다.
데이터 카탈로그도 마찬가지로, 기본적인 아이디어는 메타데이터를 작성하고 수집하여 사용자가 원하는 데이터에 쉽게 접근할 수 있도록 정리하는 것입니다.
따라서 사내 데이터를 대상으로 데이터 카탈로그를 구축할 때는 아래 단계들을 참고하시면 좋습니다
이러한 단계들을 거쳐 데이터 카탈로그가 완성됩니다.
데이터 카탈로그는 두 가지 주요 측면에서 데이터 활용을 촉진합니다.
데이터 호수 (Lake) 계층의 데이터베이스에는 형식, 포맷, 데이터 순서가 제각각인 원시 데이터가 저장됩니다. 따라서 DWH(Data Warehouse)를 생성하려고 할 때는 방대한 데이터 중에서 필요한 데이터를 추출하는 작업부터 시작하는 것이 일반적입니다. (데이터 호수수와 DWH 간의 관계에 대해서는 여기를 참조하세요.)
다루는 데이터 양이 많을수록 이러한 작업의 부담도 커지며, 이러한 반복적이고 수고스러운 작업은 사내 데이터 엔지니어와 데이터 사이언티스트에게 분석의 큰 장애물이 됩니다.
반면, 데이터 카탈로그 시스템이 잘 정비된 환경에서는 데이터 양이 아무리 방대하더라도 추출 작업이 용이해지기 때문에, 데이터를 분석하고 향후 전략 및 시책의 효과를 측정하는 등 진정으로 가치 있는 작업에 리소스를 집중할 수 있게 됩니다.
데이터 리니지(Data Lineage)에 대해 언급했듯이, 적절한 데이터 관리(Data Management)는 데이터 분석의 신뢰성을 높일 수 있습니다.
앞서 언급한 것처럼 데이터 분석의 첫 단계는 방대한 데이터 중에서 필요한 데이터를 추출하는 것이지만, 분석에 포함되어야 할 데이터를 누락하거나, 포함해서는 안 되는 데이터(예: 중복 데이터 등)를 포함한 채로 분석을 진행하면 올바른 분석 결과를 얻을 수 없습니다.
필요한 데이터에 쉽게 접근할 수 있다는 것은, 반대로 말하면 분석과 관계없는 데이터를 검색 단계에서 걸러내는 것도 용이하다는 뜻입니다. 따라서 분석에 사용하는 데이터에 대한 신뢰성이 높아지고, 이는 간접적으로 데이터 분석 결과를 더욱 정확하게 만들어 줍니다.
또한, 데이터베이스 관리자와 같은 보안 정보를 메타데이터에 포함해 기록함으로써 사내 데이터에 대한 체계를 강화할 수 있습니다.
다루는 데이터 양에 비례하여 큰 이점을 제공하는 데이터 카탈로그지만, 운영 시 주의해야 할 몇 가지 점이 있습니다.
사용자의 요구사항이 불명확한 상태에서 데이터 카탈로그를 구축하면, 사용자가 원하는 데이터에 도달하지 못하거나, 원하는 데이터에 비해 메타데이터가 과도하게 작성되는 등 균형이 맞지 않는 데이터 카탈로그가 될 수 있습니다. 처음에는 사용자의 요구를 명확히 하고, 이에 맞춰 정비하는 것이 이상적이지만, 사용자의 요구는 항상 일정하지 않기 때문에 변화에 따라 데이터 카탈로그도 대응이 필요하며, 이에 따른 수정 작업이 발생할 가능성이 있습니다.
한 번 데이터 카탈로그의 체계를 구축했다고 하더라도, 운영 과정에서는 매일 새롭게 축적되는 모든 데이터에 대해 메타데이터를 작성하고 내용을 지속적으로 업데이트해야 합니다.
메타데이터 작성과 수집에 시간이 과도하게 소요된다면 이는 본래의 목적을 잃게 되므로, 데이터 카탈로그를 정비하는 동시에 메타데이터를 효율적으로 작성하고 수집할 수 있는 체계를 마련하는 것이 요구됩니다
데이터 카탈로그의 장점과 단점을 모두 살펴보며 데이터 카탈로그의 개념을 설명했습니다.
도입 및 운영의 난관은 높을 수 있지만, 자사의 데이터 분석을 더욱 가속화할 수 있는 데이터 카탈로그를 꼭 도입해 고려해 보시기 바랍니다.
데이터의 연계, 정비, 운영을 효율적으로 진행하고자 하거나, 제품에 관심이 있으신 분들은 꼭 제품 사이트를 방문해 보시기 바랍니다.