Orange bullet points

DWH(데이터 웨어하우스)란 무엇인지, 그리고 데이터 레이크 및 데이터베이스와의 차이점

Background blur
Left arrow orange
모든 블로그 보기

시작하며

최근 데이터 분석 분야에서 DWH(데이터 웨어하우스)라는 용어가 자주 등장하고 있습니다.

이 글에서는 DWH에 대해

  • DWH는 데이터 레이크, 데이터베이스와 무엇이 다른가
  • 데이터 분석에서 DWH의 역할
  • DWH 도입 방법

이상 세 가지 점에 초점을 맞춰 설명하겠습니다.

DWH란

DWH는 한마디로 말하자면

  1. 수집된 데이터를 분석 목적으로
  2. 시계열 형식으로 저장한
  3. 대용량 및 고속 처리가 가능한 데이터베이스

즉, DWH는 목적과 형식이 정해진 데이터베이스의 일종으로, 저장되는 데이터는 형식이나 시계열 정렬이 이미 정리된 상태의 데이터입니다.

반면, 데이터 레이크(데이터의 호수)는

  1. 수집한 데이터를 그대로 저장하기 위해
  2. 데이터를 수집 순서대로 보관하며
  3. 대용량 및 고속 처리가 가능한 데이터베이스

를 의미합니다.

이처럼 데이터 레이크도 데이터베이스의 일종이지만, DWH와는 그 목적이 다릅니다. 데이터의 정렬이나 불필요한 데이터 삭제와 같은 작업을 수행하기 전에 원시 데이터를 저장하는 것을 목적으로 하기 때문에, 저장되는 데이터의 이미지도 DWH와는 다릅니다.

데이터 분석에서 DWH의 역할

가까운 예로 Microsoft Excel이나 Google Spreadsheets와 같은 스프레드시트 소프트웨어를 사용하면 표 데이터를 기반으로 기본적인 그래프를 그릴 수 있습니다. 이러한 그래프 작성도 데이터 분석의 한 형태이지만, 이러한 소프트웨어만으로 이른바 "빅데이터"라 불리는 방대한 데이터를 신속히 분석하기는 어렵습니다.

따라서 데이터 분석의 각 단계에 특화된 여러 시스템을 조합하여 데이터 분석 기반을 구축하는 것이 일반적입니다. DWH도 이러한 시스템 중 하나로, 정비되지 않은 데이터(=데이터 레이크)에서 필요한 데이터를 추출하고, 분석 가능한 형식으로 가공·정리하여 저장하기 위한 시스템입니다.

다만 데이터의 양이 그렇게 많지 않거나 데이터를 수집하는 단계에서 적절한 형식으로 가공할 수 있는 경우, 데이터 레이크를 거치지 않고 직접 DWH에 데이터를 통합하기도 합니다.

DWH의 구현

이처럼 데이터 분석에서 필수적인 DWH이지만, 실제로 도입하려면 어떤 방법을 고려할 수 있을까요?

DWH는 기본적으로 데이터베이스의 일종이므로, 자체적으로 데이터베이스용 서버를 준비하고 관리하는 이른바 on premise 방식으로 도입할 수 있습니다.

그러나 서버 관리 비용, 설계의 어려움, 초기 비용의 높음 등의 이유로 최근에는 클라우드 상에 DWH를 구축하는 SaaS형 DWH가 일반화되고 있습니다.

주요 SaaS형 DWH 서비스들로는

  • Amazon Redshift
  • Google BigQuery
  • Azure Synapse Analytics
  • Snowflake
  • Databricks

등이 있으며, 이들 모두 on premise 방식보다 훨씬 저렴한 비용으로 서버 관리가 필요 없는 편리함을 제공하며 DWH를 도입할 수 있습니다.

마무리

DWH란 무엇인가에 대해,  아래 내용들을 살펴보았습니다다

  • DWH는 데이터 레이크, 데이터베이스와 무엇이 다른가?
  • 데이터 분석에서 DWH의 역할
  • DWH 도입 방법

복잡한 데이터 분석에 필수적인 DWH이지만, 도입이 용이한 SaaS형 DWH가 보급되고 있는 반면, 이를 활용하기 위한 데이터 ETL(ETL에 대해서는 여기를 참고하세요.)은 진입 장벽이 높다는 현실이 있습니다.

TROCCO®는 ETL/데이터 전송, 데이터 마트 생성, 작업 관리, 데이터 거버넌스 등 데이터 엔지니어링 영역을 포괄하며 분석 기반 구축 및 운영을 지원하는 SaaS입니다. TROCCO®에 대해 더 자세히 알고 싶으신 분은 아래 자료를 확인해 보시길 바랍니다다.

TROCCO는  파트너들에게서 신뢰받고 있습니다.