IT지식/빅데이터

[빅데이터] 데이터 파이프라인과 클라우드(AWS, 애저)

매 석 2022. 11. 12. 16:25
반응형

 

1. 데이터 파이프라인이란?

- 데이터 파이프라인은 '데이터가 지나가는 길'을 뜻한다. 물론 데이터가 지나가는 모든 길을
  그렇게 부르지는 않는다. 데이터 파이프라인은 데이터의 이동이 어느 정도 체계화, 자동화된
  것으로 수집, 가공, 처리, 저장 등이 함께 일어난다. 예시로 인터넷 쇼핑몰에서 구매가 발생하면
  구매 기록 데이터가 생성-수집된 후 일련의 처리 과정을 거쳐 데이터 웨어하우스에 저장되는데,
  이를 '데이터 웨어하우스'까지 이동한 경로를 데이터 파이프라인이라고 한다.

 

+ ETL
추출, 가공, 적재를 뜻하는 ETL은 다양한 데이터 파이프라인 중 하나이다. 
ETL도 데이터가 흐르는 길로 데이터 추출에서 시작해 가공, 저장으로 이어지는 경우를
특정해 이야기하는 것이다. 또한 실무에서는 ETL을 주기적으로 반복되는 데이터 처리 업무라는
뜻으로 사용하기도 한다.

출처:데이터 파이프라인 기본 원리와 원칙은 시간이 지나도 유효해야 한다(1/2) - 넷마블 기술 블로그 (netmarble.engineering)

 

2. 데이터 파이프라인과 아키텍처

- 데이터도 데이터 특성과 사용자의 요구사항 등을 고려해 다양한 데이터 솔루션이나 플랫폼
  조합해 만든다. 그리고 이렇게 만들어진 데이터 파이프라인의 구조 또는 데이터 처리 구조를
  '아키텍처'라고 한다.


- 데이터 솔루션을 선택할 때 고려할 사항은

  첫째, 데이터의 유입 방식 또는 변동 가능성이다.
  데이터의 종류에는 크게 '바운디드 데이터''언바운디드 데이터'가 있다.
  바운디드 데이터는 데이터의 수가 바뀌지 않는 데이터,
  언바운디드 데이터는 추가 데이터가 유입될 가능성이 있는 데이터이다.


  둘째, 데이터 처리 방식이다. 데이터 처리 방식에는 '배치' '스트리밍' 방식이 있다.
  배치 방식은 일정한 주기에 따라 데이터를 모은 후 배치 단위로 한 번에 처리하고,
  스트리밍 방식은 데이터를 연속적으로 처리한다. 실시간 데이터를 처리할 때는
  스트리밍 방식, 그렇지 않으면 배치 방식으로 데이터를 처리한다.
  '람다 아키텍처'는 배치 방식과 스트리밍 방식을 모두 적용할 수 있다.

  셋째, 데이터 저장 방식이다. 데이터는 여러 형태로 저장되기에 데이터의 특성이나 
  데이터 사용자의 요구를 고려해 적합한 데이터 저장 방식을 선택 한다. 
  데이터 레이크, 데이터 웨어하우스 중 어떤 개념을 사용할지, 분산 저장한다면 
  어떤 분산 시스템을 이용할지, DB 종류는 어떤 것 이용할 지 등을 정해 데이터 파이프라인에 반영한다.

  위 3가지를 고려하면 효율적인 데이터 파이프라인을 구축하여 데이터 흐름을 체계화할 수 있다.
  그리고 이를 통해 데이터 관리 비용의 절감과 데이터 업무의 효율성 개선 효과를 얻을 수 있다.

 

3. 클라우드 서비스

- IT 자원이 필요할 때마다 인터넷을 이용해 원격으로 외부 자원을 사용할 수 있는 서비스를 말한다.
  기업이 자체적으로 IT 설비를 갖추고 이용하는 것을 '온프레미스'라고 한다.
  그리고 외부 설비를 필요할 때마다 사용하는 클라우드 방식을 '온디맨드' 또는 '오프레미스'라 한다.
  온프레미스 방식은 IT 설비 도입 비용과 관리 비용이 드는 반면,
  온디맨드 방식은 클라우드 서비스 업체가 과금하는 사용료만 지불하면 된다.
  보통 온디맨드 방식이 더 유연하고 효율적이지만, 한국은 각종 규제로 기업에 따라
  내부망, 외부망이 분리되어 온디맨드 방식을 사용할 수 없는 경우도 있다.

  클라우드 서비스 업체는 자사 클라우드 서비스 관련 자격증 제도도 운영하고 있다.
  (아마존의 AWS 기초, 어소시에이트, 프로페셔널 등급, MS의 에저, 구글의 GCP 등의 자체 자격증)

 

4. 클라우드 컴퓨팅 종류

- 클라우드 컴퓨팅은 퍼블릭 클라우드, 프라이빗 클라우드, 하이브리드 클라우드, 멀티 클라우드
  구분할 수 있다. 퍼블릭 클라우드는 특정 사용자가 아닌 여러 사용자에게 공개된 클라우드,
  프라이빗 클라우드는 특정 사용자나 기업을 위한 전용 클라우드로 상대적으로 보안이 좋다.
  하이브리드 클라우드는 퍼블릭 클라우드와 프라이빗 클라우드를 함께 이용하는 것을 말하고,
  멀티 클라우드는 여러 클라우드 서비스를 동시에 이용하는 것을 말한다.
  클라우드는 보통 퍼블릭 클라우드를 기준으로 배우지만, 기업에서는 실무적 이점이 있는 클라우드를
  선택하여 사용한다.

출처:클라우드 컴퓨팅(feat.AWS) (velog.io)