http://www.yes24.com/product/goods/106729751
데이터 파이프라인 핵심 가이드 - YES24
데이터 파이프라인의 모든 단계를 기초부터 탄탄하게 설명한다!데이터 파이프라인은 데이터 분석의 성공을 위한 기이다. 수많은 다양한 소스에서 데이터를 이동하고 컨텍스트를 제공하기 위해
www.yes24.com
책 목차:
01_데이터 파이프라인 소개: https://inhyeok-blog.tistory.com/m/28
02_최신 데이터 인프라: https://inhyeok-blog.tistory.com/29
03_일반적인 데이터 파이프라인 패턴: https://inhyeok-blog.tistory.com/30
04_데이터 수집: 데이터 추출:
05_데이터 수집: 데이터 로드:
06_데이터 변환하기:
07_파이프라인 오케스트레이션:
08_파이프라인의 데이터 검증:
09_파이프라인 유지 모범 사례:
10_파이프라인 성능 측정 및 모니터링:
이 책에서는 일괄 처리/스트리밍 데이터 수집, 직접 구축하는 것/제품을 구매하는 것 과 같이 데이터 파이프라인을 구축할 때 일반적인 의사결정사항에 대한 내용을 다룬다.
1. 데이터 파이프라인이란?
데이터 파이프라인은 다양한 소스에서 새로운 가치를 얻을 수 있는 대상으로 데이터를 옮기고 변환하는 일련의 과정이다. 일반적으로는 데이터 추출, 데이터 가공, 데이터 유효성 검사를 포함한 여러 단계로 구성되며, 때때로 머신러닝 모델이 포함되기도 한다. 이러한 과정은 데이터 크기, 상태, 구조 등의 환경에 따라서 달라진다.
2. 누가 파이프라인을 구축할까?
데이터 엔지니어이다. 데이터 엔지니어는 요구사항을 파악하고 확장 가능한 프로덕션 상태로 전환하는데 도움을 준다. 또한 데이터 유효성과 적시성을 보장하는 것을 중시한다. 이러한 역할을 수행하기 위해서 데이터 엔지니어들은 아래와같은 공통적인 기술을 가지고 있다.
- SQL과 데이터 웨어하우징 기초
- 파이썬 그리고/또는 자바
- 분산 컴퓨팅
- 기본 시스템 관리(Cloud, Linux, Loging 등)
- 목표 지향적 사고방식
3. 왜 데이터 파이프라인을 구축할까?
경영진은 깨끗한 차트와 대시보드를, 마케팅은 소셜 미디어에서 깔끔하게 포장된 통찰력을, 고객 지원부서는 예측 수요 모델의 산출물을 기반으로 콜 센터 직원을 최적화 하기도 한다. 이런 결과물들은 데이터 파이프라인을 거쳐서 보여지는 것이며, 이를 위해서 데이터 파이프라인에서는 원본데이터 정리/정형화/정규화/결합/집계/마스킹/정제 등의 작업이 일어난다.
4. 어떻게 데이터 파이프라인을 구축할까?
일반적으로 Python/Java(요즘은 Go가 치고올라오고있다) Sql이 사용된다.
'책 리뷰' 카테고리의 다른 글
오브젝트[03 역할, 책임, 협력] (0) | 2022.12.18 |
---|---|
오브젝트[02 객체지향 프로그래밍] (1) | 2022.12.13 |
오브젝트[01 객체, 설계] (2) | 2022.12.10 |
데이터 파이프라인 핵심 가이드[03_일반적인 데이터 파이프라인 패턴] (0) | 2022.10.09 |
함께 자라기 애자일로 가는 길(자라기) (0) | 2022.02.07 |