서브메뉴
검색
본문
Powered by NAVER OpenAPI
-
스트리밍 시스템 (대용량 데이터 처리를 위한 핵심 개념과 원리, 2022년 대한민국학술원 우수학술도서 선정도서)
저자 : 타일러 아키다우^슬라바 체르냑^루벤 락스
출판사 : 에이콘출판
출판년 : 2021
ISBN : 9791161755397
책소개
저자가 작성했던 블로그 글인 “스트리밍 101”에서 시작해 스트리밍 데이터 처리 시스템을 구축하고 사용하는 데 필요한 주요 개념을 “무엇”, “어디서”, “언제”, “어떻게”라는 네 가지 질문 위에 차근히 쌓아간다. 특정 시스템이나 문맥 안에서 부정확하게 쓰이는 개념을 분리해 명확히 전달하고 실제 사례에 어떻게 적용하는지 보여준다. 스트리밍 데이터 처리를 위해 어떤 시스템을 선택하든 개념을 확고하게 이해하는 것은 시스템을 이해하는 데 단단한 지반이 돼 줄 것이다.
목차
1부. 빔 모델
1장. 스트리밍
__용어: 스트리밍이란?
____심하게 과장된 스트리밍의 한계
____이벤트 시간 대 처리 시간
__데이터 처리 패턴
____유한 데이터
____무한 데이터: 배치
____무한 데이터: 스트리밍
__요약
2장. 데이터 처리의 무엇을, 어디서, 언제, 어떻게
__로드맵
__배치 처리의 기본: 무엇과 어디서
____무엇: 변환
____어디서: 윈도
__스트리밍으로 전환: 언제와 어떻게
____언제: 트리거가 좋은 이유는 트리거가 좋기 때문이다!
____언제: 워터마크
____언제: 조기/정시/지연 트리거
____언제: 허용된 지연 범위(가비지 컬렉션)
____어떻게: 누적
__요약
3장. 워터마크
__정의
__소스 워터마크 생성
____완벽한 워터마크 생성
____휴리스틱 워터마크 생성
__워터마크 전파
____워터마크 전파 이해하기
____워터마크 전파와 출력 타임스탬프
____까다로운 겹치는 윈도의 경우
__백분위 워터마크
__처리 시간 워터마크
__사례 연구
____사례 연구: 구글 클라우드 데이터플로우의 워터마크
____사례 연구: 아파치 플링크의 워터마크
____사례 연구: 구글 클라우드 Pub/Sub의 소스 워터마크
__요약
4장. 고급 윈도
__언제 / 어디서 : 처리 시간 윈도
____이벤트 시간 윈도
____트리거를 사용한 처리 시간 윈도
____인입 시간을 사용한 처리 시간 윈도
__어디서: 세션 윈도
__어디서: 커스텀 윈도
____고정 윈도의 변형
____세션 윈도의 변형
____한 크기로는 충분치 않다
__요약
5장. “정확히 한 번” 보장과 부작용
__왜 “정확히 한 번” 보장이 중요한가?
__정확성 대 완결성
____부작용
____문제 정의
__셔플에서의 “정확히 한 번” 보장
__결정론 다루기
__성능
____그래프 최적화
____블룸 필터
____가비지 컬렉션
__소스에서의 “정확히 한 번” 보장
__싱크에서의 “정확히 한 번” 보장
__사용 사례
____소스 예시: 클라우드 Pub/Sub
____싱크 예시: 파일
____싱크 예시: 구글 빅쿼리
__다른 시스템
____아파치 스파크 스트리밍
____아파치 플링크
__요약
2부. 스트림과 테이블
6장 스트림과 테이블
__스트림/테이블의 기본: 스트림/테이블의 특수상대론
____스트림/테이블의 일반상대론을 향해서
__배치 처리 대 스트림/테이블
____맵리듀스의 스트림 테이블 분석
____배치 처리와의 조화
__스트림/테이블 세상에서의 무엇, 어디서, 언제, 어떻게
____무엇: 변환
____어디서: 윈도
____언제: 트리거
____어떻게: 누적
____빔 모델에서 스트림/테이블의 전반적인 모습
__스트림/테이블의 일반 상대론
__요약
7장. 영구적 저장 상태의 실용성
__동기부여
____불가피한 실패
____정확성 및 효율성
__암시적 상태
____원시 그룹핑
____증분 결합
__일반화된 상태
____사용 사례: 전환 어트리뷰션
____빔을 사용한 전환 어트리뷰션
__요약
8장. 스트리밍 SQL
__스트리밍 SQL이란 무엇인가?
____관계대수
____시간 변이 관계
____스트림과 테이블
__뒤돌아보기: 스트림/테이블 편향
____빔 모델: 스트림 편향의 접근
____SQL 모델: 테이블 편향 접근
__내다보기: 강력한 스트리밍 SQL을 향해서
____스트림/테이블 선택
____시간 연산자
__요약
9장. 스트리밍 조인
__모든 조인은 스트리밍에 속한다
__윈도 없는 조인
____FULL OUTER
____LEFT OUTER
____RIGHT OUTER
____INNER
____ANTI
____SEMI
__윈도 조인
____고정 윈도
____시간 유효성
____시간 유효성 조인
__요약
10장. 대용량 데이터 처리의 진화
__맵리듀스
__하둡
__플룸
__스톰
__스파크
__밀휠
__카프카
__클라우드 데이터플로우
__플링크
__빔
__요약