서브메뉴

본문

엔터프라이즈 데이터 플랫폼 구축 (데이터 엔지니어, 시스템 관리자를 위한)
엔터프라이즈 데이터 플랫폼 구축 (데이터 엔지니어, 시스템 관리자를 위한)
저자 : 얀 쿠닉크
출판사 : 책만
출판년 : 2020
ISBN : 9791189909154

책소개

자체 시스템부터 클라우드까지 엔터프라이즈 하둡과 빅데이터 플랫폼 운영, 구축, 설계의 모든 것

빅데이터 기술에 대한 정보는 넘쳐나지만 이 모든 기술을 매끄럽게 연결해서 완벽한 엔터프라이즈 데이터 플랫폼을 구축하는 기법은 포괄적으로 다뤄지지 않은 어려운 작업이다. 이 책은 성공적인 모던 데이터 플랫폼을 온프레미스(on-premise)는 물론 클라우드 상에 성공적으로 구축하기 위한 지식을 습득할 수 있는 실용적인 내용이 가득 담겼다.

이 책은 엔터프라이즈 아키텍트, IT 관리자, 애플리케이션 아키텍트, 데이터 엔지니어에게 적합하며 하둡 프로젝트를 수행하는 동안 마주칠 수 있는 많은 도전과제들을 극복하는 방법을 소개한다. 또한 하둡과 빅데이터 환경 구축에 도움이 되는 광범위한 도구를 살펴볼 수 있을 것이다.

■ 인프라스트럭처: 서버부터 데이터센터에 이르기까지, 기업 데이터를 위한 견고한 기반을 확립하는 모던 데이터 플랫폼을 구성하는 모든 컴포넌트 계층
■ 플랫폼: 배포, 운영, 보안, 고가용성, 재해 복구를 비롯해 기업 IT 환경에 플랫폼을 융합하기 위해 알아야 할 모든 것
■ 클라우드 기반의 하둡: 기업이 요구하는 보안 및 고가용성을 확보한 빅데이터 플랫폼을 클라우드 상에서 운영하기 위해 알아야 할 중요한 아키텍처적 요소들
[교보문고에서 제공한 정보입니다.]

출판사 서평

■ 인프라스트럭처: 서버부터 데이터센터에 이르기까지, 기업 데이터를 위한 견고한 기반을 확립하는 모던 데이터 플랫폼을 구성하는 모든 컴포넌트 계층
■ 플랫폼: 배포, 운영, 보안, 고가용성, 재해 복구를 비롯해 기업 IT 환경에 플랫폼을 융합하기 위해 알아야 할 모든 것
■ 클라우드 기반의 하둡: 기업이 요구하는 보안 및 고가용성을 확보한 빅데이터 플랫폼을 클라우드 상에서 운영하기 위해 알아야 할 중요한 아키텍처적 요소들

[이 책의 구성과 독자대상]
1부에서는 기반 인프라스트럭처에 대한 이해를 통해 클러스터에 대한 견고한 기반을 확립한다. 2부에서는 플랫폼을 전체적으로 살펴보고 외부 시스템과 부드럽게 통합되는 견고한 클러스터를 구현하는 방법을 알아본다. 3부에서는 하둡을 클라우드에서 운영할 때 아키텍처 면에서 중요한 내용을 다룬다. 또한 하둡과 하둡 생태계에 대한 입문 수준의 기술적인 내용들도 다룬다.

◆ IT 관리자
기업에서 하둡 클러스터를 운영하는 책임을 가진 독자: 1장, 2장, 5장, 14장

◆ 엔터프라이즈 아키텍트
하둡 클러스터 통합 및 다른 기업용 시스템과의 연동을 모든 면에서 관리하며 클러스터를 기업 표준에 따라 운영하고 관리해야 하는 독자: 1~4장, 6~7장, 9~18장

◆ 애플리케이션 아키텍트와 데이터 엔지니어
차세대 데이터 기반 애플리케이션을 디자인하는 개발자와 아키텍트로서 하둡을 위한 코드를 작성하고 그 역량의 장점을 취하고자 하는 독자: 1~2장, 9~13장, 17~18장

◆ 시스템 관리자와 데이터베이스 관리자(DBA)
클러스터의 운영 및 모니터링을 책임지며 클러스터 컴포넌트들의 동작 방식과 기반 하드웨어 및 외부 시스템과의 통합에 대한 깊은 이해가 필요한 독자: 1장, 2장, 3장, 6~18장

[지은이의 글]
오늘날 업계의 트렌드는 명확하다. 대부분은 아니더라도 많은 기업이 이미 데이터에 기반해 운영되고 있으며, 하드웨어, 소프트웨어, 서비스에 상당한 투자를 진행하고 있다. 빅데이터 시장은 빠른 속도로 성장하고 있으며, 2025년에는 연간 소득이 900억 달러 규모에 이를 전망이다. 데이터 플랫폼으로 인해 가능해진 딥러닝과 인공지능 같은 관련 시장도 향후 십 년간 폭발적으로 성장할 것으로 보인다.
하둡으로, 그리고 모던 데이터 플랫폼으로의 전환은 기업 IT 환경의 몇 가지 트렌드와 복합적으로 이루어진다. 이런 트렌드는 빅데이터에 집중하면서 직접적으로 나타난 것도 있지만, 그 외에도 소프트웨어 비용 절감, IT 운영의 집중 및 간소화, 새로운 하드웨어와 자원을 취득하는 데 필요한 시간의 획기적인 감소 등과 같은 여러 요소가 복합적으로 작용한 결과이기도 하다.
이 책을 집필하는 동안 우리 저자들은 이 책의 제목을 정하느라 고심했다. 초고를 본 독자라면 눈치챘겠지만 이 책의 원래 제목은 ‘엔터프라이즈 환경에서의 하둡(Hadoop in the Enterprise)’였다. 하지만 사실 클러스터는 HDFS(하둡 분산 파일시스템)이나 얀(YARN), 맵리듀스보다 훨씬 더 큰 개념이다. 물론 여전히 이 플랫폼들을 하둡 클러스터라고 부르지만, 우리에게 하둡 클러스터란 하둡, 하이브, 스파크, HBase, 솔라(Solr)를 비롯한 모두를 의미한다. 모던 데이터 플랫폼은 다양한 기술로 구성되며 이들을 모두 통합하는 것은 매우 어려운 일이다.
여러분은 하둡 및 관련 기술에 대한 또 다른 책이 왜 더 필요한지도 궁금할 것이다. 하둡과 관련해서는 이미 (심지어 충분하고도 남을 만큼) 많은 강좌나 블로그, 컨퍼런스 등에서 다루지 않았던가? 물론 그 말이 맞다. 하둡과 관련 기술들의 내부 동작과 데이터 애플리케이션 엔지니어링, 그리고 이들을 새로운 상황에 적용하는 방법 등을 설명하는 자료는 이미 충분하다. 게다가 시스템 관리자를 위한 클러스터 운영에 관련된 자료들도 있다. 하지만 하둡 클러스터를 기업 환경에 성공적으로 융합하는 것과 관련된 콘텐츠는 충분하지 않다.
이 책을 집필한 목적 중 하나는 모던 엔터프라이즈 데이터 플랫폼을 설계하고 구축하고 통합해서 운영하기 위한 지식을 제공하기 위함이다. 지난 5년간 하둡 및 관련 서비스들에 대한 전문적인 서비스를 제공한 경험에 빗대어보면, 아키텍트와 전문가들을 위한 가이드는 턱없이 부족하다. 이런 작업을 누군가의 도움 없이 진행하면, 중대한 아키텍처적인 실수나 실망스러운 애플리케이션 성능, 플랫폼이 아직은 기업 환경에 부적합하다는 잘못된 편견이 불거진다. 이 책은 빅데이터로의 전환, 특히 하둡으로의 전환을 최대한 원활히 진행할 수 있도록 돕기 위해 집필했다.

[옮긴이의 글]
빅데이터라는 용어는 이미 수년 전부터 일상 생활에서까지 사용될 정도로 보편화되었습니다. 간혹 잘못 사용되는 경우도 없지는 않지만 빅데이터는 이제 정치, 사회, 경제, 문화, 과학 기술 등 거의 모든 영역에 걸쳐서 가장 중요한 키워드 중 하나로 자리잡고 있죠.
가장 큰 이유는 일상 생활의 많은 부분에서 데이터의 중요성이 부각되었기 때문입니다. 때문에 많은 기업들이 데이터 주도Data-Driven 문화를 도입하며 빅데이터 분석을 통해 더욱 편리한 사용자 경험의 제공, 제품과 서비스의 개선, 나아가 더 많은 이익 창출을 위해 노력하고 있습니다. 이 모든 노력의 근간에는 각 기업들이 오랜 시간을 들여 수집해 온 데이터가 있습니다.
하둡은 초기부터 빅데이터 솔루션으로 많은 관심을 받으며 빠르게 성장해 온 기술이자 프레임워크로, 대용량의 데이터를 저장하고 분석하여 좀 더 의미 있는 데이터를 산출하기 위한 포괄적인 기술들을 경제적으로 구현하기 위한 노력의 결정체입니다.
덕분에 이미 많은 기업이 하둡을 이용한 빅데이터 분석을 수행하고 있으며, 대부분은 아직 온프레미스 환경에 구축되어 있지만, 여러 공개형 클라우드 서비스들이 확장 가능한 하둡 서비스를 출시하면서 클라우드로의 이전도 활발히 진행되고 있습니다.
이 책은 온프레미스 환경부터 공개형 및 비공개 클라우드 환경에 이르기까지, 다양한 환경에서 기업을 위한 하둡 클러스터를 성공적으로 배포하고 운영하는 데 필요한 기술적 노하우를 아낌없이 전수해 줍니다.
저 또한 하둡 클러스터를 직접적으로 구축하고 운영해 본 경험이 아주 많지는 않지만, 그간 크고 작게나마 대용량의 데이터를 다양한 방법으로 처리해 본 경험 덕분에, 이 책을 통해 하둡을 좀 더 자세히 이해하게 되었으며, 빅데이터에 대해 만족할 만한 통찰을 얻을 수 있었습니다.
다만 이 책은 빅데이터에 처음 입문하는 초보자에게는 다소 어려울 수 있지만, 소규모라도 하둡 클러스터를 온프레미스 환경이나 클라우드 환경에서 구축하고 운영해 본 경험이 있는 독자들에게는 큰 도움이 될 수 있는 책입니다.
- 장현희

이젠 빅데이터를 활용하지 않는 분야가 없는 시대를 살고 있다고 해도 과언이 아닐 것 같습니다. 여러 분야에서 인간을 넘어서며 새로운 시대를 열 것으로 기대되는 인공 지능도 막대한 데이터가 없으면 학습을 할 수가 없습니다.
이 책은 빅데이터를 다루는 데 필요한 기본 개념부터, 실무에서 사용되는 다양한 컴포넌트의 장단점 비교, 여러 컴포넌트를 조합해서 구성하는 운영 환경 구축, 조직 구성까지 아우르는 방대한 내용을 다채로운 그림과 비교 표를 통해 압축해서 이해할 수 있게 도와줍니다. 그래서 이미 데이터 엔지니어링을 하고 있는 사람들에게는 이 책이 더 심도 있고 실무적인 지식의 보고가 될 수 있고, 데이터 엔지니어가 되고 싶어 하는 분들에게 이 책은 안정적인 출발선이 되어줄 것입니다.
모쪼록 이 책을 통해 많은 분이 한 단계 더 높이 올라설 수 있기를 바라며, 궁극적으로는 우리나라 개발자, 데이터 엔지니어들이 데이터가 원유가 되는 시대를 이끌어나가는 데 조금이라도 도움이 될 수 있다면 더 바랄 것이 없겠습니다.
- 오명운
[예스24에서 제공한 정보입니다.]

목차정보

1장 빅데이터 기술 기초 다지기

__하둡 에코시스템 둘러보기

__정리



[1부] 인프라스트럭처



2장 클러스터

__다중 클러스터 사용 이유

__멀티테넌시

__클러스터 용량 산정

__클러스터 확장

__데이터 복제

__정리



3장 연산과 스토리지

__하둡 이해를 위한 컴퓨터 아키텍처

__엔터프라이즈에 적합한 보급형 스토리지

__하둡과 리눅스 스토리지 스택

__이레이저 코딩과 복제

__로우레벨 스토리지

__서버 폼 팩터

__워크로드 프로파일

__클러스터 구성과 노드 종류

__정리



4장 네트워크

__서비스가 네트워크를 활용하는 방식

__네트워크 아키텍처

__네트워크 통합

__네트워크 설계 고려 사항

__정리



5장 조직의 과제

__누가 실행할 것인가

__인프라스트럭처인가 미들웨어인가 아니면 애플리케이션인가

__사례 연구: 보편적인 비즈니스 인텔리전스(BI) 프로젝트

__정리



6장 데이터센터 고려사항

__데이터센터는 왜 중요한가

__기본적인 데이터센터 개념

__공간과 랙 채우기의 제한

__데이터 수집 및 클러스터 간 연결

__교체 및 수리

__통상적인 위협

__정리



[2부] 플랫폼



7장 클러스터의 프로비저닝

__운영체제

__서비스 데이터베이스

__하둡 배포

__정리



8장 플랫폼 검증

__테스트 방법론

__유용한 도구들

__하드웨어 검증

__하둡의 검증

__다른 컴포넌트의 검증

__정리



9장 보안

__전송 중 암호화

__인증

__권한 부여

__유휴 시 암호화

__정리



10장 계정 서비스와의 통합

__통합이 필요한 영역

__통합 시나리오

__통합 계정 서비스

__LDAP 통합

__커버로스 통합

__인증서 관리

__정리



11장 클러스터의 접근 및 상호작용

__접근 메커니즘

__접근 토폴로지

__접근 보안

__워크벤치

__랜딩 존

__정리



12장 고가용성

__고가용성의 정의

__가용성의 측정

__고가용성의 운영

__고가용성 빌딩 블록

__일반적인 고려사항

__클러스터 서비스의 고가용성

__정리



13장 데이터 백업과 재해 복구

__컨텍스트

__데이터 복제

__하둡 클러스터 백업

__복구

__정리



[3부] 클라우드 기반 하둡



14장 하둡 가상화의 기초

__컴퓨트 가상화

__스토리지 가상화

__네트워크 가상화

__클러스터 수명주기 모델

__정리



15장 비공개 클라우드 솔루션

__오픈스택

__오픈시프트

__VMWare와 피보탈 클라우드 파운드리

__직접 만들어볼 텐가?

__비공개 클라우드를 위한 객체 스토리지

__정리



16장 공개형 클라우드 솔루션

__반드시 알아둘 것들

__클라우드 제공사

__클러스터 구현

__정리



17장 프로비저닝 자동화

__장기간 지속되는 클러스터

__일시적 클러스터

__메타데이터 공유 서비스

__정리



18장 클라우드 상의 보안

__위험의 평가

__위험 모델

__하둡을 위한 계정 프로바이더 옵션

__객체 스토리지 보안과 하둡

__감사

__유휴 시 데이터 암호화

__클라우드 상의 전송 중 데이터 암호화

__경계 제어와 방화벽

__정리



부록 백업 온보딩 체크리스트

____백업 온보딩 체크리스트

____서비스
[알라딘에서 제공한 정보입니다.]

QuickMenu