서브메뉴

본문

Pandas Cookbook (과학 연산, 시계열 분석, 파이썬을 이용한 시각화, 정돈된 데이터 만들기)
Pandas Cookbook (과학 연산, 시계열 분석, 파이썬을 이용한 시각화, 정돈된 데이터 만들기)
저자 : 시어도어 페트로우
출판사 : 에이콘출판
출판년 : 2018
ISBN : 9791161751252

책소개

Pandas가 가진 모든 기능을 친절한 예제와 설명, 실제 파이썬 코드를 통한 실습을 통해 설명한다. Pandas의 핵심인 DataFrame과 Series를 주축으로, 대부분의 함수, 메서드, 속성을 설명하고 각각이 가진 장단점과 메모리 사용량과 처리 시간도 비교해 준다. 또한 금융데이터에 있어 가장 중요한 시계열 자료를 처리하는 다양한 방법은 물론 SQL 데이터베이스와 연결하는 방법도 알려준다.
이와 함께 정돈된 데이터(Tidy data)에 대한 정의와 함께 데이터를 정돈하기 위한 방법과 절차에 대해 자세히 알아보고 matplotlib, 파이썬 plot, seaborn을 이용한 데이터 시각화에 대해 자세히 설명하고 각각의 장단점을 상세히 설명한다.

★ 이 책에서 다루는 내용 ★

■ 모든 데이터셋의 탐색이 가능하도록 해주는 Pandas의 기본 지식 마스터
■ 쿼리와 선택을 통해 데이터 중 원하는 부분만 부분집합으로 적절히 골라내는 방법
■ 데이터를 종합하거나 각 그룹으로 변환하기 전 개별 그룹으로 분할하는 방법
■ 데이터 분석 및 시각화가 용이하도록 데이터를 정돈된 형식으로 재구성
■ 정리되지 않은 실제 데이터를 머신 러닝에서 사용할 수 있도록 준비
■ SQL 유사 연산 기능을 통해 서로 다른 소스의 데이터 병합
■ 독보적인 시계열 데이터 처리 능력
■ matplitlib나 seaborn을 사용한 멋지면서도 동시에 통찰을 얻을 수 있는 시각화 기능
[교보문고에서 제공한 정보입니다.]

출판사 서평

★ 이 책의 대상 독자 ★

이 책은 단순한 레시피에서 고급 레시피까지 거의 100가지 정도의 레시피를 다루고 있다. 모든 레시피는 최신 파이썬 문법과 구문을 사용해 작성됐다. ‘작동 원리’ 절에서는 레시피의 복잡한 각 단계에 대해 상세한 설명을 제공한다. 종종 ‘추가 사항’ 절에서 완전히 새로운 레시피에 대한 정보를 얻을 수 있다. 이 책은 방대한 Pandas 코드를 제공한다.
일반적으로 처음 6개 장의 레시피는 간단하며, 나머지 5개 장에 비해 기본적이고 근본적인 Pandas 연산에 중점을 두고 있고, 나머지 5개 장은 고급 연산과 프로젝트에 기반을 둔 레시피를 소개한다. 이 책의 난이도는 광범위하기 때문에 초보자와 숙련자 모두에게 유용하다. 따라서 Pandas를 일상적으로 사용하는 사람도 Pandas의 관용구에 익숙해지지 않으면 마스터할 수 없다. 이 점은 Pandas의 방대한 영역에서 비롯된다. 대부분 동일한 연산을 수행할 수 있는 여러 가지 방법이 존재하는데 사용자가 원하는 결과를 얻을 수는 있지만 비효율적인 방법을 사용할 가능성이 있으며, 동일한 문제를 해결하는 Pandas 솔루션의 속도 차이가 몇 제곱 이상 다른 경우도 많다.
책을 읽기 위한 필수 지식은 오직 파이썬뿐이다. 독자가 리스트, 집합, 딕셔너리, 튜플 등과 같은 파이썬의 내장 데이터 저장소에 어느 정도 익숙하다고 가정한다.

★ 이 책의 구성 ★

1장, ‘Pandas 기초’에서는 Pandas 데이터 구조를 이루는 두 구성 요소인 Series와 DataFrame를 해부하고 용어를 정리한다. 각 열은 동일한 데이터 형식을 가져야 하는데, 각 데이터 형식을 알아본다. 이를 통해 Series와 DataFrame의 메서드를 호출하고 체인시키면서 두 요소의 진정한 힘을 배우게 될 것이다.
2장, ‘DataFrame 필수 연산’에서는 데이터 분석을 위해 가장 중요하고 보편적인 연산에 대해 알아본다.
3장, ‘데이터 분석 시작’에서는 데이터를 읽어 들인 후, 해야 할 반복적인 작업을 개발하는 데 도움을 줄 것이다. 이외에 흥미로운 점도 많이 발견하게 될 것이다.
4장, ‘데이터의 부분 집합 선택’에서는 서로 다른 부분 집합 선택에 있어 혼동되는 부분 등 여러 주제에 대해 다룬다.
5장, ‘불리언 인덱싱’에서는 불리언 조건을 이용해 데이터의 부분 집합을 선택하는 쿼리 프로세스를 다룬다.
6장, ‘인덱스 정렬’에서는 아주 중요하지만 종종 잘못 이해되고 있는 인덱스(index) 객체를 다룬다. 인덱스를 잘못 다루면 수많은 잘못된 결과를 초래하는데, 6장에서는 강력한 결과를 얻기 위한 올바른 사용법에 대해 알아본다.
7장, ‘종합, 필터링, 변환을 위한 종합’에서는 데이터를 분석하는 동안 항상 필요한 강력한 그룹화 기능에 대해 다룬다. 목적에 맞는 그룹에 적용할 사용자 정의 함수를 구성할 수 있게 될 것이다.
8장, ‘데이터를 정돈된 형태로 재구성’에서는 정돈된 데이터에 대해 설명하고 왜 중요한지 알아본다. 또 서로 다른 혼란된 형태로 된 데이터를 정돈하는 법에 대해 다룬다.
9장, ‘Pandas 객체 병합’에서는 DataFrames와 Series를 수직과 수평으로 병합하는 여러 메서드에 대해 알아본다. 또 웹 스크래핑을 통해 트럼프와 오바마 대통령의 국정 수행 평가 점수를 비교하고 SQL 관계형 데이터베이스에 연결해본다.
10장, ‘시계열 분석’은 가능한 모든 시간 차원에 따라 분해를 위한 시계열 기능의 강력한 고급 기능에 대해 알아본다.
11장, ‘Matplotlib, Pandas, Seaborn을 이용한 시각화’에서는 Pandas의 모든 도식화의 기본이되는 matplotlib 라이브러리를 소개한다. 그런 다음, Pandas plot 메서드와 seaborn 라이브러리 등 Pandas에서 직접적으로 제공되지 않는 다양하고 심미적인 시각화 기능에 대해 알아본다.

★ 옮긴이의 말 ★

데이터 분석의 중요성과 데이터 과학자에 대한 필요성에 대한 목소리는 하루가 다르게 커져가고 있지만, 데이터 분석에 있어서 소위 ‘정돈된 데이터(Tidy data)’의 필요성과 데이터 전처리의 중요성에 대해서는 여전히 잘 인식하지 못하는 듯하다. 특히 파이썬을 이용해 데이터 분석을 하는 대부분의 사람들은 늘 Pandas를 사용하면서도 정작 Pandas가 가진 전체 기능에 대해 제대로 학습하려는 노력은 많이 부족한 듯하다.
이 책은 데이터를 가공하기 위해 필요한 거의 모든 기능이 구현돼 있는 Pandas의 모든 것을 알려준다. 또한 단순한 기능의 설명에 그치는 것이 아니라 그 내부 구현 방식도 별도로 설명해 데이터 처리에 드는 메모리 사용량은 물론 처리 시간이 더 유리한 방식에 대해 친절히 설명한다. 특히 수십 만개에서 수백만 개의 관측치를 가진 빅데이터를 처리해야 하는 경우 효율적인 처리 방식은 너무나 중요하다.
이 책을 통해 DataFrame과 Series 등 Pandas의 근간이 되는 데이터 구조에서 자신이 원하는 부분만 정확히 선택하되 가장 효율적인 방식으로 처리하는 방법을 풍부한 예제를 통해 배우게 될 것이다.
[교보문고에서 제공한 정보입니다.]

목차정보

1장. Pandas 기초

__소개
__DataFrame 해부
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__DataFrame의 주요 구성 요소 이용
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__데이터 형식 이해하기
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__데이터 단일 열을 Series로 선택하기
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__Series 메서드 호출
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__Series에 연산자 사용하기
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__Series 메서드를 함께 사용하기
____준비 단계
____방법
____작동 원리
____추가 사항
__인덱스를 의미 있게 만들기
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__열과 행 이름 다시 짓기
____준비 단계
____방법
____작동 원리
____추가 사항
__열의 생성과 삭제
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌


2장. DataFrame 필수 연산

__소개
__DataFrame에서 복수 열 선택
____준비 단계
____방법
____작동 원리
____추가 사항
__메서드를 사용한 열 선택
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__열 이름 일목요연하게 정렬하기
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__전체 DataFrame에 대한 연산
____준비 단계
____방법
____작동 원리
____추가 사항
__DataFrame 메서드 체인으로 묶기
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__DataFrame에서 연산자 이용
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__누락값 비교
____준비 단계
____방법
____작동 원리
____추가 사항
__DataFrame 연산의 방향 바꾸기
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__대학 캠퍼스의 다양성 지수 발견
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌


3장. 데이터 분석 시작

__소개
__데이터 분석 루틴 개발
____준비 단계
____방법
____작동 원리
____추가 사항
____데이터 딕셔너리
____참고문헌
__데이터 형식 변경을 통한 메모리 절약
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__최대에서 최소 선택
____준비 단계
____방법
____작동 원리
____추가 사항
__정렬에 의해 각 그룹의 최대 선택
____준비 단계
____방법
____작동 원리
____추가 사항
__sort_values를 사용해 nlargest를 복제
____준비 단계
____방법
____작동 원리
____추가 사항
__추적 지정 주문가 계산
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌


4장. 데이터의 부분 집합 선택

__소개
__Series 데이터 선택
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__DataFrame 행 선택
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__DataFrame의 행과 열을 동시에 선택하기
____준비 단계
____방법
____작동 원리
____추가 사항
__정수와 레이블을 동시에 사용해 데이터 선택
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__스칼라 더 빠르게 선택하기
____준비 단계
____방법
____작동 원리
____추가 사항
__게으른 행 슬라이스
____준비 단계
____방법
____작동 원리
____추가 사항
__사전 순서로 슬라이스
____준비 단계
____방법
____작동 원리
____추가 사항


5장. 불리언 인덱싱

__소개
__불리언 통계량 계산
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__다중 불리언 조건 구축
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__불리언 인덱싱을 사용한 필터링
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__인덱스를 사용한 불리언 인덱싱의 복제
____준비 단계
____방법
____작동 원리
____추가 사항
__고유한 정렬된 인덱스를 사용한 선택
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__주가 전망
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__SQL WHERE 절 해석
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__주식 시장 수익률의 정규성 검정
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__query 메서드를 사용한 불리언 인덱싱의 가독성 개선
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__where 메서드를 사용한 Series 보존
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__DataFrame 행 마스크
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__불리언, 정수 위치, 레이블을 이용한 선택
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌


6장. 인덱스 정렬

__소개
__인덱스 객체 관찰
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__카디션 곱 생성
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__인덱스 폭발
____준비 단계
____방법
____작동 원리
____추가 사항
__서로 다른 인덱스에 값 채우기
____준비 단계
____방법
____작동 원리
____추가 사항
__다른 DataFrames의 열 추가
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__각 열의 최댓값 부각하기
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__메서드 체인을 사용한 idxmax 복제
____준비 단계
____방법
____작동 원리
____추가 사항
__가장 흔한 최대값 찾기
____준비 단계
____방법
____작동 원리
____추가 사항


7장. 종합을 위한 그룹화, 필터링 그리고 변환

__소개
__종합에 대한 정의
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__복수 열과 함수를 사용한 그룹화와 집계
____준비 단계
____방법
____작동 원리
____추가 사항
__그룹화 후 MultiIndex 제거
____준비 단계
____방법
____작동 원리
____추가 사항
__종합 함수 커스터마이징
____준비 단계
____방법
____작동 원리
____추가 사항
__*args와 **kwargs를 사용한 종합 함수 커스터마이징
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__groupby 객체 조사
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__소수 인종이 다수인 주 찾기
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__체중 감량 내기를 통한 변환
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__apply를 이용한 주별 가중 평균 SAT 점수 계산
____준비 단계
____
____작동 원리
____추가 사항
____참고문헌
__연속 변수에 의한 그룹화
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__도시 간 총 비행 횟수 계산
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__최장 연속 정시 비행 찾기
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌


8장. 정돈된 형태로 데이터 재구성

__소개
__stack을 이용해 변숫값을 변수 이름으로 정돈
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__복수 변수 그룹을 동시에 스태킹
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__스택된 데이터 되돌리기
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__groupby 종합 후 Unstacking
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__groupby 종합으로 pivot_table 복제
____준비 단계
____방법
____작동 원리
____추가 사항
__쉬운 재구축을 위해 레벨 재명명
____준비 단계
____방법
____작동 원리
____추가 사항
__복수 변수가 열 이름으로 저장됐을 때의 정돈
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__복수 변수가 열값으로 저장된 경우의 정돈
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__같은 셀에 여러 값이 저장된 경우의 정돈
____준비 단계
____방법
____작동 원리
____추가 사항
__변수가 열 이름과 값에 저장된 경우의 정돈
____준비 단계
____방법
____작동 원리
____추가 사항
__동일 표에 복수 관측 단위가 저장된 경우의 정돈
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌


9장. Pandas 객체 합치기

__소개
__DataFrames에 새로운 행 추가
____준비 단계
____방법
____작동 원리
____추가 사항
__복수 DataFrames 연결
____준비 단계
____방법
____작동 원리
____추가 사항
__트럼프와 오바마 대통령 국정 수행 능력 평가 비교
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__concat, join, merge 사이의 차이점 이해하기
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__SQL 데이터베이스에 연결
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌


10장. 시계열 분석

__소개
__파이썬과 Pandas의 날짜 도구 차이 이해
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__시계열을 현명하게 분할하기
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__DatetimeIndex와만 작동하는 메서드 사용하기
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__주간 범죄 건수 알아보기
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__주별 범죄와 교통사고를 별도로 종합
____준비 단계
____방법
____작동 원리
____추가 사항
__범죄를 주별과 연도로 측정
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__DatetimeIndex에서 익명 함수를 사용한 그룹화
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__Timestamp와 다른 열을 이용한 그룹화
____준비 단계
____방법
____작동 원리
____추가 사항
__merge_asof를 사용해 범죄율이 20% 낮은 마지막 시기 찾기
____준비 단계
____방법
____작동 원리
____추가 사항


11장. Matplotlib, Pandas, Seaborn을 이용한 시각화

__소개
__matplotlib 다뤄 보기
____준비 단계
__matplotlib에 대한 객체지향 가이드
____방법
____작동 원리
____추가 사항
____참고문헌
__matplotlib를 이용한 데이터 시각화
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__Pandas를 이용한 도식화 기초
____준비 단계
____방법
____작동 원리
____추가 사항
____참고문헌
__비행 데이터셋 시각화
____준비 단계
____방법
____작동 원리
____참고문헌
__영역 그래프를 스태킹해 새로운 추세 발견
준비 단계
방법
작동 원리
추가 사항
__seaborn과 pandas의 차이점 이해
____준비 단계
____방법
____작동 원리
____참고문헌
__seaborn Grid를 사용한 다변량 분석
____준비 단계
____방법
____작동 원리
____추가 사항
__seaborn을 사용해 다이어몬드 데이터셋에 있는 심슨의 역설 발견
____준비 단계
____방법
____작동 원리
____추가 사항
[교보문고에서 제공한 정보입니다.]

QuickMenu