서브메뉴

본문

Pandas로 하는 데이터 과학 (파이썬 통계 분석 라이브러리)
Pandas로 하는 데이터 과학 (파이썬 통계 분석 라이브러리)
저자 : 마이클 헤이트
출판사 : 에이콘출판
출판년 : 2018
ISBN : 9791161752136

책소개


파이썬 기반의 통계 패키지인 Pandas는 고성능의 데이터 구조를 제공함으로써 데이터 탐색과 분석을 매우 용이하게 해주는, 데이터 분석가의 효율적인 도구다. 이 책은 Pandas 라이브러리의 완전한 기능을 배움으로써 효율적인 데이터 조작과 분석의 길로 안내한다. 데이터 분석과 반복 프로세스에 대한 기초부터 데이터 모델링, 원격 데이터 접근, 수치 해석과 통계 분석, 데이터 인덱싱과 집계 분석, 그리고 통계 데이터의 시각화와 금융 분석까지 수행하는 과정을 통해 데이터 과학의 핵심 단계를 설명한다.

목차


1장. pandas와 데이터 분석
pandas 소개
데이터 조작, 분석, 과학과 pandas
데이터 조작
데이터 분석
데이터 과학
pandas의 적정 영역
데이터 분석 프로세스
프로세스
이 책에서 각 단계의 관련 위치
pandas 여행을 위한 데이터와 분석의 개념
데이터 유형
변수
시계열 데이터
분석과 통계의 기초 개념
기타 유용한 파이썬 라이브러리
수학과 과학: NumPy와 SciPy
통계 분석: StatsModels
머신 러닝: scikit-learn
스토캐스틱 베이지안 모델링: PyMC
데이터 시각화: matplotlib과 seaborn
정리


2장. pandas의 설치와 가동
아나콘다 설치
아이파이썬과 주피터 노트북
아이파이썬
주피터 노트북
pandas Series와 데이터 프레임 소개
pandas의 임포트
pandas Series
pandas DataFrame
데이터 프레임으로 파일 데이터 로딩
시각화
정리


3장. Series로 단변량 데이터 표현
pandas 설정
Series 생성
파이썬 리스트와 딕셔너리를 사용한 생성
NumPy 함수를 사용한 생성
스칼라 값을 사용한 생성
.index와 .values 속성
Series의 크기와 형태
생성 시 인덱스 지정
head, tail, take
레이블과 포지션으로 값 가져오기
[] 연산자와 .ix[] 속성을 사용하는 레이블 검색
.iloc[]을 사용하는 명시적 포지션 검색
.loc[]을 사용하는 명시적 레이블 검색
서브셋으로 Series 슬라이싱
인덱스 레이블을 통한 정렬
불리언 선택
리인덱싱
시리즈 즉석 변경
정리


4장. DataFrame으로 단변량 데이터 표현
pandas 설정
데이터 프레임 객체 생성
NumPy 함수로 데이터 프레임 만들기
파이썬 딕셔너리와 pandas Series로 DataFrame 만들기
CSV로 DataFrame 만들기
DataFrame 안의 데이터 접근
DataFrame의 칼럼 선택
데이터 프레임의 로우 선택
.at[]이나 .iat[]을 사용해 레이블이나 위치로 스칼라 검색
[] 연산자를 사용한 슬라이싱
불리언 선택을 통한 로우 선택
로우와 칼럼의 동시 선택
정리


5장. DataFrame 구조 다루기
pandas 설정
칼럼명 변경
[]와 .insert()를 사용한 칼럼 추가
확장을 통한 칼럼 추가
접합을 통한 칼럼 추가
칼럼 재배열
칼럼의 콘텐츠 교체
칼럼 삭제
새 로우 추가
로우 접합
확장을 통한 로우 추가 및 교체
을 .drop() 사용한 로우 삭제
불리언 선택을 통한 로우 삭제
슬라이싱을 통한 로우 삭제
정리


6장. 데이터 인덱싱
pandas 설정
인덱스의 중요성
인덱스 유형
기본 유형: Index
정수 유형: Int64Index와 RangeIndex
부동소수점 유형: Float64Index
이산 간격 유형: IntervalIndex
범주형: CategoricalIndex
날짜 및 시간 유형: DatetimeIndex
기간 유형: PeriodIndex
인덱스로 작업
시리즈와 데이터 프레임에서의 인덱스 생성과 사용
인덱스로 값 선택
인덱스 사이의 데이터 이동
pandas 객체의 리인덱싱
계층형 인덱스
정리


7장. 범주형 데이터
pandas 설정
Categorical 생성
범주 이름 변경
새 범주 추가
범주 삭제
미사용 범주 삭제
범주 설정
Categorical의 기술 통계 정보
성적 데이터 가공
정리


8장. 수치 해석과 통계 기법
pandas 설정
수치 계산법
DataFrame과 Series의 산술 연산
값의 개수 세기
고윳값과 그 개수
최솟값과 최댓값 찾기
n개 최솟값과 n개 최댓값 찾기
누적 값 계산
pandas 객체의 통계 처리
약식 기술 통계
중심 경향성 측정: 평균, 중위수, 최빈수
분산과 표준 편차 계산
공분산과 상관관계
이산화와 분위수
값 순위 계산
각 표본의 변동률 계산
롤링 윈도우 작업
무작위 표집
정리


9장. 데이터 접근
pandas 설정
CSV, 텍스트, 테이블 형식의 데이터
CSV 데이터셋 예제 확인
CSV를 데이터 프레임으로 로딩
CSV 로딩 시 인덱스 칼럼 지정
데이터 타입의 추론과 지정
칼럼명 지정
특정 칼럼의 로딩
데이터 프레임을 CSV 파일로 저장
필드 구분 데이터로 작업
필드 구분 데이터의 다양한 형식 다루기
엑셀 데이터의 읽기와 쓰기
JSON 파일의 읽기와 쓰기
HTML 데이터 읽기
HDF5 파일의 읽기와 쓰기
웹을 통한 CSV 데이터 접근
데이터베이스의 읽기와 쓰기
원격 데이터 서비스로부터 데이터 읽기
야후!와 구글로부터 주식 데이터 읽기
구글 파이낸스의 옵션 데이터 가져오기
세인트루이스 연방준비은행의 FRED 데이터 가져오기
케네스 프렌치 데이터에 접근
세계은행의 데이터 읽기
정리


10장. 데이터 정돈
pandas 설정
데이터 정돈이란?
결측 데이터 다루기
NaN 값 찾기
결측 데이터의 판별과 삭제
수학 연산에서의 NaN 처리 방식
결측 데이터 보강
결측 값 채우기
인덱스 레이블을 사용한 채우기
보간법을 사용한 결측 값 채우기
중복 데이터 다루기
데이터 변형
데이터를 다른 인덱스에 매핑
데이터 대체
데이터 변형을 위한 함수 적용
정리



QuickMenu