서브메뉴

본문

빅데이터 분석의 첫걸음 R코딩
빅데이터 분석의 첫걸음 R코딩
저자 : 장용식|최진호
출판사 : 생능출판사
출판년 : 2020
ISBN : 9788970503974

책소개

R과 함께 배우는 빅데이터 분석 입문서

이 책은 R을 통해 코딩에 대한 자신감을 높이고 데이터 분석에 대한 흥미를 가질 수 있도록 하기 위해 저술되었다. 지금 우리는 인공지능이 붐인 4차 산업혁명 시대에 살고 있다. 1956년 여러 분야의 연구자들이 모인 미국 다트머스 대학 워크숍에서 인공지능이란 단어가 사용되기 시작하고 기대와 실망을 거듭하다가 지금 다시 인공지능이 많은 문제를 해결할 것 같은 기대감에 유망 기술로 각광받고 있다. 2016년 바둑 인공지능 소프트웨어인 구글의 알파고는 이세돌 기사를 4대 1로 이기면서 세계의 이목을 끌었고, 지금은 MRI 영상정보를 판독하여 의사의 판단을 도와주는가 하면, 인간보다 높은 이미지 인식률로 스마트 팩토리, 보안 검색 및 출입 관리, 무인 점포 등에 활용되어 편리함을 더해주고 있다.

인공지능이 발달하게 되는 그 중심에는 빅데이터가 있다. 빅데이터는 융합기술이 살아 숨쉬게 하는 에너지와 같은 역할을 한다. 우리가 일상에서, 주변의 사물인터넷에서, 그리고 비즈니스와 공장에서 어마어마한 데이터를 쏟아내고 있다. 우리는 우리가 살고 있는 사회를 잘 이해하기 위해서 또는 데이터 분석의 경쟁력을 키우기 위해서 데이터와 가까워질 필요가 있다.

R은 우리에게 새로운 기회가 될 수 있다. 통계 패키지로 출발한 R은 SAS, MATLAB, SPSS 보다 더 선호되고 있으며, 범용 프로그래밍 언어인 Java, C/C++, Python 못지 않게 인기가 높다. R은 일반적인 데이터 처리를 위한 뛰어난 기능이 있고, 간단히한두 줄의 코딩으로 표, 차트, 지도 등 다양한 시각화 자료를 쉽게 만들어 내며, 웹을 통한 정보 추출과 인공지능구현을 위한 손쉬운 기능 등을 제공하고 있어 배울수록 흥미가 깊어질 것이다. 이 책은 처음 데이터를 다루는 입문자를 위해 R의 기초 문법과 여러 흥미로운 주제를 쉽게 이해할 수 있도록 내용을 구성하려고 노력하였다. 그러나, 마지막은 역시 학습자의 몫일 것이다. 관심과 반복으로 스스로 깨우치려는 노력이 더욱 요구된다
[교보문고에서 제공한 정보입니다.]

출판사 서평

R과 함께 배우는 빅데이터 분석 입문서



이 책은 R을 통해 코딩에 대한 자신감을 높이고 데이터 분석에 대한 흥미를 가질 수 있도록 하기 위해 저술되었다. 지금 우리는 인공지능이 붐인 4차 산업혁명 시대에 살고 있다. 1956년 여러 분야의 연구자들이 모인 미국 다트머스 대학 워크숍에서 인공지능이란 단어가 사용되기 시작하고 기대와 실망을 거듭하다가 지금 다시 인공지능이 많은 문제를 해결할 것 같은 기대감에 유망 기술로 각광받고 있다. 2016년 바둑 인공지능 소프트웨어인 구글의 알파고는 이세돌 기사를 4대 1로 이기면서 세계의 이목을 끌었고, 지금은 MRI 영상정보를 판독하여 의사의 판단을 도와주는가 하면, 인간보다 높은 이미지 인식률로 스마트 팩토리, 보안 검색 및 출입 관리, 무인 점포 등에 활용되어 편리함을 더해주고 있다.



인공지능이 발달하게 되는 그 중심에는 빅데이터가 있다. 빅데이터는 융합기술이 살아 숨쉬게 하는 에너지와 같은 역할을 한다. 우리가 일상에서, 주변의 사물인터넷에서, 그리고 비즈니스와 공장에서 어마어마한 데이터를 쏟아내고 있다. 우리는 우리가 살고 있는 사회를 잘 이해하기 위해서 또는 데이터 분석의 경쟁력을 키우기 위해서 데이터와 가까워질 필요가 있다.



R은 우리에게 새로운 기회가 될 수 있다. 통계 패키지로 출발한 R은 SAS, MATLAB, SPSS 보다 더 선호되고 있으며, 범용 프로그래밍 언어인 Java, C/C++, Python 못지 않게 인기가 높다. R은 일반적인 데이터 처리를 위한 뛰어난 기능이 있고, 간단히한두 줄의 코딩으로 표, 차트, 지도 등 다양한 시각화 자료를 쉽게 만들어 내며, 웹을 통한 정보 추출과 인공지능구현을 위한 손쉬운 기능 등을 제공하고 있어 배울수록 흥미가 깊어질 것이다. 이 책은 처음 데이터를 다루는 입문자를 위해 R의 기초 문법과 여러 흥미로운 주제를 쉽게 이해할 수 있도록 내용을 구성하려고 노력하였다. 그러나, 마지막은 역시 학습자의 몫일 것이다. 관심과 반복으로 스스로 깨우치려는 노력이 더욱 요구된다



책의 주요 내용



이 책의 학습내용은 13개 장으로 크게 다섯부분의 흐름으로 구성되어 있다. 첫 번째 1장에서는 4차 산업혁명 시대에서 데이터 분석의 사례를 통해 그 중요성을 이해하고, 데이터 분석 도구인 R의 개요를 설명한다. 두 번째 2장에서는 R과 RStudio개발환경을 구축하고 시작하는 과정을 기술한다. 세 번째 3장에서는 R데이터 구조와 데이터 세트, 그리고 함수를 통해 기초적인 문법을 설명한다. 네 번째 4장에서는 이 책에서 다루는 일부 주제인 차트, 워드 클라우드, 애니메이션, 웹스크래핑, 시뮬레이션을 먼저 실행해 봄으로써, 간단하고 뛰어난 R편집과 기능을 이해해보도록 한다.



마지막으로는 5장부터 13장까지는 R이 가지고 있는 기능들을 익히기 위해 여러 주제에 대해 학습하는 단계이다. 즉, 데이터 분포를 파악하는 차트 만들기, 움직이는 화면을 통해 데이터 출력효과를 높이기 위한 애니메이션, 위치 정보를 구글맵에 출력하는 방법, 웹 문서의 정보를 추출하는 웹스크래핑, 공공 데이터요청과 활용, 네이버에서 제공하는 오픈 데이터의 접근과 활용, 네트워크 구조를 갖는 사회 연결망 분석, 시간에 따른 시스템의 변화를 모방하여 분석하는 시뮬레이션, 생물학적 신경망 구조로 모형화한 인공신경망으로 구성되어 있다.



학습 절차는 시간적인 제약과 흥미에 따라 달리할 수 있을 것이다. 4장을 제외한 1장에서 5장까지는 R의 기초적인 내용으로 순서에 따라 살펴보면 좋을 것이다. 특히, 3장과 5장은 R을 이해하는 시작이기 때문에 세밀히 살펴볼 필요가 있다. 한편, 4장은 R의 기능을 익히기 전에 문법적인 설명보다는 단순히 코딩만으로 개략적인 실행 결과를 살펴보고 흥미를 가질 수 있는 단계이다. 상황에 따라 4장은 건너 뛰어도 무난하다. 5장부터 13장까지는 순서대로 학습하거나 주제별로 선별해서 학습할 수 있다. 다만, 9장의 공공 데이터 활용은 7장 지도 활용하기와 8장 웹스크래핑을 학습 후에, 그리고 10장의 네이버 오픈 API 활용은 8장을 학습 후에 하기를 권한다.



5장부터 13장까지의 각 주제별 학습 절차는 다섯 단계의 과정으로 되어 있다. 각 주제는 각 주제별 개요, 원리 이해, 기초 실습, 응용 실습 단계로 기술하여, 학습자가 혼자서 또는 그룹으로 토의하면서 내용들을 이해할 수 있도록 하였다. 또한, 각 주제별 마지막 부분의 실습과제는 스스로 이해 수준을 파악하고 응용력을 키울 수 있는 단계가 되도록 하였다.

학습은 스스로 하는 자세가 중요하다.처음에 이해가 되지 않더라도 여러 번 반복해서 살펴보고 스스로 질문하면서 답을 찾도록 노력할 필요가 있다.그 노력의 결과는 자신도 모르는 사이에 코딩이 편하고 데이터 분석에 대한 열의가 있는 자신을 발견하게 될 것이다.
[알라딘에서 제공한 정보입니다.]

목차정보

Chapter 1 데이터로 움직이는 사회와 R
1.1 산업혁명
1.2 데이터로 움직이는 사회
1.3 데이터분석 도구, R

Chapter 2 R 개발환경
2.1 R 개발환경
2.2 R 설치와 시작
2.3 RStudio 설치와 시작
2.4 패키지와 라이브러리

Chapter 3 데이터 구조의 이해
3.1 데이터 구조의 이해
3.2 벡터와 연산자
3.4 배열과 행렬
3.5 리스트
3.6 데이터 프레임
3.7 데이터 파일 읽기
3.8 함수

Chapter 4 무조건 해보기
4.1 X-Y 플로팅 차트로 보는 지역별 미세먼지 현황
4.2 워드 클라우드로 보는 지역별 미세먼지 현황
4.3 애니매이션: 바람개비 돌리기
4.4 웹스크래핑: 공공데이터 포털의 API 목록 출력
4.5 동전 던지기 시뮬레이션

Chapter 5 차트 프로그래밍
5.1 단순한 차트의 유형
5.2 줄기-잎 그림
5.3 파이 차트
5.4 바 차트
5.5 X-Y 플로팅
5.5 X-Y 플로팅
5.6 히스토그램
5.7 박스 플롯
실습 과제 1: CDNow 거래 데이터를 이용한 분포 분석
실습 과제 2: 강의 길이에 대한 분포 분석

Chapter 6 애니메이션
6.1 애니메이션 개요
6.2 카운트 다운
6.3 랜덤 막대그래프
6.4 동전 던지기 확률의 변화 차트
6.5 룰렛 돌리기
6.6 라이언 킹
실습 과제 1: 수열 출력: 1~100 사이의 3의 배수 합
실습 과제 2: 당구공 굴리기

Chapter 7 지도 활용하기
7.1 구글맵과 개요
7.2 구글맵 API키 신청
7.3 구글맵 출력
7.4 단양팔경을 지도 위에
7.5 지진 발생 지역 분포
실습 과제: 미세 먼지 분포

Chapter 8 웹스크래핑
8.1 웹스크래핑 개요
8.2 문자 추출을 위한 DOM 구조의 이해
8.3 공공데이터포탈의 목록 추출(단일 페이지)
8.4 공공데이터포탈의 목록 추출(다수 페이지)
실습 과제: 유튜브의 동영상 목록 추출

Chapter 9 공공 데이터 활용
9.1 공공데이터 포탈 개요
9.2 오픈 API 인증키 신청: 미세먼지 정보
9.3 미세먼지 농도의 시간대별 변화: 막대 그래프
9.4 지역별 미세먼지 농도 비교: 지도
실습 과제 1: 특정 지역의 시간대별 미세먼지 농도의 변화
실습 과제 2: 특정 시간대의 지역별 초미세먼지 농도 비교

Chapter 10 네이버 오픈 API 활용
10.1 네이버 오픈 API 개요
10.2 네이버 정보검색 API키 발급 받기
10.3 네이버 오픈 API 기본 사항
10.4 뉴스 검색: “인공지능” 키워드
실습 과제: 네이버 블로그 검색

Chapter 11 네트워크 분석
11.1 네트워크 분석의 개요
11.2 네트워크 분석 지표
11.3 네트워크 지표 분석
11.4 페이스북 사용자 네트워크 분석
실습 과제 : 천체물리학자의 협업네트워크 분석

Chapter 12 시뮬레이션
12.1 시뮬레이션 개요
12.2 표본추출과 난수
12.3 동전 던지기
12.4 몬테카를로 시뮬레이션에 의한 원주율 구하기
12.5 회귀선 구하기
실습 과제 1: 주사위 던지기
실습 과제 2: 시물레이션과 통계적 방법의 회귀선 비교
개정 R 프로그래밍 책1.indb 10 2020-03-25 오후 2:54:

Chapter 13 인공신경망과 딥러닝의 이해
13.1 인공지능과 인공신경망 개요
13.2 인공신경망 구성과 학습
13.3 주택 가격 예측(회귀문제)
13.4 붓꽃 종의 분류(분류문제)
실습 과제 1: 가격 예측(입력 노드 수의 변경)
실습 과제 2: 붓꽃 종의 분류(은닉층 노드 수의 변경)

부록
1 R 설치
2 RStudio 설치
참고문헌
찾아보기
[교보문고에서 제공한 정보입니다.]

QuickMenu