서브메뉴

본문

빅데이터 시대의 언어 연구 (내 손안의 검색엔진)
빅데이터 시대의 언어 연구 (내 손안의 검색엔진)
저자 : 이민행
출판사 : 21세기북스
출판년 : 2015
ISBN : 9788950960902

책소개


언어 빅데이터와 디지털 기술이
언어학 연구의 도구와 양상을 바꾼다!


역대 대통령들의 취임사를 언어기호의 사용과 빈도 데이터를 기준으로 분석하면 흥미로운 결과가 나온다. 김대중 대통령과 노무현 대통령의 취임사가 가장 근접성이 높다. 그런데 놀랍게도 박근혜 대통령의 취임사는 이 두 대통령의 취임사와 높은 근접성을 나타낸다. 이로써 정책 비전의 제시에서 보수와 진보라는 이념적 기준이 절대적으로 작용하기보다는 시대정신이 핵심적 역할을 수행함을 엿볼 수 있다.

이런 분석은 어떻게 가능할까? 대통령 취임사라는 ‘언어 집합체’를 컴퓨터 기술을 활용해 파고든 결과이다. 구체적인 언어생활을 통해 형성된 일종의 언어학적 빅데이터를 기반으로 삼음으로써 다양한 언어학 연구를 할 수 있게 된 것이다.

현대인의 실제 언어생활은 그 자체로 빅데이터이다. 특히 한 편의 연설, 시집이나 소설책 1권 등과 같이 일정한 분량과 체계를 갖춘 말의 덩어리는 그 속에서 여러 언어 특성을 추출하고 분석하는 기반이 된다. 이런 말의 덩어리를 코퍼스(corpus)라 하는데 이를 디지털 기술과 도구를 통해 언어학 연구에 활용할 수 있다. 코퍼스를 기반으로 하는 언어 연구에서는 검색 엔진의 구축이 필수적이다. 이 책은 언어학 연구자가 자신의 연구 목적에 맞게끔 검색 엔진을 만들고 활용할 수 있도록 돕는다. 또한, 다양한 연구 분야에 걸쳐 상세한 방법론과 함께 다양한 사례를 제시함으로써 연구에 체계적으로 적용할 수 있도록 했다.

목차


책머리에

1 서론
2 CWB 기반 코퍼스의 구축 방법: 단일어 코퍼스, 통합 코퍼스, 병렬 코퍼스
2.1 단일어 코퍼스의 구축 방법
2.2 통합 코퍼스 MILCA의 구축 방법
2.3 병렬 코퍼스 FA-EN/FA-KO의 구축 방법

3 CQP 검색언어의 이해
3.1 기본 검색식의 활용
3.2 정규 표현식의 활용
3.3 고급 검색식의 이해

4 영어 분석
4.1 어휘 층위의 통계적 분석
4.2 파생어 연구
4.3 연어관계 연구
4.4 구문과 어휘의 상관관계

5 한국어 분석
5.1 어휘 층위의 통계적 분석
5.2 파생어 연구
5.3 연어관계 연구
5.4 구문과 어휘의 상관관계

6 독일어 분석
6.1 어휘 층위의 통계적 분석
6.2 파생어 연구
6.3 연어관계 연구
6.4 구문과 어휘의 상관관계
6.5 텍스트의 핵심도와 문서유사도


7 다중언어 코퍼스 MILCA의 활용
7.1 프랑스어 분석
7.2 스페인어 분석
7.3 인도네시아어 분석

8 종합

참고문헌
부록
찾아보기

QuickMenu