데이터는 크게 정형 데이터(Structured Data)와 비정형 데이터(UnStructured Data)로 구분할 수 있습니다. 정형 데이터는 테이블 구조로 행과 열로 구분할 수 있는 데이터를 의미하고, 비정형 데이터는 행과 열로 구분할 수 없는 데이터를 의미합니다. 대표적인 비정형 데이터인 텍스트 데이터는 다른 데이터보다 상대적으로 쉽게 수집할 수 있으나, 그만큼 많은 정제를 요구합니다.  

 

31.1. 텍스트 데이터 호출, readLines()

더보기

(1) readLines() 함수의 구조와 파라미터

(내용 작성)

 

(2) 예시

예시를 위해 ~ (내용 작성)

text_data.txt
0.00MB
text_data <- readLines("data/text_data.txt")
text_data

 

31.2. 텍스트 전처리 함수

더보기

(1) 텍스트 글자수 파악 함수, nchar()

(내용 추가)

 

(2)

grep, grepl, gsub, strsplit, substr

 

(3)

 

 

(4)

 

 

(5)

 

 

31.3. 정규표현식의 활용

더보기

(1) 정규표현식 정의

 

 

(2) 예시