데이터는 크게 정형 데이터(Structured Data)와 비정형 데이터(UnStructured Data)로 구분할 수 있습니다. 정형 데이터는 테이블 구조로 행과 열로 구분할 수 있는 데이터를 의미하고, 비정형 데이터는 행과 열로 구분할 수 없는 데이터를 의미합니다. 대표적인 비정형 데이터인 텍스트 데이터는 다른 데이터보다 상대적으로 쉽게 수집할 수 있으나, 그만큼 많은 정제를 요구합니다.
(1) readLines() 함수의 구조와 파라미터
(내용 작성)
(2) 예시
예시를 위해 ~ (내용 작성)
text_data <- readLines("data/text_data.txt") text_data
(1) 텍스트 글자수 파악 함수, nchar()
(내용 추가)
(2)
grep, grepl, gsub, strsplit, substr
(3)
(4)
(5)
(1) 정규표현식 정의