데이터는 크게 정형 데이터(Structured Data)와 비정형 데이터(UnStructured Data)로 구분할 수 있습니다. 정형 데이터는 테이블 구조로 행과 열로 구분할 수 있는 데이터를 의미하고, 비정형 데이터는 행과 열로 구분할 수 없는 데이터를 의미합니다. 대표적인 비정형 데이터인 텍스트 데이터는 다른 데이터보다 상대적으로 쉽게 수집할 수 있으나, 그만큼 많은 정제를 요구합니다.
31.1. 텍스트 데이터 호출, readLines()
더보기

(1) readLines() 함수의 구조와 파라미터
(내용 작성)
(2) 예시
예시를 위해 ~ (내용 작성)
text_data.txt
0.00MB
text_data <- readLines("data/text_data.txt")
text_data

31.2. 텍스트 전처리 함수
더보기
(1) 텍스트 글자수 파악 함수, nchar()
(내용 추가)
(2)
grep, grepl, gsub, strsplit, substr
(3)
(4)
(5)
31.3. 정규표현식의 활용
더보기
(1) 정규표현식 정의
(2) 예시
'Ⅱ. 데이터 전처리 > ⅰ. Base 문법' 카테고리의 다른 글
33. 데이터 스케일링하기 (수정중) (0) | 2021.06.14 |
---|---|
31. 시계열 데이터 전처리하기 (수정중) (0) | 2021.06.08 |
30. 이상치 판단 및 전처리하기 (수정중) (0) | 2021.06.01 |
29. 중복값 파악 및 처리하기 (작성중) (0) | 2021.05.31 |