32. 텍스트 데이터 전처리하기 (작성중)

2021. 6. 11. 10:26

데이터는 크게 정형 데이터(Structured Data)와 비정형 데이터(UnStructured Data)로 구분할 수 있습니다. 정형 데이터는 테이블 구조로 행과 열로 구분할 수 있는 데이터를 의미하고, 비정형 데이터는 행과 열로 구분할 수 없는 데이터를 의미합니다. 대표적인 비정형 데이터인 텍스트 데이터는 다른 데이터보다 상대적으로 쉽게 수집할 수 있으나, 그만큼 많은 정제를 요구합니다.

31.1. 텍스트 데이터 호출, readLines()

(1) readLines() 함수의 구조와 파라미터

(내용 작성)

(2) 예시

예시를 위해 ~ (내용 작성)

text_data.txt

0.00MB

text_data <- readLines("data/text_data.txt")
text_data

31.2. 텍스트 전처리 함수

(1) 텍스트 글자수 파악 함수, nchar()

(내용 추가)

(2)

grep, grepl, gsub, strsplit, substr

(3)

(4)

(5)

31.3. 정규표현식의 활용

(1) 정규표현식 정의

(2) 예시

저작자표시 비영리 변경금지 (새창열림)

'Ⅱ. 데이터 전처리 > ⅰ. Base 문법' 카테고리의 다른 글

33. 데이터 스케일링하기 (수정중) (0)	2021.06.14
31. 시계열 데이터 전처리하기 (수정중) (0)	2021.06.08
30. 이상치 판단 및 전처리하기 (수정중) (0)	2021.06.01
29. 중복값 파악 및 처리하기 (작성중) (0)	2021.05.31

COMMENT

Data Analytics With R

32. 텍스트 데이터 전처리하기 (작성중)

31.1. 텍스트 데이터 호출, readLines()

31.2. 텍스트 전처리 함수

31.3. 정규표현식의 활용

'Ⅱ. 데이터 전처리 > ⅰ. Base 문법' 카테고리의 다른 글

티스토리툴바