공지사항 HOME > 정보광장 > 공지사항
 
한글 DTM 패키지 1.2
관리자 18-06-14 23:30 168
   makeDTM.zip (9.6K) [2] DATE : 2018-06-14 23:30:30
한글 DTM을 만드는 패키지를 1.2로 업그레이드 했습니다.
아래의 코드로 깃헙에서 다운로드 받을 수 있습니다.

install.packages("devtools"); library(devtools)
install_github("caitechKHU/makeDTM"); library(makeDTM)

또는 본 게시글에 첨부된 파일로도 사용할 수 있습니다.
R에서 .libPaths()  함수를 실행하고, 출력된 첫 번째 경로에 직접 압축을 풀어넣어도 됩니다.


이번 업그레이드를 통해 본 패키지는 tm 패키지에 비하여 다음의 장점을 갖습니다.

1. 한글 처리가 잘 된다. 컬럼 분리가 잘 되고, 직접 형태소 분석을 수행할 수 있다
2. 필요한 컬럼만 사용한다. 필요한 단어만 기준 컬럼이 되게 한다
3. 사용이 쉽다. Corpus 변환 등을 거치지 않고 바로 데이터프레임을 사용한다

형태소 분석 옵션(RHINO=TRUE)을 사용하면 TEXT 컬럼의 내용을 형태소 단위로 분석해 줍니다.
이 옵션을 수행하기 위해서는 먼저 RHINO를 설치해야 합니다.
RHINO 설치는 앞에 있는 게시글을 참조하세요.


기본 실행>
docs <- read.csv("sample.csv")     
library(makeDTM)
keyword <- c("엑셀을", "다시", "오늘은")
makeDTM(docs, key=keyword, LABEL = TRUE, weight = "tfidf")

옵션 실행>
keyword <- c("엑셀", "오늘", "편하")

1. 형태소 분석
makeDTM(docs, key=keyword , LABEL = TRUE, weight = "tfidf", RHINO = TRUE)

2. 형태소 분석 시 품사 선택 (ALL, noun, verb, NNG, NNP, NP, NNB, VV, VA, XR, VX)
makeDTM(docs, key=keyword , LABEL = TRUE, weight = "tfidf", RHINO = TRUE, pos="noun") 

3. TEXT 와 LABEL 컬럼 지정 (데이터에 body 와 tag 라는 컬럼이 있는 경우)
makeDTM(docs, key=keyword , LABEL = TRUE, TEXT.name = "body", LABEL.name = "tag", RHINO = TRUE)

*** 이 프로그램은 경희대학교 경영대학의 BK21 프로그램 (데이터과학에 기반한 경영전문 연구인력 양성팀)의 지원을 받았습니다 ***