공지사항 HOME > 정보광장 > 공지사항
 
한글 DTM 패키지 1.3
관리자 18-06-24 00:09 126
   makeDTM.zip (19.3K) [3] DATE : 2018-06-24 00:09:44
   sample_news.txt (2.4K) [5] DATE : 2018-06-24 00:09:44
makeDTM 패키지 버전 1.3을 공개합니다.
이번 버전에서는 상관분석 기능을 추가하였습니다.

먼저 makeDTM의 이전 기능에 대해서는 이전 게시글을 참조해주세요.
여기서는 새로 추가된 상관분석 기능을 중심으로 소개합니다.

설치는 다음으로 합니다.
library(devtools)
install_github("caitechKHU/makeDTM")

또는 첨부된 파일을 .libPaths() 함수의 첫번째 경로에 압축을 풀어 직접 설치해도 됩니다.
실습 파일도 같이 올립니다.


실행 방법은 다음과 같습니다.

0. 자료 읽기
setwd("C:/rtest") 
txt <- readLines("sample_news.txt") 
docs <- as.data.frame(txt)                         # 문서를 데이터프레임으로 변환 


1. 키워드 추출 (필수 아님)
library(RHINO) 
initRhino() 
noun <- lapply(txt, getMorph, "noun")  
nounVec <- unlist(noun) 
nounFreq <- table(nounVec)             # 도수분포표
keywords <- names(head(sort(nounFreq, decreasing = T), 20))  # 키워드 20개 추출


2. DTM 생성
library(makeDTM)                                      # makeDTM 패키지로 DTM 구성 
dtm <- makeDTM(docs, key=keywords , TEXT.name = "txt", RHINO = TRUE)


3-1. 두 단어의 상관관계 분석
findAssocTwo(dtm, "계획", "투자")


3-2. 한 단어를 기준으로 한 상관관계 분석
findAssocs(dtm, "계획")             # '계획'이라는 단어와 0.3 이상의 상관관계를 갖는 단어 추출
findAssocs(dtm, "계획", 0.6)      # '계획'라는 단어와 0.6 이상의 상관관계를 갖는 단어 추출


3-3. DTM 내의 모든 단어 상관관계 분석
findAssocsAll(dtm)                     # 모든 상관관계 분석
findAssocsAll(dtm, 0.8)              # 0.8 이상의 상관관계를 갖는 단어만 추출


- 상관분석 자체는 R의 cor() 함수를 이용했습니다.