데이터 과학에 기반한 경영 전문 연구인력 양성팀 > 공지사항

HOME > 정보광장 > 공지사항

한글 DTM 패키지 1.3

관리자

18-06-24 00:09

757

makeDTM 패키지 버전 1.3을 공개합니다.

이번 버전에서는 상관분석 기능을 추가하였습니다.

먼저 makeDTM의 이전 기능에 대해서는 이전 게시글을 참조해주세요.

여기서는 새로 추가된 상관분석 기능을 중심으로 소개합니다.

설치는 다음으로 합니다.

library(devtools)

install_github("caitechKHU/makeDTM")

또는 첨부된 파일을 .libPaths() 함수의 첫번째 경로에 압축을 풀어 직접 설치해도 됩니다.

실습 파일도 같이 올립니다.

실행 방법은 다음과 같습니다.

0. 자료 읽기

setwd("C:/rtest")

txt <- readLines("sample_news.txt")

docs <- as.data.frame(txt) # 문서를 데이터프레임으로 변환

1. 키워드 추출 (필수 아님)

library(RHINO)

initRhino()

noun <- lapply(txt, getMorph, "noun")

nounVec <- unlist(noun)

nounFreq <- table(nounVec) # 도수분포표

keywords <- names(head(sort(nounFreq, decreasing = T), 20)) # 키워드 20개 추출

2. DTM 생성

library(makeDTM) # makeDTM 패키지로 DTM 구성

dtm <- makeDTM(docs, key=keywords , TEXT.name = "txt", RHINO = TRUE)

3-1. 두 단어의 상관관계 분석

findAssocTwo(dtm, "계획", "투자")

3-2. 한 단어를 기준으로 한 상관관계 분석

findAssocs(dtm, "계획") # '계획'이라는 단어와 0.3 이상의 상관관계를 갖는 단어 추출

findAssocs(dtm, "계획", 0.6) # '계획'라는 단어와 0.6 이상의 상관관계를 갖는 단어 추출

3-3. DTM 내의 모든 단어 상관관계 분석

findAssocsAll(dtm) # 모든 상관관계 분석

findAssocsAll(dtm, 0.8) # 0.8 이상의 상관관계를 갖는 단어만 추출

- 상관분석 자체는 R의 cor() 함수를 이용했습니다.

경희대학교 BK21