°øÁö»çÇ× HOME > Á¤º¸±¤Àå > °øÁö»çÇ×
 
ÇÑ±Û DTM ÆÐÅ°Áö 1.3
°ü¸®ÀÚ 18-06-24 00:09 737
   makeDTM.zip (19.3K) [5] DATE : 2018-06-24 00:09:44
   sample_news.txt (2.4K) [12] DATE : 2018-06-24 00:09:44
makeDTM ÆÐÅ°Áö ¹öÀü 1.3À» °ø°³ÇÕ´Ï´Ù.
À̹ø ¹öÀü¿¡¼­´Â »ó°üºÐ¼® ±â´ÉÀ» Ãß°¡ÇÏ¿´½À´Ï´Ù.

¸ÕÀú makeDTMÀÇ ÀÌÀü ±â´É¿¡ ´ëÇؼ­´Â ÀÌÀü °Ô½Ã±ÛÀ» ÂüÁ¶ÇØÁÖ¼¼¿ä.
¿©±â¼­´Â »õ·Î Ãß°¡µÈ »ó°üºÐ¼® ±â´ÉÀ» Áß½ÉÀ¸·Î ¼Ò°³ÇÕ´Ï´Ù.

¼³Ä¡´Â ´ÙÀ½À¸·Î ÇÕ´Ï´Ù.
library(devtools)
install_github("caitechKHU/makeDTM")

¶Ç´Â ÷ºÎµÈ ÆÄÀÏÀ» .libPaths() ÇÔ¼öÀÇ Ã¹¹ø° °æ·Î¿¡ ¾ÐÃàÀ» Ç®¾î Á÷Á¢ ¼³Ä¡Çصµ µË´Ï´Ù.
½Ç½À ÆÄÀϵµ °°ÀÌ ¿Ã¸³´Ï´Ù.


½ÇÇà ¹æ¹ýÀº ´ÙÀ½°ú °°½À´Ï´Ù.

0. ÀÚ·á Àбâ
setwd("C:/rtest") 
txt <- readLines("sample_news.txt") 
docs <- as.data.frame(txt)                         # ¹®¼­¸¦ µ¥ÀÌÅÍÇÁ·¹ÀÓÀ¸·Î º¯È¯ 


1. Å°¿öµå ÃßÃâ (Çʼö ¾Æ´Ô)
library(RHINO) 
initRhino() 
noun <- lapply(txt, getMorph, "noun")  
nounVec <- unlist(noun) 
nounFreq <- table(nounVec)             # µµ¼öºÐÆ÷Ç¥
keywords <- names(head(sort(nounFreq, decreasing = T), 20))  # Å°¿öµå 20°³ ÃßÃâ


2. DTM »ý¼º
library(makeDTM)                                      # makeDTM ÆÐÅ°Áö·Î DTM ±¸¼º 
dtm <- makeDTM(docs, key=keywords , TEXT.name = "txt", RHINO = TRUE)


3-1. µÎ ´Ü¾îÀÇ »ó°ü°ü°è ºÐ¼®
findAssocTwo(dtm, "°èȹ", "ÅõÀÚ")


3-2. ÇÑ ´Ü¾î¸¦ ±âÁØÀ¸·Î ÇÑ »ó°ü°ü°è ºÐ¼®
findAssocs(dtm, "°èȹ")             # '°èȹ'À̶ó´Â ´Ü¾î¿Í 0.3 ÀÌ»óÀÇ »ó°ü°ü°è¸¦ °®´Â ´Ü¾î ÃßÃâ
findAssocs(dtm, "°èȹ", 0.6)      # '°èȹ'¶ó´Â ´Ü¾î¿Í 0.6 ÀÌ»óÀÇ »ó°ü°ü°è¸¦ °®´Â ´Ü¾î ÃßÃâ


3-3. DTM ³»ÀÇ ¸ðµç ´Ü¾î »ó°ü°ü°è ºÐ¼®
findAssocsAll(dtm)                     # ¸ðµç »ó°ü°ü°è ºÐ¼®
findAssocsAll(dtm, 0.8)              # 0.8 ÀÌ»óÀÇ »ó°ü°ü°è¸¦ °®´Â ´Ü¾î¸¸ ÃßÃâ


- »ó°üºÐ¼® ÀÚü´Â RÀÇ cor() ÇÔ¼ö¸¦ ÀÌ¿ëÇß½À´Ï´Ù.