본문 바로가기

NLP ( 자연어 처리 )

ngram-count

오늘은 SRI Language Modeling Toolkit 을 이용해서 ngram-count 를 해보는 것을 해보자!! 

 일단 SRILM 을 깔아야 한다. Download URL : http://www.speech.sri.com/projects/srilm/download.html






위에서 I accept the License 버튼을 누르고 다운 받으면 된다. 설치하는 법은 ... 설명하기가 번거로우니 참조할만한 블로그를 링크!!


http://www.spencegreen.com/2012/02/01/installing-srilm-on-ubuntu-11-10/


위에서는 Ubuntu 에서 설치했으니,  맥에서 하는경우 1~4번까지만 따라하고 바로 7번으로 건너뛰고 make  명령어만 치면 된다. ( 위 블로그 처럼 make 에 잡다한 옵션 넣을 필요 없이 make 만 치면 된다!!





다음 ngram-count 를 하는것인데... 이것도 아래 링크를 보면 더 좋을것 같으니... ( 솔직히 일일이 설명하긴 쫌 귀찮은.... ㅎㅎ )


http://www.opentag.com/okapi/wiki/index.php?title=SRILM_Installation_and_Running_Tutorial



터미널에 가서 작업 폴더에 input 이라는 파일을 만들어 아무 글이나 작성해보자!!







그리고 다음 명령어를 치면!


./bin/macosx/ngram-count -text $WORKSPACE/input -lm $WORKSPACE/output -order 2 -write $WORKSPACE/output



unigram 과 bigram의 수를 볼수 있다.  order 옵션의 수를 3까지 늘리면 trigram 의 count 까지 볼 수 있다.

참고로 <s> 와 </s> 는 문장의 시작과 끝을 나타내는 token 이라 보면 될것 같다.










'NLP ( 자연어 처리 )' 카테고리의 다른 글

katz-backoff  (0) 2016.04.17
ARPA Language models  (0) 2016.04.16
Zipf's law  (0) 2016.04.08
Edit distance  (0) 2016.04.04
n-gram  (0) 2016.04.04