ngram-count

오늘은 SRI Language Modeling Toolkit 을 이용해서 ngram-count 를 해보는 것을 해보자!!

위에서 I accept the License 버튼을 누르고 다운 받으면 된다. 설치하는 법은 ... 설명하기가 번거로우니 참조할만한 블로그를 링크!!

위에서는 Ubuntu 에서 설치했으니, 맥에서 하는경우 1~4번까지만 따라하고 바로 7번으로 건너뛰고 make 명령어만 치면 된다. ( 위 블로그 처럼 make 에 잡다한 옵션 넣을 필요 없이 make 만 치면 된다!!

다음 ngram-count 를 하는것인데... 이것도 아래 링크를 보면 더 좋을것 같으니... ( 솔직히 일일이 설명하긴 쫌 귀찮은.... ㅎㅎ )

터미널에 가서 작업 폴더에 input 이라는 파일을 만들어 아무 글이나 작성해보자!!

그리고 다음 명령어를 치면!

./bin/macosx/ngram-count -text $WORKSPACE/input -lm $WORKSPACE/output -order 2 -write $WORKSPACE/output

unigram 과 bigram의 수를 볼수 있다. order 옵션의 수를 3까지 늘리면 trigram 의 count 까지 볼 수 있다.

참고로 <s> 와 </s> 는 문장의 시작과 끝을 나타내는 token 이라 보면 될것 같다.

ggoals 의 개발 Note.