본문 바로가기

Edit distance Edit distance 를 구하기 위해 java 로 짜보았다. class EditDistance { // ㄱ ㄲ ㄴ ㄷ ㄸ ㄹ ㅁ ㅂ ㅃ ㅅ ㅆ ㅇ ㅈ ㅉ ㅊ ㅋ ㅌ ㅍ ㅎ final static char[] ChoSung = { 0x3131, 0x3132, 0x3134, 0x3137, 0x3138, 0x3139, 0x3141, 0x3142, 0x3143, 0x3145, 0x3146, 0x3147, 0x3148, 0x3149, 0x314a, 0x314b, 0x314c, 0x314d, 0x314e }; // ㅏ ㅐ ㅑ ㅒ ㅓ ㅔ ㅕ ㅖ ㅗ ㅘ ㅙ ㅚ ㅛ ㅜ ㅝ ㅞ ㅟ ㅠ ㅡ ㅢ ㅣ final static char[] JwungSung = { 0x314f, 0x3150, 0x3151, 0x3152, 0x3.. 더보기
ngram-count 오늘은 SRI Language Modeling Toolkit 을 이용해서 ngram-count 를 해보는 것을 해보자!! 일단 SRILM 을 깔아야 한다. Download URL : http://www.speech.sri.com/projects/srilm/download.html 위에서 I accept the License 버튼을 누르고 다운 받으면 된다. 설치하는 법은 ... 설명하기가 번거로우니 참조할만한 블로그를 링크!! http://www.spencegreen.com/2012/02/01/installing-srilm-on-ubuntu-11-10/ 위에서는 Ubuntu 에서 설치했으니, 맥에서 하는경우 1~4번까지만 따라하고 바로 7번으로 건너뛰고 make 명령어만 치면 된다. ( 위 블로그 처럼 .. 더보기
n-gram An n-gram model is a type of probabilistic language model. More concisely, an n-gram model predicts based on . In probability terms, this is . When used for language modeling, independence assumptions are made so that each word depends only on the last n − 1 words. Applications and considerations[edit]n-gram models are widely used in statistical natural language processing. In speech recognition.. 더보기