본문 바로가기

Good Turing wiki : https://en.wikipedia.org/wiki/Good%E2%80%93Turing_frequency_estimation N 은 동일한 frequencies vector 를 가지는 종의 갯수 이며, P0 은 freq = 1 인 종의 갯수 / 전체 종의 갯수 이다. Pr 에서는 S() 는 위키에 보면 smoothing 시켜주는 함수라 표현되어 있지만 NLP 에서는 S(Nr) 은 그냥 Nr과 동일하게 종의 갯수로 표현한다. 실제로는 r 이 5 이상이면 보통 (r + 1 ) * S( Nr+1 ) / S ( Nr ) 은 그냥 Count(r) 로 표현하는 기법을 많이 쓴다. 더보기
katz-backoff Katz back-off is a generative n-gram language model that estimates the conditional probability of a word given its history in the n-gram. 위키에 있는 설명이다. 주로 n-gram 모델에서 많이 사용되며, 조건부 확률을 추정하는데 있어 dynamic 하게 smoothing 하는 기법으로 사용된다. 이 말이 어렵다면 좀더 쉽게 풀어서 설명을 해보자. lm 파일에 등록되지 않은 단어의 조합이 있다면 그 단어의 조합이 나올 확률은 0인가?? 그렇지 않다. 그렇다면 적절하게 어느정도의 확률을 줄것인가가 문제가 되는데 그 계산법 중 하나가 바로 Katz back-off 이다. 이처럼 dictinory 혹은 .. 더보기
ARPA Language models 너무 아무 정보 없이 시작했더니 삽질을 많이한듯... ㅋㅋ 어쩌다 확장자가 .lm 로 시작하는 파일을 구했고... 물어보기 보단 혼자 파봐야 겠다는 생각에이게 먼파일인지 한참을 찾다가 ARPA Format 형태로 작성된 파일이라는 것을 알게 되었다. 아!! 혹시 language model 이 뭐지?? 라고 생각하시는 분들을 위해!https://en.wikipedia.org/wiki/Language_model language model 에 대한 위키페이지인데 읽어보실 분들은 읽어보시구~그냥 특정 사전( 또는 Documents, resources 등에서라고 이해해도 될듯!) 에서의 단어들의 확률 분포( 출현 빈도 ) 이다. 그니까 ARPA Format 의 lm 파일은 이러한 단어들의 확률분포를 문서에 어떠한.. 더보기