Katz back-off is a generative n-gram language model that estimates the conditional probability of a word given its history in the n-gram.
위키에 있는 설명이다. 주로 n-gram 모델에서 많이 사용되며, 조건부 확률을 추정하는데 있어 dynamic 하게 smoothing 하는 기법으로 사용된다. 이 말이 어렵다면 좀더 쉽게 풀어서 설명을 해보자. lm 파일에 등록되지 않은 단어의 조합이 있다면 그 단어의 조합이 나올 확률은 0인가?? 그렇지 않다. 그렇다면 적절하게 어느정도의 확률을 줄것인가가 문제가 되는데 그 계산법 중 하나가 바로 Katz back-off 이다.
이처럼 dictinory 혹은 등록 되지 않은 단어 조합에 대해서 확률을 계산하는 방법이다. 특정 조건에 따라 확률값이 달라지기 때문에 non-linear 하다.
위에서 a1 과 a2 를 적절한 값으로 정하는것이 관건이다.
그때 많이 사용되는 것이 Good–Turing estimation 이다.
Good–Turing estimation 에 대해서는 다음시간에 정리하기로 하고, 간단하게 링크하나 달아본다... +_+
하나하나 파면 팔수록 점점 어려워 지는 이 느낌은 뭐지;;; ㅋㅋㅋㅋ
Good–Turing estimation
: https://en.wikipedia.org/wiki/Good%E2%80%93Turing_frequency_estimation
자료 출처
위키 : http://www.cs.cornell.edu/courses/cs4740/2014sp/lectures/smoothing+backoff.pdf
cornell edu : https://en.wikipedia.org/wiki/Katz%27s_back-off_model
'NLP ( 자연어 처리 )' 카테고리의 다른 글
ARPA Language models (0) | 2016.04.16 |
---|---|
Zipf's law (0) | 2016.04.08 |
Edit distance (0) | 2016.04.04 |
ngram-count (0) | 2016.04.04 |
n-gram (0) | 2016.04.04 |