본문 바로가기

NLP ( 자연어 처리 )

katz-backoff

Katz back-off is a generative n-gram language model that estimates the conditional probability of a word given its history in the n-gram.



위키에 있는 설명이다. 주로 n-gram 모델에서 많이 사용되며, 조건부 확률을 추정하는데 있어 dynamic 하게 smoothing 하는 기법으로 사용된다. 이 말이 어렵다면 좀더 쉽게 풀어서 설명을 해보자. lm 파일에 등록되지 않은 단어의 조합이 있다면 그 단어의 조합이 나올 확률은 0인가?? 그렇지 않다. 그렇다면 적절하게 어느정도의 확률을 줄것인가가 문제가 되는데 그 계산법 중 하나가 바로 Katz back-off 이다.






이처럼 dictinory 혹은 등록 되지 않은 단어 조합에 대해서 확률을 계산하는 방법이다. 특정 조건에 따라 확률값이 달라지기 때문에 non-linear 하다.




위에서 a1 과 a2 를 적절한 값으로 정하는것이 관건이다.

그때 많이 사용되는 것이 Good–Turing estimation 이다.



Good–Turing estimation 에 대해서는 다음시간에 정리하기로 하고, 간단하게 링크하나 달아본다... +_+

하나하나 파면 팔수록 점점 어려워 지는 이 느낌은 뭐지;;; ㅋㅋㅋㅋ


Good–Turing estimation

https://en.wikipedia.org/wiki/Good%E2%80%93Turing_frequency_estimation




자료 출처 

위키 : http://www.cs.cornell.edu/courses/cs4740/2014sp/lectures/smoothing+backoff.pdf

cornell edu : https://en.wikipedia.org/wiki/Katz%27s_back-off_model


'NLP ( 자연어 처리 )' 카테고리의 다른 글

ARPA Language models  (0) 2016.04.16
Zipf's law  (0) 2016.04.08
Edit distance  (0) 2016.04.04
ngram-count  (0) 2016.04.04
n-gram  (0) 2016.04.04