카테고리 없음
Good Turing
ggoals
2016. 4. 18. 00:52
wiki : https://en.wikipedia.org/wiki/Good%E2%80%93Turing_frequency_estimation
N 은 동일한 frequencies vector 를 가지는 종의 갯수 이며,
P0 은 freq = 1 인 종의 갯수 / 전체 종의 갯수 이다.
Pr 에서는 S() 는 위키에 보면 smoothing 시켜주는 함수라 표현되어 있지만 NLP 에서는 S(Nr) 은 그냥 Nr과 동일하게 종의 갯수로 표현한다.
실제로는 r 이 5 이상이면 보통 (r + 1 ) * S( Nr+1 ) / S ( Nr ) 은 그냥 Count(r) 로 표현하는 기법을 많이 쓴다.