지프의 법칙
Zipf's law states that given some corpus of natural language utterances, the frequency of any word is inversely proportional to its rank in the frequency table.
Rank 와 빈도수는 반비례 한다. ( 가장 핵심적인 표현인듯... 이거 하나로 지프의 법칙의 90%이상은 설명한 것이 아닐까라는 개인적인 생각... +_+ ) 다만 쫌 필자 입장에서 애매한건 rank 가 먼 의미지;; word in corpus 의 rank 는 어떤 의미일까;;; 흠...;;;
Although Zipf’s Law holds for most languages, even for non-natural languages like Esperanto,[10] the reason is still not well understood.[11] However, it may be partially explained by the statistical analysis of randomly generated texts. Wentian Li has shown that in a document in which each character has been chosen randomly from a uniform distribution of all letters (plus a space character), the "words" follow the general trend of Zipf's law (appearing approximately linear on log-log plot).[12] Vitold Belevitch in a paper, On the Statistical Laws of Linguistic Distribution offered a mathematical derivation. He took a large class of well-behaved statistical distributions (not only the normal distribution) and expressed them in terms of rank. He then expanded each expression into a Taylor series. In every case Belevitch obtained the remarkable result that a first-order truncation of the series resulted in Zipf's law. Further, a second-order truncation of the Taylor series resulted in Mandelbrot's law.[13][14]
자연어 뿐 아니라 Esperanto 와 같은 인공언어에서도 잘 된다. 이유는 모르겠지만... ㅋㅋ Belevitch 라는 분께서 large-class 에서 많이 증명도 되었고, 여튼 통계적으로 꽤나 잘 들어맞는 법칙이라는 이야기 이다.
위 표를 보면 많은 언어에서 log( rank) - log ( frequncy ) 가 linear 하게 감소하는 것을 볼 수 있다.
*** 용어 설명
멱법칙
멱법칙(冪法則, power law)은 한 수(數)가 다른 수의 거듭제곱으로 표현되는 두 수의 함수적 관계를 의미한다. 예를 들어, 특정 인구수를 가지는 도시들의 숫자는 인구수의 거듭제곱에 반비례하여 나타난다. 경험적인 멱법칙 분포는 근사적으로만, 또는 제한된 범위에서만 적용된다.
조화수 ( or 조화 급수 ) ( Harmonic number )
The term harmonic number has multiple meanings. For other meanings, see harmonic number (disambiguation).
***
지프의 법칙 한국 wiki : https://ko.wikipedia.org/wiki/%EC%A7%80%ED%94%84%EC%9D%98_%EB%B2%95%EC%B9%99
Zipf's law
: https://en.wikipedia.org/wiki/Zipf%27s_law
'NLP ( 자연어 처리 )' 카테고리의 다른 글
katz-backoff (0) | 2016.04.17 |
---|---|
ARPA Language models (0) | 2016.04.16 |
Edit distance (0) | 2016.04.04 |
ngram-count (0) | 2016.04.04 |
n-gram (0) | 2016.04.04 |