본문 바로가기

Zipf's law 지프의 법칙 Zipf's law states that given some corpus of natural language utterances, the frequency of any word is inversely proportional to its rank in the frequency table. Rank 와 빈도수는 반비례 한다. ( 가장 핵심적인 표현인듯... 이거 하나로 지프의 법칙의 90%이상은 설명한 것이 아닐까라는 개인적인 생각... +_+ ) 다만 쫌 필자 입장에서 애매한건 rank 가 먼 의미지;; word in corpus 의 rank 는 어떤 의미일까;;; 흠...;;; Although Zipf’s Law holds for most languages, even for non-natur.. 더보기
2. RDD 스파크에선 RDD 라는 개념이 굉장히 중요한듯..!! RDD : Resilent Distributed Dataset 뭔가 .. 의역하면 회복력있는 분포된 데이터집합!! 스파크에서는 모든 작업은 새로운 RDD 를 만들거나, 존재하는 RDD를 변형하거나, 결과 계산을 위해 RDD에서 연산을 호출하는 것 중의 하나로 표현된다. 그리고 내부적으로 스파크는 자동으로 RDD에 있는 데이터들을 클러스터에 분배하여 클러스터 위에서 수행하는 연산들을 병렬화한다. 스파크의 RDD는 단순하게 말하면 분산되어 있는 변경 불가능한 객체 모음이다. RDD는 클러스터의 서로 다른 노드들에서 연산 가능하도록 여러개의 파티션( partition )으로 나뉜다. 이 멘트 엄청 핵심포인트 인듯...!! 분산된 데이터를 다시 파티션으로 나.. 더보기
1. spark 설치하기 Spark 다운로드 경로 URL : http://spark.apache.org/downloads.html 2. Choose a package type 에서 꼭 Pre-built 버전으로 체크하길...!! ㅎㅎ 그리고 해당 폴더에 가서 pyspark 를 실행시키면! 아래처럼 뜹니다!( 아 .. 참고로 전 python 으로 spark 를 쓸거라서 pyspark 를 실행시켜보았습니다!! scala 로 하실분들은 pyspark 대신에 spark-shell 로 실행시켜 주세요! ㅎㅎ ) 끝!! 더보기