본문 바로가기

1. Spark, Flink, Kafka Streaming ... 오랜만에 글을 적네요 +_+사실 이 블로그는 제 개인적으로 공부 & 기록 을 위함의 용도가 커서막 깔끔하게 정리하지는 못했다는 생각이 많이 드네요. 사실 블로그 외부에 노출되면 제 분신과 같다는 느낌이 많이 들어블로그를 둘로 나눠 공부용과 대외 노출용으로 가기로 결정했습니다. 그래서 해당 내용은 아래 블로그에 쫌 정갈하게 기재하고자 노력했습니다 :) https://ggoals.github.io/About_Streaming_Spark_Kafka_Flink/ 감사합니다!! ㅎㅎ 더보기
부록. HDFS Block HDFS 는 Distributed file system 이고, large scale 한 파일을 저장하기 위한 용도로 많이 쓰인다는 것을 알것이다. 그럼 수천 GB 혹은TB 파일이 저장 된다고 생각해보면 이 큰 파일을 하나의 물리 노드에 쓴다는건 말이 안된다. 그래서 HDFS 는 이걸 Block 단위의 파일로 나누게 된다. Default block size 는 128M 이다. ( 원래는 64MB 였는데 버전 2.x 부터 128MB 로 바뀌었다 .정확한 버전은 기억이 안나서 ^^;; ) 여튼 이렇게 파일이 쪼개져서 어떻게 저장되는지 보도록 하겠다. ㅁ 실습1~10,000,000 까지 seq 하게 증가하는 파일을 하나 준비한다.test.txt 1 2 3 4 ... ... ... 99999999 10000000.. 더보기
4. RNN ㅁ RNN RNN은 히든 노드가 방향을 가진 엣지로 연결돼 순환구조를 이루는(directed cycle) 인공신경망의 한 종류입니다. 번역, 언어 모델과 같은 Time Series 한 or 연속적인 데이터 처리시에 좋은 성능을 보인다 하여 이미지 데이터 모델에서 많이 쓰이는 Convolutional Neural Networks(CNN)과 더불어 최근 들어 각광 받고 있는 알고리즘입니다. ( 아 물론 CNN 도 최근 페이스북에서 번역기술에 CNN 을 이용한 기술들이 나오고 있어요 ^^;; ) 종류 - One to Many - Many to One - Many to Many ㅁ Cell - Forward Propagation def forward_propagation(self, x): # The total .. 더보기