본문 바로가기

[부록] Performance Tuning of an Apache Kafka/Spark Streaming System 원문글 - https://www.javacodegeeks.com/2017/01/performance-tuning-apache-kafkaspark-streaming-system.html 이 글은 Kafka 같은 MapR 과 같은 시스템으로 확장해 나갈때 도움이 되는 글입니다.( 말을 아주 매력적으로 잘 쓰심.. ㅋㅋ ) Goal of the system이제 이 글은 telecom company 를 예시로 들고 있는데, 고객의 데이터를 받아서 바로 고객이 가지고 있는 불만사항의 원인과 해결책을 대응해줘야 하는 시스템을 구축하는데 있어 빠르게 로그 수집 및 분석이 이루어 져여 하는 상황이 있었다. 보통의 Batch job 보다 이런 시스템을 이용해서 Realtime Working 을 가능하게 한다는건 고객 서.. 더보기
12. Generator 사실 Generator 라는걸 처음 접했을 땐 진짜 뭥미... 했었다... ㅋㅋ 그런데 python 에서도 scala 에서도 generator 라는 개념이 있더라. +_+ 그리고 java 에서도 generator 형태로 코드를 짜는 방법도 "java generator" 라고 검색하면 많이 있더라 :) * python generator : http://bluese05.tistory.com/56* java generator : https://www.codeproject.com/Articles/793374/Generators-with-Java* scala generator : http://notes.backgroundsignal.com/Generators_in_Scala.html 위에 javascript ge.. 더보기
[부록] Jupyter ( IPython ) 에서 pyspark 사용하기 참조 링크 : http://blog.cloudera.com/blog/2014/08/how-to-use-ipython-notebook-with-apache-spark/ 일단 IPython 과 PySpark 가 깔려 있어야 한다. $ ipython profile create pyspark 이라고 치면 ~/.ipython/profile_pyspark 라는 폴더가 자동으로 생성되고 안에 내용이 채워진다. 그럼 config 파일을 열고 ( 위 사이트처럼 ipython_notebook_config.py 파일을 생성해도 되고 그냥 ipython_config.py 에 잘 써넣어도 된다. ) c.NotebookApp.ip = '*' c.NotebookApp.open_browser = False c.NotebookApp... 더보기