본문 바로가기

[부록] Jupyter ( IPython ) 에서 pyspark 쓸 때 python3 쓰기 지난번에 기본 jupyter 로 까니 pyspark 이 python2 를 물고 실행되고 있었다. 이제 파이썬 제대로 할거라서... 3로 바꿔서 잘 깔아둬야 겠다.일단 지난번에 설치를 정상적으로 했다면 아래와 같은 명령어를 치면 내 jupyter notebook 에서 실행 가능한 kernel 이 보일것이다. $ /app/milab_reco>$ jupyter kernelspec list Available kernels: python2 /{{your_python_path}}/lib/python2.7/site-packages/ipykernel/resources pyspark {{your_jupyter_path}}/kernels/pyspark python3 로 pyspark 을 실행시키는 것은 간단하다. kern.. 더보기
[부록] Hive 에서 만든 Table 이 Impala 에서 인식이 되지 않을 때 부제 : Impala INVALIDATE METADATA Statement Hive 로 테이블을 만드는 경우 CREATE TABLE IF NOT EXISTS db_name.table_name (user_id string, item_id string) partitioned by (partition_name string); Impala 에서 use db_name; show tables; # table_name 이라는 테이블이 없는 것을 볼 수 있다. 이유 is 뭔들. ** 참고 : SQL Statement자세한 내용은 위 링크를 봐도 좋다.Impala 는 쿼리를 날릴때마다 Metadate 를 reload 하지 않는다. 그래서 Hive 에서 수정한 Metadata 를 available 하도록 하기 위해서는 아.. 더보기
[부록] Crontab 의 간단한 사용법 Crontab 은 주기적으로 실행시켜야할 필요가 있을 때 사용하는 linux 의 기능중 하나이다. 복잡하지도 않고 찾아보면 더 좋은 자료가 많기에 여기서는 간단히 아래 내용만 알아본다. 1. Crontab 문법2. Crontab 실행3. 실행중인 Crontab 관리하는 방법 Crontab 문법 $ * * * * * your_command # 분 시 일 월 요일(0-6, 0이 일요일) 0 * * * * /app/my_command.sh # 매 정각 ( 0분 ) 마다 /app/my_command.sh 를 실행해라 10,30 * * * * /app/my_command.sh # 매 시 10분과 30분에 /app/my_command.sh 를 실행해라 3-53/10 * * * * /app/my_command.sh .. 더보기