Chạy Apache Spark với Jupyter Notebook
IPython Notebook là một công cụ tiện lợi cho Python. Ta có thể Debug chương trình PySpark Line-by-line trên IPython Notebook một cách dễ dàng, tiết kiệm được nhiều thời gian.
1. Cài đặt Spark
Truy cập trang chủ (https://spark.apache.org/downloads.html), tải về bản Spark phù hợp (ở đây tôi tải bản Apache Spark 1.6.2).
wget http://d3kbcqa49mib13.cloudfront.net/spark-1.6.2-bin-hadoop2.6.tgz
Giải nén và khởi động Spark Standard Alone (hoặc Cluster).
tar -xzvf spark-1.6.2-bin-hadoop2.6.tgz
cd spark-1.6.2-bin-hadoop2.6
./sbin/start-all.sh
Kiểm tra Spark đã Start thành công hay chưa, truy cập: http://spark-master-ip:8080
2. Cài đặt Jupyter Notebook
Cài đặt bằng command line
sudo apt-get install ipython-notebook
Cấu hình cho IPython Notebook
jupyter notebook --generate-config
Mở file .jupyter/jupyter_notebook_config.py
và cấu hình lại các tham số sau:
c.NotebookApp.ip = '*'
c.NotebookApp.port = 1603
c.NotebookApp.open_browser = False
Port có thể thay đổi theo ý thích, nếu trùng thì Notebook sẽ tự động đổi sang Port khác.
3. RUN
Thực thi lệnh
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS='notebook' pyspark \
--master local --conf spark.executor.memory=3g \
--conf spark.executor.cores=2 --conf spark.driver.memory=3g \
--conf spark.executor.instances=9 \
--conf spark.kryoserializer.buffer.max=256m
Tùy chỉnh các tham số tùy theo thực tế. Truy cập vào IPython Notebook và sử dụng: http://notebook-ip:1234