Hướng dẫn dùng pyspark window python

Trong bài viết này, tôi sẽ giải thích cách cài đặt và chạy PySpark trên windows và cũng giải thích cách khởi động máy chủ lịch sử và theo dõi công việc của bạn bằng giao diện người dùng Web.

Có liên quan:

PySpark là một thư viện Spark được viết bằng Python để chạy các ứng dụng Python bằng cách sử dụng các khả năng của Apache Spark. vì vậy không có thư viện PySpark để tải xuống. Tất cả những gì bạn cần là Spark.

Làm theo các bước dưới đây để Cài đặt PySpark trên Windows.

  • Cài đặt phân phối Python hoặc Anaconda
  • Cài đặt Java 8
  • PySpark Cài đặt trên Windows
  • Cài đặt winutils.exe trên Windows
  • Vỏ PySpark
  • Giao diện người dùng web
  • Máy chủ lịch sử
    • Sự kết luận

Cài đặt phân phối Python hoặc Anaconda

Tải xuống và cài đặt Python từ Python.org hoặc Phân phối Anaconda bao gồm Python, Spyder IDE và sổ ghi chép Jupyter. Tôi khuyên bạn nên sử dụng Anaconda vì nó phổ biến và được cộng đồng Khoa học dữ liệu & Học máy sử dụng.

Thực hiện theo Cài đặt PySpark bằng Anaconda và chạy sổ ghi chép Jupyter

Cài đặt Java 8

Để chạy ứng dụng PySpark, bạn cần Java 8 hoặc phiên bản mới hơn, do đó hãy tải xuống phiên bản Java từ Oracle và cài đặt nó trên hệ thống của bạn.

Tập hợp sau cài đặt JAVA_HOME và biến PATH.


JAVA_HOME = C:Program FilesJavajdk1.8.0_201
PATH = %PATH%;C:Program FilesJavajdk1.8.0_201bin

PySpark là một thư viện Spark được viết bằng Python để chạy các ứng dụng Python bằng cách sử dụng các khả năng của Apache Spark. vì vậy không có thư viện PySpark để tải xuống. Tất cả những gì bạn cần là Spark; làm theo các bước dưới đây để cài đặt PySpark trên windows.

1. Bật Tải xuống Spark trang, chọn liên kết Download Spark [point 3] Tải về. Nếu bạn muốn sử dụng phiên bản Spark & ​​Hadoop khác, hãy chọn phiên bản bạn muốn từ menu thả xuống và liên kết ở điểm 3 sẽ thay đổi thành phiên bản đã chọn và cung cấp cho bạn liên kết cập nhật để tải xuống.

2. Sau khi tải xuống, hãy bỏ mã nhị phân bằng cách sử dụng 7zip và sao chép thư mục bên dưới spark-3.0.0-bin-hadoop2.7 đến c:apps

3. Bây giờ thiết lập các biến môi trường sau.


SPARK_HOME  = C:appsspark-3.0.0-bin-hadoop2.7
HADOOP_HOME = C:appsspark-3.0.0-bin-hadoop2.7
PATH=%PATH%;C:appsspark-3.0.0-bin-hadoop2.7bin

Cài đặt winutils.exe trên Windows

Tải xuống tệp winutils.exe từ winutilsvà sao chép nó vào %SPARK_HOME%bin. Winutils khác nhau đối với mỗi phiên bản Hadoop, do đó hãy tải xuống phiên bản phù hợp từ //github.com/steveloughran/winutils

Vỏ PySpark

Bây giờ hãy mở dấu nhắc lệnh và gõ lệnh pyspark để chạy trình bao PySpark. Bạn sẽ thấy một cái gì đó như thế này dưới đây.

Spark-shell cũng tạo giao diện người dùng web ngữ cảnh Spark và theo mặc định, nó có thể truy cập từ // localhost: 4041.

Giao diện người dùng web

Apache Spark cung cấp một bộ giao diện người dùng Web [Công việc, Giai đoạn, Nhiệm vụ, Lưu trữ, Môi trường, Người thực thi và SQL] để theo dõi trạng thái của ứng dụng Spark của bạn.

Máy chủ lịch sử

Máy chủ lịch sử, giữ nhật ký của tất cả các ứng dụng PySpark mà bạn gửi bằng spark-submit, pyspark shell. trước khi bắt đầu, trước tiên bạn cần đặt cấu hình bên dưới bật spark-defaults.conf


spark.eventLog.enabled true
spark.history.fs.logDirectory file:///c:/logs/path

Bây giờ, khởi động máy chủ lịch sử trên Linux hoặc Mac bằng cách chạy.


$SPARK_HOME/sbin/start-history-server.sh

Nếu bạn đang chạy PySpark trên windows, bạn có thể khởi động máy chủ lịch sử bằng cách bắt đầu lệnh dưới đây.


$SPARK_HOME/bin/spark-class.cmd org.apache.spark.deploy.history.HistoryServer

Theo mặc định, máy chủ Lịch sử lắng nghe ở cổng 18080 và bạn có thể truy cập nó từ trình duyệt bằng cách sử dụng // localhost: 18080 /

Bằng cách nhấp vào từng ID ứng dụng, bạn sẽ nhận được thông tin chi tiết của ứng dụng trong giao diện người dùng web PySpark.

Sự kết luận

Tóm lại, bạn đã học cách cài đặt PySpark trên windows và chạy các câu lệnh mẫu trong spark-shell

Nếu bạn có bất kỳ vấn đề, thiết lập, vui lòng nhắn tin cho tôi trong phần nhận xét, tôi sẽ cố gắng trả lời cùng với giải pháp.

Học vui vẻ !!

Chủ Đề