Hướng dẫn dùng python trees python
Điều kiện tiên quyết để học bài này: Cây quyết định, Bộ phân loại Quyết định, sklearn, numpy, gấu trúc Show Cây quyết định là một trong những thuật toán mạnh mẽ và phổ biến nhất. Thuật toán cây quyết định thuộc loại thuật toán học có giám sát. Nó hoạt động cho cả các biến đầu ra liên tục cũng như phân loại. Trong bài viết này, cafedev sẽ triển khai thuật toán cây Quyết định trên Cơ sở dữ liệu Cân bằng Cân bằng Trọng lượng & Khoảng cách được trình bày trên UCI. Mô tả tập dữ liệu:
Bạn có thể tìm thêm thông tin chi tiết của bộ dữ liệu tại đây. Nơi tải
1. Các gói Python đã sử dụng:1.sklearn: Trong python, sklearn là một gói máy học bao gồm rất nhiều thuật toán ML. Ở đây, chúng tôi đang sử dụng một số mô-đun của nó như train_test_split, DecisionTreeClassifier và precision_score. 2.NumPy: Nó là một mô-đun python số cung cấp các hàm toán học nhanh để tính toán. Nó được sử dụng để đọc dữ liệu trong các mảng phức tạp và cho mục đích thao tác. 3.Pandas: Được sử dụng để đọc và ghi các tệp khác nhau. Thao tác dữ liệu có thể được thực hiện dễ dàng với các khung dữ liệu. Cài đặt các gói: Trong Python, sklearn là gói chứa tất cả các gói cần thiết để triển khai thuật toán Học máy. Bạn có thể cài đặt gói sklearn bằng cách làm theo các lệnh dưới đây. sử dụng pip:
Trước khi sử dụng lệnh trên, hãy đảm bảo rằng bạn đã cài đặt các gói scipy và numpy. Nếu bạn không có pip. Bạn có thể cài đặt nó bằng cách sử dụng
sử dụng conda:
Các giả định chúng tôi đưa ra khi sử dụng cây Quyết định:
2. Mã giả:
Trong khi thực hiện cây quyết định, chúng ta sẽ trải qua hai giai đoạn sau:
3. Nhập dữ liệu :Để nhập và thao tác dữ liệu, chúng ta đang sử dụng gói pandas được cung cấp trong python. Ở đây, chúng ta đang sử dụng một URL đang trực tiếp tìm nạp tập dữ liệu từ trang UCI mà không cần tải xuống tập dữ liệu. Khi bạn cố gắng chạy mã này trên hệ thống của mình, hãy đảm bảo rằng hệ thống phải có kết nối Internet đang hoạt động. Vì tập dữ liệu được phân tách bằng “,” nên chúng ta phải chuyển giá trị của tham số sep là “,”. Một điều khác cần lưu ý là tập dữ liệu không chứa tiêu đề, vì vậy chúng ta sẽ chuyển giá trị của tham số Tiêu đề như không có. Nếu chúng ta không truyền tham số tiêu đề thì nó sẽ coi dòng đầu tiên của tập dữ liệu là tiêu đề. 4. Cắt dữ liệu:
5. Các thuật ngữ được sử dụng trong mã:Chỉ mục Gini và thu thập thông tin cả hai phương pháp này được sử dụng để chọn từ n thuộc tính của tập dữ liệu mà thuộc tính sẽ được đặt ở nút gốc hoặc nút bên trong. chỉ số Gini
Entropy
Thông tin thu được
Điểm chính xác
Ma trận hỗn loạn
Dưới đây là mã python cho cây quyết định.
Cài ứng dụng cafedev để dễ dàng cập nhật tin và học lập trình mọi lúc mọi nơi tại đây. Nguồn và Tài liệu tiếng anh tham khảo:
Tài liệu từ cafedev:
Nếu bạn thấy hay và hữu ích, bạn có thể tham gia các kênh sau của cafedev để nhận được nhiều hơn nữa:
Chào thân ái và quyết thắng! Đăng ký kênh youtube để ủng hộ Cafedev nha các bạn, Thanks you! |