Cách sử dụng trình phân loại trong Python
So sánh một số bộ phân loại trong scikit-learning trên bộ dữ liệu tổng hợp. Mục đích của ví dụ này là để minh họa bản chất của ranh giới quyết định của các bộ phân loại khác nhau. Điều này nên được thực hiện với một hạt muối, vì trực giác được truyền tải bởi những ví dụ này không nhất thiết phải chuyển sang bộ dữ liệu thực Show Đặc biệt trong không gian nhiều chiều, dữ liệu có thể dễ dàng được phân tách tuyến tính hơn và sự đơn giản của các bộ phân loại như Bayes ngây thơ và SVM tuyến tính có thể dẫn đến khả năng khái quát hóa tốt hơn so với các bộ phân loại khác đạt được Các ô hiển thị các điểm đào tạo có màu đồng nhất và các điểm kiểm tra bán trong suốt. Phía dưới bên phải hiển thị độ chính xác phân loại trên bộ kiểm tra Trong bài đăng này, chúng tôi sẽ triển khai một số thuật toán học máy trong Python bằng Scikit-learning, công cụ học máy phổ biến nhất dành cho Python. Sử dụng tập dữ liệu đơn giản cho nhiệm vụ huấn luyện bộ phân loại để phân biệt giữa các loại trái cây khác nhau Mục đích của bài đăng này là xác định thuật toán học máy phù hợp nhất cho vấn đề hiện tại; . Bắt đầu nào Dữ liệuBộ dữ liệu trái cây được tạo bởi Dr. Iain Murray từ Đại học Edinburgh. Anh ấy đã mua vài chục quả cam, chanh và táo thuộc nhiều loại khác nhau và ghi lại số đo của chúng vào một bảng. Và sau đó các giáo sư tại Đại học Michigan đã định dạng lại dữ liệu trái cây một chút và có thể tải xuống từ đây Hãy xem một vài hàng đầu tiên của dữ liệu %matplotlib inline Mỗi hàng của tập dữ liệu đại diện cho một miếng trái cây như được biểu thị bằng một số tính năng có trong các cột của bảng Chúng tôi có 59 miếng trái cây và 7 tính năng trong bộ dữ liệu print(fruits.shape) (59, 7) Chúng tôi có bốn loại trái cây trong tập dữ liệu print(fruits['fruit_name'].unique()) ['táo' 'quýt' 'cam' 'chanh'] Dữ liệu khá cân bằng ngoại trừ tiếng quan thoại. Chúng ta sẽ phải đi với nó print(fruits.groupby('fruit_name').size()) import seaborn as sns
fruits.drop('fruit_label', axis=1).plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False, figsize=(9,9),
import pylab as pl
from pandas.tools.plotting import scatter_matrix Chúng ta có thể thấy rằng các giá trị số không có cùng tỷ lệ. Chúng tôi sẽ cần áp dụng tỷ lệ cho tập kiểm tra mà chúng tôi đã tính toán cho tập huấn luyện Tạo Tập huấn luyện và Kiểm tra và Áp dụng Chia tỷ lệfrom sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)from sklearn.preprocessing import MinMaxScalerXây dựng Mô hình Hồi quy logisticfrom sklearn.linear_model import LogisticRegressionlogreg = LogisticRegression() Độ chính xác của bộ phân loại hồi quy Logistic trên tập huấn luyện. 0. 70 cây quyết địnhprint(fruits.shape) 0Độ chính xác của bộ phân loại Cây quyết định trên tập huấn luyện. 1. 00 K-Hàng xóm gần nhấtprint(fruits.shape) 1Độ chính xác của bộ phân loại K-NN trên tập huấn luyện. 0. 95 Phân tích phân biệt tuyến tínhprint(fruits.shape) 2Độ chính xác của bộ phân loại LDA trên tập huấn luyện. 0. 86 Gaussian Naive Bayesprint(fruits.shape) 3Độ chính xác của trình phân loại GNB trên tập huấn luyện. 0. 86 Máy véc tơ hỗ trợprint(fruits.shape) 4Độ chính xác của trình phân loại SVM trên tập huấn luyện. 0. 61 Thuật toán KNN là mô hình chính xác nhất mà chúng tôi đã thử. Ma trận nhầm lẫn cung cấp một dấu hiệu không có lỗi trên tập kiểm tra. Tuy nhiên, bộ kiểm tra rất nhỏ print(fruits.shape) 5print(fruits.shape) 6print(fruits.shape) 7Đối với tập dữ liệu cụ thể này, chúng tôi đạt được độ chính xác cao nhất khi k=5 Bản tóm tắtTrong bài đăng này, chúng tôi tập trung vào độ chính xác dự đoán. Mục tiêu của chúng tôi là tìm hiểu một mô hình có hiệu suất tổng quát hóa tốt. Một mô hình như vậy tối đa hóa độ chính xác dự đoán. Chúng tôi đã xác định thuật toán học máy phù hợp nhất cho vấn đề hiện tại (tôi. e. phân loại trái cây); Mã nguồn đã tạo ra bài đăng này có thể được tìm thấy ở đây. Tôi rất vui khi nhận được phản hồi hoặc câu hỏi về bất kỳ vấn đề nào ở trên Việc sử dụng phân loại là gì?Trình phân loại trong học máy là một thuật toán tự động sắp xếp hoặc phân loại dữ liệu thành một hoặc nhiều nhóm “lớp. ” Một trong những ví dụ phổ biến nhất là trình phân loại email quét email để lọc chúng theo nhãn lớp. Thư rác hay không thư rác.
3 lớp phân loại là gì?Phân loại mô tả. Phân loại mô tả được sử dụng để mô tả hình dạng, kích thước, kết cấu hoặc một mẫu của danh từ. . Dụng cụ phân loại. Hình dạng của các bộ phân loại công cụ mô tả cách một đối tượng được xử lý. . Phân loại phần tử phân loại với ví dụ là gì?Trong khoa học dữ liệu, trình phân loại là một loại thuật toán máy học được sử dụng để gán nhãn lớp cho đầu vào dữ liệu . Một ví dụ là một bộ phân loại nhận dạng hình ảnh để gắn nhãn cho một hình ảnh (e. g. , “ô tô”, “xe tải” hoặc “người”).
Làm cách nào để nhập trình phân loại SVM bằng Python?Đầu tiên, nhập mô-đun SVM và tạo đối tượng phân loại vectơ hỗ trợ bằng cách chuyển kernel đối số làm kernel tuyến tính trong hàm SVC() . Sau đó, điều chỉnh mô hình của bạn trên tập huấn luyện bằng cách sử dụng fit() và thực hiện dự đoán trên tập kiểm tra bằng dự đoán(). |