Thay thế các giá trị phân loại bằng các số trong python

Thuật toán học máy không hiểu chuỗi. Do đó, chúng ta cần chuyển đổi dữ liệu đầu vào thành số trước khi chuyển nó cho các thuật toán để đào tạo

Bạn có thể bỏ qua việc chuyển đổi số của biến mục tiêu chuỗi trong khi thực hiện phân loại, vì nó được xử lý bởi các thuật toán

Các biến dự đoán có thể có hai loại,

  • Ordinal Variable: Categorical strings which have some natural ordering, for example, the Size column can be ordered automatically like SP3 etc. Hence, while converting them to numeric, we must assign such numeric values that represent the natural ordering of the variables. Like SC

    Bạn phải biết thứ tự này trong khi chuyển đổi bất kỳ dữ liệu phân loại thứ tự nào. Đôi khi điều đó sẽ không rõ ràng, khi đó bạn phải sử dụng kiến ​​thức về lĩnh vực kinh doanh của mình hoặc tham khảo ý kiến ​​của nhà phân tích kinh doanh để xác nhận điều đó

    Việc ánh xạ có thể được thực hiện bằng cách sử dụng chức năng thay thế[] của Pandas Series

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    # Xác định dữ liệu nhân viên mẫu

    nhập gấu trúc as pd

    Dữ liệu nhân viên=pd. Khung dữ liệu[{'id': [101,102,103,104,105],

                            'Giới tính'. ['M','M','M','F','F'],

                               'Tuổi'. [21,25,24,28,25],

                               'Sở'. ['QA','QA','Dev','Dev','UI'],

                               'Xếp hạng'. ['A','B','B','C','B']

                              }]

    # In dữ liệu

    in[Dữ liệu nhân viên]

     

    # Chuyển đổi xếp hạng biến thông thường thành số

    Dữ liệu về nhân viên['Xếp hạng']. thay thế[{'A':3, 'B'. 2, 'C'. 1}, tại chỗ=True]

    in[Dữ liệu nhân viên]

    Đầu ra mẫu

    Chuyển đổi một biến thứ tự thành số trong python

    Chuyển đổi phân loại danh nghĩa thành số

    Danh nghĩa có thể có hai loại, Nhị phân [chỉ có hai giá trị duy nhất] và Đa lớp [nhiều hơn hai giá trị duy nhất]

    Khi nó ở dạng nhị phân, thì chúng ta ánh xạ nó thành 0 và 1 trong cùng một cột bằng cách sử dụng hàm replace[]. Khi nó là đa lớp, chúng ta tạo các biến giả bằng cách sử dụng hàm get_dummies[]

    1

    2

    3

    4

    5

    6

    7

    8

    # Chuyển đổi giới tính biến danh nghĩa nhị phân thành số

    Dữ liệu về nhân viên['Giới tính']. thay thế[{'M':1, 'F'. 0}, tại chỗ=True]

    in[Dữ liệu nhân viên]

     

    # Chuyển đổi Bộ phận biến danh nghĩa đa lớp thành số

    # bằng cách tạo các biến giả

    Dữ liệu nhân viên=pd. get_dummies[Dữ liệu nhân viên]

    in[Dữ liệu nhân viên]

    Đầu ra mẫu

    Chuyển đổi các biến danh nghĩa nhị phân và đa lớp thành số trong python

    Lưu ý việc sử dụng hàm get_dummies[]. Chúng tôi chuyển toàn bộ dữ liệu cho nó. Hàm get_dummies[], bỏ qua tất cả các biến số có trong dữ liệu, chọn tất cả các biến chuỗi, chuyển đổi chúng thành các biến giả và xóa các biến ban đầu. Điều này giúp chúng tôi tiết kiệm rất nhiều công sức

    Vì bạn có thể chuyển đổi tất cả các biến danh nghĩa đa lớp cùng một lúc bằng get_dummies[], thao tác này được thực hiện ở cuối. Do đó, thứ tự chuyển đổi được liệt kê dưới đây

    1. Đầu tiên, các biến thứ tự được chuyển đổi bằng cách sử dụng replace[] mỗi lần một biến
    2. Các biến danh nghĩa nhị phân được chuyển đổi bằng cách sử dụng thay thế [] mỗi lần một biến
    3. Tất cả các biến danh nghĩa đa lớp được chuyển đổi bằng cách sử dụng get_dummies[] cùng một lúc

    Sau đó, dữ liệu đã sẵn sàng cho máy học

    • chi tiết tác giả

    chi tiết tác giả

    Farukh Hashmi

    Nhà khoa học dữ liệu chính

    Farukh là một nhà đổi mới trong việc giải quyết các vấn đề của ngành bằng Trí tuệ nhân tạo. Chuyên môn của ông được hỗ trợ bởi 10 năm kinh nghiệm trong ngành. Là một nhà khoa học dữ liệu cấp cao, anh ấy chịu trách nhiệm thiết kế giải pháp AI/ML để mang lại lợi ích tối đa cho khách hàng. Là một nhà lãnh đạo có tư duy, trọng tâm của ông là giải quyết các vấn đề kinh doanh chính của Ngành CPG. Ông đã làm việc trên nhiều lĩnh vực khác nhau như Viễn thông, Bảo hiểm và Hậu cần. Ông đã làm việc với các nhà lãnh đạo công nghệ toàn cầu bao gồm Infosys, IBM và các hệ thống liên tục. Niềm đam mê giảng dạy của anh ấy đã thôi thúc anh ấy tạo ra trang web này

    Làm cách nào để chuyển đổi dữ liệu phân loại thành dữ liệu số trong Python Pandas?

    Mục lục .
    Các cách để mã hóa các biến phân loại
    1. 1. Tìm và thay thế
    1. 2. mã hóa nhãn
    1. 3. Mã hóa một lần nóng
    Chuyển đổi dữ liệu phân loại thành dữ liệu số bằng Pandas
    2. 1. Phương pháp 1. Sử dụng get_dummies[]
    2. 2. Phương pháp 2. Sử dụng thay thế[]
    Chuyển đổi dữ liệu phân loại thành dữ liệu số bằng Scikit-learning

    Làm cách nào để chuyển đổi dữ liệu phân loại thành dữ liệu liên tục trong Python?

    Cách chuyển đổi Dữ liệu phân loại thành Dữ liệu liên tục .
    Mã hóa một lần nóng
    Mã hóa nhị phân hoặc biến giả
    tương phản
    Chuyển đổi thành nhị phân
    đếm cấp độ
    Xếp hạng dựa trên số lượng
    Vector nhúng
    Bỏ qua chuyển đổi hoàn toàn

    Làm cách nào để thay đổi dữ liệu định tính thành dữ liệu định lượng Python?

    Làm cách nào để bạn chuyển đổi dữ liệu định tính thành dữ liệu định lượng trong Python? .
    ma trận đầu vào
    Mã hóa các phần tử của ma trận X bằng hàm OrdinalEncoder
    Mã hóa các phần tử của ma trận X bằng hàm OneHotEncoder

Chủ Đề