programming python

Hướng dẫn frequency distribution of categorical data in python - phân phối tần suất của dữ liệu phân loại trong python

Trang chủ & nbsp; & nbsp; Cách trực quan hóa phân phối dữ liệu của một biến phân loại trong Python

Biểu đồ thanh có thể được sử dụng theo nhiều cách, một trong những cách sử dụng phổ biến là trực quan hóa phân phối dữ liệu của các biến phân loại trong dữ liệu. Trục X là giá trị danh mục duy nhất và trục y là tần số của mỗi giá trị.

Trong dữ liệu dưới đây, có một cột [phê duyệt_loan] là phân loại và để hiểu cách phân phối dữ liệu, bạn có thể sử dụng biểu đồ thanh.

Nhập Pandas ASPDpandas aspd

ColumnNames=['CIBIL','AGE','SALARY','APPROVE_LOAN']=['CIBIL','AGE','SALARY','APPROVE_LOAN']

DataValues=[[480,28,610000,'Yes'],=[[480,28, 610000,'Yes'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [480,42,140000, 'không'],[480,42,140000,'No'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [480,29,420000, 'không'],[480,29,420000,'No'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [490.30.420000, 'không'],[490,30,420000,'No'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [500,27,420000, 'không'],[500,27,420000,'No'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [510.34.190000, 'không'],[510,34,190000,'No'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [550.24.330000, 'Có'],[550,24,330000,'Yes'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [560.34.160000, 'Có'],[560,34,160000,'Yes'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [560,25,300000, 'Có'],[560,25,300000,'Yes'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [570.34.450000, 'Có'],[570,34,450000,'Yes'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [590.30.140000, 'Có'],[590,30,140000,'Yes'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [600.33.600000, 'Có'],[600,33,600000,'Yes'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [600,22,400000, 'Có'],[600,22,400000,'Yes'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [600,25,490000, 'Có'],[600,25,490000,'Yes'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [610,32,120000, 'Có'],[610,32,120000,'Yes'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [630,29.360000, 'Có'],[630,29,360000,'Yes'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [630.30.480000, 'Có'],[630,30,480000,'Yes'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [660,29,460000, 'Có'],[660,29,460000,'Yes'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [700.32.470000, 'Có'],[700,32,470000,'Yes'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [740.28.400000, 'Có']]]][740,28,400000,'Yes']]

# Tạo khung dữ liệu

LoanData=pd.DataFrame[data=DataValues,columns=ColumnNames]=pd.DataFrame[data=DataValues,columns=ColumnNames]

print[LoanData.head[]][LoanData.head[]]

################### đô

# Đếm các lần xuất hiện của từng loại duy nhất

GroupedData=LoanData.groupby[by='APPROVE_LOAN'].size[]=LoanData.groupby[by='APPROVE_LOAN'].size[]

print[GroupedData][GroupedData]

# Tạo biểu đồ thanh cho một cột

%matplotlibinlinematplotlib inline

GroupedData.plot.bar[].plot.bar[]

Đầu ra mẫu:

Biểu đồ thanh cho một cột duy nhất trong Python

Một biểu đồ thanh cho một cột phân loại duy nhất cung cấp thông tin dưới đây

Xu hướng trung tâm trong dữ liệu [giá trị chế độ] là gì
Sự mất cân bằng trong dữ liệu, bất kỳ giá trị nào có mặt rất ít lần

Đầu ra lý tưởng từ biểu đồ thanh là gì?

Đầu ra lý tưởng sẽ là mỗi thanh có cùng chiều cao [tần số]. Điều này có nghĩa là mỗi giá trị duy nhất có mặt một số lần bằng nhau, do đó dữ liệu có đủ giá trị cho từng loại giá trị để học hỏi. Điều này được gọi là một dữ liệu cân bằng.

Hãy xem xét ví dụ dưới đây, ở đây số lượng các trường hợp của Yes Yes và các trường hợp không có người khác có mặt gấp 10 lần mỗi trường hợp. Do đó, thuật toán ML có cùng số lượng ví dụ của cả hai trường hợp để học hỏi.

# Tạo khung dữ liệu cân bằng mẫu

Nhập Pandas ASPDpandas aspd

ColumnNames=['CIBIL','AGE','SALARY','APPROVE_LOAN']=['CIBIL','AGE','SALARY','APPROVE_LOAN']

DataValues=[[480,28,610000,'No'],=[[480, 28,610000,'No'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [480,42,140000, 'không'],[480,42,140000,'No'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [480,29,420000, 'không'],[480,29,420000,'No'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [490.30.420000, 'không'],[490,30,420000,'No'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [500,27,420000, 'không'],[500,27,420000,'No'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [510.34.190000, 'không'],[510,34,190000,'No'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [550.24.330000, 'Có'],[550,24,330000,'No'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [560.34.160000, 'Có'],[560,34,160000,'No'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [560,25,300000, 'Có'],[560,25,300000,'No'],

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [570.34.450000, 'Có'],[570,34,450000,'No'],