Trong hướng dẫn hôm nay, chúng ta sẽ tìm hiểu cách tính độ lệch chuẩn của Khung dữ liệu Pandas. Chúng tôi sẽ tính độ lệch chuẩn cho một số trường hợp
- Một loạt gấu trúc
- Một hoặc nhiều cột DataFrame
- Tất cả các hàng trong Khung dữ liệu Python
- Một đối tượng theo nhóm
Khung dữ liệu mẫu
Chúng tôi sẽ bắt đầu bằng cách nhập thư viện Pandas và đọc tệp csv có dữ liệu của chúng tôi vào DataFrame mới
# Import Pandas library
import pandas as pd
# Create DataFrame by reading a csv file
survey = pd.read_csv ['hr_data.csv']
Đây là Khung dữ liệu
Tính độ lệch tiêu chuẩn của Sê-ri Pandas
Trong ví dụ đơn giản này, chúng ta sẽ gọi phương thức std trên một Sê-ri [cột]
# standard deviation of a series
survey['avg_salary'].std[]
Độ lệch chuẩn của một hoặc nhiều cột DataFrame
Trong trường hợp này, chúng tôi sẽ tính toán tiêu chuẩn cho tất cả hoặc các cột cụ thể
Đối với tất cả DataFrame
survey.std[]
Đối với các cột cụ thể
Trước tiên, chúng tôi sẽ tập hợp DataFrame theo các nhãn cột cụ thể và sau đó gọi phương thức std[]
cols = ['num_cand','avg_salary']
survey[cols].std[]
Độ lệch tiêu chuẩn cho mỗi hàng trong Khung dữ liệu Python
Vì chúng tôi muốn tính toán stdev của các hàng, chúng tôi sẽ chuyển tham số axis=1
# standard deviation of each row
survey.std[axis=1]
Std dev của các đối tượng Pandas Groupby
Trong ví dụ này, chúng tôi sẽ
- Đầu tiên tổng hợp dữ liệu theo một [hoặc nhiều] cột
- Tạo một số liệu tổng hợp, trong trường hợp này, biểu thị độ lệch chuẩn của các số liệu tiền lương
# std deviation groupby
data.groupby['language'].agg[avg_salary = ['salary', 'std']]
Vẽ một độ lệch chuẩn
Nếu chúng tôi muốn nhanh chóng vẽ các số liệu của nhà phát triển tiêu chuẩn thành một biểu đồ đơn giản, chúng tôi có thể sử dụng Pandas DataFrame. phương thức cốt truyện []
Lưu ý rằng chúng ta cũng có thể tạo các biểu đồ phức tạp hơn bằng cách tận dụng tối đa các thư viện Matplotlib và Seaborn
Độ lệch chuẩn cho biết các giá trị trong tập dữ liệu được trải rộng như thế nào. Chúng cũng cho biết các giá trị trong tập dữ liệu cách trung bình cộng của các cột trong tập dữ liệu bao xa
Đôi khi, có thể được yêu cầu lấy độ lệch chuẩn của một cột cụ thể có bản chất là số. Đây là nơi có thể sử dụng chức năng std[]. Cột có giá trị trung bình cần được tính toán có thể được lập chỉ mục cho khung dữ liệu và hàm trung bình có thể được gọi trên cột này bằng cách sử dụng toán tử dấu chấm
Chỉ số của cột cũng có thể được thông qua để tìm độ lệch chuẩn
Chúng ta hãy xem một cuộc biểu tình tương tự -
Thí dụ
Bản thử trực tiếp
import pandas as pd my_data = {'Name':pd.Series[['Tom','Jane','Vin','Eve','Will']],'Age':pd.Series[[45, 67, 89, 12, 23]],'value':pd.Series[[8.79,23.24,31.98,78.56,90.20]]} print["The dataframe is :"] my_df = pd.DataFrame[my_data] print[my_df] print["The standard deviation of column 'Age' is :"] print[my_df['Age'].std[]] print["The standard deviation of column 'value' is :"] print[my_df['value'].std[]]
đầu ra
The dataframe is : Name Age value 0 Tom 45 8.79 1 Jane 67 23.24 2 Vin 89 31.98 3 Eve 12 78.56 4 Will 23 90.20 The standard deviation of column 'Age' is : 31.499206339207976 The standard deviation of column 'value' is : 35.747101700697364
Giải trình
Các thư viện cần thiết được nhập và đặt tên bí danh để dễ sử dụng
Từ điển chuỗi bao gồm khóa và giá trị được tạo, trong đó giá trị thực sự là cấu trúc dữ liệu chuỗi
Từ điển này sau đó được chuyển thành tham số cho hàm 'Dataframe' có trong thư viện 'gấu trúc'
Khung dữ liệu được in trên bảng điều khiển
Chúng tôi đang xem xét tính toán độ lệch chuẩn của một cột cụ thể có chứa các giá trị số trong đó
Hàm 'std' được gọi trên khung dữ liệu bằng cách chỉ định tên của cột, sử dụng toán tử dấu chấm
'Tên'. ['Alisa','Bobby','Cathrine','Madonna','Rocky','Sebastian','Jaqluine',
'Rahul','David','Andrew','Ajay','Teresa'],
'Điểm1'. [62,47,55,74,31,77,85,63,42,32,71,57],
'Điểm 2'. [89,87,67,55,47,72,76,79,44,92,99,69],
'Điểm 3'. [56,86,77,45,73,62,74,89,71,67,97,68]}
print["Độ lệch chuẩn của 3 cột là. "]
Bạn có thể sử dụng Khung dữ liệu. hàm std[] để tính độ lệch chuẩn của các giá trị trong DataFrame của gấu trúcBạn có thể sử dụng các phương pháp sau để tính độ lệch chuẩn trong thực tế
Phương pháp 1. Tính độ lệch chuẩn của một cột
________số 8Phương pháp 2. Tính Độ lệch Chuẩn của Nhiều Cột
df[['column_name1', 'column_name2']].std[]
Phương pháp 3. Tính độ lệch chuẩn của tất cả các cột số
0# standard deviation of a series survey['avg_salary'].std[]
Lưu ý rằng hàm std[] sẽ tự động bỏ qua mọi giá trị NaN trong DataFrame khi tính toán độ lệch chuẩn
Các ví dụ sau đây cho thấy cách sử dụng từng phương thức với DataFrame của gấu trúc sau đây
1# standard deviation of a series survey['avg_salary'].std[]
Phương pháp 1. Tính độ lệch chuẩn của một cột
Đoạn mã sau cho biết cách tính độ lệch chuẩn của một cột trong DataFrame
2# standard deviation of a series survey['avg_salary'].std[]
Độ lệch chuẩn hóa ra là 6. 1586
Phương pháp 2. Tính Độ lệch Chuẩn của Nhiều Cột
Đoạn mã sau cho biết cách tính độ lệch chuẩn của nhiều cột trong DataFrame
3# standard deviation of a series survey['avg_salary'].std[]
Độ lệch chuẩn của cột 'điểm' là 6. 1586 và độ lệch chuẩn của cột 'số lần bật lại' là 2. 5599
Phương pháp 3. Tính độ lệch chuẩn của tất cả các cột số
Đoạn mã sau cho biết cách tính độ lệch chuẩn của mọi cột số trong DataFrame
4# standard deviation of a series survey['avg_salary'].std[]
Lưu ý rằng pandas đã không tính toán độ lệch chuẩn của cột 'đội' vì nó không phải là cột số