Làm thế nào để bạn tìm thấy giá trị trung bình và độ lệch chuẩn của một khung dữ liệu trong python?

Trong hướng dẫn hôm nay, chúng ta sẽ tìm hiểu cách tính độ lệch chuẩn của Khung dữ liệu Pandas. Chúng tôi sẽ tính độ lệch chuẩn cho một số trường hợp

  • Một loạt gấu trúc
  • Một hoặc nhiều cột DataFrame
  • Tất cả các hàng trong Khung dữ liệu Python
  • Một đối tượng theo nhóm

Khung dữ liệu mẫu

Chúng tôi sẽ bắt đầu bằng cách nhập thư viện Pandas và đọc tệp csv có dữ liệu của chúng tôi vào DataFrame mới

# Import Pandas library
import pandas as pd

# Create DataFrame by reading a csv file
survey = pd.read_csv ('hr_data.csv')

Đây là Khung dữ liệu

Làm thế nào để bạn tìm thấy giá trị trung bình và độ lệch chuẩn của một khung dữ liệu trong python?

Tính độ lệch tiêu chuẩn của Sê-ri Pandas

Trong ví dụ đơn giản này, chúng ta sẽ gọi phương thức std trên một Sê-ri (cột)

# standard deviation of a series
survey['avg_salary'].std()

Độ lệch chuẩn của một hoặc nhiều cột DataFrame

Trong trường hợp này, chúng tôi sẽ tính toán tiêu chuẩn cho tất cả hoặc các cột cụ thể

Đối với tất cả DataFrame

survey.std()

Đối với các cột cụ thể

Trước tiên, chúng tôi sẽ tập hợp DataFrame theo các nhãn cột cụ thể và sau đó gọi phương thức std()

cols = ['num_cand','avg_salary']
survey[cols].std()

Độ lệch tiêu chuẩn cho mỗi hàng trong Khung dữ liệu Python

Vì chúng tôi muốn tính toán stdev của các hàng, chúng tôi sẽ chuyển tham số axis=1

# standard deviation of each row
survey.std(axis=1)

Std dev của các đối tượng Pandas Groupby

Trong ví dụ này, chúng tôi sẽ

  • Đầu tiên tổng hợp dữ liệu theo một (hoặc nhiều) cột
  • Tạo một số liệu tổng hợp, trong trường hợp này, biểu thị độ lệch chuẩn của các số liệu tiền lương
# std deviation groupby
data.groupby('language').agg(avg_salary = ('salary', 'std'))

Vẽ một độ lệch chuẩn

Nếu chúng tôi muốn nhanh chóng vẽ các số liệu của nhà phát triển tiêu chuẩn thành một biểu đồ đơn giản, chúng tôi có thể sử dụng Pandas DataFrame. phương thức cốt truyện ()

Lưu ý rằng chúng ta cũng có thể tạo các biểu đồ phức tạp hơn bằng cách tận dụng tối đa các thư viện Matplotlib và Seaborn

Độ lệch chuẩn cho biết các giá trị trong tập dữ liệu được trải rộng như thế nào. Chúng cũng cho biết các giá trị trong tập dữ liệu cách trung bình cộng của các cột trong tập dữ liệu bao xa

Đôi khi, có thể được yêu cầu lấy độ lệch chuẩn của một cột cụ thể có bản chất là số. Đây là nơi có thể sử dụng chức năng std(). Cột có giá trị trung bình cần được tính toán có thể được lập chỉ mục cho khung dữ liệu và hàm trung bình có thể được gọi trên cột này bằng cách sử dụng toán tử dấu chấm

Chỉ số của cột cũng có thể được thông qua để tìm độ lệch chuẩn

Chúng ta hãy xem một cuộc biểu tình tương tự -

Thí dụ

Bản thử trực tiếp

import pandas as pd
my_data = {'Name':pd.Series(['Tom','Jane','Vin','Eve','Will']),'Age':pd.Series([45, 67, 89, 12, 23]),'value':pd.Series([8.79,23.24,31.98,78.56,90.20])}
print("The dataframe is :")
my_df = pd.DataFrame(my_data)
print(my_df)
print("The standard deviation of column 'Age' is :")
print(my_df['Age'].std())
print("The standard deviation of column 'value' is :")
print(my_df['value'].std())

đầu ra

The dataframe is :
   Name  Age   value
0  Tom   45   8.79
1  Jane  67   23.24
2  Vin   89   31.98
3  Eve   12   78.56
4  Will  23   90.20
The standard deviation of column 'Age' is :
31.499206339207976
The standard deviation of column 'value' is :
35.747101700697364

Giải trình

  • Các thư viện cần thiết được nhập và đặt tên bí danh để dễ sử dụng

  • Từ điển chuỗi bao gồm khóa và giá trị được tạo, trong đó giá trị thực sự là cấu trúc dữ liệu chuỗi

  • Từ điển này sau đó được chuyển thành tham số cho hàm 'Dataframe' có trong thư viện 'gấu trúc'

  • Khung dữ liệu được in trên bảng điều khiển

  • Chúng tôi đang xem xét tính toán độ lệch chuẩn của một cột cụ thể có chứa các giá trị số trong đó

  • Hàm 'std' được gọi trên khung dữ liệu bằng cách chỉ định tên của cột, sử dụng toán tử dấu chấm

    'Tên'. ['Alisa','Bobby','Cathrine','Madonna','Rocky','Sebastian','Jaqluine',

    'Rahul','David','Andrew','Ajay','Teresa'],

    'Điểm1'. [62,47,55,74,31,77,85,63,42,32,71,57],

    'Điểm 2'. [89,87,67,55,47,72,76,79,44,92,99,69],

    'Điểm 3'. [56,86,77,45,73,62,74,89,71,67,97,68]}

    print("Độ lệch chuẩn của 3 cột là. ")

    Bạn có thể sử dụng Khung dữ liệu. hàm std() để tính độ lệch chuẩn của các giá trị trong DataFrame của gấu trúc

    Bạn có thể sử dụng các phương pháp sau để tính độ lệch chuẩn trong thực tế

    Phương pháp 1. Tính độ lệch chuẩn của một cột

    ________số 8

    Phương pháp 2. Tính Độ lệch Chuẩn của Nhiều Cột

    df[['column_name1', 'column_name2']].std() 

    Phương pháp 3. Tính độ lệch chuẩn của tất cả các cột số

    # standard deviation of a series
    survey['avg_salary'].std()
    0

    Lưu ý rằng hàm std() sẽ tự động bỏ qua mọi giá trị NaN trong DataFrame khi tính toán độ lệch chuẩn

    Các ví dụ sau đây cho thấy cách sử dụng từng phương thức với DataFrame của gấu trúc sau đây

    # standard deviation of a series
    survey['avg_salary'].std()
    1

    Phương pháp 1. Tính độ lệch chuẩn của một cột

    Đoạn mã sau cho biết cách tính độ lệch chuẩn của một cột trong DataFrame

    # standard deviation of a series
    survey['avg_salary'].std()
    2

    Độ lệch chuẩn hóa ra là 6. 1586

    Phương pháp 2. Tính Độ lệch Chuẩn của Nhiều Cột

    Đoạn mã sau cho biết cách tính độ lệch chuẩn của nhiều cột trong DataFrame

    # standard deviation of a series
    survey['avg_salary'].std()
    3

    Độ lệch chuẩn của cột 'điểm' là 6. 1586 và độ lệch chuẩn của cột 'số lần bật lại' là 2. 5599

    Phương pháp 3. Tính độ lệch chuẩn của tất cả các cột số

    Đoạn mã sau cho biết cách tính độ lệch chuẩn của mọi cột số trong DataFrame

    # standard deviation of a series
    survey['avg_salary'].std()
    4

    Lưu ý rằng pandas đã không tính toán độ lệch chuẩn của cột 'đội' vì nó không phải là cột số