Hướng dẫn dùng df.corr python

Không có dữ liệu thực tế, thật khó để trả lời câu hỏi nhưng tôi đoán bạn đang tìm kiếm một cái gì đó như thế này:

Top15['Citable docs per Capita'].corr(Top15['Energy Supply per Capita'])

Điều đó tính toán mối tương quan giữa hai cột của bạn 'Citable docs per Capita''Energy Supply per Capita'.

Để đưa ra một ví dụ:

import pandas as pd

df = pd.DataFrame({'A': range(4), 'B': [2*i for i in range(4)]})

   A  B
0  0  0
1  1  2
2  2  4
3  3  6

Sau đó

df['A'].corr(df['B'])

đưa ra 1như mong đợi.

Bây giờ, nếu bạn thay đổi một giá trị, vd

df.loc[2, 'B'] = 4.5

   A    B
0  0  0.0
1  1  2.0
2  2  4.5
3  3  6.0

lệnh

df['A'].corr(df['B'])

trả lại

0.99586

vẫn còn gần 1, như mong đợi.

Nếu bạn áp dụng .corrtrực tiếp vào khung dữ liệu của mình, nó sẽ trả về tất cả các mối tương quan theo cặp giữa các cột của bạn; đó là lý do tại sao sau đó bạn quan sát 1stheo đường chéo của ma trận của bạn (mỗi cột hoàn toàn tương quan với chính nó).

df.corr()

do đó sẽ trở lại

          A         B
A  1.000000  0.995862
B  0.995862  1.000000

Trong đồ họa bạn hiển thị, chỉ có góc trên bên trái của ma trận tương quan được trình bày (tôi giả sử).

Có thể có trường hợp, nơi bạn nhận được NaNs trong giải pháp của mình - kiểm tra bài đăng này để biết ví dụ.

Nếu bạn muốn lọc các mục trên / dưới một ngưỡng nhất định, bạn có thể kiểm tra câu hỏi này . Nếu bạn muốn vẽ sơ đồ nhiệt của các hệ số tương quan, bạn có thể kiểm tra câu trả lời này và nếu sau đó bạn gặp vấn đề với các nhãn trục chồng chéo, hãy kiểm tra bài sau .

135 hữu ích 5 bình luận chia sẻ

Không có dữ liệu thực tế, thật khó để trả lời câu hỏi nhưng tôi đoán bạn đang tìm kiếm một cái gì đó như thế này:

Top15['Citable docs per Capita'].corr(Top15['Energy Supply per Capita'])

Điều đó tính toán mối tương quan giữa hai cột của bạn 'Citable docs per Capita''Energy Supply per Capita'.

Để đưa ra một ví dụ:

import pandas as pd

df = pd.DataFrame({'A': range(4), 'B': [2*i for i in range(4)]})

   A  B
0  0  0
1  1  2
2  2  4
3  3  6

Sau đó

df['A'].corr(df['B'])

đưa ra 1như mong đợi.

Bây giờ, nếu bạn thay đổi một giá trị, vd

df.loc[2, 'B'] = 4.5

   A    B
0  0  0.0
1  1  2.0
2  2  4.5
3  3  6.0

lệnh

df['A'].corr(df['B'])

trả lại

0.99586

vẫn còn gần 1, như mong đợi.

Nếu bạn áp dụng .corrtrực tiếp vào khung dữ liệu của mình, nó sẽ trả về tất cả các mối tương quan theo cặp giữa các cột của bạn; đó là lý do tại sao sau đó bạn quan sát 1stheo đường chéo của ma trận của bạn (mỗi cột hoàn toàn tương quan với chính nó).

df.corr()

do đó sẽ trở lại

          A         B
A  1.000000  0.995862
B  0.995862  1.000000

Trong đồ họa bạn hiển thị, chỉ có góc trên bên trái của ma trận tương quan được trình bày (tôi giả sử).

Có thể có trường hợp, nơi bạn nhận được NaNs trong giải pháp của mình - kiểm tra bài đăng này để biết ví dụ.

Nếu bạn muốn lọc các mục trên / dưới một ngưỡng nhất định, bạn có thể kiểm tra câu hỏi này . Nếu bạn muốn vẽ sơ đồ nhiệt của các hệ số tương quan, bạn có thể kiểm tra câu trả lời này và nếu sau đó bạn gặp vấn đề với các nhãn trục chồng chéo, hãy kiểm tra bài sau .

135 hữu ích 5 bình luận chia sẻ