Các sơ đồ mật độ cho phép trực quan hóa phân phối của một biến số cho một hoặc một số nhóm. Chúng được điều chỉnh rất tốt cho bộ dữ liệu lớn, như đã nêu trong dữ liệu-to-viz.com. Lưu ý rằng 2 cách tiếp cận tồn tại để xây dựng chúng trong Python: phương pháp đầu tiên bao gồm tính toán ước tính mật độ hạt nhân, phương pháp thứ hai trong việc xây dựng biểu đồ có độ phân giải cao.
⏱ Bắt đầu nhanh chóng
Nếu bạn đang vội, cách đơn giản nhất để xây dựng biểu đồ mật độ là sử dụng Seaborn
và hàm kdeplot[]
của nó. Bạn chỉ cần cung cấp cho nó một biến số từ bộ dữ liệu của bạn. 🔥
# library & dataset
import seaborn as sns
df = sns.load_dataset['iris']
# Make default density plot
sns.kdeplot[df['sepal_width']]
Biểu đồ mật độ với Seaborn
Seaborn
là một thư viện Python cho phép tạo biểu đồ tốt hơn một cách dễ dàng. Nó được điều chỉnh tốt để xây dựng biểu đồ mật độ nhờ vào chức năng kdeplot
của nó. Các biểu đồ sau đây sẽ hướng dẫn bạn sử dụng nó, đi từ một âm mưu mật độ rất cơ bản đến một cái gì đó được tùy chỉnh hơn nhiều.
Biểu đồ mật độ, Seaborn
và nhiều nhóm
Đây là một trường hợp sử dụng phổ biến để so sánh mật độ của một số nhóm trong bộ dữ liệu. Một số tùy chọn tồn tại để làm như vậy. Bạn có thể vẽ tất cả các mục trên cùng một biểu đồ, sử dụng tính minh bạch và chú thích để thực hiện so sánh có thể. Hoặc bạn có thể một kỹ thuật gọi là bội số nhỏ trong đó cửa sổ đồ thị được phân chia trong các biểu đồ riêng lẻ, tránh sự chồng chéo của nhóm đôi khi khó đọc.
🔎 kdeplot
Tham số chức năng → Xem toàn bộ tài liệu
fillbwcolor
________ 8 → màu dưới đường cong→ color under the curve
Biểu đồ mật độ với Matplotlib
Có thể xây dựng một biểu đồ mật độ với Seaborn
0, nhưng nó thực sự là một cuộc đấu tranh so với việc làm cho nó với Seaborn
1 như thể hiện ở trên. Đây là một ví dụ để chứng minh nó là có thể thực hiện được, nhưng tôi thực sự khuyên bạn nên đi cho Seaborn
1.
Biểu đồ mật độ là một loại công cụ trực quan hóa dữ liệu. Đó là một biến thể của biểu đồ sử dụng ‘kernel làm mịn trong khi vẽ các giá trị. Đây là một phiên bản liên tục và mượt mà của một biểu đồ được suy ra từ một dữ liệu.
Các ô mật độ sử dụng ước tính mật độ hạt nhân [vì vậy chúng còn được gọi là các ô ước tính mật độ hạt nhân hoặc KDE] là hàm mật độ xác suất. Vùng của lô với đỉnh cao hơn là khu vực có điểm dữ liệu tối đa nằm giữa các giá trị đó.
Các lô mật độ có thể được thực hiện bằng cách sử dụng gấu trúc, seeborn, v.v. Trong bài viết này, chúng tôi sẽ tạo ra các lô mật độ bằng gấu trúc. Chúng tôi sẽ sử dụng hai bộ dữ liệu của Thư viện Seaborn là - ‘Car_crashes, và‘ Mẹo. & NBSP;
Cú pháp: pandas.dataframe.plot.dive | pandas.dataframe.plot.kde pandas.DataFrame.plot.density | pandas.DataFrame.plot.kde
trong đó gấu trúc -> bộ dữ liệu của loại ‘pandas dataframepandas -> the dataset of the type ‘pandas dataframe’
DataFrame -> Cột mà biểu đồ mật độ sẽ được vẽ-> the column for which the density plot is to be drawn
Biểu đồ -> Từ khóa chỉ đạo để vẽ sơ đồ/biểu đồ cho cột đã cho-> keyword directing to draw a plot/graph for the given column
Mật độ -> để vẽ đồ thị mật độ & nbsp;-> for plotting a density graph
KDE -> Để vẽ đồ thị mật độ bằng cách sử dụng hàm ước tính mật độ hạt nhân-> to plot a density graph using the Kernel Density Estimation function
Ví dụ 1: Cho bộ dữ liệu ‘car_crashes, hãy để tìm hiểu bằng cách sử dụng biểu đồ mật độ là tốc độ phổ biến nhất do hầu hết các vụ tai nạn xe hơi xảy ra. Given the dataset ‘car_crashes’, let’s find out using the density plot which is the most common speed due to which most of the car crashes happened.
Python3
Seaborn
3 Seaborn
4
Seaborn
3 Seaborn
6
Seaborn
3 Seaborn
8
Seaborn
9kdeplot[]
0 kdeplot[]
1kdeplot[]
2223
kdeplot[]
4kdeplot[]
5kdeplot[]
6kdeplot[]
7
Output:
Vẽ đồ thị:
Python3
kdeplot[]
8kdeplot[]
0Seaborn
0kdeplot[]
3
Seaborn
2Seaborn
3kdeplot[]
3
Seaborn
5
Output:
Sử dụng biểu đồ mật độ, chúng ta có thể tìm ra rằng tốc độ giữa 4-5 [kmph] là phổ biến nhất đối với các sự cố sự cố trong bộ dữ liệu vì nó là vùng mật độ cao [đỉnh cao].
Ví dụ 2: Đối với một bộ dữ liệu khác ‘Mẹo, hãy để tính toán những gì là mẹo phổ biến nhất được đưa ra bởi khách hàng. & NBSP; For another dataset ‘tips’, let’s calculate what was the most common tip given by a customer.
Python3
Seaborn
9kdeplot[]
0 kdeplot[]
1Seaborn
9kdeplot[]
3
kdeplot[]
4kdeplot[]
5kdeplot[]
6kdeplot[]
7
Output:
‘Mẹo dữ liệu
Vẽ đồ thị:
Python3
Seaborn
5kdeplot[]
0Seaborn
0kdeplot[]
3
Seaborn
2kdeplot
0kdeplot[]
3
Seaborn
5
Sử dụng biểu đồ mật độ, chúng ta có thể tìm ra rằng tốc độ giữa 4-5 [kmph] là phổ biến nhất đối với các sự cố sự cố trong bộ dữ liệu vì nó là vùng mật độ cao [đỉnh cao].
Ví dụ 2: Đối với một bộ dữ liệu khác ‘Mẹo, hãy để tính toán những gì là mẹo phổ biến nhất được đưa ra bởi khách hàng. & NBSP;
Seaborn
9kdeplot[]
0 kdeplot[]
1Seaborn
9kdeplot[]
3
Python3
kdeplot
3kdeplot[]
0Seaborn
0kdeplot[]
3
Seaborn
2kdeplot
8kdeplot[]
3
Seaborn
5
‘Mẹo dữ liệu
Thông qua biểu đồ mật độ trên, chúng ta có thể suy ra rằng mẹo phổ biến nhất được đưa ra là trong phạm vi 2,5-3. Đỉnh/mật độ cao nhất [như được biểu thị trên trục y] được tìm thấy ở giá trị đầu là 2,5 - 3. & nbsp;