Hướng dẫn how do you find the frequency distribution in python? - làm thế nào để bạn tìm thấy sự phân bố tần số trong python?

Phát triển phân phối tần số tóm tắt dữ liệu này. Dữ liệu này là nhu cầu cho một đối tượng trong khoảng thời gian 20 ngày.

2 1 0 2 1 3 0 2 4 0 3 2 3 4 2 2 2 4 3 0. Nhiệm vụ là tạo một bảng trong sổ ghi chép Jupyter với nhu cầu và tần số cột. Lưu ý: Nhu cầu phải theo thứ tự tăng dần. Đây là những gì tôi đã làm.

list_of_days = [2, 1, 0, 2, 1, 3, 0, 2, 4, 0, 3, 2 ,3, 4, 2, 2, 2, 4, 3, 0] # created a list of the data
import pandas as pd
series_of_days = pd.Series[list_of_days] # converted the list to series
series_of_days.value_counts[ascending = True] # the frequency was ascending but not the demand
test = dict[series_of_days.value_counts[]]
freq_table =  pd.Series[test]
pd.DataFrame[{"Demand":freq_table.index, "Frequency":freq_table.values}]

Đầu ra phải như thế này:

Demand Frequency
0 4
1 2
2 7

và như thế. Có cách nào tốt hơn để rút ngắn mã Python không? Hoặc làm cho nó hiệu quả hơn?

Để tăng sức mạnh phân tích dữ liệu, bạn phải biết phân phối tần số [STAT-04]

Tìm tất cả những điều cơ bản về phân phối tần số trong vòng 7 phút đọc

Ảnh của Yoann Boyer trên unplash

Dữ liệu đóng một vai trò quan trọng trong mọi tổ chức vì nó giúp các nhà lãnh đạo doanh nghiệp đưa ra quyết định phù hợp dựa trên sự kiện, số lượng thống kê và xu hướng. Do phạm vi dữ liệu ngày càng tăng này, khoa học dữ liệu đã đi vào bức tranh là một lĩnh vực đa ngành. Trong khoa học dữ liệu, phân tích dữ liệu là phần quan trọng nhất. Để hiểu dữ liệu rõ ràng, chúng ta phải biết kiến ​​thức về phân phối tần suất của số liệu thống kê.

Mục đích chính của phân tích dữ liệu là lấy thông tin từ dữ liệu để chúng tôi có thể đưa ra quyết định tốt hơn cho hệ thống, tổ chức hoặc bất kỳ vấn đề nào. Những gì diễn ra trong tâm trí của bạn?. Chúng ta có thể dễ dàng phân tích dữ liệu chỉ bằng cách xem ở định dạng bảng. Ừ! Chúng ta có thể khi bộ dữ liệu nhỏ. Điều gì sẽ xảy ra nếu đối với một bộ dữ liệu lớn !!! Hãy tưởng tượng bạn có một bộ dữ liệu gồm 1000 hàng và 50 cột. Bạn có thể phân tích bộ dữ liệu này chỉ bằng cách tìm kiếm? Để phân tích loại dữ liệu lớn này, lúc đầu, chúng ta phải đơn giản hóa nó. Phân phối tần số là một trong những kỹ thuật quan trọng để phân tích dữ liệu.

Mục lục:

  1. Phân phối tần số là gì?
  2. Tìm ra bảng tần số bằng ví dụ trong thế giới thực.
  3. Bảng tần số cho thang đo thứ tự, khoảng hoặc tỷ lệ.
  4. Tần suất và tần suất phần trăm tương đối là gì.
  5. Làm thế nào để làm cho bảng phân phối tần số được nhóm.
  6. Phân phối tần số của một biến liên tục.
  7. Từ cuối cùng.

Phân phối tần số là gì?

Tìm ra bảng tần số bằng ví dụ trong thế giới thực.

Bảng tần số cho thang đo thứ tự, khoảng hoặc tỷ lệ.

Tần suất và tần suất phần trăm tương đối là gì.

Làm thế nào để làm cho bảng phân phối tần số được nhóm.

Phân phối tần số của một biến liên tục.

import pandas as pd
wnba = pd.read_csv[‘wnba.csv’]
freq_dis_pos = wnba[‘Pos’].value_counts[]
freq_dis_pos

Output:

Từ cuối cùng.

Phân phối tần số là một biểu diễn, theo định dạng đồ họa hoặc bảng, hiển thị số lượng quan sát trong một khoảng hoặc danh mục nhất định. Đôi khi, nó cũng được gọi là bảng phân phối tần số.

Ảnh của tác giả

Hãy cùng nhìn vào bàn. Nó có hai cột. Một cột ghi lại tên biến duy nhất. Một cột khác ghi lại số lượng quan sát hoặc xuất hiện của mỗi giá trị duy nhất.

Thông qua bài viết này, chúng tôi đang sử dụng wnba.csvdataset. Nó có 143 hàng và 32 cột. Một tổng quan đầy đủ về bộ dữ liệu được đưa ra dưới đây. Hãy thoải mái quan sát bộ dữ liệu.

freq_dis_height = wnba[‘Height’].value_counts[]
freq_dis_height

Output:

Đó là thời gian để thử một cái gì đó mới. Chúng tôi sẽ tạo một bảng tần số bằng Python. Chúng ta có thể sử dụng ____11. Và chúng tôi sẽ cố gắng tạo một bảng tần số

Demand Frequency
0 4
1 2
2 7
2Column trong bộ dữ liệu của chúng tôi.

freq_dis_height = wnba[‘Height’].value_counts[].sort_index[]
freq_dis_height

Output:

Chúng ta cũng có thể nhận được bảng tần số của các cột khác bằng cùng loại mã. Nhưng hãy nhớ rằng nó sẽ chỉ hoạt động tốt cho các biến phân loại.

freq_dis_height =wnba[‘Height’].value_counts[].sort_index[ascending= False]freq_dis_height

Output:

Trong đầu ra của chúng tôi, chúng tôi thấy rằng các giá trị theo thứ tự giảm dần. Thứ tự này giúp chúng tôi biết rằng có giá trị tần số tối đa. Thứ tự này giúp chúng tôi nếu chúng tôi có một trường hợp biến danh nghĩa. Nếu biến của bạn được đo theo thang đo, khoảng hoặc tỷ lệ tỷ lệ, thì việc phân tích sẽ trở nên khó khăn hơn. Để hiểu biến, bạn có thể thấy bài viết trước của chúng tôi về biến.

Tóm lại, bảng này sẽ giúp bạn tìm loại biến.

Ảnh của tác giả [Bảng tần số cho biến số thứ tự, khoảng hoặc tỷ lệ tỷ lệ]

Bây giờ chúng tôi cố gắng tìm cột Tần số của cột chiều cao.

Đôi khi, bạn đang gặp rắc rối. Để giải quyết vấn đề này, bạn có thể phải sắp xếp bảng theo giá trị chỉ mục. Sau đó bạn có thể sử dụng

Demand Frequency
0 4
1 2
2 7
3.

Demand Frequency
0 4
1 2
2 7
4

[ii] Tần suất tỷ lệ phần trăm:

Tần suất phần trăm được tìm thấy bằng cách nhân 100 với tần số tương đối.

Demand Frequency
0 4
1 2
2 7
5

Trong thư viện PANDAS, chúng ta có thể tính toán tất cả các tỷ lệ cùng một lúc bằng cách chia từng tần số với tổng số trường hợp. Một ví dụ được hiển thị dưới đây với

Demand Frequency
0 4
1 2
2 7
6DataSet.

Demand Frequency
0 4
1 2
2 7
7

Nhưng nó hơi nhanh hơn bằng cách đặt giá trị

Demand Frequency
0 4
1 2
2 7
8 bình thường hóa đã trở thành đúng. Sau đó chỉ đơn giản là đầu ra nhân với 100.

percentages_pos = wnba[‘Age’].value_counts[normalize=True].sort_index[] * 100percentages_pos

Output:

Tỷ lệ này sẽ giúp chúng tôi tìm thấy thông tin quan trọng theo nhu cầu của chúng tôi.

Xếp hạng phần trăm

Xếp hạng phần trăm của điểm là tỷ lệ phần trăm điểm trong phân phối và thấp hơn so với nó. Để tìm cấp bậc phần trăm, chúng ta có thể sử dụng một thư viện có tên là

Demand Frequency
0 4
1 2
2 7
9in Python.

Nếu chúng ta muốn tìm cấp bậc phần trăm của INDEX 25. Chúng ta chỉ viết mã như dưới đây.

from scipy.stats import percentileofscorepercentile_of_25 = percentileofscore[wnba[‘Age’], 25, kind = ‘weak’]percentile_of_25

Output:

40.55944055944056

Bạn rất ngạc nhiên khi biết rằng chúng ta có thể dễ dàng tìm thấy phần trăm chỉ cần viết một mã dòng. Phương pháp Pandas

import pandas as pd
wnba = pd.read_csv[‘wnba.csv’]
freq_dis_pos = wnba[‘Pos’].value_counts[]
freq_dis_pos
0 giúp chúng tôi tìm phần trăm.

import pandas as pd
wnba = pd.read_csv[‘wnba.csv’]
freq_dis_pos = wnba[‘Pos’].value_counts[]
freq_dis_pos
1

Output:

Chúng tôi không quan tâm đến giá trị của ba hàng đầu tiên. Số 25, 50 và 75 được trả lại theo mặc định, điểm số đã chia phân phối thành bốn phần bằng nhau. Còn được gọi là tứ phân. Bộ tứ đầu tiên [còn được gọi là Bộ tứ thấp hơn] là 24 [lưu ý rằng 24 cũng là phần trăm thứ 25]. Điều đó có nghĩa là 25% tổng số dữ liệu trong vòng 0 đến 24 năm. Bộ tứ thứ hai [còn được gọi là Bộ tứ giữa] là 27 [lưu ý rằng 27 cũng là phần trăm thứ 50]. Và Bộ tứ thứ ba [còn được gọi là Bộ tứ trên] là 30 [lưu ý rằng 30 cũng là phần trăm thứ 75].

Ảnh của Tác giả [Tiểu đồ trực quan đồ họa khái niệm]]

Chúng tôi có thể quan tâm để tìm phần trăm cho tỷ lệ phần trăm khác với 25%, 50%hoặc 75%. Đối với điều đó, chúng ta có thể sử dụng tham số phần trăm của gấu trúc ________ 20. Phương pháp này yêu cầu vượt qua tỷ lệ phần trăm như chúng ta muốn ở giữa 0 đến 1.

persecntiles = wnba[‘Age’].describe[percentiles = [.1, .15, .33, .5, .592, .85, .9]]persecntiles

Output:

Làm thế nào để tạo bảng phân phối tần số được nhóm?

Đôi khi các bảng phân phối tần số không được tổ chức tốt. Sau đó, chúng ta phải tìm bảng phân phối tần số được nhóm. Chúng tôi đặt giới hạn của giá trị được nhóm bằng cách chỉ thay đổi tham số Bins trong phương thức Pandas

import pandas as pd
wnba = pd.read_csv[‘wnba.csv’]
freq_dis_pos = wnba[‘Pos’].value_counts[]
freq_dis_pos
3.

grouped_freq = wnba[‘Age’].value_counts[bins = 5].sort_index[]grouped_freq

Output:

Đôi khi, khoảng thời gian này sẽ không cho đầu ra tốt hơn. Để có được đầu ra tốt hơn, chúng ta phải tạo khoảng thời gian tùy chỉnh.

import pandas as pd
wnba = pd.read_csv[‘wnba.csv’]
freq_dis_pos = wnba[‘Pos’].value_counts[]
freq_dis_pos
4 Cung cấp cho chúng ta sự đối lập để tạo phạm vi tùy chỉnh.

Demand Frequency
0 4
1 2
2 7
0

Output:

import pandas as pd
wnba = pd.read_csv[‘wnba.csv’]
freq_dis_pos = wnba[‘Pos’].value_counts[]
freq_dis_pos
5

Ở đây, chúng tôi phải cung cấp ba tham số. Tham số bắt đầu cho điểm bắt đầu của phạm vi của chúng tôi. Tham số cuối cho điểm cuối của phạm vi tùy chỉnh và giá trị FREQ cho số lượng giá trị trong mỗi tần số.

Phân phối tần số của một biến liên tục

Đối với một biến liên tục, nếu chúng ta tham gia một lớp cho từng giá trị riêng biệt của biến, số lượng lớp sẽ trở nên lớn quá, do đó đánh bại mục đích lập bảng.

Khi các biến liên tục được sử dụng trong các bảng, giá trị của chúng thường được nhóm thành các danh mục. Ở đây, chúng ta có thể sử dụng khái niệm về khoảng mà chúng ta học trước đây.their values are often grouped into categories. Here, We can use the concept of the interval which we learn previously.

Lastly,

Trong suốt bài viết, chúng ta phải học cách tổ chức dữ liệu bằng cách sử dụng bảng phân phối tần số. Chúng ta phải biết rằng bảng phân phối tần số mạnh như thế nào! Bảng phân phối tần số giúp chúng tôi hiểu sâu sắc dữ liệu. Tuy nhiên, đó là thời gian để biết, làm thế nào để trực quan hóa việc tổ chức dữ liệu này. Để biết về nó, xin vui lòng ở lại với tôi. Tôi sẽ trở lại với các kỹ thuật trực quan cần thiết sớm.

Hoàn thành loạt bài viết về thống kê cho khoa học dữ liệu

  1. Càng đơn giản càng đẹp; ‘Nghệ thuật lấy mẫu [STAT-01]
  2. Làm quen với vũ khí quan trọng nhất của khoa học dữ liệu ~ Biến [STAT-02]
  3. Để tăng sức mạnh phân tích dữ liệu, bạn phải biết phân phối tần số [STAT-03]
  4. Tìm các mẫu của bộ dữ liệu bằng cách trực quan hóa phân phối tần số [STAT-04]
  5. So sánh nhiều phân phối tần số để trích xuất thông tin có giá trị từ bộ dữ liệu [STAT-05]
  6. Loại bỏ quan niệm sai lầm của bạn về ý nghĩa với một cuộc thảo luận ngắn gọn [STAT-06]
  7. Tăng hiệu quả mô hình khoa học dữ liệu của bạn với chuẩn hóa [STAT-07]
  8. Khái niệm xác suất cơ bản cho Khoa học dữ liệu [STAT-08]
  9. Bản đồ đường từ định lý Naive Bayes đến phân loại Naive Bayes [STAT-09]
  10. Tất cả những gì bạn cần biết về kiểm tra giả thuyết cho những người đam mê khoa học dữ liệu [STAT-10]
  11. So sánh thống kê giữa nhiều nhóm với ANOVA [STAT-11]
  12. So sánh sự phụ thuộc của các biến phân loại với kiểm tra chi bình phương [STAT-12]

Làm thế nào để bạn thực hiện phân phối tần số trong Python?

Ở đây chúng ta sẽ sử dụng phương thức crosstab [] để có được tần số.Tham số: INDEX: Mảng hoặc chuỗi chứa các giá trị thành nhóm trong các hàng.Các cột: Mảng hoặc chuỗi chứa các giá trị thành nhóm trong các cột.use crosstab[] method to get the frequency. Parameters: index: array or series which contain values to group by in the rows. columns: array or series which contain values to group by in the columns.

Làm thế nào để bạn tìm thấy tần số trong Python?

Lặp qua chức năng đếm và sử dụng [tức là chuỗi.Count [Báo chí [Lặp lại]]] để tìm tần số của từ ở mỗi lần lặp. count[newstring[iteration]]] to find the frequency of word at each iteration.

Làm thế nào để tôi tìm thấy phân phối tần số?

Để thực hiện điều này, chia tần số cho tổng số kết quả và nhân với 100. Trong trường hợp này, tần số của hàng đầu tiên là 1 và tổng số kết quả là 10. Tỷ lệ phần trăm sau đó sẽ là 10,0.Cột cuối cùng là tỷ lệ phần trăm tích lũy.divide the frequency by the total number of results and multiply by 100. In this case, the frequency of the first row is 1 and the total number of results is 10. The percentage would then be 10.0. The final column is Cumulative percentage.

Bài Viết Liên Quan

Chủ Đề