Hướng dẫn how do you tell if a variable is normally distributed python? - làm thế nào để bạn biết nếu một biến được phân phối bình thường python?

Cập nhật lần cuối vào ngày 8 tháng 8 năm 2019

Một điểm quyết định quan trọng khi làm việc với một mẫu dữ liệu là liệu sử dụng các phương pháp thống kê tham số hay không theo tỷ lệ.

Phương pháp thống kê tham số giả định rằng dữ liệu có phân phối cụ thể và đã biết, thường là phân phối Gaussian. Nếu một mẫu dữ liệu không phải là Gaussian, thì các giả định của các thử nghiệm thống kê tham số bị vi phạm và phải sử dụng các phương pháp thống kê không tham số.

Có một loạt các kỹ thuật mà bạn có thể sử dụng để kiểm tra xem mẫu dữ liệu của bạn có lệch khỏi phân phối Gaussian hay không, được gọi là kiểm tra bình thường.

Trong hướng dẫn này, bạn sẽ khám phá tầm quan trọng của việc kiểm tra xem mẫu dữ liệu có lệch khỏi phân phối bình thường và bộ kỹ thuật mà bạn có thể sử dụng để đánh giá mẫu dữ liệu của mình hay không.

Sau khi hoàn thành hướng dẫn này, bạn sẽ biết:

  • Làm thế nào một mẫu là bình thường chỉ ra các loại phương pháp thống kê để sử dụng với mẫu dữ liệu.
  • Các phương pháp đồ họa để đủ điều kiện độ lệch so với bình thường, chẳng hạn như biểu đồ và biểu đồ Q-Q.
  • Kiểm tra tính quy phạm thống kê để định lượng độ lệch so với bình thường.

Khởi động dự án của bạn với số liệu thống kê sách mới của tôi cho học máy, bao gồm các hướng dẫn từng bước và các tệp mã nguồn Python cho tất cả các ví dụ. with my new book Statistics for Machine Learning, including step-by-step tutorials and the Python source code files for all examples.

Bắt đầu nào.

  • CẬP NHẬT Tháng 5/2018: Cập nhật giải thích kết quả cho & NBSP; Anderson-Darling Test, Cảm ơn & NBSP; Elie.: Updated interpretation of results for Anderson-Darling test, thanks Elie.
  • CẬP NHẬT Tháng 5/2018: Ngôn ngữ cập nhật về từ chối từ chối và không phải là từ chối từ chối H0 H0.: Updated language about “reject” vs “failure to reject” H0.

Hướng dẫn how do you tell if a variable is normally distributed python? - làm thế nào để bạn biết nếu một biến được phân phối bình thường python?

Giới thiệu nhẹ nhàng về các bài kiểm tra bình thường ở Pythonphoto của Ramoun Cabuhay, một số quyền được bảo lưu.
Photo by Ramoun Cabuhay, some rights reserved.

Tổng quan hướng dẫn

Hướng dẫn này được chia thành 5 phần; họ đang:

  1. Giả định bình thường
  2. Kiểm tra bộ dữ liệu
  3. Kiểm tra tính quy tắc trực quan
  4. Kiểm tra tính quy tắc thống kê
  5. Bạn nên sử dụng bài kiểm tra nào?

Cần trợ giúp về số liệu thống kê cho học máy?

Tham gia khóa học gặp sự cố email 7 ngày miễn phí của tôi ngay bây giờ (với mã mẫu).

Nhấp để đăng ký và cũng nhận được phiên bản Ebook PDF miễn phí của khóa học.

Giả định bình thường

Kiểm tra bộ dữ liệu

Kiểm tra tính quy tắc trực quan

Kiểm tra tính quy tắc thống kê

Bạn nên sử dụng bài kiểm tra nào?

Cần trợ giúp về số liệu thống kê cho học máy?

Tham gia khóa học gặp sự cố email 7 ngày miễn phí của tôi ngay bây giờ (với mã mẫu).

Else:

Nhấp để đăng ký và cũng nhận được phiên bản Ebook PDF miễn phí của khóa học.

Một phần lớn của lĩnh vực thống kê có liên quan đến dữ liệu giả định rằng nó được rút ra từ phân phối Gaussian.

Nếu các phương thức được sử dụng giả định phân phối Gaussian và dữ liệu của bạn được rút ra từ một phân phối khác, các phát hiện có thể gây hiểu lầm hoặc sai.

  • Có một số kỹ thuật mà bạn có thể kiểm tra xem mẫu dữ liệu của bạn có phải là Gaussian hoặc đủ giống như Gaussian để sử dụng các kỹ thuật tiêu chuẩn hay không đủ không Gaussian để sử dụng các phương pháp thống kê không tham số.
  • Đây là một điểm quyết định quan trọng khi chọn các phương pháp thống kê cho mẫu dữ liệu của bạn. Chúng tôi có thể tóm tắt quyết định này như sau:
  • Nếu dữ liệu là Gaussian:

Sử dụng các phương pháp thống kê tham số

  • Sử dụng các phương pháp thống kê không tham số. These are methods for plotting the data and qualitatively evaluating whether the data looks Gaussian.
  • Ngoài ra còn có một số trung gian nơi chúng ta có thể cho rằng dữ liệu là đủ để sử dụng các phương thức tham số hoặc chúng ta có thể sử dụng các kỹ thuật chuẩn bị dữ liệu để chuyển đổi dữ liệu thành đủ để sử dụng các phương thức tham số.. These are methods that calculate statistics on the data and quantify how likely it is that the data was drawn from a Gaussian distribution.

Có ba lĩnh vực chính mà bạn có thể cần thực hiện đánh giá này về một mẫu dữ liệu trong một dự án học máy; họ đang:

Kiểm tra bộ dữ liệu

Kiểm tra tính quy tắc trực quan

Kiểm tra tính quy tắc thống kê

Bạn nên sử dụng bài kiểm tra nào?

Cần trợ giúp về số liệu thống kê cho học máy?

Tham gia khóa học gặp sự cố email 7 ngày miễn phí của tôi ngay bây giờ (với mã mẫu).

Nhấp để đăng ký và cũng nhận được phiên bản Ebook PDF miễn phí của khóa học.

Một phần lớn của lĩnh vực thống kê có liên quan đến dữ liệu giả định rằng nó được rút ra từ phân phối Gaussian.numpy.random import seed

Nếu các phương thức được sử dụng giả định phân phối Gaussian và dữ liệu của bạn được rút ra từ một phân phối khác, các phát hiện có thể gây hiểu lầm hoặc sai.numpy.random import randn

Có một số kỹ thuật mà bạn có thể kiểm tra xem mẫu dữ liệu của bạn có phải là Gaussian hoặc đủ giống như Gaussian để sử dụng các kỹ thuật tiêu chuẩn hay không đủ không Gaussian để sử dụng các phương pháp thống kê không tham số.numpy import mean

Đây là một điểm quyết định quan trọng khi chọn các phương pháp thống kê cho mẫu dữ liệu của bạn. Chúng tôi có thể tóm tắt quyết định này như sau:numpy import std

Nếu dữ liệu là Gaussian:

seed(1)(1)

Sử dụng các phương pháp thống kê tham số

data=5*randn(100)+50=5*randn(100)+50

# Tóm tắt

in ('mean =%. 3f stdv =%. 3f'%(trung bình (dữ liệu), std (dữ liệu)))('mean=%.3f stdv=%.3f'% (mean(data),std(data)))

Chạy ví dụ tạo ra mẫu và in độ lệch trung bình và độ lệch chuẩn của mẫu.

Chúng ta có thể thấy rằng độ lệch trung bình và độ lệch chuẩn là hợp lý nhưng ước tính sơ bộ về giá trị trung bình dân số cơ bản và độ lệch chuẩn, với kích thước mẫu nhỏ.

Kiểm tra tính quy tắc trực quan

Chúng ta có thể tạo các lô dữ liệu để kiểm tra xem đó có phải là Gaussian hay không.

Các kiểm tra này là định tính, ít chính xác hơn các phương pháp thống kê mà chúng tôi sẽ tính toán trong phần tiếp theo. Tuy nhiên, chúng rất nhanh và giống như các bài kiểm tra thống kê, vẫn phải được giải thích trước khi bạn có thể thực hiện cuộc gọi về mẫu dữ liệu của mình.

Trong phần này, chúng tôi sẽ xem xét hai phương pháp phổ biến để kiểm tra trực quan một bộ dữ liệu để kiểm tra xem nó có được rút ra từ phân phối Gaussian không.

Biểu đồ biểu đồ

Một biểu đồ đơn giản và thường được sử dụng để kiểm tra nhanh chóng phân phối mẫu dữ liệu là biểu đồ.

Trong biểu đồ, dữ liệu được chia thành một số nhóm được chỉ định trước được gọi là thùng. Dữ liệu sau đó được sắp xếp vào mỗi thùng và số lượng quan sát trong mỗi thùng được giữ lại.

Cốt truyện cho thấy các thùng trên trục X duy trì mối quan hệ thứ tự của chúng và số lượng trong mỗi thùng trên trục y.

Một mẫu dữ liệu có phân phối Gaussian của biểu đồ biểu đồ, cho thấy hình dạng chuông quen thuộc.

Một biểu đồ có thể được tạo bằng cách sử dụng hàm dist () matplotlib. Theo mặc định, số lượng thùng được ước tính tự động từ mẫu dữ liệu.

Một ví dụ hoàn chỉnh trình bày biểu đồ biểu đồ về vấn đề kiểm tra được liệt kê dưới đây.

# Biểu đồ biểu đồ

từ Numpy.Random Hạt nhập nhập khẩunumpy.random import seed

từ numpy.random nhập khẩu randnnumpy.random import randn

từ pyplot nhập khẩu matplotlibmatplotlib import pyplot

# Hạt trình tạo số ngẫu nhiên

seed(1)(1)

# Tạo các quan sát đơn biến

data=5*randn(100)+50=5*randn(100)+50

# Biểu đồ biểu đồ

pyplot.hist(data).hist(data)

pyplot.show().show()

từ Numpy.Random Hạt nhập nhập khẩu

từ numpy.random nhập khẩu randn

Hướng dẫn how do you tell if a variable is normally distributed python? - làm thế nào để bạn biết nếu một biến được phân phối bình thường python?

từ pyplot nhập khẩu matplotlib

# Hạt trình tạo số ngẫu nhiên

# Tạo các quan sát đơn biến

Chạy ví dụ tạo ra một biểu đồ biểu đồ hiển thị số lượng quan sát trong mỗi thùng.

Chúng ta có thể thấy một hình dạng giống như Gaussian đối với dữ liệu, mặc dù không phải là hình dạng chuông quen thuộc, là một xấp xỉ thô.

Biểu đồ kiểm tra bình thường âm mưu

Cốt truyện Quantile-Quantile

Một biểu đồ phổ biến khác để kiểm tra phân phối mẫu dữ liệu là biểu đồ lượng tử, biểu đồ Q-Q hoặc biểu đồ QQ.

Biểu đồ này tạo ra mẫu riêng của phân phối lý tưởng hóa mà chúng tôi đang so sánh, trong trường hợp này là phân phối Gaussian. Các mẫu lý tưởng hóa được chia thành các nhóm (ví dụ: 5), được gọi là lượng tử. Mỗi điểm dữ liệu trong mẫu được ghép nối với một thành viên tương tự từ phân phối lý tưởng hóa ở cùng một phân phối tích lũy.

từ Numpy.Random Hạt nhập nhập khẩunumpy.random import seed

từ numpy.random nhập khẩu randnnumpy.random import randn

từ pyplot nhập khẩu matplotlibstatsmodels.graphics.gofplots import qqplot

từ pyplot nhập khẩu matplotlibmatplotlib import pyplot

# Hạt trình tạo số ngẫu nhiên

seed(1)(1)

# Tạo các quan sát đơn biến

data=5*randn(100)+50=5*randn(100)+50

Chạy ví dụ tạo ra một biểu đồ biểu đồ hiển thị số lượng quan sát trong mỗi thùng.

qqplot(data,line='s')(data, line='s')

pyplot.show().show()

Chúng ta có thể thấy một hình dạng giống như Gaussian đối với dữ liệu, mặc dù không phải là hình dạng chuông quen thuộc, là một xấp xỉ thô.

Biểu đồ kiểm tra bình thường âm mưu

Hướng dẫn how do you tell if a variable is normally distributed python? - làm thế nào để bạn biết nếu một biến được phân phối bình thường python?

Cốt truyện Quantile-Quantile

Một biểu đồ phổ biến khác để kiểm tra phân phối mẫu dữ liệu là biểu đồ lượng tử, biểu đồ Q-Q hoặc biểu đồ QQ.

Biểu đồ này tạo ra mẫu riêng của phân phối lý tưởng hóa mà chúng tôi đang so sánh, trong trường hợp này là phân phối Gaussian. Các mẫu lý tưởng hóa được chia thành các nhóm (ví dụ: 5), được gọi là lượng tử. Mỗi điểm dữ liệu trong mẫu được ghép nối với một thành viên tương tự từ phân phối lý tưởng hóa ở cùng một phân phối tích lũy.

Các điểm kết quả được vẽ như một biểu đồ phân tán với giá trị lý tưởng hóa trên trục x và mẫu dữ liệu trên trục y.

Một kết hợp hoàn hảo cho phân phối sẽ được hiển thị bằng một dòng chấm trên góc 45 độ từ phía dưới bên trái của lô đến trên cùng bên phải. Thường thì một dòng được vẽ trên cốt truyện để giúp làm cho kỳ vọng này rõ ràng. Độ lệch của các chấm từ dòng cho thấy độ lệch so với phân phối dự kiến.

Chúng ta có thể phát triển một biểu đồ QQ trong Python bằng cách sử dụng hàm StatSmodels qqplot (). Hàm lấy mẫu dữ liệu và theo mặc định giả sử chúng ta đang so sánh nó với phân phối Gaussian. Chúng ta có thể vẽ dòng tiêu chuẩn hóa bằng cách đặt ‘dòng‘ đối số thành ‘s.

Một ví dụ hoàn chỉnh về việc vẽ sơ đồ bộ dữ liệu thử nghiệm như một biểu đồ QQ được cung cấp dưới đây.

# QQ Lô

  • từ StatSmodels.graphics.gofplots Nhập QQPlot: A quantity calculated by the test that can be interpreted in the context of the test via comparing it to critical values from the distribution of the test statistic.
  • Giá trị P: Được sử dụng để giải thích thử nghiệm, trong trường hợp này liệu mẫu có được rút ra từ phân phối Gaussian hay không.: Used to interpret the test, in this case whether the sample was drawn from a Gaussian distribution.

Mỗi bài kiểm tra tính toán một thống kê cụ thể cụ thể. Thống kê này có thể hỗ trợ trong việc giải thích kết quả, mặc dù nó có thể đòi hỏi sự thành thạo sâu sắc hơn với số liệu thống kê và kiến ​​thức sâu sắc hơn về bài kiểm tra thống kê cụ thể. Thay vào đó, giá trị p có thể được sử dụng để giải thích nhanh chóng và chính xác các thống kê trong các ứng dụng thực tế.

Các thử nghiệm cho rằng mẫu được rút ra từ phân phối Gaussian. Về mặt kỹ thuật, điều này được gọi là giả thuyết null, hoặc H0. Một mức ngưỡng được chọn gọi là alpha, thường là 5% (hoặc 0,05), được sử dụng để giải thích giá trị p.

Trong việc triển khai SCIPY của các thử nghiệm này, bạn có thể diễn giải giá trị P như sau.

  • P: reject H0, not normal.
  • p> alpha: & nbsp; không từ chối h0, bình thường.: fail to reject H0, normal.

Điều này có nghĩa là, nói chung, chúng tôi đang tìm kiếm kết quả với giá trị p lớn hơn để xác nhận rằng mẫu của chúng tôi có khả năng được rút ra từ phân phối Gaussian.

Một kết quả trên 5% không có nghĩa là giả thuyết null là đúng. Nó có nghĩa là nó rất có thể là đúng bằng chứng có sẵn. Giá trị p không phải là xác suất của dữ liệu phù hợp với phân phối Gaussian; Nó có thể được coi là một giá trị giúp chúng ta giải thích bài kiểm tra thống kê.

Thử nghiệm Shapiro-Wilk

Thử nghiệm Shapiro-Wilk đánh giá một mẫu dữ liệu và định lượng khả năng dữ liệu được rút ra từ phân phối Gaussian, được đặt theo tên của Samuel Shapiro và Martin Wilk.

Trong thực tế, thử nghiệm Shapiro-Wilk được cho là một thử nghiệm đáng tin cậy về tính quy tắc, mặc dù có một số gợi ý rằng thử nghiệm có thể phù hợp với các mẫu dữ liệu nhỏ hơn, ví dụ: Hàng ngàn quan sát hoặc ít hơn.

Chức năng SCIPY shapiro () sẽ tính toán độ vuốt shapiro trên một bộ dữ liệu nhất định. Hàm trả về cả thống kê W được tính toán theo thử nghiệm và giá trị p.

Ví dụ hoàn chỉnh về việc thực hiện thử nghiệm Shapiro-Wilk trên bộ dữ liệu được liệt kê dưới đây.

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

# Thử nghiệm Shapiro-Wilk

từ Numpy.Random Hạt nhập nhập khẩunumpy.random import seed

từ numpy.random nhập khẩu randnnumpy.random import randn

từ scipy.stats nhập shapiroscipy.stats import shapiro

# Hạt trình tạo số ngẫu nhiên

seed(1)(1)

# Tạo các quan sát đơn biến

data=5*randn(100)+50=5*randn(100)+50

# Kiểm tra tính bình thường

stat,p=shapiro(data),p=shapiro(data)

in ('Thống kê =%. 3f, p =%. 3f'%(stat, p))('Statistics=%.3f, p=%.3f'%(stat,p))

# thông dịch

alpha=0.05=0.05

ifp>alpha:p>alpha:

in ('mẫu trông Gaussian (không từ chối H0)')('Sample looks Gaussian (fail to reject H0)')

else::

In ('Mẫu không trông Gaussian (từ chối H0)')('Sample does not look Gaussian (reject H0)')

Chạy ví dụ đầu tiên tính toán thử nghiệm trên mẫu dữ liệu, sau đó in giá trị p thống kê và tính toán.

Giá trị P quan tâm và thấy rằng dữ liệu có khả năng được rút ra từ phân phối Gaussian.

Thống kê = 0,992, p = 0,822

Mẫu trông Gaussian (không từ chối H0)

DỉAgostino từ K^2 Bài kiểm tra

Thử nghiệm DơiAgostino từ K^2 tính toán số liệu thống kê tóm tắt từ dữ liệu, cụ thể là kurtosis và độ lệch, để xác định xem phân phối dữ liệu có khởi hành từ phân phối bình thường hay không, được đặt tên cho Ralph d hèAgostino.

  • Skew là một định lượng về mức độ phân phối được đẩy sang trái hoặc phải, một thước đo sự bất đối xứng trong phân phối. is a quantification of how much a distribution is pushed left or right, a measure of asymmetry in the distribution.
  • Kurtosis định lượng bao nhiêu phân phối ở đuôi. Nó là một bài kiểm tra thống kê đơn giản và thường được sử dụng cho tính quy tắc. quantifies how much of the distribution is in the tail. It is a simple and commonly used statistical test for normality.

Thử nghiệm DiênAgostino từ K^2 có sẵn thông qua hàm scipy bình thường () và trả về thống kê kiểm tra và giá trị p.

Ví dụ hoàn chỉnh về thử nghiệm DiênAgostino từ K^2 trên bộ dữ liệu được liệt kê dưới đây.

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

# D'Agostino và Pearson's Test

từ Numpy.Random Hạt nhập nhập khẩunumpy.random import seed

từ numpy.random nhập khẩu randnnumpy.random import randn

từ scipy.stats nhập shapiroscipy.stats import normaltest

# Hạt trình tạo số ngẫu nhiên

seed(1)(1)

# Tạo các quan sát đơn biến

data=5*randn(100)+50=5*randn(100)+50

# Kiểm tra tính bình thường

stat,p=normaltest(data),p=normaltest(data)

in ('Thống kê =%. 3f, p =%. 3f'%(stat, p))('Statistics=%.3f, p=%.3f'%(stat,p))

# thông dịch

alpha=0.05=0.05

ifp>alpha:p>alpha:

in ('mẫu trông Gaussian (không từ chối H0)')('Sample looks Gaussian (fail to reject H0)')

else::

In ('Mẫu không trông Gaussian (từ chối H0)')('Sample does not look Gaussian (reject H0)')

Chạy ví dụ đầu tiên tính toán thử nghiệm trên mẫu dữ liệu, sau đó in giá trị p thống kê và tính toán.

Giá trị P quan tâm và thấy rằng dữ liệu có khả năng được rút ra từ phân phối Gaussian.

Thống kê = 0,992, p = 0,822

Mẫu trông Gaussian (không từ chối H0)

DỉAgostino từ K^2 Bài kiểm tra

Thử nghiệm DơiAgostino từ K^2 tính toán số liệu thống kê tóm tắt từ dữ liệu, cụ thể là kurtosis và độ lệch, để xác định xem phân phối dữ liệu có khởi hành từ phân phối bình thường hay không, được đặt tên cho Ralph d hèAgostino.

Skew là một định lượng về mức độ phân phối được đẩy sang trái hoặc phải, một thước đo sự bất đối xứng trong phân phối.

Kurtosis định lượng bao nhiêu phân phối ở đuôi. Nó là một bài kiểm tra thống kê đơn giản và thường được sử dụng cho tính quy tắc.

Hàm scipy Anderson () thực hiện thử nghiệm Anderson-Darling. Nó lấy làm tham số mẫu dữ liệu và tên của phân phối để kiểm tra nó chống lại. Theo mặc định, bài kiểm tra sẽ kiểm tra đối với phân phối Gaussian (Dist = Hồi Norm,).

Ví dụ hoàn chỉnh về việc tính toán bài kiểm tra Anderson-Darling về vấn đề mẫu được liệt kê dưới đây.

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

# Kiểm tra Anderson-Darling

từ Numpy.Random Hạt nhập nhập khẩunumpy.random import seed

từ numpy.random nhập khẩu randnnumpy.random import randn

từ scipy.stats nhập khẩu Andersonscipy.stats import anderson

# Hạt trình tạo số ngẫu nhiên

seed(1)(1)

# Tạo các quan sát đơn biến

data=5*randn(100)+50=5*randn(100)+50

# Kiểm tra tính bình thường

result=anderson(data)=anderson(data)

in ('Thống kê: %.3f' %result.statistic)('Statistic: %.3f'%result.statistic)

p=0=0

foriinrange(len(result.critical_values)):iinrange(len(result.critical_values)):

sl,cv=result.significance_level[i],result.critical_values[i],cv=result.significance_level[i],result.critical_values[i]

ifresult.statisticresult.statistic< result.critical_values[i]:

In ('%. 3f:%.3f, dữ liệu trông bình thường (không từ chối H0)'%(SL, CV)))('%.3f: %.3f, data looks normal (fail to reject H0)'%(sl,cv))

else::

In ('%. 3f:%.3f, dữ liệu trông không bình thường (từ chối H0)'%(SL, CV))('%.3f: %.3f, data does not look normal (reject H0)'%(sl,cv))

Chạy ví dụ tính toán thống kê trên tập dữ liệu thử nghiệm và in các giá trị quan trọng.

Các giá trị tới hạn trong một thử nghiệm thống kê là một phạm vi của các ranh giới ý nghĩa được xác định trước mà tại đó H0 có thể không bị từ chối nếu thống kê được tính toán nhỏ hơn giá trị tới hạn. Thay vì chỉ là một giá trị p duy nhất, thử nghiệm trả về giá trị tới hạn cho một loạt các mức ý nghĩa thường được sử dụng khác nhau.

Chúng ta có thể giải thích các kết quả bằng cách không bác bỏ giả thuyết null rằng dữ liệu là bình thường nếu thống kê kiểm tra tính toán nhỏ hơn giá trị tới hạn ở mức ý nghĩa được chọn.

Chúng ta có thể thấy rằng ở mỗi mức ý nghĩa, bài kiểm tra đã phát hiện ra rằng dữ liệu theo phân phối bình thường

Thống kê: 0,220

15.000: 0,555, dữ liệu có vẻ bình thường (không từ chối H0)

10.000: 0.632, dữ liệu trông bình thường (không từ chối H0)

5.000: 0,759, dữ liệu có vẻ bình thường (không từ chối H0)

2.500: 0.885, dữ liệu có vẻ bình thường (không từ chối H0)

1.000: 1.053, dữ liệu trông bình thường (không từ chối H0)

Bạn nên sử dụng bài kiểm tra nào?

Chúng tôi đã đề cập đến một vài bài kiểm tra bình thường, nhưng đây không phải là tất cả các bài kiểm tra tồn tại.

Vậy bạn sử dụng bài kiểm tra nào?

Tôi khuyên bạn nên sử dụng tất cả trên dữ liệu của bạn, khi thích hợp.

Câu hỏi sau đó trở thành, làm thế nào để bạn giải thích kết quả? Điều gì sẽ xảy ra nếu các bài kiểm tra không đồng ý, mà họ thường sẽ?

Tôi có hai gợi ý cho bạn để giúp suy nghĩ về câu hỏi này.

Khó thất bại

Dữ liệu của bạn có thể không bình thường vì nhiều lý do khác nhau. Mỗi thử nghiệm xem xét câu hỏi liệu một mẫu được rút ra từ phân phối Gaussian từ một góc độ hơi khác nhau.

Thất bại của một bài kiểm tra tính quy tắc có nghĩa là dữ liệu của bạn không bình thường. Đơn giản vậy thôi.

Bạn có thể điều tra lý do tại sao dữ liệu của bạn không bình thường và có thể sử dụng các kỹ thuật chuẩn bị dữ liệu để làm cho dữ liệu bình thường hơn.

Hoặc bạn có thể bắt đầu xem xét việc sử dụng các phương thức thống kê không tham số thay vì các phương thức tham số.

Thất bại mềm mại

Nếu một số phương pháp cho thấy rằng mẫu là Gaussian và một số không, thì có lẽ coi đây là một dấu hiệu cho thấy dữ liệu của bạn giống như Gaussian.

Trong nhiều tình huống, bạn có thể xử lý dữ liệu của mình như thể đó là Gaussian và tiến hành các phương pháp thống kê tham số đã chọn của bạn.

Phần mở rộng

Phần này liệt kê một số ý tưởng để mở rộng hướng dẫn mà bạn có thể muốn khám phá.

  • Liệt kê hai ví dụ bổ sung về khi bạn nghĩ rằng một bài kiểm tra bình thường có thể hữu ích trong một dự án học máy.
  • Phát triển bộ dữ liệu giả định của riêng bạn và áp dụng từng bài kiểm tra bình thường.
  • Tải một bộ dữ liệu học máy tiêu chuẩn và áp dụng các bài kiểm tra tính quy tắc cho từng biến có giá trị thực.

Nếu bạn khám phá bất kỳ phần mở rộng nào trong số này, tôi sẽ rất thích biết.

Đọc thêm

Phần này cung cấp nhiều tài nguyên hơn về chủ đề nếu bạn đang muốn đi sâu hơn.

API

  • numpy.random.seed () API
  • numpy.random.randn () API
  • scipy.stats.normaltest () API
  • scipy.stats.shapiro () API
  • scipy.stats.anderson () API
  • StatSmodels.graphics.gofplots.qqplot () API
  • matplotlib.pyplot.hist () API

Bài viết

  • Kiểm tra tính bình thường trên Wikipedia
  • Biểu đồ trên Wikipedia
  • Q Lô đất trên Wikipedia
  • Bài kiểm tra bình phương K-Squared của DỉAgostino trên Wikipedia
  • Bài kiểm tra Darling Anderson trên Wikipedia
  • Thử nghiệm Wikipedia Shapiro, trên Wikipedia

Bản tóm tắt

Trong hướng dẫn này, bạn đã phát hiện ra tầm quan trọng của việc kiểm tra xem mẫu dữ liệu có lệch khỏi phân phối bình thường và một bộ kỹ thuật mà bạn có thể sử dụng để đánh giá mẫu dữ liệu của mình hay không.

Cụ thể, bạn đã học được:

  • Làm thế nào một mẫu là bình thường chỉ ra các loại phương pháp thống kê để sử dụng với mẫu dữ liệu.
  • Các phương pháp đồ họa để đủ điều kiện độ lệch so với bình thường như biểu đồ và biểu đồ Q-Q.
  • Kiểm tra tính quy phạm thống kê để định lượng độ lệch so với bình thường.

Bạn có câu hỏi nào không? Đặt câu hỏi của bạn trong các ý kiến ​​dưới đây và tôi sẽ cố gắng hết sức để trả lời.
Ask your questions in the comments below and I will do my best to answer.

Nhận một xử lý về số liệu thống kê cho học máy!

Hướng dẫn how do you tell if a variable is normally distributed python? - làm thế nào để bạn biết nếu một biến được phân phối bình thường python?

Phát triển sự hiểu biết làm việc về số liệu thống kê

... bằng cách viết dòng mã trong Python

Khám phá cách trong ebook mới của tôi: Phương pháp thống kê cho học máy
Statistical Methods for Machine Learning

Nó cung cấp các hướng dẫn tự học về các chủ đề như: các bài kiểm tra giả thuyết, tương quan, thống kê không tham số, lấy mẫu lại và nhiều hơn nữa ...self-study tutorials on topics like:
Hypothesis Tests, Correlation, Nonparametric Stats, Resampling, and much more...

Khám phá cách chuyển đổi dữ liệu thành kiến thức

Bỏ qua các học giả.Chỉ là kết quả.

Xem những gì bên trong