Hai mẫu kiểm tra tỷ lệ Python

Ghi chú. Có thể thực hiện kiểm tra giả thuyết mà không cần có 5 của mỗi loại. Nhưng điều chỉnh đặc biệt cần phải được thực hiện


2. Xác định yêu cầu bồi thường

Chúng tôi cần xác định giả thuyết không (\(H_{0}\)) và giả thuyết thay thế (\(H_{1}\)) dựa trên yêu cầu mà chúng tôi đang kiểm tra

Yêu sách là

"Tỷ lệ người đoạt giải Nobel là phụ nữ không phải là 50%"

Trong trường hợp này, tham số là tỷ lệ người đoạt giải Nobel là phụ nữ (\(p\))

Khi đó, giả thuyết không và giả thuyết thay thế là

giả thuyết không. 50% người đoạt giải Nobel là phụ nữ

giả thuyết thay thế. Tỷ lệ người đoạt giải Nobel là phụ nữ không phải là 50%

Mà có thể được thể hiện với các ký hiệu như

\(H_{0}\). \(p ​​= 0. 50 \)

\(H_{1}\). \(p ​​\neq 0. 50 \)

Đây là phép thử 'hai phía', bởi vì giả thuyết thay thế cho rằng tỷ lệ này khác (lớn hơn hoặc nhỏ hơn) so với giả thuyết không

Nếu dữ liệu ủng hộ giả thuyết thay thế, chúng tôi bác bỏ giả thuyết không và chấp nhận giả thuyết thay thế



3. Quyết định mức ý nghĩa

Mức ý nghĩa (\(\alpha\)) là độ không đảm bảo mà chúng ta chấp nhận khi bác bỏ giả thuyết khống trong một thử nghiệm giả thuyết

Mức ý nghĩa là xác suất phần trăm vô tình đưa ra kết luận sai

Mức ý nghĩa điển hình là

  • \(\alpha = 0. 1\) (10%)
  • \(\alpha = 0. 05\) (5%)
  • \(\alpha = 0. 01\) (1%)

Mức ý nghĩa thấp hơn có nghĩa là bằng chứng trong dữ liệu cần mạnh mẽ hơn để bác bỏ giả thuyết không

Không có mức ý nghĩa "chính xác" - nó chỉ nói lên sự không chắc chắn của kết luận

Ghi chú. Mức ý nghĩa 5% có nghĩa là khi chúng ta bác bỏ giả thuyết không

Chúng tôi hy vọng sẽ bác bỏ một giả thuyết vô hiệu đúng 5 trên 100 lần


4. Tính thống kê kiểm tra

Thống kê kiểm định được sử dụng để quyết định kết quả của kiểm định giả thuyết

Thống kê kiểm tra là một giá trị tiêu chuẩn hóa được tính toán từ mẫu

Công thức cho thống kê kiểm tra (TS) của một tỷ lệ dân số là

\(\displaystyle \frac{\hat{p} - p}{\sqrt{p(1-p)}} \cdot \sqrt{n} \)

\(\hat{p}-p\) là sự khác biệt giữa tỷ lệ mẫu (\(\hat{p}\)) và tỷ lệ dân số được yêu cầu (\(p\))

\(n\) là cỡ mẫu

trong ví dụ của chúng tôi

Tỷ lệ dân số (\(H_{0}\)) đã tuyên bố (\(p\)) là \( 0. 50 \)

Tỷ lệ mẫu (\(\hat{p}\)) là 10 trên 100 hoặc. \(\displaystyle \frac{10}{100} = 0. 10\)

Cỡ mẫu (\(n\)) là \(100\)

Vì vậy, thống kê kiểm tra (TS) sau đó là

\(\displaystyle \frac{0. 1-0. 5}{\sqrt{0. 5(1-0. 5)}} \cdot \sqrt{100} = \frac{-0. 4}{\sqrt{0. 5(0. 5)}} \cdot \sqrt{100} = \frac{-0. 4}{\sqrt{0. 25}} \cdot \sqrt{100} = \frac{-0. 4}{0. 5} \cdot 10 = \underline{-8}\)

Bạn cũng có thể tính toán thống kê kiểm tra bằng các hàm ngôn ngữ lập trình

Thí dụ

Với Python, hãy sử dụng các thư viện scipy và toán học để tính toán thống kê kiểm tra cho một tỷ lệ

nhập scipy. số liệu thống kê như số liệu thống kê
nhập toán

# Chỉ định số lần xuất hiện (x), cỡ mẫu (n) và tỷ lệ được khẳng định trong giả thuyết không (p)
x = 10
n = 100
p = 0. 5

# Tính tỷ lệ mẫu
p_hat = x/n

# Tính toán và in thống kê kiểm tra
in((p_hat-p)/(toán. sqrt((p*(1-p))/(n))))

Tự mình thử »

Thí dụ

Với R, sử dụng các hàm toán học tích hợp để tính toán thống kê kiểm tra cho một tỷ lệ

# Chỉ định số lần xuất hiện mẫu (x), cỡ mẫu (n) và yêu cầu giả thuyết không (p)
x <- 10
n<-100
p<-0. 5

# Tính tỷ lệ mẫu
p_hat = x/n

# Tính toán và xuất thống kê kiểm tra
(p_hat-p)/(sqrt((p*(1-p))/(n)))

Tự mình thử »


5. kết luận

Có hai cách tiếp cận chính để đưa ra kết luận của một bài kiểm tra giả thuyết

  • Phương pháp giá trị tới hạn so sánh thống kê kiểm định với giá trị tới hạn của mức ý nghĩa
  • Phương pháp giá trị P so sánh giá trị P của thống kê kiểm tra và với mức ý nghĩa

Ghi chú. Hai cách tiếp cận chỉ khác nhau ở cách trình bày kết luận

Phương pháp tiếp cận giá trị quan trọng

Đối với cách tiếp cận giá trị tới hạn, chúng ta cần tìm giá trị tới hạn (CV) của mức ý nghĩa (\(\alpha\))

Đối với kiểm tra tỷ lệ dân số, giá trị tới hạn (CV) là giá trị Z từ phân phối chuẩn chuẩn

Giá trị Z quan trọng (CV) này xác định vùng từ chối cho thử nghiệm

Vùng bác bỏ là một vùng xác suất ở các đuôi của phân phối chuẩn chuẩn

Bởi vì tuyên bố là tỷ lệ dân số khác với 50%, vùng từ chối được chia thành cả đuôi trái và phải

Kích thước của vùng bác bỏ được quyết định bởi mức ý nghĩa (\(\alpha\))

Chọn mức ý nghĩa (\(\alpha\)) của 0. 01 hoặc 1%, chúng ta có thể tìm thấy giá trị Z quan trọng từ bảng Z hoặc bằng chức năng ngôn ngữ lập trình

Ghi chú. Vì đây là thử nghiệm hai đuôi nên vùng đuôi (\(\alpha\)) cần được chia đôi (chia cho 2)

Thí dụ

Với Python, hãy sử dụng hàm ________0____ của thư viện Scipy Stats tìm giá trị Z cho \(\alpha\)/2 = 0. 005 ở đuôi trái

nhập scipy. số liệu thống kê như số liệu thống kê
in (số liệu thống kê. định mức. ppf(0. 005))

Tự mình thử »

Thí dụ

Với R, hãy sử dụng hàm qnorm() tích hợp để tìm giá trị Z cho \(\alpha\) = 0. 005 ở đuôi trái

Tự mình thử »

Sử dụng một trong hai phương pháp, chúng ta có thể thấy rằng giá trị Z tới hạn ở đuôi bên trái là \(\approx \underline{-2. 5758}\)

Do phân phối chuẩn i đối xứng, chúng tôi biết rằng giá trị Z tới hạn ở đuôi bên phải sẽ là cùng một số, chỉ dương. \(\gạch chân{2. 5758}\)

Đối với kiểm định hai phía, chúng ta cần kiểm tra xem thống kê kiểm định (TS) có nhỏ hơn giá trị tới hạn âm (-CV) hay lớn hơn giá trị tới hạn dương (CV) không

Nếu thống kê kiểm tra nhỏ hơn giá trị tới hạn âm, thì thống kê kiểm tra nằm trong vùng bác bỏ

Nếu thống kê kiểm định lớn hơn giá trị tới hạn dương, thống kê kiểm định nằm trong vùng bác bỏ

Khi thống kê kiểm định nằm trong vùng bác bỏ, chúng ta bác bỏ giả thuyết không (\(H_{0}\))

Ở đây, thống kê kiểm tra (TS) là \(\approx \underline{-8}\) và giá trị tới hạn là \(\approx \underline{-2. 5758}\)

Dưới đây là một minh họa của bài kiểm tra này trong một biểu đồ

Vì thống kê kiểm tra nhỏ hơn giá trị tới hạn âm nên chúng tôi bác bỏ giả thuyết khống

Điều này có nghĩa là dữ liệu mẫu ủng hộ giả thuyết thay thế

Và chúng ta có thể tóm tắt kết luận nêu rõ

Dữ liệu mẫu ủng hộ tuyên bố rằng "Tỷ lệ người đoạt giải Nobel không phải là phụ nữ là 50%" ở mức ý nghĩa 1%

Phương pháp tiếp cận giá trị P

Đối với phương pháp giá trị P, chúng ta cần tìm giá trị P của thống kê kiểm định (TS)

Nếu giá trị P nhỏ hơn mức ý nghĩa (\(\alpha\)), chúng tôi bác bỏ giả thuyết khống (\(H_{0}\))

Thống kê kiểm tra được tìm thấy là \( \approx \underline{-8} \)

Đối với kiểm tra tỷ lệ dân số, thống kê kiểm tra là Giá trị Z từ phân phối chuẩn chuẩn

Vì đây là thử nghiệm hai đầu nên chúng ta cần tìm giá trị P của giá trị Z nhỏ hơn -8 và nhân nó với 2

Chúng ta có thể tìm thấy giá trị P bằng bảng Z hoặc bằng chức năng ngôn ngữ lập trình

Thí dụ

Với Python, hãy sử dụng thư viện Scipy Stats Hàm norm.cdf() tìm giá trị P của giá trị Z nhỏ hơn -8 cho thử nghiệm hai đuôi

nhập scipy. số liệu thống kê như số liệu thống kê
in(2*số liệu thống kê. định mức. cdf(-8))

Tự mình thử »

Thí dụ

Với R, hãy sử dụng hàm pnorm() tích hợp để tìm giá trị P của giá trị Z nhỏ hơn -8 cho thử nghiệm hai đuôi

Tự mình thử »

Sử dụng một trong hai phương pháp, chúng ta có thể thấy rằng giá trị P là \(\approx \underline{1. 25 \cdot 10^{-15}}\) hoặc \(0. 00000000000000125\)

Điều này cho chúng ta biết rằng mức ý nghĩa (\(\alpha\)) cần phải lớn hơn 0. 000000000000125%, để bác bỏ giả thuyết khống

Dưới đây là một minh họa của bài kiểm tra này trong một biểu đồ

Giá trị P này nhỏ hơn bất kỳ mức ý nghĩa phổ biến nào (10%, 5%, 1%)

Vì vậy, giả thuyết không bị bác bỏ ở tất cả các mức ý nghĩa này

Và chúng ta có thể tóm tắt kết luận nêu rõ

Dữ liệu mẫu ủng hộ tuyên bố rằng "Tỷ lệ người đoạt giải Nobel không phải là phụ nữ là 50%" ở mức ý nghĩa 10%, 5% và 1%


Tính toán giá trị P cho kiểm tra giả thuyết bằng lập trình

Nhiều ngôn ngữ lập trình có thể tính toán giá trị P để quyết định kết quả của kiểm tra giả thuyết

Sử dụng phần mềm và lập trình để tính toán số liệu thống kê phổ biến hơn đối với các tập hợp dữ liệu lớn hơn, vì việc tính toán thủ công trở nên khó khăn

Giá trị P được tính toán ở đây sẽ cho chúng ta biết mức ý nghĩa thấp nhất có thể mà giả thuyết không có thể bị bác bỏ

Thí dụ

Với Python, hãy sử dụng các thư viện scipy và toán học để tính giá trị P cho thử nghiệm giả thuyết hai đuôi theo tỷ lệ

Ở đây, kích thước mẫu là 100, số lần xuất hiện là 10 và thử nghiệm dành cho tỷ lệ khác 0. 50

nhập scipy. số liệu thống kê như số liệu thống kê
nhập toán

# Chỉ định số lần xuất hiện (x), cỡ mẫu (n) và tỷ lệ được khẳng định trong giả thuyết không (p)
x = 10
n = 100
p = 0. 5

# Tính tỷ lệ mẫu
p_hat = x/n

# Tính thống kê kiểm tra
test_stat = (p_hat-p)/(toán. sqrt((p*(1-p))/(n)))

# Xuất giá trị p của thống kê kiểm định (kiểm định hai đầu)
in(2*số liệu thống kê. định mức. cdf(test_stat))

Tự mình thử »

Thí dụ

Với R, hãy sử dụng hàm prop.test() tích hợp để tìm giá trị P cho phép kiểm tra giả thuyết bên trái cho một tỷ lệ

Ở đây, cỡ mẫu là 100, số lần xuất hiện là 10 và phép thử dành cho tỷ lệ khác 0. 50

# Chỉ định số lần xuất hiện mẫu (x), cỡ mẫu (n) và yêu cầu giả thuyết không (p)
x <- 10
n<-100
p<-0. 5

# Giá trị P từ thử nghiệm tỷ lệ đuôi trái ở 0. 01 mức ý nghĩa
chỗ dựa. kiểm tra (x, n, p, thay thế = c ("hai. bên"), conf. cấp độ = 0. 99, đúng = FALSE)$p. giá trị

Tự mình thử »

Ghi chú. conf.level trong mã R ngược lại với mức ý nghĩa

Ở đây, mức ý nghĩa là 0. 01, hoặc 1%, vì vậy conf. tỉ số là 1-0. 01 = 0. 99 hoặc 99%


Bài kiểm tra bên trái và hai bên

Đây là một ví dụ về thử nghiệm hai đuôi, trong đó giả thuyết thay thế cho rằng tham số đó khác với yêu cầu giả thuyết không

Thử nghiệm tỷ lệ hai mẫu là gì?

Thử nghiệm tỷ lệ Z của hai mẫu là thử nghiệm để xác định xem hai quần thể có khác biệt đáng kể về các đặc điểm cụ thể hay không . Nói cách khác, so sánh tỷ lệ của hai quần thể khác nhau có một số đặc điểm duy nhất.

Đâu là sự khác biệt giữa z

Kiểm định Z là giả thuyết thống kê được sử dụng để xác định xem giá trị trung bình của hai mẫu được tính có khác nhau hay không nếu độ lệch chuẩn có sẵn và mẫu lớn. Ngược lại, phép thử T xác định mức độ khác nhau giữa các tập dữ liệu khác nhau trong trường hợp độ lệch chuẩn hoặc phương sai không xác định

thống kê để so sánh hai tỷ lệ là gì?

Kiểm định z hai tỷ lệ cho phép bạn so sánh hai tỷ lệ để xem chúng có giống nhau không. Giả thuyết khống (H0) cho kiểm định là các tỷ lệ đều như nhau. Giả thuyết thay thế (H1) là tỷ lệ không giống nhau.