Python kiểm tra nhiều tỷ lệ

Trong phần một của loạt bài này, tôi đã giới thiệu khái niệm về thử nghiệm giả thuyết và mô tả các yếu tố khác nhau khi sử dụng các thử nghiệm khác nhau. Nó đã kết thúc với một mánh gian lận để giúp bạn chọn sử dụng bài kiểm tra nào dựa trên loại dữ liệu bạn đang kiểm tra

Python kiểm tra nhiều tỷ lệ

Trong bài đăng thứ hai này, tôi sẽ đi vào chi tiết hơn về các mẫu dựa trên tỷ lệ

Nếu bất kỳ thuật ngữ nào trong số Giả thuyết không, Giả thuyết thay thế, giá trị p là mới đối với bạn, tôi khuyên bạn nên xem lại phần đầu tiên của loạt bài này trước khi tiếp tục

một mẫu dựa trên tỷ lệ là gì?

Trong những trường hợp này, chúng tôi quan tâm đến việc kiểm tra tỷ lệ. Ví dụ: 17% mẫu khớp với một số cấu hình và phần còn lại thì không. Đây có thể là phép thử so sánh một mẫu đơn lẻ với một số giá trị dự kiến ​​hoặc so sánh hai mẫu khác nhau

Ghi chú. Các phép thử này chỉ có giá trị khi chỉ có hai lựa chọn khả thi;

Yêu cầu về chất lượng của mẫu

Đối với các thử nghiệm này, các quy tắc lấy mẫu sau đây là bắt buộc

Ngẫu nhiênMẫu phải là mẫu ngẫu nhiên từ toàn bộ tổng thểThông thườngMẫu phải phản ánh sự phân bố của tổng thể cơ bản. Đối với những bài kiểm tra này, một nguyên tắc tốt là
  • Với cỡ mẫu là n
  • Cho một tỷ lệ mẫu của p
  • Khi đó cả np và n(1-p) phải ít nhất là 10
Ví dụ. nếu một mẫu cho thấy 80% vấn đề đã được giải quyết trong 5 ngày và 20% thì không, thì mẫu đó phải có ít nhất 10 vấn đề được giải quyết trong vòng 5 ngày và ít nhất 10 vấn đề được giải quyết trong hơn 5 ngày. Độc lậpMẫu phải độc lập - đối với các thử nghiệm này, nguyên tắc chung là cỡ mẫu nhỏ hơn 10% tổng dân số

Mẫu mã cho các bài kiểm tra dựa trên tỷ lệ

Lưu ý rằng tất cả các mẫu mã này đều có sẵn trên Github. Họ sử dụng thư viện mô hình thống kê phổ biến để thực hiện các bài kiểm tra

kiểm tra z 1 mẫu

So sánh tỷ lệ trong một mẫu với giá trị dự kiến

Ở đây chúng tôi có một mẫu và chúng tôi muốn xem liệu một số tỷ lệ của mẫu đó có lớn hơn/nhỏ hơn/khác với một số giá trị thử nghiệm dự kiến ​​hay không

trong ví dụ này

  • Chúng tôi hy vọng hơn 80% bài kiểm tra sẽ vượt qua, vì vậy giả thuyết vô hiệu của chúng tôi là. 80% các bài kiểm tra vượt qua
  • Giả thuyết thay thế của chúng tôi là. hơn 80% các bài kiểm tra vượt qua
  • Chúng tôi đã lấy mẫu 500 bài kiểm tra và tìm thấy 410 bài đã vượt qua
  • Chúng tôi sử dụng kiểm tra z 1 mẫu để kiểm tra xem mẫu có cho phép chúng tôi chấp nhận hay bác bỏ giả thuyết không

Để tính giá trị p trong Python

kiểm tra z 2 mẫu

So sánh tỷ lệ giữa 2 mẫu

Ở đây chúng tôi có hai mẫu, được xác định theo tỷ lệ và chúng tôi muốn xem liệu chúng tôi có thể đưa ra khẳng định về việc liệu tỷ lệ tổng thể của một trong các quần thể cơ bản có lớn hơn/nhỏ hơn/khác với quần thể kia hay không

Trong ví dụ này, chúng tôi muốn so sánh hai quần thể khác nhau để xem thử nghiệm của họ liên quan đến nhau như thế nào

Trong nhiều bộ dữ liệu, các danh mục thường được sắp xếp theo thứ tự sao cho bạn có thể mong đợi tìm thấy xu hướng giảm hoặc tăng theo tỷ lệ với số nhóm. Hãy xem tập dữ liệu từ một nghiên cứu bệnh chứng về ung thư thực quản ở Ile-et-Vilaine, Pháp, có sẵn trong R dưới tên "esoph"

Biến đổi

Sự miêu tả

tuổigp

Tuổi được chia thành các loại sau. 25-34, 35-44, 45-54, 55-64, 65-74, 75+

alcgp

Tiêu thụ rượu được chia thành các loại sau. 0-39g/ngày, 40-79, 80-119, 120+

tobgp

Tiêu thụ thuốc lá được chia thành các loại sau. 0-9g/ngày, 10-19, 20-29, 30+

ncase

Số trường hợp

điều khiển

Số điều khiển

Những dữ liệu này không chứa tuổi chính xác của từng cá nhân trong nghiên cứu, mà là nhóm tuổi. Tương tự, có những nhóm sử dụng rượu và thuốc lá. Một câu hỏi được quan tâm là liệu có bất kỳ xu hướng xuất hiện ung thư thực quản nào khi tuổi tác tăng lên, hoặc mức độ sử dụng thuốc lá hoặc rượu tăng lên hay không?

> bảng (agegp, ncase)

ncase

agegp    0  1  2  3  4  5  6  8  9 17

25-34 14  1  0  0  0  0  0  0  0  0

35-44 10  2  2  1  0  0  0  0  0  0

45-54  3  2  2  2  3  2  2  0  0  0

55-64  0  0  2  4  3  2  2  1  2  0

65-74  1  4  2  2  2  2  1  0  0  1

75+    1  7  3  0  0  0  0  0  0  0…

Để so sánh k ( > 2) tỷ lệ, có một phép thử dựa trên xấp xỉ thông thường. Nó bao gồm việc tính tổng trọng số của bình phương độ lệch giữa tỷ lệ quan sát được trong mỗi nhóm và tỷ lệ chung cho tất cả các nhóm. Thống kê kiểm định có phân phối c2 xấp xỉ với k −1 bậc tự do

Để sử dụng chỗ dựa. kiểm tra trên một bảng có nhiều danh mục hoặc nhóm, chúng ta cần chuyển đổi nó thành một vectơ "thành công" và một vectơ "thử nghiệm", một cho mỗi nhóm. Trong dữ liệu esoph, mỗi nhóm tuổi có nhiều mức liều lượng rượu và thuốc lá, vì vậy chúng tôi cần tính tổng số trường hợp và kiểm soát cho từng nhóm. Đầu tiên, cốt truyện sau đây thể hiện điều gì?

>  boxplot(ncases/(ncases + ncontrols) ~ agegp)

Để tổng số trường hợp và tổng số quan sát cho từng nhóm tuổi, chúng tôi sử dụng lệnh tapply

> trường hợp. vector = tapply(ncases, agegp, sum)

> tổng cộng. vector = tapply(ncontrols+ncases, agegp, sum)

> trường hợp. véc tơ

25-34 35-44 45-54 55-64 65-74   75+

1     9    46    76    55    13

> tổng cộng. véc tơ

25-34 35-44 45-54 55-64 65-74   75+

117   208   259   318   216    57

Sau đó, thật dễ dàng để thực hiện bài kiểm tra

> chỗ dựa. kiểm tra (trường hợp. vectơ, tổng. vectơ)

Kiểm tra 6 mẫu cho sự bằng nhau về tỷ lệ mà không cần hiệu chỉnh tính liên tục

dữ liệu. trường hợp. véc tơ trên tổng số. véc tơ

X bình phương = 68. 3825, df = 5, giá trị p = 2. 224e-13

giả thuyết thay thế. hai. đứng về phía

ước tính mẫu

prop 1      prop 2      prop 3      prop 4      prop 5      prop 6

0. 008547009 0. 043269231 0. 177606178 0. 238993711 0. 254629630 0. 228070175

  • H0. Tỷ lệ các trường hợp là như nhau ở mỗi nhóm tuổi. p1 = p2 = p3 = p4 = p5 = p6
  • Hà. Tỷ lệ mắc bệnh không giống nhau ở từng lứa tuổi. ít nhất một số pi khác với những số còn lại

Phần kết luận. Khi kiểm tra giả thuyết không rằng tỷ lệ các trường hợp là như nhau đối với từng nhóm tuổi, chúng tôi bác bỏ giả thuyết không (χ52 = 68. 38, giá trị p = 2. 22e-13). Ước tính mẫu về tỷ lệ các trường hợp ở mỗi nhóm tuổi như sau

Nhóm tuổi     25-34    35-44    45-54    55-64    65-74    75+

0. 0085  0. 043    0. 178    0. 239    0. 255    0. 228

Bạn có thể kiểm tra xu hướng tuyến tính theo tỷ lệ bằng cách sử dụng prop. xu hướng. kiểm tra. Giả thuyết khống là không có xu hướng trong tỷ lệ; . Ghi chú. bạn sẽ chỉ muốn thực hiện kiểm tra này nếu biến phân loại của bạn là biến thứ tự. Bạn sẽ không làm điều này, chẳng hạn, vì đảng phái chính trị hoặc màu mắt

> chỗ dựa. xu hướng. kiểm tra (trường hợp. vectơ, tổng. vectơ)

Kiểm tra chi bình phương cho xu hướng theo tỷ lệ

dữ liệu. trường hợp. véc tơ trên tổng số. véc tơ,

sử dụng điểm số. 1 2 3 4 5 6

X bình phương = 57. 1029, df = 1, giá trị p = 4. 136e-14

  • H0. Không có xu hướng tuyến tính trong tỷ lệ các trường hợp giữa các nhóm tuổi
  • Hà. Có một xu hướng tuyến tính trong tỷ lệ các trường hợp giữa các nhóm tuổi

Chúng tôi bác bỏ giả thuyết không (χ12 =57. 10, df = 1, giá trị p = 4. 14e-14) rằng không có xu hướng tuyến tính trong tỷ lệ các trường hợp giữa các nhóm tuổi. Ước tính mẫu về tỷ lệ các trường hợp ở mỗi nhóm tuổi như sau

Nhóm tuổi     25-34    35-44    45-54    55-64    65-74    75+

0. 0085  0. 043    0. 178    0. 239    0. 255    0. 228

Dường như có sự gia tăng tuyến tính về tỷ lệ các trường hợp khi bạn tăng danh mục nhóm tuổi

Thử nghiệm thống kê nào cho nhiều tỷ lệ?

Có 3 phép thử được sử dụng trong thống kê là phép thử tỷ lệ bao gồm Z-test, Chi-square và Fisher-exact . Kiểm định Z được sử dụng khi so sánh sự khác biệt về tỷ lệ dân số giữa 2 nhóm.

Thử nghiệm nào so sánh nhiều hơn 2 tỷ lệ?

Thủ tục Marascuilo cho phép chúng tôi so sánh đồng thời tất cả các cặp tỷ lệ có thể. Giả sử chúng ta có các mẫu cỡ ni (i = 1, 2,. , k) từ k quần thể. Bước đầu tiên của quy trình này là tính toán sự khác biệt pi - pj , (trong đó i không bằng j) trong số tất cả k(k-1)/2 cặp tỷ lệ.

2 tỷ lệ z là gì

Kiểm định Z hai tỷ lệ là kiểm định giả thuyết thống kê được sử dụng để xác định xem hai tỷ lệ có khác nhau hay không . Trong khi thực hiện phép thử, thống kê Z được tính toán từ hai mẫu độc lập và giả thuyết không là hai tỷ lệ bằng nhau.

Đâu là sự khác biệt giữa z

Khi kiểm tra t xem xét hai bộ dữ liệu khác nhau — không có độ lệch chuẩn hoặc phương sai — kiểm tra z xem giá trị trung bình của các tập dữ liệu khác nhau nhưng có độ lệch chuẩn hoặc phương sai nhất định