Python kiểm tra nhiều tỷ lệ
Trong phần một của loạt bài này, tôi đã giới thiệu khái niệm về thử nghiệm giả thuyết và mô tả các yếu tố khác nhau khi sử dụng các thử nghiệm khác nhau. Nó đã kết thúc với một mánh gian lận để giúp bạn chọn sử dụng bài kiểm tra nào dựa trên loại dữ liệu bạn đang kiểm tra Show Trong bài đăng thứ hai này, tôi sẽ đi vào chi tiết hơn về các mẫu dựa trên tỷ lệ Nếu bất kỳ thuật ngữ nào trong số Giả thuyết không, Giả thuyết thay thế, giá trị p là mới đối với bạn, tôi khuyên bạn nên xem lại phần đầu tiên của loạt bài này trước khi tiếp tục một mẫu dựa trên tỷ lệ là gì?Trong những trường hợp này, chúng tôi quan tâm đến việc kiểm tra tỷ lệ. Ví dụ: 17% mẫu khớp với một số cấu hình và phần còn lại thì không. Đây có thể là phép thử so sánh một mẫu đơn lẻ với một số giá trị dự kiến hoặc so sánh hai mẫu khác nhau Ghi chú. Các phép thử này chỉ có giá trị khi chỉ có hai lựa chọn khả thi; Yêu cầu về chất lượng của mẫuĐối với các thử nghiệm này, các quy tắc lấy mẫu sau đây là bắt buộc Ngẫu nhiênMẫu phải là mẫu ngẫu nhiên từ toàn bộ tổng thểThông thườngMẫu phải phản ánh sự phân bố của tổng thể cơ bản. Đối với những bài kiểm tra này, một nguyên tắc tốt là
Mẫu mã cho các bài kiểm tra dựa trên tỷ lệLưu ý rằng tất cả các mẫu mã này đều có sẵn trên Github. Họ sử dụng thư viện mô hình thống kê phổ biến để thực hiện các bài kiểm tra kiểm tra z 1 mẫu
Ở đây chúng tôi có một mẫu và chúng tôi muốn xem liệu một số tỷ lệ của mẫu đó có lớn hơn/nhỏ hơn/khác với một số giá trị thử nghiệm dự kiến hay không trong ví dụ này
Để tính giá trị p trong Python kiểm tra z 2 mẫu
Ở đây chúng tôi có hai mẫu, được xác định theo tỷ lệ và chúng tôi muốn xem liệu chúng tôi có thể đưa ra khẳng định về việc liệu tỷ lệ tổng thể của một trong các quần thể cơ bản có lớn hơn/nhỏ hơn/khác với quần thể kia hay không Trong ví dụ này, chúng tôi muốn so sánh hai quần thể khác nhau để xem thử nghiệm của họ liên quan đến nhau như thế nào Trong nhiều bộ dữ liệu, các danh mục thường được sắp xếp theo thứ tự sao cho bạn có thể mong đợi tìm thấy xu hướng giảm hoặc tăng theo tỷ lệ với số nhóm. Hãy xem tập dữ liệu từ một nghiên cứu bệnh chứng về ung thư thực quản ở Ile-et-Vilaine, Pháp, có sẵn trong R dưới tên "esoph" Biến đổiSự miêu tả tuổigp Tuổi được chia thành các loại sau. 25-34, 35-44, 45-54, 55-64, 65-74, 75+ alcgp Tiêu thụ rượu được chia thành các loại sau. 0-39g/ngày, 40-79, 80-119, 120+ tobgp Tiêu thụ thuốc lá được chia thành các loại sau. 0-9g/ngày, 10-19, 20-29, 30+ ncase Số trường hợp điều khiển Số điều khiển Những dữ liệu này không chứa tuổi chính xác của từng cá nhân trong nghiên cứu, mà là nhóm tuổi. Tương tự, có những nhóm sử dụng rượu và thuốc lá. Một câu hỏi được quan tâm là liệu có bất kỳ xu hướng xuất hiện ung thư thực quản nào khi tuổi tác tăng lên, hoặc mức độ sử dụng thuốc lá hoặc rượu tăng lên hay không? > bảng (agegp, ncase) ncase agegp 0 1 2 3 4 5 6 8 9 17 25-34 14 1 0 0 0 0 0 0 0 0 35-44 10 2 2 1 0 0 0 0 0 0 45-54 3 2 2 2 3 2 2 0 0 0 55-64 0 0 2 4 3 2 2 1 2 0 65-74 1 4 2 2 2 2 1 0 0 1 75+ 1 7 3 0 0 0 0 0 0 0… Để so sánh k ( > 2) tỷ lệ, có một phép thử dựa trên xấp xỉ thông thường. Nó bao gồm việc tính tổng trọng số của bình phương độ lệch giữa tỷ lệ quan sát được trong mỗi nhóm và tỷ lệ chung cho tất cả các nhóm. Thống kê kiểm định có phân phối c2 xấp xỉ với k −1 bậc tự do Để sử dụng chỗ dựa. kiểm tra trên một bảng có nhiều danh mục hoặc nhóm, chúng ta cần chuyển đổi nó thành một vectơ "thành công" và một vectơ "thử nghiệm", một cho mỗi nhóm. Trong dữ liệu esoph, mỗi nhóm tuổi có nhiều mức liều lượng rượu và thuốc lá, vì vậy chúng tôi cần tính tổng số trường hợp và kiểm soát cho từng nhóm. Đầu tiên, cốt truyện sau đây thể hiện điều gì? > boxplot(ncases/(ncases + ncontrols) ~ agegp) Để tổng số trường hợp và tổng số quan sát cho từng nhóm tuổi, chúng tôi sử dụng lệnh tapply > trường hợp. vector = tapply(ncases, agegp, sum) > tổng cộng. vector = tapply(ncontrols+ncases, agegp, sum) > trường hợp. véc tơ 25-34 35-44 45-54 55-64 65-74 75+ 1 9 46 76 55 13 > tổng cộng. véc tơ 25-34 35-44 45-54 55-64 65-74 75+ 117 208 259 318 216 57 Sau đó, thật dễ dàng để thực hiện bài kiểm tra > chỗ dựa. kiểm tra (trường hợp. vectơ, tổng. vectơ) Kiểm tra 6 mẫu cho sự bằng nhau về tỷ lệ mà không cần hiệu chỉnh tính liên tục dữ liệu. trường hợp. véc tơ trên tổng số. véc tơ X bình phương = 68. 3825, df = 5, giá trị p = 2. 224e-13 giả thuyết thay thế. hai. đứng về phía ước tính mẫu prop 1 prop 2 prop 3 prop 4 prop 5 prop 6 0. 008547009 0. 043269231 0. 177606178 0. 238993711 0. 254629630 0. 228070175
Phần kết luận. Khi kiểm tra giả thuyết không rằng tỷ lệ các trường hợp là như nhau đối với từng nhóm tuổi, chúng tôi bác bỏ giả thuyết không (χ52 = 68. 38, giá trị p = 2. 22e-13). Ước tính mẫu về tỷ lệ các trường hợp ở mỗi nhóm tuổi như sau Nhóm tuổi 25-34 35-44 45-54 55-64 65-74 75+ 0. 0085 0. 043 0. 178 0. 239 0. 255 0. 228 Bạn có thể kiểm tra xu hướng tuyến tính theo tỷ lệ bằng cách sử dụng prop. xu hướng. kiểm tra. Giả thuyết khống là không có xu hướng trong tỷ lệ; . Ghi chú. bạn sẽ chỉ muốn thực hiện kiểm tra này nếu biến phân loại của bạn là biến thứ tự. Bạn sẽ không làm điều này, chẳng hạn, vì đảng phái chính trị hoặc màu mắt > chỗ dựa. xu hướng. kiểm tra (trường hợp. vectơ, tổng. vectơ) Kiểm tra chi bình phương cho xu hướng theo tỷ lệ dữ liệu. trường hợp. véc tơ trên tổng số. véc tơ, sử dụng điểm số. 1 2 3 4 5 6 X bình phương = 57. 1029, df = 1, giá trị p = 4. 136e-14
Chúng tôi bác bỏ giả thuyết không (χ12 =57. 10, df = 1, giá trị p = 4. 14e-14) rằng không có xu hướng tuyến tính trong tỷ lệ các trường hợp giữa các nhóm tuổi. Ước tính mẫu về tỷ lệ các trường hợp ở mỗi nhóm tuổi như sau Nhóm tuổi 25-34 35-44 45-54 55-64 65-74 75+ 0. 0085 0. 043 0. 178 0. 239 0. 255 0. 228 Dường như có sự gia tăng tuyến tính về tỷ lệ các trường hợp khi bạn tăng danh mục nhóm tuổi Thử nghiệm thống kê nào cho nhiều tỷ lệ?Có 3 phép thử được sử dụng trong thống kê là phép thử tỷ lệ bao gồm Z-test, Chi-square và Fisher-exact . Kiểm định Z được sử dụng khi so sánh sự khác biệt về tỷ lệ dân số giữa 2 nhóm.
Thử nghiệm nào so sánh nhiều hơn 2 tỷ lệ?Thủ tục Marascuilo cho phép chúng tôi so sánh đồng thời tất cả các cặp tỷ lệ có thể. Giả sử chúng ta có các mẫu cỡ ni (i = 1, 2,. , k) từ k quần thể. Bước đầu tiên của quy trình này là tính toán sự khác biệt pi - pj , (trong đó i không bằng j) trong số tất cả k(k-1)/2 cặp tỷ lệ.
2 tỷ lệ z là gìKiểm định Z hai tỷ lệ là kiểm định giả thuyết thống kê được sử dụng để xác định xem hai tỷ lệ có khác nhau hay không . Trong khi thực hiện phép thử, thống kê Z được tính toán từ hai mẫu độc lập và giả thuyết không là hai tỷ lệ bằng nhau.
Đâu là sự khác biệt giữa zKhi kiểm tra t xem xét hai bộ dữ liệu khác nhau — không có độ lệch chuẩn hoặc phương sai — kiểm tra z xem giá trị trung bình của các tập dữ liệu khác nhau nhưng có độ lệch chuẩn hoặc phương sai nhất định |