Trong phần một của loạt bài này, tôi đã giới thiệu khái niệm về thử nghiệm giả thuyết và mô tả các yếu tố khác nhau khi sử dụng các thử nghiệm khác nhau. Nó đã kết thúc với một mánh gian lận để giúp bạn chọn sử dụng bài kiểm tra nào dựa trên loại dữ liệu bạn đang kiểm tra
Trong bài đăng thứ hai này, tôi sẽ đi vào chi tiết hơn về các mẫu dựa trên tỷ lệ
Nếu bất kỳ thuật ngữ nào trong số Giả thuyết không, Giả thuyết thay thế, giá trị p là mới đối với bạn, tôi khuyên bạn nên xem lại phần đầu tiên của loạt bài này trước khi tiếp tục
một mẫu dựa trên tỷ lệ là gì?
Trong những trường hợp này, chúng tôi quan tâm đến việc kiểm tra tỷ lệ. Ví dụ: 17% mẫu khớp với một số cấu hình và phần còn lại thì không. Đây có thể là phép thử so sánh một mẫu đơn lẻ với một số giá trị dự kiến hoặc so sánh hai mẫu khác nhau
Ghi chú. Các phép thử này chỉ có giá trị khi chỉ có hai lựa chọn khả thi;
Yêu cầu về chất lượng của mẫu
Đối với các thử nghiệm này, các quy tắc lấy mẫu sau đây là bắt buộc
Ngẫu nhiênMẫu phải là mẫu ngẫu nhiên từ toàn bộ tổng thểThông thườngMẫu phải phản ánh sự phân bố của tổng thể cơ bản. Đối với những bài kiểm tra này, một nguyên tắc tốt là- Với cỡ mẫu là n
- Cho một tỷ lệ mẫu của p
- Khi đó cả np và n[1-p] phải ít nhất là 10
Mẫu mã cho các bài kiểm tra dựa trên tỷ lệ
Lưu ý rằng tất cả các mẫu mã này đều có sẵn trên Github. Họ sử dụng thư viện mô hình thống kê phổ biến để thực hiện các bài kiểm tra
kiểm tra z 1 mẫu
So sánh tỷ lệ trong một mẫu với giá trị dự kiến
Ở đây chúng tôi có một mẫu và chúng tôi muốn xem liệu một số tỷ lệ của mẫu đó có lớn hơn/nhỏ hơn/khác với một số giá trị thử nghiệm dự kiến hay không
trong ví dụ này
- Chúng tôi hy vọng hơn 80% bài kiểm tra sẽ vượt qua, vì vậy giả thuyết vô hiệu của chúng tôi là. 80% các bài kiểm tra vượt qua
- Giả thuyết thay thế của chúng tôi là. hơn 80% các bài kiểm tra vượt qua
- Chúng tôi đã lấy mẫu 500 bài kiểm tra và tìm thấy 410 bài đã vượt qua
- Chúng tôi sử dụng kiểm tra z 1 mẫu để kiểm tra xem mẫu có cho phép chúng tôi chấp nhận hay bác bỏ giả thuyết không
Để tính giá trị p trong Python
kiểm tra z 2 mẫu
So sánh tỷ lệ giữa 2 mẫu
Ở đây chúng tôi có hai mẫu, được xác định theo tỷ lệ và chúng tôi muốn xem liệu chúng tôi có thể đưa ra khẳng định về việc liệu tỷ lệ tổng thể của một trong các quần thể cơ bản có lớn hơn/nhỏ hơn/khác với quần thể kia hay không
Trong ví dụ này, chúng tôi muốn so sánh hai quần thể khác nhau để xem thử nghiệm của họ liên quan đến nhau như thế nào
Trong nhiều bộ dữ liệu, các danh mục thường được sắp xếp theo thứ tự sao cho bạn có thể mong đợi tìm thấy xu hướng giảm hoặc tăng theo tỷ lệ với số nhóm. Hãy xem tập dữ liệu từ một nghiên cứu bệnh chứng về ung thư thực quản ở Ile-et-Vilaine, Pháp, có sẵn trong R dưới tên "esoph"
Biến đổiSự miêu tả
tuổigp
Tuổi được chia thành các loại sau. 25-34, 35-44, 45-54, 55-64, 65-74, 75+
alcgp
Tiêu thụ rượu được chia thành các loại sau. 0-39g/ngày, 40-79, 80-119, 120+
tobgp
Tiêu thụ thuốc lá được chia thành các loại sau. 0-9g/ngày, 10-19, 20-29, 30+
ncase
Số trường hợp
điều khiển
Số điều khiển
Những dữ liệu này không chứa tuổi chính xác của từng cá nhân trong nghiên cứu, mà là nhóm tuổi. Tương tự, có những nhóm sử dụng rượu và thuốc lá. Một câu hỏi được quan tâm là liệu có bất kỳ xu hướng xuất hiện ung thư thực quản nào khi tuổi tác tăng lên, hoặc mức độ sử dụng thuốc lá hoặc rượu tăng lên hay không?
> bảng [agegp, ncase]
ncase
agegp 0 1 2 3 4 5 6 8 9 17
25-34 14 1 0 0 0 0 0 0 0 0
35-44 10 2 2 1 0 0 0 0 0 0
45-54 3 2 2 2 3 2 2 0 0 0
55-64 0 0 2 4 3 2 2 1 2 0
65-74 1 4 2 2 2 2 1 0 0 1
75+ 1 7 3 0 0 0 0 0 0 0…
Để so sánh k [ > 2] tỷ lệ, có một phép thử dựa trên xấp xỉ thông thường. Nó bao gồm việc tính tổng trọng số của bình phương độ lệch giữa tỷ lệ quan sát được trong mỗi nhóm và tỷ lệ chung cho tất cả các nhóm. Thống kê kiểm định có phân phối c2 xấp xỉ với k −1 bậc tự do
Để sử dụng chỗ dựa. kiểm tra trên một bảng có nhiều danh mục hoặc nhóm, chúng ta cần chuyển đổi nó thành một vectơ "thành công" và một vectơ "thử nghiệm", một cho mỗi nhóm. Trong dữ liệu esoph, mỗi nhóm tuổi có nhiều mức liều lượng rượu và thuốc lá, vì vậy chúng tôi cần tính tổng số trường hợp và kiểm soát cho từng nhóm. Đầu tiên, cốt truyện sau đây thể hiện điều gì?
> boxplot[ncases/[ncases + ncontrols] ~ agegp]
Để tổng số trường hợp và tổng số quan sát cho từng nhóm tuổi, chúng tôi sử dụng lệnh tapply
> trường hợp. vector = tapply[ncases, agegp, sum]
> tổng cộng. vector = tapply[ncontrols+ncases, agegp, sum]
> trường hợp. véc tơ
25-34 35-44 45-54 55-64 65-74 75+
1 9 46 76 55 13
> tổng cộng. véc tơ
25-34 35-44 45-54 55-64 65-74 75+
117 208 259 318 216 57
Sau đó, thật dễ dàng để thực hiện bài kiểm tra
> chỗ dựa. kiểm tra [trường hợp. vectơ, tổng. vectơ]
Kiểm tra 6 mẫu cho sự bằng nhau về tỷ lệ mà không cần hiệu chỉnh tính liên tục
dữ liệu. trường hợp. véc tơ trên tổng số. véc tơ
X bình phương = 68. 3825, df = 5, giá trị p = 2. 224e-13
giả thuyết thay thế. hai. đứng về phía
ước tính mẫu
prop 1 prop 2 prop 3 prop 4 prop 5 prop 6
0. 008547009 0. 043269231 0. 177606178 0. 238993711 0. 254629630 0. 228070175
- H0. Tỷ lệ các trường hợp là như nhau ở mỗi nhóm tuổi. p1 = p2 = p3 = p4 = p5 = p6
- Hà. Tỷ lệ mắc bệnh không giống nhau ở từng lứa tuổi. ít nhất một số pi khác với những số còn lại
Phần kết luận. Khi kiểm tra giả thuyết không rằng tỷ lệ các trường hợp là như nhau đối với từng nhóm tuổi, chúng tôi bác bỏ giả thuyết không [χ52 = 68. 38, giá trị p = 2. 22e-13]. Ước tính mẫu về tỷ lệ các trường hợp ở mỗi nhóm tuổi như sau
Nhóm tuổi 25-34 35-44 45-54 55-64 65-74 75+
0. 0085 0. 043 0. 178 0. 239 0. 255 0. 228
Bạn có thể kiểm tra xu hướng tuyến tính theo tỷ lệ bằng cách sử dụng prop. xu hướng. kiểm tra. Giả thuyết khống là không có xu hướng trong tỷ lệ; . Ghi chú. bạn sẽ chỉ muốn thực hiện kiểm tra này nếu biến phân loại của bạn là biến thứ tự. Bạn sẽ không làm điều này, chẳng hạn, vì đảng phái chính trị hoặc màu mắt
> chỗ dựa. xu hướng. kiểm tra [trường hợp. vectơ, tổng. vectơ]
Kiểm tra chi bình phương cho xu hướng theo tỷ lệ
dữ liệu. trường hợp. véc tơ trên tổng số. véc tơ,
sử dụng điểm số. 1 2 3 4 5 6
X bình phương = 57. 1029, df = 1, giá trị p = 4. 136e-14
- H0. Không có xu hướng tuyến tính trong tỷ lệ các trường hợp giữa các nhóm tuổi
- Hà. Có một xu hướng tuyến tính trong tỷ lệ các trường hợp giữa các nhóm tuổi
Chúng tôi bác bỏ giả thuyết không [χ12 =57. 10, df = 1, giá trị p = 4. 14e-14] rằng không có xu hướng tuyến tính trong tỷ lệ các trường hợp giữa các nhóm tuổi. Ước tính mẫu về tỷ lệ các trường hợp ở mỗi nhóm tuổi như sau
Nhóm tuổi 25-34 35-44 45-54 55-64 65-74 75+
0. 0085 0. 043 0. 178 0. 239 0. 255 0. 228
Dường như có sự gia tăng tuyến tính về tỷ lệ các trường hợp khi bạn tăng danh mục nhóm tuổi