Thử nghiệm bootstrap t là gì?

Như đã đề cập, thường được chấp nhận sử dụng bài kiểm tra t của Sinh viên khi tính quy tắc của dữ liệu đủ, trong khi phương pháp bootstrap có thể được áp dụng để giải quyết tình huống không có tính quy tắc. Trong nghiên cứu này, chúng tôi đã chứng minh rằng đối với dữ liệu từ dân số bình thường, bài kiểm tra t bootstrap vượt trội hơn bài kiểm tra t của Sinh viên về các biện pháp khác nhau về độ chính xác của bài kiểm tra. Chúng tôi đã khám phá các tính năng chung của mẫu dữ liệu mà các thử nghiệm bootstrap t có thể có kết quả thử nghiệm hợp lý hơn

Nội dung chính Show

phương pháp
TPR cố định
TPR thay đổi
Kiểm tra đánh giá hiệu suất
kết quả và thảo luận
Ví dụ minh họa về COVID-19
Hạn chế
kết luận
Bootstrap có tốt hơn t test không?
Khi nào tôi nên sử dụng thử nghiệm bootstrap?
Bootstrapping là gì và tại sao nó được sử dụng?
Việc khởi động một mẫu có nghĩa là gì?

phương pháp

Bạn có thể tìm thấy chi tiết về quy trình thử nghiệm của thử nghiệm bootstrap t trong [ Tham khảo Efron và Tibshirani 9]. Thử nghiệm t hai mẫu theo cặp được thực hiện dựa trên giả thuyết không, H0, giả định rằng phương tiện của hai quần thể bằng nhau. Các mẫu dữ liệu được tạo ngẫu nhiên từ các quần thể phân phối bình thường, sẽ được sử dụng để so sánh kết quả thử nghiệm dựa trên các mẫu dữ liệu và dữ kiện của các quần thể. Chúng tôi đã đánh giá hiệu suất thử nghiệm trong hai tình huống bao gồm

• tình huống (i). H0 là đúng;
• tình huống (ii). H0 là sai.

Khi đó, khả năng H0 không bị từ chối trong kịch bản (i) là tỷ lệ dương tính thực (TPR), i. e. nhạy cảm. Khả năng H0 bị bác bỏ ở kịch bản (ii) là tỷ lệ âm thực (TNR), i. e. đặc thù. Về mặt lý thuyết, TPR là (1 − α), trong đó α được gọi là tỷ lệ lỗi loại I, i. e. tỷ lệ cảnh báo sai và tương tự, TNR là (1 − β), trong đó β là tỷ lệ lỗi loại II, i. e. tỷ lệ bỏ lỡ. Một thông lệ phổ biến là đặt α ở mức 5% và thử nghiệm được xây dựng với mục đích giảm thiểu β [ Tham khảo Guyatt 1, Reference Anderson, Burnham and Thompson10].

TPR cố định

Với TPR = (1 − α) = 95%, i. e. α = 5%, chúng tôi đã đánh giá

(i) tính nhất quán trong TPR,
(ii) mức TNR và
(iii) thông tin (i. e. thống kê J của Youden)

của hai loại thử nghiệm t với cỡ mẫu và hệ số biến thiên (CV) khác nhau = s. d. /sự khác biệt về giá trị trung bình, trong các mẫu [ Schisterman tham khảo 11]. Ở đây, mức độ được cung cấp thông tin = TPR + TNR − 1, nằm trong khoảng từ 0 đến 1 (bao gồm), là một thống kê duy nhất ước tính xác suất của một quyết định sáng suốt [ Youden Reference12], which evaluates the performance of diagnostic tests. The informedness is 0 when a diagnostic test gives the same proportion of positive results for both true and false groups, which implies the testing outcome is totally uninformed. The informedness 1 indicates an ideal situation that TPR = TNR = 1, which implies that the testing outcome is perfectly informed. Since the test statistic of t test is mainly determined by CV and sample size, these two factors are thus included in the testing performance evaluation.

TPR thay đổi

Với TPR khác nhau, tôi. e. (1 − α), chúng tôi có thể đo hiệu suất chẩn đoán của cả hai thử nghiệm bằng cách sử dụng TPR và TNR theo cặp. Với tất cả các cặp TPR và TNR, chúng tôi có thể xây dựng đường cong đặc tính hoạt động của máy thu (ROC) để minh họa khả năng chẩn đoán của hai thử nghiệm t về diện tích dưới đường cong (AUC)

Kiểm tra đánh giá hiệu suất

Đối với mỗi tập hợp kích thước mẫu, CV và α, chúng tôi đã thử nghiệm 10.000 cặp mẫu dữ liệu được tạo ngẫu nhiên để ước tính TPR và TNR, sau đó để tính mức độ tin cậy và AUC. Chúng tôi đã chạy 1000 mẫu bootstrap để tiến hành thử nghiệm bootstrap t. Chúng tôi cũng đã chạy 1000 mẫu bootstrap trong kết quả thử nghiệm của hai thử nghiệm t để tạo khoảng tin cậy (CI) 95% cho các chỉ số ước tính

Để minh họa, chúng tôi so sánh kết quả thử nghiệm bằng cách sử dụng khoảng thời gian nối tiếp COVID-19 (SI), được định nghĩa là khoảng thời gian giữa các thế hệ truyền liên tiếp, dữ liệu ở Thâm Quyến và Hồng Kông, Trung Quốc. Ví dụ minh họa này được coi là một phần của kết quả (thay vì phương pháp luận), và do đó được trình bày chi tiết trong phần tiếp theo

kết quả và thảo luận

Chúng tôi nhận thấy rằng tính đầy đủ của bài kiểm tra t bootstrap vượt trội so với bài kiểm tra t của Sinh viên đối với nhiều loại cỡ mẫu và CV khác nhau, xem Hình 1(a) và (b). Vì TPR luôn ổn định ở mức 95%, hãy xem Hình 1(c) và (d), sự khác biệt về mức độ thông tin là do sự khác biệt trong TNR, xem Hình 1(e) và (f). Với α cố định, thử nghiệm bootstrap t duy trì độ chính xác tương đương trong TPR, nhưng cải thiện đáng kể TNR so với thử nghiệm t của Sinh viên, xem Hình 1(c)–(f). Điều này có thể được hiểu là bài kiểm tra t bootstrap có nhiều khả năng loại trừ giả thuyết không thực tế, khi H0 sai, so với bài kiểm tra t của Sinh viên và trong khi đó vẫn duy trì phán đoán của nó đối với mệnh đề đúng, khi H0 đúng. Vì giả thuyết không được biết trước là sai [ Tham khảo Dushoff, Kain và Bolker 13], H0 thường được cho là sẽ bị bác bỏ dựa trên đủ ( . Do đó, sự cải thiện trong TNR là đáng mong đợi. Reference Guyatt1, Reference Wilcox4, Reference Anderson, Burnham and Thompson10]. Thus, the improvement in TNR was remarkably desirable.

Hình. 1. Mối quan hệ giữa độ chính xác thử nghiệm của thử nghiệm bootstrap t (màu xanh lam) và thử nghiệm t của Sinh viên (màu đen), bao gồm mức độ hiểu biết, TPR và TNR cũng như các đặc điểm của mẫu dữ liệu bao gồm kích thước mẫu và CV. Bảng (a) và (b) hiển thị mối quan hệ giữa mức độ hiểu biết ( = TPR + TNR − 1) với cỡ mẫu và CV tương ứng. Các bảng (c) và (d) lần lượt hiển thị các mối quan hệ giữa TPR và cỡ mẫu và CV. Các bảng (e) và (f) lần lượt hiển thị mối quan hệ giữa TNR và cỡ mẫu và CV. CV (của các mẫu dữ liệu) được xác định bởi $\sqrt n \times t_{P = 0. 975, {\rm df} = n}^\ast$

, trong đó n biểu thị kích thước mẫu, t* là phân vị của phân phối t và 'df' là bậc tự do, . Kích thước mẫu được cố định là 30 trong các bảng (b), (d) và (f). Mức độ của α đã được cố định là 5% trong tất cả các bảng. Các thanh dọc trong mỗi bảng đại diện cho 95% TCTD.

Trong Hình 2, khả năng chẩn đoán của thử nghiệm t bootstrap vượt trội hoặc được thực hiện tương đương như thử nghiệm t của Sinh viên xét về AUC. Khả năng chẩn đoán của bootstrap t test vượt trội so với Student's t test không chỉ khi cỡ mẫu nhỏ, e. g. xem Hình 2(b) và (c), nhưng cả khi cỡ mẫu trở nên lớn, e. g. xem Hình 2(i) và (k). Mặc dù thử nghiệm t của Sinh viên có thể được tiến hành với cỡ mẫu đủ lớn khi CLT được áp dụng [ Tham khảo Nhạt nhẽo 2, Tham khảo . 3], we found that bootstrap t test outperformed or equivalently performed as Student's t test regardless of the sample size.

Hình. 2. Các đường cong ROC và AUC của thử nghiệm bootstrap t (màu xanh lam) và thử nghiệm Student's t (màu đen) với các cỡ mẫu, n và CV khác nhau của các mẫu dữ liệu. Các đường đứt nét chéo cho thấy hiệu suất thử nghiệm của một bộ phân loại ngẫu nhiên.

Một mặt, AUC của bài kiểm tra t của Sinh viên tiệm cận với bài kiểm tra t bootstrap, tôi. e. hiệu suất tương đương, khi kích thước mẫu trở nên lớn hơn và CV trở nên nhỏ hơn, e. g. xem Hình 2(e) và (j). Trong những trường hợp này, sự phân bố của các mẫu cần kiểm tra được phân tách rõ ràng và do đó, rõ ràng là hai thử nghiệm có thể mang lại kết quả 'bác bỏ H0' như nhau. Phát hiện này chỉ ra rằng với kích thước mẫu đủ lớn, bài kiểm tra t của Sinh viên có khả năng đạt được khả năng chẩn đoán tương đương như bài kiểm tra t bootstrap khi hai bộ dữ liệu phân biệt theo xu hướng trung tâm và có độ phân tán thấp. Một điều thú vị cần lưu ý là hiệu suất tương đương chỉ xuất hiện khi giá trị AUC của hai thử nghiệm bằng 0. 5, tôi. e. phân loại ngẫu nhiên, hoặc 1, tôi. e. phân loại hoàn hảo. AUC = 0. 5 hoặc AUC = 1 sẽ hiếm khi xảy ra do các tính năng bất thường của bộ dữ liệu thử nghiệm, e. g. cỡ mẫu cực lớn và CV nhỏ hoặc cỡ mẫu cực nhỏ và CV lớn

Mặt khác, khi cỡ mẫu nhỏ và CV lớn, e. g. xem Hình 2(b), (c), (d), (g) và (h), sự phân bố của các mẫu được kiểm tra rất khó phân biệt. Trong những tình huống này, khả năng chẩn đoán của bài kiểm tra t bootstrap vượt trội so với bài kiểm tra t của Sinh viên về AUC

Tóm lại, đối với các mẫu dữ liệu từ các quần thể được phân phối bình thường, cả hiệu suất thử nghiệm và khả năng chẩn đoán của thử nghiệm bootstrap t đều vượt trội so với thử nghiệm t của Sinh viên bất kể kích thước mẫu và CV khác nhau. Chúng tôi đã tóm tắt những phát hiện của mình và tình huống khi tính quy phạm không thành công trong Bảng 1. Đặc biệt, đối với các mẫu nhỏ, khi dữ liệu không đáp ứng giả định về tính chuẩn, các kiểm định phi tham số khác và các phiên bản bootstrap của chúng cũng được khuyến nghị để phù hợp với mục đích nghiên cứu

Bảng 1. Tóm tắt các tình huống cần kiểm tra và đề xuất các bài kiểm tra của Sinh viên hoặc Bootstrap

Ghi chú. Sự 'phân tán' trong nghiên cứu này được đo bằng CV

Ví dụ minh họa về COVID-19

Chúng tôi chứng minh hiệu suất của thử nghiệm bootstrap t so với thử nghiệm t của Sinh viên bằng cách sử dụng bộ dữ liệu SI COVID-19 từ các đợt bùng phát ban đầu ở Thâm Quyến và Hồng Kông, hai thành phố láng giềng trên bờ biển phía đông nam của Trung Quốc. Trong truyền bệnh truyền nhiễm, SI được định nghĩa là sự khác biệt giữa ngày khởi phát của ca bệnh thứ cấp và ngày của ca bệnh chính có liên quan trong chuỗi lây truyền liên tiếp [ Tham khảo tốt16]. With the pathogen's transmissibility fixed, a shorter SI implies that the disease may transmit more rapidly in terms of the epidemiological outcomes at the population scale, e.g. number of cases. The SI is one of the key epidemiological parameters to characterise the disease transmission process, and it is of importance in determining the changing patterns of the epidemic curve [Tham khảo Wallinga và Lipsitch17–Reference Nishiura20]. The SI can be inferred from the contact tracing surveillance data and reconstruction of the transmission chains, which is well studied in previous studies [Tham khảo Xu 21– Reference Cowling33], and widely adopted in modelling analysis [Reference Chinazzi34–Reference Zhao47].

Dữ liệu SI được thu thập qua các miền công cộng cho đến ngày 22 tháng 2 năm 2020 đối với Thâm Quyến và đến ngày 15 tháng 2 năm 2020 đối với Hồng Kông. Các giai đoạn nghiên cứu bao gồm làn sóng dịch bệnh lớn ở Thâm Quyến và làn sóng dịch bệnh đầu tiên ở Hồng Kông. Bộ dữ liệu này đã được xuất bản trước đó trong [ Reference Wang 48, Reference Zhao 49 . Chúng tôi trích xuất các cặp truyền, tôi. e. một ca bệnh phụ có liên quan về mặt dịch tễ với một và chỉ một ca bệnh chính, không thiếu thông tin về giới tính của ca bệnh chính. Chúng tôi đã thu được tổng cộng 34 cặp lây truyền bao gồm 22 (14 ca nam và 8 ca nữ) từ Thâm Quyến và 12 (6 ca nam và 6 ca nữ) từ Hồng Kông. Có 33 (trong tổng số 34) cặp lây truyền có ngày khởi phát các triệu chứng của ca bệnh chính vào tháng 1 năm 2020, xem Hình 3. Reference Zhao50]. We extract transmission pairs, i.e. one secondary case is epidemiologically linked to one and only one primary case, with no missing information of the primary case's sex. We obtained a total of 34 transmission pairs including 22 (14 male and 8 female primary cases) from Shenzhen, and 12 (6 male and 6 female primary cases) from Hong Kong. There were 33 (out of a total of 34) transmission pairs with primary cases' symptoms onset date in January 2020, see Figure 3.

Hình. 3. SI của các cặp lây truyền COVID-19 ở Thâm Quyến và Hồng Kông, Trung Quốc, trong những đợt bùng phát sớm. SI với trường hợp chính là nam hoặc nữ được biểu thị bằng tam giác hướng lên hoặc hướng xuống tương ứng. Hình tam giác rỗng hoặc đầy (màu đỏ đối với nữ và màu xanh lam đối với nam) tương ứng biểu thị dữ liệu SI được loại trừ hoặc bao gồm trong các thử nghiệm t. Khu vực bóng xanh làm nổi bật CLNY.

Chúng tôi đánh giá hai xét nghiệm t bằng cách kiểm tra xem liệu chúng có thể xác định được sự khác biệt về COVID-19 SI do giới tính và các biện pháp can thiệp phi dược phẩm (NPI) hay không. Vì vậy, chúng tôi tiến hành thử nghiệm t trên hai nhóm mẫu SI được tách ra từ bộ dữ liệu gốc dựa trên hai bằng chứng dịch tễ học. Chúng bao gồm

• bằng chứng (i). theo các nghiên cứu trước đó [ Ma tham chiếu 28, Triệu tham khảo 50]
• bằng chứng (ii). do phi NPI, e. g. giãn cách xã hội, đóng cửa thành phố, đình chỉ đi lại, đeo khẩu trang, khử trùng thường xuyên, SI được rút ngắn, tôi. e. trở nên nhỏ hơn, theo thời gian [ Ali tham chiếu 31, Triệu tham chiếu 50].

Do đó, chúng tôi phân chia các mẫu SI COVID-19 dựa trên giới tính của ca bệnh chính và Tết Nguyên đán của Trung Quốc (CLNY) từ ngày 23 đến ngày 26 tháng 1 năm 2020 [ Tham khảo Leung, . Hai nhóm mẫu SI được chọn cho các thử nghiệm t. Họ là51], after which most of the NPIs (including city lockdown) were implemented and enhanced. Two groups of SI samples are selected for the t tests. They are

• mẫu từ dân số (i). Các mẫu SI với trường hợp nguyên phát là nữ có triệu chứng khởi phát trước CLNY (cỡ mẫu là 3, xem các chấm đỏ trong Hình. 3), và
• mẫu từ dân số (ii). Các mẫu SI với các trường hợp nam giới nguyên phát có triệu chứng khởi phát sau CLNY (cỡ mẫu là 10, xem các chấm màu xanh trong Hình. 3).

Nói một cách đơn giản, SI trung bình của dân số (i) dự kiến sẽ cao hơn SI trung bình của dân số (ii), điều này cũng được hỗ trợ bởi bằng chứng tìm thấy trong các nghiên cứu trước đây [ Tham khảo . 28, Reference Ali31, Reference Zhao50].

Đối với kết quả từ các thử nghiệm t, chúng tôi báo cáo rằng thử nghiệm t bootstrap một phía mang lại giá trị P = 0. 04 có ý nghĩa thống kê, trong khi bài kiểm tra t của Sinh viên một phía mang lại giá trị P = 0. 05. Do đó, chúng tôi chứng minh rằng thử nghiệm bootstrap t vượt trội so với thử nghiệm t của Sinh viên bằng cách phát hiện thành công sự khác biệt về COVID-19 SI do giới tính và NPI

Hạn chế

Nghiên cứu phân tích so sánh này có những hạn chế. Là một trong những nhược điểm cổ điển được đề cập trong [ Tham khảo Athreya 52], đối với bootstrap trên các mẫu từ tổng thể không có phương sai hữu hạn, bootstrap sẽ khó xảy ra . Tuy nhiên, các mẫu dữ liệu y tế (thường) là từ các mẫu trong thế giới thực và do đó phương sai được cho là hữu hạn. Mặc dù chúng tôi đã chứng minh hiệu suất thử nghiệm bằng cách sử dụng các tập hợp lớn các mẫu dữ liệu được tạo ngẫu nhiên, nghiên cứu sẽ được hưởng lợi từ các ví dụ trong thế giới thực có kết luận khác với thử nghiệm bootstrap t và thử nghiệm t của Sinh viên, tương ứng.

kết luận

Chúng tôi đã chứng minh rằng thử nghiệm bootstrap t vượt trội so với thử nghiệm t của Sinh viên và nên thay thế thử nghiệm t của Sinh viên trong phân tích dữ liệu y tế bất kể kích thước mẫu

Bootstrap có tốt hơn t test không?

Và lý thuyết kiểm định t không áp dụng cho một số tham số/thống kê quan tâm, e. g. phương tiện cắt, độ lệch chuẩn, lượng tử, v.v. Ưu điểm của bootstrap là nó có thể ước tính phân phối lấy mẫu mà không cần nhiều giả định theo phương pháp tham số .

Khi nào tôi nên sử dụng thử nghiệm bootstrap?

Bootstrap nói chung hữu ích để ước tính phân phối của một thống kê (e. g. trung bình, phương sai) mà không sử dụng các giả định về tính quy tắc (theo yêu cầu, e. g. , đối với thống kê z hoặc thống kê t).

Bootstrapping là gì và tại sao nó được sử dụng?

Bootstrapping mô tả tình huống trong đó một doanh nhân thành lập công ty với ít vốn, dựa vào tiền chứ không phải đầu tư bên ngoài . Một cá nhân được cho là đang khởi nghiệp khi họ cố gắng thành lập và xây dựng một công ty từ nguồn tài chính cá nhân hoặc doanh thu hoạt động của công ty mới.

Việc khởi động một mẫu có nghĩa là gì?

Trong thống kê, Lấy mẫu Bootstrap là một phương pháp liên quan đến việc vẽ dữ liệu mẫu lặp đi lặp lại với sự thay thế từ nguồn dữ liệu để ước tính tham số tổng thể .

programming bootstrap

Thử nghiệm bootstrap t là gì?

phương pháp

TPR cố định

TPR thay đổi

Kiểm tra đánh giá hiệu suất

kết quả và thảo luận

Ví dụ minh họa về COVID-19

Hạn chế

kết luận

Bootstrap có tốt hơn t test không?

Khi nào tôi nên sử dụng thử nghiệm bootstrap?

Bootstrapping là gì và tại sao nó được sử dụng?

Việc khởi động một mẫu có nghĩa là gì?

Bài Viết Liên Quan

Quảng Cáo

Có thể bạn quan tâm

Toplist được quan tâm

Quảng cáo

Xem Nhiều

Quảng cáo

Chúng tôi

Điều khoản

Trợ giúp

Mạng xã hội