Bạn có thể khởi động độ lệch chuẩn không?
Bootstrap là một phương pháp dựa trên máy tính để chỉ định các phép đo độ chính xác (độ lệch, phương sai, khoảng tin cậy, lỗi dự đoán, v.v. ) để ước tính thống kê. Ý tưởng là sử dụng mẫu được quan sát để ước tính phân bố dân số. Sau đó, các mẫu có thể được rút ra từ dân số ước tính và bản thân phân phối lấy mẫu của bất kỳ loại công cụ ước tính nào cũng có thể được ước tính Show
Quy trình chung của bootstrapĐể sửa ký hiệu
Hình 1 là sơ đồ của quy trình bootstrap để ước tính sai số chuẩn của một thống kê $s(x)$
ước tính tham sốGiả sử chúng ta phải đối mặt với một tình huống phân tích dữ liệu phổ biến. một mẫu ngẫu nhiên $x=(x_1, x_2, \dots, x_n)$ từ một phân bố xác suất chưa biết $F$ đã được quan sát và chúng tôi muốn ước tính một tham số quan tâm $\theta=t(F)$ trên cơ sở . Vì mục đích này, chúng tôi tính toán ước tính $\hat{\theta}=s(x)$ từ $x$. $\hat{\theta}$ chính xác đến mức nào? Bootstrap không tham sốĐể sửa các ký hiệu
Trong bootstrap không tham số, một mẫu có cùng kích thước với dữ liệu được lấy từ dữ liệu có thay thế. Điều đó có nghĩa là nếu bạn đo 10 mẫu, bạn sẽ tạo một mẫu mới có kích thước 10 bằng cách sao chép một số mẫu mà bạn đã xem và bỏ qua những mẫu khác Mọi thứ trong trường hợp này có thể tuân theo thuật toán bootstrap ở trên mà không cần sửa đổi khi chức năng quan tâm là tham số, ngoại trừ việc chúng tôi đặt \(\hat{\theta}^*=s(x^*)\)
Nhận xét
Bootstrap tham sốĐể sửa các ký hiệu
Phương pháp khởi động không theo tham số không đưa ra giả định nào về phân phối của các hệ số trong mô hình, trong khi phương pháp khởi động theo tham số giả định rằng dữ liệu đến từ một phân phối đã biết với các tham số chưa biết (ví dụ: dữ liệu có thể đến từ Poisson, nhị thức âm cho số đếm hoặc bình thường cho liên tục . ). Điểm khác biệt duy nhất so với bootstrap không tham số là các mẫu được rút ra từ ước tính tham số của dân số chứ không phải ước tính phi tham số $\hat{F}$ Thay vì lấy mẫu có thay thế từ dữ liệu, chúng tôi lấy các mẫu $B$ có kích thước $n$ từ ước tính tham số của tổng thể $F_{par}$. \(\hat{F}_{par} \rightarrow(x^*_1, x^*_2,\dots,x^*_n)\). Sau khi tạo các mẫu bootstrap, chúng tôi tiến hành chính xác như trong bước 2 và 3 của thuật toán bootstrap không tham số. đánh giá thống kê trên từng mẫu bootstrap, sau đó tính toán độ lệch chuẩn của các bản sao bootstrap $B$ Bootstrap trong Python
bootstrap không tham sốĐể minh họa, chúng tôi lấy 30 mẫu bootstrap từ một quần thể cỡ 100 dân số
mẫu ban đầu
________số 8
0 1 2 3 4 5 6lấy mẫu bootstrap 7 8 9 0 1 2 3 4 5Bootstrap tham sốGiả sử dữ liệu $x_1,. . . , x_{300}$ được rút ra từ phân phối $\exp (\lambda)$. Cũng giả sử rằng dữ liệu có nghĩa là $x = 2$. Ước tính $\lambda$ và đưa ra khoảng tin cậy bootstrap tham số 95% cho $\lambda$ 6 7 8 9 0 1 2 4 5mức độ tin cậy 5 6Thẩm quyền giải quyếtCuốn sách hữu ích nhất của Efron, với phần thảo luận toàn diện về Bootstrap để suy luận thống kê Độ lệch chuẩn bootstrap nghĩa là gì?Độ lệch chuẩn của các mẫu bootstrap (còn được gọi là lỗi chuẩn bootstrap) là ước tính về độ lệch chuẩn của phân phối lấy mẫu của giá trị trung bình.
Bootstrapping có làm giảm lỗi tiêu chuẩn không?Bootstrapping là một quy trình thống kê lấy mẫu lại một tập dữ liệu để tạo nhiều mẫu mô phỏng. Quá trình này cho phép bạn tính toán sai số chuẩn , xây dựng khoảng tin cậy và thực hiện kiểm tra giả thuyết cho nhiều loại thống kê mẫu.
Khi nào bạn nên sử dụng bootstrapping?Tôi thấy bootstrapping rất hữu ích trong hai tình huống chính. khi mẫu khá nhỏ (nhưng không nhỏ) và khi phân phối không sạch (giả sử đó là hỗn hợp của hai phân phối).
Khi nào không sử dụng số liệu thống kê bootstrap?Nó không thực hiện hiệu chỉnh sai lệch, v.v. Không có cách chữa trị cho cỡ mẫu nhỏ. Bootstrap rất mạnh, nhưng nó không phải là ma thuật — nó chỉ có thể hoạt động với thông tin có sẵn trong mẫu ban đầu. Nếu các mẫu không đại diện cho toàn bộ tổng thể thì bootstrap sẽ không chính xác lắm. |