Lợi thế của số liệu thống kê bootstrapping

Phương pháp Bootstrap trong Thống kê là một phương pháp thống kê để đánh giá các con số về dân số bằng các xấp xỉ ít nhiều từ nhiều mẫu dữ liệu nhỏ. Bootstrapping phân bổ các phép đo độ chính xác cho các xấp xỉ mẫu. Phương pháp này cho phép ước tính phân phối lấy mẫu của gần như bất kỳ thống kê nào bằng phương pháp lấy mẫu ngẫu nhiên

Phương pháp Bootstrap ước tính các thuộc tính của một công cụ ước tính, chẳng hạn như sự thay đổi của nó bằng cách đo những thứ đó tại thời điểm lấy mẫu từ một phân phối tương tự. Lựa chọn tiêu chuẩn duy nhất cho phân phối giống là hàm phân phối theo kinh nghiệm của dữ liệu thử nghiệm. Trong trường hợp một tập hợp các quan sát có thể được dự kiến ​​là từ một quần thể tự quản và phân tán giống hệt nhau, điều này có thể được áp dụng bằng cách xây dựng một số mẫu thay thế bằng cách thay thế tập dữ liệu thử nghiệm

Nó cũng được sử dụng để thực hiện các bài kiểm tra giả thuyết. Nó thường được sử dụng như một cách khác để suy luận thống kê được thiết lập dựa trên giả định của mô hình tham số khi giả định đó còn nghi ngờ hoặc khi hàm ý tham số không thể chịu đựng được hoặc cần các công thức phức tạp để tính toán sai số chuẩn

Sự miêu tả

Phương pháp bootstrap có thể được sử dụng để tính gần đúng một lượng dân số. Điều này được thực hiện bằng cách liên tục lấy các mẫu nhỏ. Điều này xảy ra bằng cách tính toán thống kê và lấy giá trị trung bình của các thống kê được tính toán. Chúng ta có thể chuẩn bị quá trình này như sau

  1. Chọn một số mẫu bootstrap để thực hiện
  2. Lấy một cỡ mẫu
  3. Đối với mỗi mẫu bootstrap. (1) Kéo mẫu bằng cách thay thế bằng kích thước đã chọn (2) Đánh giá thống kê trên mẫu
  4. Phân tích giá trị trung bình của thống kê mẫu tính toán

Đúng hơn, bootstrap hoạt động

  • Bằng cách suy luận về phân phối xác suất thực J,
  • Với dữ liệu ban đầu,
  • Ví dụ, tương tự như suy luận về phân phối theo kinh nghiệm Ĵ,
  • Với dữ liệu được lấy mẫu lại

Tính chính xác của các suy luận liên quan đến Ĵ sử dụng dữ liệu được lấy mẫu lại có thể được đánh giá như chúng ta biết Ĵ. Nếu Ĵ là một xấp xỉ hữu tỉ của J, tại thời điểm đó, chất lượng suy luận trên J có thể được suy ra

Chẳng hạn, hãy tưởng tượng chúng ta đang nhắm đến chiều cao trung bình của mọi người trên toàn thế giới. Chúng tôi có thể không xác định được tất cả mọi người trong dân số toàn cầu; . Giả sử mẫu có kích thước N; . Chỉ có thể nhận được một ước tính về giá trị trung bình từ mẫu đơn đó. Chúng tôi yêu cầu một số ý nghĩa về sự thay đổi của giá trị trung bình mà chúng tôi đã tính toán thỏa đáng để suy luận về dân số

Phương pháp bootstrap khiêm tốn bao gồm lấy tập dữ liệu gốc về độ cao. Nó cũng chỉ định sử dụng máy tính, nhóm thử nghiệm từ nó để tạo thành một mẫu mới cũng có kích thước N. Mẫu bootstrap được lấy từ bản gốc bằng cách sử dụng lấy mẫu bằng cách thay thế. Do đó, giả sử N đủ lớn, đối với tất cả các ổ đĩa thực tế, hầu như không có khả năng nó khớp với mẫu ban đầu. Chúng tôi tính toán ý nghĩa của nó vì quá trình này diễn ra thường xuyên với số lượng lớn và đối với tất cả các mẫu bootstrap này. Bây giờ chúng tôi có thể tạo ra một biểu đồ phương tiện bootstrap. Biểu đồ này cung cấp ước tính về hình thức phân phối của giá trị trung bình mẫu mà từ đó chúng tôi có thể trả lời các câu hỏi về mức độ khác nhau của giá trị trung bình giữa các mẫu

Sơ lược về Bootstrap

Có hai tham số phải được chọn khi thực hiện bootstrap. kích thước của mẫu và số lần lặp lại của thủ tục để thực hiện

Cỡ mẫu

Nói chung, sử dụng kích thước mẫu trong học máy tương tự như tập dữ liệu gốc. Có thể sử dụng các mẫu nhỏ hơn, ví dụ 50% hoặc 80% kích thước của tập dữ liệu nếu tập dữ liệu lớn và khả năng tính toán là một vấn đề

lặp đi lặp lại

Số lần lặp lại phải đủ lớn để duy trì số liệu thống kê có ý nghĩa có thể được tính toán trên mẫu. Ví dụ, đó là giá trị trung bình, độ lệch chuẩn và lỗi chuẩn. Ít nhất có thể là 20 và 30 lần lặp lại. Các giá trị giảm có thể được sử dụng sẽ làm tăng thêm phương sai cho số liệu thống kê được tính trên mẫu của các giá trị ước tính. Trong một thế giới lý tưởng, mẫu dự đoán sẽ càng lớn càng tốt với nguồn thời gian, bởi hàng trăm và hàng nghìn lần lặp lại

Ưu điểm
  • Một lợi thế lớn của bootstrap là sự đơn giản của nó
  • Đó là một cách trực tiếp để rút ra các ước tính về sai số chuẩn và độ phá vỡ độ chắc chắn cho các ước lượng phức tạp của phân phối i. e điểm phần trăm, tỷ lệ chênh lệch, tỷ lệ và hệ số tương quan
  • Bootstrap tương tự như một cách phù hợp để kiểm soát và kiểm tra tính ổn định của kết quả
  • Rất khó để biết khoảng tin cậy thực sự mặc dù đối với hầu hết các vấn đề. Bootstrap chính xác hơn các khoảng tiêu chuẩn thu được bằng cách sử dụng phương sai mẫu và các giả định về tính quy tắc
  • Bootstrapping cũng là một phương pháp phù hợp giúp loại bỏ chi phí khôi phục thử nghiệm để lấy các nhóm dữ liệu mẫu khác
nhược điểm
  • Bootstrap không cung cấp đảm bảo mẫu hữu hạn tổng thể
  • Kết quả có thể dựa vào mẫu đại diện
  • Sự đơn giản dường như có thể che giấu thực tế rằng các giả định quan trọng đang được đưa ra khi thực hiện phân tích bootstrap, nơi những giả định này sẽ được nêu đúng hơn trong các phương pháp khác
  • Hơn nữa, bootstrapping có thể tốn thời gian

Để biết thêm chi tiết, hãy truy cập. https. //www. công nghệ công nghiệp4. com/2021/07/bootstrap-method-in-statistic. html