Bootstrapping máy học Python
Bootstrapping là một phương pháp ước tính các đặc điểm dân số bằng cách sử dụng lấy mẫu lặp lại của một mẫu đại diện. Trong bài đăng này, chúng tôi sẽ sử dụng bootstrap trong một trường hợp thực tế, trong đó chúng tôi sẽ cố gắng ước tính khoảng tin cậy của trung bình dân số Show Đối với ví dụ này, chúng tôi đang sử dụng bộ dữ liệu đánh giá khách sạn từ kaggle. com Hãy nhập các thư viện, tải dữ liệu và vẽ một mẫu gồm 500 hàng để sử dụng làm mẫu đại diện cho “dân số” import pandas as pd import numpy as np #moview reviews df=pd.read_csv('archive/7282_1.csv') #sample s=df.sample(500,random_state=7) s.head() Kịch bảnGiả sử rằng chúng tôi được cung cấp mẫu gồm 500 hàng này và bằng cách nào đó chúng tôi muốn ước tính khoảng tin cậy 95% của giá trị trung bình. Chúng ta có thể bắt đầu bằng cách tính toán số liệu thống kê tóm tắt và vẽ biểu đồ xếp hạng s['reviews.rating'].hist() s['reviews.rating'].describe() Biểu đồ xếp hạng không phải là dạng dễ nhận biết như phân phối chuẩn. Ý nghĩa của nó là 3. 67 nhưng câu hỏi đặt ra là chúng ta có thể nói gì về giá trị trung bình thực. Chúng tôi không thể xây dựng khoảng tin cậy bằng cách mô phỏng phân phối lấy mẫu vì chúng tôi không biết cách mô tả nó. Việc sử dụng Bootstrap sẽ ước tính độ không đảm bảo của giá trị trung bình bằng cách tạo các mẫu từ dữ liệu của chúng tôi, sau đó mô tả đặc điểm phân phối của giá trị trung bình trên các mẫu này Chúng tôi sẽ lấy mẫu dữ liệu của mình “với sự thay thế“. Điều đó có nghĩa là chúng tôi vẽ xếp hạng ngẫu nhiên cho phép rút lại xếp hạng tương tự #bootstrapping bootstrap=pd.DataFrame({'mean_rating':[s.sample(500,replace=True)['reviews.rating'].mean() for i in range(0,1000)]}) bootstrap Chúng tôi đã tạo một khung dữ liệu có xếp hạng trung bình của 1000 mẫu. Vẽ biểu đồ của các mẫu được khởi động, chúng ta có thể thấy rõ rằng nó xấp xỉ phân phối chuẩn (phù hợp với định lý giới hạn trung tâm). bootstrap['mean_rating'].hist() Bây giờ, chúng ta có thể trích xuất các lượng tử. (bootstrap['mean_rating'].quantile(0.025),bootstrap['mean_rating'].quantile(0.975))
Bootstrap ước tính khoảng tin cậy 95% của xếp hạng trung bình nằm trong khoảng từ 3. 55 và 3. 79. Điều này có nghĩa là chúng tôi tin tưởng 95% rằng trung bình tổng thể, nằm giữa 3. 55 và 3. 79 Bây giờ, vì chúng tôi có dữ liệu gốc, chúng tôi có thể kiểm tra xem khoảng tin cậy có được chấp nhận hay không df['reviews.rating'].mean()
Thật vậy, giá trị trung bình của dữ liệu gốc nằm trong khoảng tin cậy mà bootstrap xấp xỉ Tóm tắt nóBootstrap là một phương pháp để ước tính các đặc điểm dân số từ một mẫu. Nó rất dễ dàng và đơn giản và trong python, có thể được áp dụng chỉ bằng cách sử dụng Pandas Dataframes. Mặc dù Bootstrapping có thể rất hữu ích, nhưng bạn nên hết sức cẩn thận vì mẫu bạn sẽ sử dụng cần phải mang tính đại diện để nắm bắt đầy đủ các đặc điểm dân số
Chia sẻ bài đăng nàyChia sẻ trên facebook Chia sẻ trên Linkedin Chia sẽ trên Twitter Chia sẻ trên email Để lại bình luậnBình luận Tên Email Trang webLưu tên, email và trang web của tôi trong trình duyệt này cho lần bình luận tiếp theo
Δ Theo dõi bản tin của chúng tôiNhận thông tin cập nhật và học hỏi từ những điều tốt nhấtTrướcTrướcCách nhận ROI của Tiền điện tử của bạn bằng API Kraken Tiếp theoCách áp dụng Chiến lược giao dịch RSI cho tiền điện tử của bạnTiếp theo Thêm để khám pháĐiều khoản khác Mảng trong BashHướng dẫn này là một giới thiệu ngắn gọn về mảng trong bash. Các nhà khoa học dữ liệu đã quen thuộc với mảng, trong R, một cách đơn giản George Pipis Ngày 26 tháng 1 năm 2023 con trăn Khám phá các mô hình mua hàng của khách hàng với phân tích thị trường. Hướng dẫn dựa trên Python cho ShopifyPhân tích giỏ thị trường rất quan trọng đối với cửa hàng điện tử vì nó có thể cung cấp thông tin chi tiết về hành vi mua hàng của khách hàng và giúp xác định Billy Bonaros Ngày 30 tháng 12 năm 2022 api ARIMA vấn đề về thẻ aws liên tiếp tiền điện tử khoa học dữ liệu tiền điện tử triển khai phương pháp khuỷu tay ví dụ bình nhận diện khuôn mặt lấy hình ảnh pixel câu hỏi phỏng vấn hugface k-means kraken hồi quy logistic lstm máy học monte carlo nlg nlp phát hiện đối tượng opencv pandas gối xác suất pytesseract python R hệ thống đề xuất cạo vệt SQL |