Bootstrapping máy học Python

Bootstrapping là một phương pháp ước tính các đặc điểm dân số bằng cách sử dụng lấy mẫu lặp lại của một mẫu đại diện. Trong bài đăng này, chúng tôi sẽ sử dụng bootstrap trong một trường hợp thực tế, trong đó chúng tôi sẽ cố gắng ước tính khoảng tin cậy của trung bình dân số

Đối với ví dụ này, chúng tôi đang sử dụng bộ dữ liệu đánh giá khách sạn từ kaggle. com

Hãy nhập các thư viện, tải dữ liệu và vẽ một mẫu gồm 500 hàng để sử dụng làm mẫu đại diện cho “dân số”

import pandas as pd
import numpy as np


#moview reviews
df=pd.read_csv('archive/7282_1.csv')

#sample 
s=df.sample(500,random_state=7)

s.head()
Bootstrapping máy học Python

Kịch bản

Giả sử rằng chúng tôi được cung cấp mẫu gồm 500 hàng này và bằng cách nào đó chúng tôi muốn ước tính khoảng tin cậy 95% của giá trị trung bình. Chúng ta có thể bắt đầu bằng cách tính toán số liệu thống kê tóm tắt và vẽ biểu đồ xếp hạng

s['reviews.rating'].hist()
Bootstrapping máy học Python
s['reviews.rating'].describe()
Bootstrapping máy học Python

Biểu đồ xếp hạng không phải là dạng dễ nhận biết như phân phối chuẩn. Ý nghĩa của nó là 3. 67 nhưng câu hỏi đặt ra là chúng ta có thể nói gì về giá trị trung bình thực. Chúng tôi không thể xây dựng khoảng tin cậy bằng cách mô phỏng phân phối lấy mẫu vì chúng tôi không biết cách mô tả nó.

Việc sử dụng Bootstrap sẽ ước tính độ không đảm bảo của giá trị trung bình bằng cách tạo các mẫu từ dữ liệu của chúng tôi, sau đó mô tả đặc điểm phân phối của giá trị trung bình trên các mẫu này

Chúng tôi sẽ lấy mẫu dữ liệu của mình “với sự thay thế“. Điều đó có nghĩa là chúng tôi vẽ xếp hạng ngẫu nhiên cho phép rút lại xếp hạng tương tự

Bootstrapping máy học Python
#bootstrapping
bootstrap=pd.DataFrame({'mean_rating':[s.sample(500,replace=True)['reviews.rating'].mean() for i in range(0,1000)]})

bootstrap
Bootstrapping máy học Python

Chúng tôi đã tạo một khung dữ liệu có xếp hạng trung bình của 1000 mẫu. Vẽ biểu đồ của các mẫu được khởi động, chúng ta có thể thấy rõ rằng nó xấp xỉ phân phối chuẩn (phù hợp với định lý giới hạn trung tâm).

bootstrap['mean_rating'].hist()
Bootstrapping máy học Python

Bây giờ, chúng ta có thể trích xuất các lượng tử.

(bootstrap['mean_rating'].quantile(0.025),bootstrap['mean_rating'].quantile(0.975))
(3.554730600528383, 3.799829994960948)

Bootstrap ước tính khoảng tin cậy 95% của xếp hạng trung bình nằm trong khoảng từ 3. 55 và 3. 79. Điều này có nghĩa là chúng tôi tin tưởng 95% rằng trung bình tổng thể, nằm giữa 3. 55 và 3. 79

Bây giờ, vì chúng tôi có dữ liệu gốc, chúng tôi có thể kiểm tra xem khoảng tin cậy có được chấp nhận hay không

df['reviews.rating'].mean()
3.7764308131241124

Thật vậy, giá trị trung bình của dữ liệu gốc nằm trong khoảng tin cậy mà bootstrap xấp xỉ

Tóm tắt nó

Bootstrap là một phương pháp để ước tính các đặc điểm dân số từ một mẫu. Nó rất dễ dàng và đơn giản và trong python, có thể được áp dụng chỉ bằng cách sử dụng Pandas Dataframes. Mặc dù Bootstrapping có thể rất hữu ích, nhưng bạn nên hết sức cẩn thận vì mẫu bạn sẽ sử dụng cần phải mang tính đại diện để nắm bắt đầy đủ các đặc điểm dân số

  • Thẻ. bootstrap, pandas, python, thống kê

Chia sẻ bài đăng này

Chia sẻ trên facebook

Chia sẻ trên Linkedin

Chia sẽ trên Twitter

Chia sẻ trên email

Để lại bình luận

Bình luận

Tên Email Trang web

Lưu tên, email và trang web của tôi trong trình duyệt này cho lần bình luận tiếp theo

Δ

Theo dõi bản tin của chúng tôi

Nhận thông tin cập nhật và học hỏi từ những điều tốt nhất

TrướcTrướcCách nhận ROI của Tiền điện tử của bạn bằng API Kraken

Tiếp theoCách áp dụng Chiến lược giao dịch RSI cho tiền điện tử của bạnTiếp theo

Thêm để khám phá

Bootstrapping máy học Python

Điều khoản khác

Mảng trong Bash

Hướng dẫn này là một giới thiệu ngắn gọn về mảng trong bash. Các nhà khoa học dữ liệu đã quen thuộc với mảng, trong R, một cách đơn giản

George Pipis Ngày 26 tháng 1 năm 2023

Bootstrapping máy học Python

con trăn

Khám phá các mô hình mua hàng của khách hàng với phân tích thị trường. Hướng dẫn dựa trên Python cho Shopify

Phân tích giỏ thị trường rất quan trọng đối với cửa hàng điện tử vì nó có thể cung cấp thông tin chi tiết về hành vi mua hàng của khách hàng và giúp xác định

Billy Bonaros Ngày 30 tháng 12 năm 2022

#Tag Mây ☁️

api ARIMA vấn đề về thẻ aws liên tiếp tiền điện tử khoa học dữ liệu tiền điện tử triển khai phương pháp khuỷu tay ví dụ bình nhận diện khuôn mặt lấy hình ảnh pixel câu hỏi phỏng vấn hugface k-means kraken hồi quy logistic lstm máy học monte carlo nlg nlp phát hiện đối tượng opencv pandas gối xác suất pytesseract python R hệ thống đề xuất cạo vệt SQL

Bootstrapping trong Python là gì?

Bootstrap là chiến lược lấy mẫu lại không tham số có thay thế mà không yêu cầu giả định về phân phối dữ liệu . Nó là một công cụ mạnh mẽ cho phép chúng ta suy luận về các tham số tổng thể (e. g. , trung bình, phương sai) từ một số mẫu hữu hạn.

Bootstrapping trong học máy là gì?

Đặc biệt hữu ích để đánh giá chất lượng của một mô hình máy học, bootstrapping là một phương pháp suy luận kết quả cho một tập hợp từ các kết quả được tìm thấy trên một tập hợp các mẫu ngẫu nhiên nhỏ hơn của tập hợp, . .

Làm cách nào để khởi động bằng Python?

Làm cách nào để triển khai Lấy mẫu Bootstrap trong Python? .
Nhập các mô-đun cần thiết. Các mô-đun chúng ta cần là. Nặng nề. .
Tạo dữ liệu ngẫu nhiên. Hãy tạo một phân phối bình thường với giá trị trung bình là 300 và với 1000 mục nhập. .
Sử dụng Lấy mẫu Bootstrap để ước tính giá trị trung bình. Hãy tạo 50 mẫu có kích thước 4 mỗi mẫu để ước tính giá trị trung bình

Làm cách nào để khởi động một tập dữ liệu trong Python?

Quy trình cơ bản để khởi động như sau. .
Lấy k mẫu lặp lại với sự thay thế từ một tập dữ liệu nhất định
Đối với mỗi mẫu, hãy tính số liệu thống kê mà bạn quan tâm
Điều này dẫn đến k ước tính khác nhau cho một thống kê nhất định, sau đó bạn có thể sử dụng ước tính này để tính khoảng tin cậy cho thống kê