Python tính toán khoảng tin cậy để dự đoán như thế nào?

Khoảng tin cậy là một loại ước tính được tính toán từ số liệu thống kê của dữ liệu được quan sát, cung cấp một loạt các giá trị có khả năng chứa tham số tổng thể với mức độ tin cậy cụ thể

Khoảng tin cậy cho giá trị trung bình là một phạm vi giá trị mà giá trị trung bình của tổng thể có thể nằm trong khoảng đó. Nếu tôi đưa ra dự đoán thời tiết cho ngày mai ở đâu đó trong khoảng từ -100 độ đến +100 độ, tôi có thể chắc chắn 100% rằng điều này sẽ đúng. Tuy nhiên, nếu tôi đưa ra dự đoán là từ 20. 4 và 20. 5 độ C, tôi kém tự tin. Lưu ý cách độ tin cậy giảm, khi khoảng thời gian giảm. Điều tương tự cũng áp dụng cho khoảng tin cậy thống kê, nhưng chúng cũng dựa vào các yếu tố khác

Khoảng tin cậy 95%, sẽ cho tôi biết rằng nếu chúng ta lấy vô số mẫu từ dân số của tôi, tính khoảng thời gian mỗi lần, thì trong 95% các khoảng đó, khoảng sẽ chứa trung bình dân số thực. Vì vậy, với một mẫu, chúng ta có thể tính giá trị trung bình của mẫu và từ đó lấy một khoảng xung quanh nó, rất có thể sẽ chứa giá trị trung bình của tổng thể thực

Khu vực dưới hai đường màu đen cho thấy khoảng tin cậy 95%

Khoảng tin cậy là một khái niệm được đưa ra bởi Jerzy Neyman trong một bài báo xuất bản năm 1937. Có nhiều loại khoảng tin cậy, một số loại được sử dụng phổ biến nhất là. CI cho giá trị trung bình, CI cho số trung vị, CI cho sự khác biệt giữa các giá trị trung bình, CI cho tỷ lệ và CI cho sự khác biệt về tỷ lệ

Hãy xem điều này diễn ra như thế nào với Python

máy tính C. Tôi đã đưa ra bản phân phối cơ bản bằng cách sử dụng lineplot[]

Hàm lineplot[] có sẵn trong Seaborn, một thư viện trực quan hóa dữ liệu cho Python là tốt nhất để hiển thị các xu hướng trong một khoảng thời gian, tuy nhiên, nó cũng giúp vẽ sơ đồ khoảng tin cậy

cú pháp

sns. lineplot[x=None, y=None, hue=None, size=None, style=None, data=None, palette=None, hue_order=None, hue_norm=None, dimensions=None, size_order=None, size_norm=None,

Thông số

  • x, y. Các biến dữ liệu đầu vào; . Có thể truyền dữ liệu trực tiếp hoặc cột tham chiếu trong dữ liệu
  • màu sắc. Biến nhóm sẽ tạo ra các dòng có màu khác nhau. Có thể là phân loại hoặc số, mặc dù ánh xạ màu sẽ hoạt động khác trong trường hợp sau
  • Phong cách. Biến nhóm sẽ tạo ra các dòng có dấu gạch ngang và/hoặc dấu khác nhau. Có thể có một dtype số nhưng sẽ luôn được coi là phân loại
  • dữ liệu. Khung dữ liệu [“dạng dài”] gọn gàng trong đó mỗi cột là một biến và mỗi hàng là một quan sát
  • đánh dấu. Đối tượng xác định cách vẽ các điểm đánh dấu cho các cấp độ khác nhau của biến kiểu
  • truyền thuyết. Cách vẽ huyền thoại. Nếu các biến "brief", số "hue" và "size" sẽ được biểu diễn bằng một mẫu gồm các giá trị cách đều nhau

Trở về. Đối tượng Axes chứa đồ thị

Theo mặc định, biểu đồ tổng hợp trên nhiều giá trị y tại mỗi giá trị của x và hiển thị ước tính về xu hướng trung tâm và khoảng tin cậy cho ước tính đó

Thí dụ

Python3




# import libraries

import numpy as np

import seaborn as sns

import matplotlib.pyplot as plt

 

________số 8

np.random.seed[import0import1

import2import3 import4import0import6import7import6import9import1

numpy as np1import3 import2_______24numpy as np5import0import6numpy as np8import6import9import1

 

import3

import4import3 import6

Trong đoạn mã trên, biến x sẽ lưu trữ 100 số nguyên ngẫu nhiên từ 0 [bao gồm] đến 30 [loại trừ] và biến y sẽ lưu trữ 100 mẫu từ phân phối Gaussian [Bình thường] có tâm là 0 với độ lệch chuẩn/độ lệch chuẩn 1. Các thao tác NumPy thường được thực hiện trên các cặp mảng trên cơ sở từng phần tử. Trong trường hợp đơn giản nhất, hai mảng phải có hình dạng hoàn toàn giống nhau, như trong ví dụ trên. Cuối cùng, một biểu đồ đường được tạo với sự trợ giúp của thư viện seaborn với khoảng tin cậy 95% theo mặc định. Khoảng tin cậy có thể dễ dàng thay đổi bằng cách thay đổi giá trị của tham số ‘ci’ nằm trong khoảng [0, 100], ở đây mình chưa truyền tham số này nên nó coi giá trị mặc định là 95

Bóng màu xanh nhạt cho biết mức độ tin cậy xung quanh điểm đó nếu nó có độ tin cậy cao hơn, đường bóng mờ sẽ dày hơn

máy tính C. I. đưa ra phân phối cơ bản bằng cách sử dụng regplot[]

sinh ra biển. regplot[] giúp vẽ dữ liệu và phù hợp với mô hình hồi quy tuyến tính. Hàm này cũng cho phép vẽ khoảng tin cậy

cú pháp

sinh ra biển. regplot[ x,  y,  data=None, x_estimator=None, x_bins=None,  x_ci='ci', scatter=True, fit_reg=True, ci=95, n_boot=1000, units=None, order=1, logistic=

Thông số. Mô tả của một số thông số chính được đưa ra dưới đây

  • x, y. Đây là các biến đầu vào. Nếu là chuỗi, chúng phải tương ứng với tên cột trong “dữ liệu”. Khi các đối tượng gấu trúc được sử dụng, các trục sẽ được gắn nhãn bằng tên sê-ri
  • dữ liệu. Đây là khung dữ liệu trong đó mỗi cột là một biến và mỗi hàng là một quan sát
  • hạ đẳng. [tùy chọn] Tham số này nhận giá trị boolean. Nếu “Đúng”, hãy sử dụng “mô hình thống kê” để ước tính mô hình mức thấp không tham số [hồi quy tuyến tính có trọng số cục bộ]
  • màu sắc. [tùy chọn] Màu để áp dụng cho tất cả các thành phần cốt truyện
  • đánh dấu. [tùy chọn] Điểm đánh dấu để sử dụng cho biểu tượng biểu đồ phân tán

Trở về. Đối tượng Axes chứa đồ thị

Về cơ bản, nó bao gồm một đường hồi quy trong biểu đồ phân tán và giúp nhìn thấy bất kỳ mối quan hệ tuyến tính nào giữa hai biến. Ví dụ dưới đây sẽ chỉ ra cách nó cũng có thể được sử dụng để vẽ khoảng tin cậy

Thí dụ

Python3




# import libraries

import numpy as np

import seaborn as sns

import matplotlib.pyplot as plt

 

seaborn as sns5

np.random.seed[import0import1

import2import3 import4import0import6import4import6import4import1

numpy as np1import3 import2_______24numpy as np5import0import6numpy as np8import6import4import1

 

 0

import4import3  3import3 5import1

Hàm regplot[] hoạt động giống như hàm lineplot[] với khoảng tin cậy 95% theo mặc định. Có thể dễ dàng thay đổi khoảng tin cậy bằng cách thay đổi giá trị của tham số 'ci' nằm trong khoảng [0, 100]. Ở đây tôi đã chuyển ci=80 có nghĩa là thay vì khoảng tin cậy 95% mặc định, khoảng tin cậy 80% được vẽ

Chiều rộng của bóng màu xanh lam nhạt cho biết mức độ tin cậy xung quanh đường hồi quy

máy tính C. I. sử dụng Bootstrapping

Bootstrapping là một bài kiểm tra/số liệu sử dụng lấy mẫu ngẫu nhiên có thay thế. Nó đưa ra thước đo độ chính xác [độ lệch, phương sai, khoảng tin cậy, lỗi dự đoán, v.v. ] để ước tính mẫu. Nó cho phép ước tính phân phối lấy mẫu cho hầu hết các số liệu thống kê bằng phương pháp lấy mẫu ngẫu nhiên. Nó cũng có thể được sử dụng để xây dựng các bài kiểm tra giả thuyết.  

Thí dụ

Python3




# import libraries

import  9

import # generate random data1

# generate random data2 # generate random data3______1 # generate random data5

# generate random data2 # generate random data7import # generate random data9

# generate random data2 np.random.seed[1import np.random.seed[3

 

np.random.seed[5

import2__import3 np.random.seed[8np.random.seed[9import6import01import6import03import6import05import6import07import6import09import6import11import6import13import6import15import6import17import18

 

import20

import21import3 import23 import24

import25import3 import27import28import29import30

 

import32

import33import3 import35import36

import37 import38import39 import40import41

import42import43import3 import45import3import47

import42import49import3 import51

import42import53

 

import55

import56

import57

 

import59

import60import3 import62

import63import3 import65_______166import67import68import69import70import1import72 import9

import74importimport76

import63import3 import79numpy as np4import65import66import67import68import69import70import87import72 import9

import90importimport76

 

import94import95import96import1

Sau khi nhập tất cả các thư viện cần thiết, hãy tạo một mẫu S có kích thước n=10 và lưu trữ nó trong một biến x. Sử dụng một vòng lặp đơn giản tạo ra 1000 mẫu nhân tạo [=k] với kích thước mỗi mẫu m=10 [vì m

Chủ Đề