Khoảng tin cậy là một loại ước tính được tính toán từ số liệu thống kê của dữ liệu được quan sát, cung cấp một loạt các giá trị có khả năng chứa tham số tổng thể với mức độ tin cậy cụ thể
Khoảng tin cậy cho giá trị trung bình là một phạm vi giá trị mà giá trị trung bình của tổng thể có thể nằm trong khoảng đó. Nếu tôi đưa ra dự đoán thời tiết cho ngày mai ở đâu đó trong khoảng từ -100 độ đến +100 độ, tôi có thể chắc chắn 100% rằng điều này sẽ đúng. Tuy nhiên, nếu tôi đưa ra dự đoán là từ 20. 4 và 20. 5 độ C, tôi kém tự tin. Lưu ý cách độ tin cậy giảm, khi khoảng thời gian giảm. Điều tương tự cũng áp dụng cho khoảng tin cậy thống kê, nhưng chúng cũng dựa vào các yếu tố khác
Khoảng tin cậy 95%, sẽ cho tôi biết rằng nếu chúng ta lấy vô số mẫu từ dân số của tôi, tính khoảng thời gian mỗi lần, thì trong 95% các khoảng đó, khoảng sẽ chứa trung bình dân số thực. Vì vậy, với một mẫu, chúng ta có thể tính giá trị trung bình của mẫu và từ đó lấy một khoảng xung quanh nó, rất có thể sẽ chứa giá trị trung bình của tổng thể thực
Khu vực dưới hai đường màu đen cho thấy khoảng tin cậy 95%
Khoảng tin cậy là một khái niệm được đưa ra bởi Jerzy Neyman trong một bài báo xuất bản năm 1937. Có nhiều loại khoảng tin cậy, một số loại được sử dụng phổ biến nhất là. CI cho giá trị trung bình, CI cho số trung vị, CI cho sự khác biệt giữa các giá trị trung bình, CI cho tỷ lệ và CI cho sự khác biệt về tỷ lệ
Hãy xem điều này diễn ra như thế nào với Python
máy tính C. Tôi đã đưa ra bản phân phối cơ bản bằng cách sử dụng lineplot[]
Hàm lineplot[] có sẵn trong Seaborn, một thư viện trực quan hóa dữ liệu cho Python là tốt nhất để hiển thị các xu hướng trong một khoảng thời gian, tuy nhiên, nó cũng giúp vẽ sơ đồ khoảng tin cậy
cú pháp
sns. lineplot[x=None, y=None, hue=None, size=None, style=None, data=None, palette=None, hue_order=None, hue_norm=None, dimensions=None, size_order=None, size_norm=None,
Thông số
- x, y. Các biến dữ liệu đầu vào; . Có thể truyền dữ liệu trực tiếp hoặc cột tham chiếu trong dữ liệu
- màu sắc. Biến nhóm sẽ tạo ra các dòng có màu khác nhau. Có thể là phân loại hoặc số, mặc dù ánh xạ màu sẽ hoạt động khác trong trường hợp sau
- Phong cách. Biến nhóm sẽ tạo ra các dòng có dấu gạch ngang và/hoặc dấu khác nhau. Có thể có một dtype số nhưng sẽ luôn được coi là phân loại
- dữ liệu. Khung dữ liệu [“dạng dài”] gọn gàng trong đó mỗi cột là một biến và mỗi hàng là một quan sát
- đánh dấu. Đối tượng xác định cách vẽ các điểm đánh dấu cho các cấp độ khác nhau của biến kiểu
- truyền thuyết. Cách vẽ huyền thoại. Nếu các biến "brief", số "hue" và "size" sẽ được biểu diễn bằng một mẫu gồm các giá trị cách đều nhau
Trở về. Đối tượng Axes chứa đồ thị
Theo mặc định, biểu đồ tổng hợp trên nhiều giá trị y tại mỗi giá trị của x và hiển thị ước tính về xu hướng trung tâm và khoảng tin cậy cho ước tính đó
Thí dụ
Python3
# import libraries
import
numpy as np
import
seaborn as sns
import
matplotlib.pyplot as plt
________số 8
np.random.seed[
import
0import
1
import
2import
3 import
4import
0import
6import
7import
6import
9import
1
numpy as np
1import
3 import
2_______24numpy as np
5import
0import
6numpy as np
8import
6import
9import
1
import
3
import
4import
3 import
6
Trong đoạn mã trên, biến x sẽ lưu trữ 100 số nguyên ngẫu nhiên từ 0 [bao gồm] đến 30 [loại trừ] và biến y sẽ lưu trữ 100 mẫu từ phân phối Gaussian [Bình thường] có tâm là 0 với độ lệch chuẩn/độ lệch chuẩn 1. Các thao tác NumPy thường được thực hiện trên các cặp mảng trên cơ sở từng phần tử. Trong trường hợp đơn giản nhất, hai mảng phải có hình dạng hoàn toàn giống nhau, như trong ví dụ trên. Cuối cùng, một biểu đồ đường được tạo với sự trợ giúp của thư viện seaborn với khoảng tin cậy 95% theo mặc định. Khoảng tin cậy có thể dễ dàng thay đổi bằng cách thay đổi giá trị của tham số ‘ci’ nằm trong khoảng [0, 100], ở đây mình chưa truyền tham số này nên nó coi giá trị mặc định là 95
Bóng màu xanh nhạt cho biết mức độ tin cậy xung quanh điểm đó nếu nó có độ tin cậy cao hơn, đường bóng mờ sẽ dày hơn
máy tính C. I. đưa ra phân phối cơ bản bằng cách sử dụng regplot[]
sinh ra biển. regplot[] giúp vẽ dữ liệu và phù hợp với mô hình hồi quy tuyến tính. Hàm này cũng cho phép vẽ khoảng tin cậy
cú pháp
sinh ra biển. regplot[ x, y, data=None, x_estimator=None, x_bins=None, x_ci='ci', scatter=True, fit_reg=True, ci=95, n_boot=1000, units=None, order=1, logistic=
Thông số. Mô tả của một số thông số chính được đưa ra dưới đây
- x, y. Đây là các biến đầu vào. Nếu là chuỗi, chúng phải tương ứng với tên cột trong “dữ liệu”. Khi các đối tượng gấu trúc được sử dụng, các trục sẽ được gắn nhãn bằng tên sê-ri
- dữ liệu. Đây là khung dữ liệu trong đó mỗi cột là một biến và mỗi hàng là một quan sát
- hạ đẳng. [tùy chọn] Tham số này nhận giá trị boolean. Nếu “Đúng”, hãy sử dụng “mô hình thống kê” để ước tính mô hình mức thấp không tham số [hồi quy tuyến tính có trọng số cục bộ]
- màu sắc. [tùy chọn] Màu để áp dụng cho tất cả các thành phần cốt truyện
- đánh dấu. [tùy chọn] Điểm đánh dấu để sử dụng cho biểu tượng biểu đồ phân tán
Trở về. Đối tượng Axes chứa đồ thị
Về cơ bản, nó bao gồm một đường hồi quy trong biểu đồ phân tán và giúp nhìn thấy bất kỳ mối quan hệ tuyến tính nào giữa hai biến. Ví dụ dưới đây sẽ chỉ ra cách nó cũng có thể được sử dụng để vẽ khoảng tin cậy
Thí dụ
Python3
# import libraries
import
numpy as np
import
seaborn as sns
import
matplotlib.pyplot as plt
seaborn as sns
5
np.random.seed[
import
0import
1
import
2import
3 import
4import
0import
6import
4import
6import
4import
1
numpy as np
1import
3 import
2_______24numpy as np
5import
0import
6numpy as np
8import
6import
4import
1
0
import
4import
3
3import
3
5import
1
Hàm regplot[] hoạt động giống như hàm lineplot[] với khoảng tin cậy 95% theo mặc định. Có thể dễ dàng thay đổi khoảng tin cậy bằng cách thay đổi giá trị của tham số 'ci' nằm trong khoảng [0, 100]. Ở đây tôi đã chuyển ci=80 có nghĩa là thay vì khoảng tin cậy 95% mặc định, khoảng tin cậy 80% được vẽ
Chiều rộng của bóng màu xanh lam nhạt cho biết mức độ tin cậy xung quanh đường hồi quy
máy tính C. I. sử dụng Bootstrapping
Bootstrapping là một bài kiểm tra/số liệu sử dụng lấy mẫu ngẫu nhiên có thay thế. Nó đưa ra thước đo độ chính xác [độ lệch, phương sai, khoảng tin cậy, lỗi dự đoán, v.v. ] để ước tính mẫu. Nó cho phép ước tính phân phối lấy mẫu cho hầu hết các số liệu thống kê bằng phương pháp lấy mẫu ngẫu nhiên. Nó cũng có thể được sử dụng để xây dựng các bài kiểm tra giả thuyết.
Thí dụ
Python3
# import libraries
import
9
import
# generate random data
1
# generate random data
2 # generate random data
3______1 # generate random data
5
# generate random data
2 # generate random data
7import
# generate random data
9
# generate random data
2 np.random.seed[
1import
np.random.seed[
3
np.random.seed[
5
import
2__import
3 np.random.seed[
8np.random.seed[
9import
6import
01import
6import
03import
6import
05import
6import
07import
6import
09import
6import
11import
6import
13import
6import
15import
6import
17import
18
import
20
import
21import
3 import
23 import
24
import
25import
3 import
27import
28import
29import
30
import
32
import
33import
3 import
35import
36
import
37 import
38import
39 import
40import
41
import
42import
43import
3 import
45import
3import
47
import
42import
49import
3 import
51
import
42import
53
import
55
import
56
import
57
import
59
import
60import
3 import
62
import
63import
3 import
65_______166import
67import
68import
69import
70import
1import
72 import
9
import
74import
3 import
76
import
63import
3 import
79numpy as np
4import
65import
66import
67import
68import
69import
70import
87import
72 import
9
import
90import
3 import
76
import
94import
95import
96import
1
Sau khi nhập tất cả các thư viện cần thiết, hãy tạo một mẫu S có kích thước n=10 và lưu trữ nó trong một biến x. Sử dụng một vòng lặp đơn giản tạo ra 1000 mẫu nhân tạo [=k] với kích thước mỗi mẫu m=10 [vì m