Hướng dẫn which python function will give the 95% confidence interval? - hàm python nào sẽ cho khoảng tin cậy 95%?

Hướng dẫn tiện dụng về cách tính khoảng tin cậy trong Python

Ảnh của Edge2Edge Media trên unplash

Khi chúng ta đo lường một cái gì đó, chúng ta luôn phải tính toán độ không đảm bảo của kết quả. Khoảng tin cậy là một công cụ rất hữu ích để tính toán một phạm vi mà chúng ta có thể tìm thấy giá trị thực của người quan sát được với một sự tự tin nhất định.

Khoảng tin cậy là gì?

Hãy tưởng tượng bạn hỏi tôi chiều cao của tôi. Tôi có thể nói rằng tôi cao 1,93 m, nhưng tôi không cung cấp cho bạn bất kỳ thông tin nào về sự không chắc chắn của biện pháp này. Khoảng tin cậy là các khoảng trong đó chúng ta có một sự tự tin nhất định để tìm ra giá trị thực của chúng ta có thể quan sát được. Các nhà khoa học thường tìm kiếm khoảng tin cậy 95%, nhưng nó rất phổ biến để sử dụng 90% hoặc thậm chí 99%. Vì vậy, khi bạn hỏi tôi về chiều cao của tôi, tôi nên trả lời bạn với ước tính lỗi hoặc với khoảng tin cậy, như là với độ tin cậy 95%, tôi đã từ 1,92 m đến 1,93 m.

Đó là những gì mà công cụ này cung cấp cho chúng ta: một khoảng cách tìm thấy giá trị thực của người có thể quan sát được.

Một số thuộc tính hữu ích của khoảng tin cậy là:

  • Khắc phục sự tự tin, khoảng thời gian trở nên hẹp hơn và hẹp hơn khi kích thước mẫu tăng. Nó là do luật của số lượng lớn
  • Khắc phục số lượng điểm trong mẫu, khoảng thời gian trở nên rộng hơn và rộng hơn khi độ tin cậy tăng lên. Vì vậy, để có sự tự tin lớn hơn, chúng ta phải có một khoảng thời gian lớn hơn.

Trong khoa học dữ liệu và thống kê, khoảng tin cậy rất hữu ích để đưa ra kết quả khoa học của biện pháp của chúng tôi, có thể được các nhà khoa học khác sử dụng để so sánh kết quả của họ với chúng ta.

Công thức khoảng tin cậy

Trong bài viết này, Illll đề cập đến việc tính toán khoảng tin cậy về giá trị trung bình của một mẫu, đó là ước tính của giá trị dân số dự kiến.

Cho m giá trị trung bình, s Độ lệch chuẩn mẫu và n cỡ mẫu, khoảng tin cậy được xác định bởi công thức sau:

Có một tham số T, như bạn có thể thấy, có liên quan đến sự tự tin mà chúng tôi muốn. Việc tính toán tham số này có thể được thực hiện theo những cách khác nhau. Nếu cỡ mẫu của chúng tôi nhỏ (nghĩa là ít hơn 30 điểm), chúng tôi có thể sử dụng phân phối sinh viên T T để tính toán nó. Với sự tự tin, chúng ta phải chọn giá trị đó của T cung cấp một khu vực phân phối trong khoảng [-t, t] tương đương với sự tự tin của chúng ta.

Nói về mặt toán học, được đưa ra một giá trị độ tin cậy bằng C, giá trị tương ứng của t là:

Trong đó I (x) là chức năng phân phối tích lũy nghịch đảo của học sinh với các mức độ tự do N-1. Trên thực tế, nó có giá trị mà tại đó đuôi phải của phân phối bằng một nửa diện tích còn lại sau khi chúng tôi trừ độ tin cậy từ 1. Cách này, khu vực bao gồm giữa các đuôi bằng với độ tin cậy mà chúng tôi muốn.

Nếu cỡ mẫu lớn (nghĩa là lớn hơn 30 điểm), chúng ta có thể xấp xỉ phân phối sinh viên với phân phối bình thường và quên đi mức độ tự do.

Lý do đằng sau các phân phối này là hậu quả của định lý giới hạn trung tâm. Giá trị trung bình của một mẫu hoạt động, đối với các mẫu lớn, giống như biến Gaussian (nếu các biện pháp độc lập và dân số có phương sai hữu hạn). Đối với kích thước mẫu nhỏ, chúng tôi sử dụng phân phối sinh viên T T.

Sử dụng bootstrap

Ai theo dõi các bài viết của tôi biết rằng tôi thực sự yêu thích kỹ thuật bootstrap. Điều đó bởi vì nó là một thuật toán không thiên vị mà không đưa ra bất kỳ giả định nào về việc phân phối bộ dữ liệu của chúng tôi.

Chúng ta có thể sử dụng Bootstrap để tính toán khoảng tin cậy cũng bằng cách sử dụng quy trình đơn giản này:

  1. Tạo một mẫu mới dựa trên bộ dữ liệu của chúng tôi, với sự thay thế và với cùng một số điểm
  2. Tính giá trị trung bình và lưu trữ nó trong một mảng hoặc danh sách
  3. Lặp lại quá trình nhiều lần (ví dụ: 1000)
  4. Trên danh sách các giá trị trung bình, hãy tính phần trăm 2,5 và 97,5 phần trăm (nếu bạn muốn khoảng tin cậy 95%)

Bootstrap cho chúng ta một ước tính không thiên vị, trả chi phí của một thuật toán phức tạp về mặt tính toán. Tôi thích sử dụng nó khi nó không phải là vấn đề để mã hóa một thuật toán như vậy, nhưng bạn thường có thể sử dụng công thức ban đầu một cách an toàn trong hầu hết mọi tình huống.

Máy tính khoảng tin cậy trong Python

Bây giờ, hãy để tính toán khoảng tin cậy trong Python bằng cách sử dụng phân phối sinh viên T T và kỹ thuật bootstrap.

Hãy để nhập khẩu một số thư viện hữu ích.

import numpy as np 
from scipy.stats import t

Bây giờ, hãy mô phỏng một bộ dữ liệu được tạo bằng 100 số được trích xuất từ ​​phân phối bình thường.

x = np.random.normal(size=100)

Hãy để chúng tôi thấy chúng tôi muốn tính toán khoảng tin cậy 95% của giá trị trung bình. Hãy để tính toán tất cả các số chúng ta cần theo công thức của khoảng tin cậy.

m = x.mean() 
s = x.std()
dof = len(x)-1
confidence = 0.95

Bây giờ chúng ta cần giá trị của t. Hàm tính toán phân phối tích lũy nghịch đảo là PPF. Chúng ta cần áp dụng giá trị tuyệt đối vì phân phối tích lũy hoạt động với đuôi trái, vì vậy kết quả sẽ âm.

t_crit = np.abs(t.ppf((1-confidence)/2,dof))

Bây giờ, chúng ta có thể áp dụng công thức ban đầu để tính khoảng tin cậy 95%.

(m-s*t_crit/np.sqrt(len(x)), m+s*t_crit/np.sqrt(len(x))) # (-0.14017768797464097, 0.259793719043611)

Chúng tôi biết điều đó đúng vì phân phối bình thường có nghĩa 0, nhưng nếu chúng tôi không biết gì về dân số, chúng tôi có thể nói rằng, với độ tin cậy 95%, giá trị dự kiến ​​của dân số nằm trong khoảng -0,14 đến 0,26.

Chúng ta có thể đã đạt được kết quả tương tự bằng cách sử dụng bootstrap, không thiên vị. Trong ví dụ này, tôi tạo 1000 respample của bộ dữ liệu của chúng tôi (với sự thay thế).

values = [np.random.choice(x,size=len(x),replace=True).mean() for i in range(1000)] np.percentile(values,[100*(1-confidence)/2,100*(1-(1-confidence)/2)]) # array([-0.13559955, 0.26480175])

Như chúng ta có thể thấy, kết quả gần như bằng với kết quả chúng ta đã đạt được với công thức đóng.

Kết luận

Khoảng tin cậy rất dễ tính toán và có thể cung cấp một cái nhìn sâu sắc rất hữu ích cho các nhà phân tích dữ liệu và nhà khoa học. Họ đưa ra ước tính lỗi rất mạnh và, nếu được sử dụng chính xác, thực sự có thể giúp chúng tôi trích xuất càng nhiều thông tin càng tốt từ dữ liệu của chúng tôi.

Gianluca Malato là một nhà khoa học dữ liệu, người dạy học máy và khoa học dữ liệu trên www.yourdatateacher.com.

Công thức tính toán khoảng tin cậy 95% là gì?

Do 95% giá trị nằm trong hai độ lệch chuẩn của giá trị trung bình theo quy tắc 68-95-99.7, chỉ cần thêm và trừ hai độ lệch chuẩn so với giá trị trung bình để có được khoảng tin cậy 95%.add and subtract two standard deviations from the mean in order to obtain the 95% confidence interval.

Chức năng Python nào sẽ cung cấp khoảng tin cậy 90%?

Trong ví dụ này, chúng tôi sẽ sử dụng tập dữ liệu có kích thước (n = 20) và sẽ tính toán khoảng tin cậy 90% bằng cách sử dụng phân phối T bằng hàm t.Interval () và chuyển tham số alpha đến 0,90 trong Python.t. interval() function and passing the alpha parameter to 0.90 in the python.