Cách tính giá trị đòn bẩy trong excel

Trong phần này, chúng ta tìm hiểu về "đòn bẩy" và cách chúng có thể giúp chúng ta xác định các giá trị cực trị của x. Chúng ta cần có khả năng xác định các giá trị x cực trị, bởi vì trong một số trường hợp nhất định, chúng có thể ảnh hưởng lớn đến hàm hồi quy ước tính

Định nghĩa và tính chất của đòn bẩy

Bạn có thể nhớ lại từ nghiên cứu ngắn gọn của chúng tôi về công thức ma trận của hồi quy rằng mô hình hồi quy có thể được viết ngắn gọn như sau:

\(Y=X\beta+\epsilon\)

Do đó, các câu trả lời dự đoán có thể được biểu diễn bằng ký hiệu ma trận dưới dạng

\(\hat{y}=Xb\)

Và, nếu bạn nhớ lại rằng các hệ số ước tính được biểu diễn dưới dạng ký hiệu ma trận là

\(b = (X^{'}X)^{-1}X^{'}y\)

sau đó bạn có thể thấy rằng các câu trả lời dự đoán có thể được viết cách khác là

\(\hat{y}=X(X^{'}X)^{-1}X^{'}y\)

Nghĩa là, các câu trả lời dự đoán có thể thu được bằng cách nhân trước vectơ cột n × 1, y, chứa các câu trả lời quan sát được bởi ma trận n × n H

\(H=X(X^{'}X)^{-1}X^{'}\)

Đó là

\(\hat{y}=Hy\)

Bạn có thấy tại sao các nhà thống kê gọi ma trận n × n H là "ma trận mũ" không? . Và, tại sao chúng ta quan tâm đến ma trận mũ?

Nếu chúng ta thực sự thực hiện phép nhân ma trận ở vế phải của phương trình này

\(\hat{y}=Hy\)

chúng ta có thể thấy rằng phản hồi dự đoán cho quan sát i có thể được viết dưới dạng tổ hợp tuyến tính của n phản hồi được quan sát \(y_1, y_2, \dots y_n \colon \)

\(\hat{y}_i=h_{i1}y_1+h_{i2}y_2+. +h_{ii}y_i+. + h_{in}y_n  \;\;\;\;\; . , N\)

trong đó các trọng số \(h_{i1} , h_{i2} , \dots h_{ii} \dots h_{in} \colon \) chỉ phụ thuộc vào các giá trị của bộ dự báo. Đó là

\(\hat{y}_1=h_{11}y_1+h_{12}y_2+\cdots+h_{1n}y_n\)
\(\hat{y}_2=h_{21}y_1+h_{22}y_2+\cdots+h_{2n}y_n\)
\(\vdots\)
\(\hat{y}_n=h_{n1}y_1+h_{n2}y_2+\cdots+h_{nn}y_n\)

Bởi vì phản ứng dự đoán có thể được viết là

\(\hat{y}_i=h_{i1}y_1+h_{i2}y_2+. +h_{ii}y_i+. + h_{in}y_n  \;\;\;\;\; . , N\)

đòn bẩy, \(h_{ii}\), định lượng mức độ ảnh hưởng của phản hồi quan sát được \(y_{i}\) đối với giá trị dự đoán của nó \(\hat{y}_i\). Đó là nếu \(h_{ii}\) nhỏ, thì phản hồi quan sát được \(y_{i}\) chỉ đóng một vai trò nhỏ trong giá trị của phản hồi dự đoán \(\hat{y}_i\). Mặt khác, nếu \(h_{ii}\) lớn, thì phản hồi quan sát được \(y_{i}\) đóng vai trò lớn trong giá trị của phản hồi dự đoán \(\hat{y}_i\). Chính vì lý do này mà \(h_{ii}\) được gọi là "đòn bẩy. "

Dưới đây là một số thuộc tính quan trọng của đòn bẩy

  • Đòn bẩy \(h_{ii}\) là thước đo khoảng cách giữa giá trị x cho điểm dữ liệu \(i^{th}\) và giá trị trung bình của giá trị x cho tất cả n điểm dữ liệu
  • Đòn bẩy \(h_{ii}\) là một số từ 0 đến 1, bao gồm
  • Tổng của \(h_{ii}\) bằng p, số lượng tham số (hệ số hồi quy bao gồm cả hệ số chặn)

Dấu đầu dòng đầu tiên chỉ ra rằng đòn bẩy \(h_{ii}\) xác định khoảng cách của giá trị x \(i^{th}\) so với các giá trị x còn lại. Nếu giá trị \(i^{th}\) x ở xa, đòn bẩy \(h_{ii}\) sẽ lớn;

Hãy sử dụng các thuộc tính trên — cụ thể là thuộc tính đầu tiên — để điều tra một vài ví dụ

Ví dụ 11-2 Xem lại

Hãy xem xét lại bộ dữ liệu Influence2 sau đây

Cách tính giá trị đòn bẩy trong excel

lần này chỉ tập trung vào việc liệu có bất kỳ điểm dữ liệu nào có đòn bẩy cao đối với phản hồi dự đoán của chúng hay không. Nghĩa là, có đòn bẩy \(h_{ii}\) nào cao bất thường không?

Hãy xem liệu trực giác của chúng ta có đồng ý với các đòn bẩy hay không. Thay vì xem biểu đồ phân tán của dữ liệu, hãy xem biểu đồ dấu chấm chỉ chứa các giá trị x

Cách tính giá trị đòn bẩy trong excel

Ba trong số các điểm dữ liệu — giá trị x nhỏ nhất, giá trị x gần giá trị trung bình và giá trị x lớn nhất — được gắn nhãn với đòn bẩy tương ứng của chúng. Như bạn có thể thấy, hai giá trị x cách xa giá trị trung bình nhất có đòn bẩy lớn nhất (0. 176 và 0. 163), trong khi giá trị x gần giá trị trung bình nhất có đòn bẩy nhỏ hơn (0. 048). Trên thực tế, nếu chúng ta nhìn vào danh sách sắp xếp các đòn bẩy thu được trong Minitab

HI1

Danh sách đòn bẩy từ Minitab0. 1762970. 1574540. 1270150. 1193130. 0861450. 0777440. 0650280. 0612760. 0481470. 0496280. 0493130. 0518290. 0557600. 0693100. 0725800. 1096160. 1274890. 1411360. 1404530. 1634920. 050974

chúng ta thấy rằng khi chúng ta chuyển từ giá trị x nhỏ sang giá trị x gần giá trị trung bình, đòn bẩy giảm. Và, khi chúng ta chuyển từ giá trị x gần giá trị trung bình sang giá trị x lớn, đòn bẩy lại tăng lên

Bạn cũng có thể lưu ý rằng tổng của tất cả 21 đòn bẩy cộng lại bằng 2, số tham số beta trong mô hình hồi quy tuyến tính đơn giản — như chúng ta mong đợi dựa trên thuộc tính thứ ba được đề cập ở trên

Ví dụ 11-3 Xem lại

Hãy xem xét lại bộ dữ liệu Influence3 sau đây

Cách tính giá trị đòn bẩy trong excel

Trực giác mách bảo bạn điều gì ở đây? . Chắc chắn rồi, có vẻ như điểm dữ liệu màu đỏ phải có giá trị đòn bẩy cao. Hãy xem nào

Một biểu đồ dấu chấm chỉ chứa các giá trị x

Cách tính giá trị đòn bẩy trong excel

lần này kể một câu chuyện khác. Một lần nữa, trong số ba điểm dữ liệu được gắn nhãn, hai giá trị x xa giá trị trung bình nhất có đòn bẩy lớn nhất (0. 153 và 0. 358), trong khi giá trị x gần giá trị trung bình nhất có đòn bẩy nhỏ hơn (0. 048). Nhìn vào danh sách được sắp xếp của các đòn bẩy thu được trong Minitab

HI1

Danh sách đòn bẩy từ Minitab0. 1534810. 1393670. 1162920. 1103820. 0843740. 0775570. 0668790. 0635890. 0500330. 0521210. 0476320. 0481560. 0495570. 0558930. 0575740. 078210. 0885490. 0966340. 09622701100480. 357535

một lần nữa chúng ta thấy rằng khi chúng ta chuyển từ giá trị x nhỏ sang giá trị x gần giá trị trung bình, đòn bẩy giảm. Và, khi chúng ta chuyển từ giá trị x gần giá trị trung bình sang giá trị x lớn, đòn bẩy lại tăng lên. Nhưng, lưu ý rằng lần này, đòn bẩy của giá trị x bị bỏ xa so với các giá trị x còn lại (0. 358) lớn hơn rất nhiều so với tất cả các đòn bẩy còn lại. Điều đòn bẩy này dường như hoạt động

Ồ, và đừng quên lưu ý một lần nữa rằng tổng của tất cả 21 đòn bẩy cộng lại bằng 2, số tham số beta trong mô hình hồi quy tuyến tính đơn giản. Một lần nữa, chúng ta nên mong đợi kết quả này dựa trên thuộc tính thứ ba được đề cập ở trên

Xác định các điểm dữ liệu có giá trị x cực trị

Điều tuyệt vời về đòn bẩy là chúng có thể giúp chúng tôi xác định các giá trị x cực trị và do đó có khả năng ảnh hưởng đến phân tích hồi quy của chúng tôi. Làm sao? . Một quy tắc phổ biến là gắn cờ bất kỳ quan sát nào có giá trị đòn bẩy, \(h_{ii}\), lớn hơn 3 lần so với giá trị đòn bẩy trung bình

\(\bar{h}=\dfrac{\sum_{i=1}^{n}h_{ii}}{n}=\dfrac{p}{n}\)

Đây là quy tắc mà Minitab sử dụng để xác định thời điểm gắn cờ một quan sát. Đó là, nếu

\(h_{ii} >3\left( \dfrac{p}{n}\right)\)

sau đó Minitab gắn cờ các quan sát là "X bất thường" (mặc dù có lẽ sẽ hữu ích hơn nếu Minitab báo cáo "X biểu thị một quan sát có giá trị X mang lại cho nó ảnh hưởng lớn" hoặc "X biểu thị một quan sát có giá trị X mang lại cho nó đòn bẩy lớn")

Cũng như nhiều "quy tắc ngón tay cái" trong thống kê, không phải ai cũng đồng ý về ngưỡng \(3 p/n\) này và bạn có thể thấy \(2 p/n\) được dùng làm ngưỡng thay thế. Một quy tắc ngón tay cái tinh tế sử dụng cả hai điểm giới hạn là xác định bất kỳ quan sát nào có đòn bẩy lớn hơn \(3 p/n\) hoặc nếu không tuân theo điều này, bất kỳ quan sát nào có đòn bẩy lớn hơn \(2 p/n\

Ví dụ 11-3 Xem lại lần nữa

Hãy thử loại trừ đòn bẩy của chúng tôi bằng một hoặc hai ví dụ, bắt đầu với bộ dữ liệu Influence3 này

Cách tính giá trị đòn bẩy trong excel

Tất nhiên, trực giác cho chúng ta biết rằng điểm dữ liệu màu đỏ (x = 14, y = 68) là cực đại đối với . Tuy nhiên, giá trị x có đủ lớn để đảm bảo đánh dấu nó không? .

Trong trường hợp này, có n = 21 điểm dữ liệu và p = 2 tham số (đoạn chặn \(\beta_{0}\) và hệ số góc \(\beta_{1}\)). Vì thế

\(3\left( \frac{p}{n}\right)=3\left( \frac{2}{21}\right)=0. 286\)

Bây giờ, đòn bẩy của điểm dữ liệu — 0. 358 (thu được trong Minitab) — lớn hơn 0. 286. Do đó, điểm dữ liệu phải được gắn cờ là có đòn bẩy cao. Và, đó chính xác là những gì Minitab làm

Phù hợp và chẩn đoán cho các quan sát bất thường

ObsyFitResidStd Resid2168. 0071. 45-3. 45-1. 59X

X bất thường X

Một lời cảnh báo. Hãy nhớ rằng, một điểm dữ liệu chỉ có ảnh hưởng lớn nếu nó ảnh hưởng đến hàm hồi quy ước tính. Như chúng ta đã biết từ việc điều tra tập dữ liệu này trong phần trước, điểm dữ liệu màu đỏ không ảnh hưởng nhiều đến hàm hồi quy ước tính. Đòn bẩy chỉ tính đến mức độ cực đoan của các giá trị x, nhưng một quan sát về đòn bẩy cao có thể thực sự có ảnh hưởng hoặc không

Ví dụ 11-4 Xem lại

Hãy xem quy tắc đòn bẩy hoạt động như thế nào trên tập dữ liệu ảnh hưởng4 này

Cách tính giá trị đòn bẩy trong excel

Tất nhiên, trực giác cho chúng ta biết rằng điểm dữ liệu màu đỏ (x = 13, y = 15) là cực đại đối với . Giá trị x có đủ lớn để đảm bảo gắn cờ nó không?

Một lần nữa, có n = 21 điểm dữ liệu và p = 2 tham số (đoạn chặn \(\beta_{0}\) và độ dốc \(\beta_{1}\)). Vì thế

\(3\left( \frac{p}{n}\right)=3\left( \frac{2}{21}\right)=0. 286\)

Bây giờ, đòn bẩy của điểm dữ liệu — 0. 311 (thu được trong Minitab) —lớn hơn 0. 286. Do đó, điểm dữ liệu phải được gắn cờ là có đòn bẩy cao, vì nó là

Phù hợp và chẩn đoán cho các quan sát bất thường

ObsyFitResidStd Resid2115. 0051. 66-36. 66-4. 23RX

R Lượng dư lớn

X bất thường X

Trong trường hợp này, chúng tôi biết từ cuộc điều tra trước đây của mình rằng điểm dữ liệu màu đỏ thực sự có ảnh hưởng lớn đến hàm hồi quy ước tính. Vì mục đích báo cáo, do đó, nên phân tích dữ liệu hai lần — một lần có và một lần không có điểm dữ liệu màu đỏ — và báo cáo kết quả của cả hai lần phân tích

Một sự khác biệt quan trọng

Có một sự khác biệt quan trọng giữa một điểm dữ liệu có đòn bẩy cao và một điểm có ảnh hưởng lớn đến mức đáng để nói lại một lần nữa

Đòn bẩy trong hồi quy tuyến tính là gì?

Trong thống kê và cụ thể là trong phân tích hồi quy, đòn bẩy là thước đo khoảng cách giữa các giá trị biến độc lập của một quan sát so với giá trị của các quan sát khác.

Khoảng cách của đầu bếp được tính như thế nào?

Khoảng cách của Cook tương đương về mặt đại số với biểu thức sau. D i = r i 2 p M S E ( h i i ( 1 − h i i ) 2 ) , trong đó ri là phần dư thứ i và hii là giá trị đòn bẩy thứ i.

HII trong hồi quy tuyến tính là gì?

Đòn bẩy h i i là số đo khoảng cách giữa giá trị x cho điểm dữ liệu thứ i và giá trị trung bình của giá trị x cho tất cả n điểm dữ liệu. The leverage h i i is a number between 0 and 1, inclusive. The sum of the h i i equals p, the number of parameters (regression coefficients including the intercept).