Hồi quy dữ liệu là gì

I. GIỚI THIỆU VỀ DỮ LIỆU BẢNG

Mục đích của đa số các nghiên cứu thực nghiệm trong kinh tế là giải thích mối quan hệ giữa một biến phụ thuộc Y, theo một hay nhiều biến giải thích \[{X_1}\], \[{X_2}\] , …, \[{X_k}\]. Nói cách khác, chúng ta muốn biết sự tác động của \[{X_i}\] lên Y như thế nào, cả chiều hướng lẫn độ lớn của tác động. Trả lời câu hỏi này, chúng ta phải thu thập mẫu để có được kết quả ước lượng[1] không chệch tác động của X lên Y.

Để kết quả ước lượng là không thiên chệch đòi hỏi chúng ta phải kiểm soát các biến nhiễu [confounding variables], cả các biến quan sát được lẫn các biến không quan sát được. Đối với các biến nhiễu quan sát được, chúng ta có thể sử dụng mô hình hồi quy tuyến tính đa biến cổ điển [MCLR]. Đối với các biến nhiễu không quan sát được, tuỳ vào đặc điểm khác nhau giữa các đối tượng và thời gian mà chúng ta lựa chọn mô hình hồi quy tác động cố định hay tác động ngẫu nhiên. Đối với các biến không quan sát được mà giá trị của nó khác nhau giữa các đối tượng nhưng không thay đổi theo thời gian thì mô hình hồi quy tác động cố định là phù hợp. Cả hai mô hình hồi quy này đòi hỏi chúng ta phải sử dụng dữ liệu bảng.

Dữ liệu bảng đôi khi còn được gọi là dữ liệu dài [longitudinal data]. Dữ liệu bảng là sự kết hợp của dữ liệu chéo [cross-section] và dữ liệu thời gian [time series]. Để thu thập dữ liệu bảng, chúng ta phải thu thập nhiều đối tượng [units] giống nhau trong cùng một hoặc nhiều thời điểm. Chẳng hạn, chúng ta có thể thu thập các dữ liệu của cùng các cá nhân, công ty, trường học, thành phố, quốc gia… trong giai đoạn từ năm 2000 đến 2014.

1.

Ưu điểm của dữ liệu bảng

Dữ liệu bảng có nhiều ưu điểm so với dữ liệu chéo và dữ liệu thời gian. Cụ thể, dữ liệu bảng có 2 ưu điểm nổi trội như sau:

1. Dữ liệu bảng cho các kết quả ước lượng các của tham số trong mô hình tin cậy hơn. Điều này có thể được giải thích bởi:

  • Dữ liệu bảng cho phép chúng ta kiểm soát các yếu tố không quan sát được. Các yếu tố này có thể khác nhau giữa đối tượng nhưng không thay đổi theo thời gian hoặc thay đổi theo thời gian nhưng lại không khác nhau giữa các đối tượng. Điều này có thể rất cần thiết để giảm sự thiên chệch trong ước lượng.
  • Thông thường có nhiều sự biến động trong dữ liệu bảng hơn dữ liệu chéo hoặc dữ liệu thời gian. Sự biến động trong dữ liệu của các biến giải thích càng nhiều thì độ chính xác của các ước lượng càng cao.
  • Thông thường, có ít sự đa cộng tuyến giữa các biến giải thích khi sử dụng dữ liệu bảng hơn so với sử dụng riêng rẻ dữ liệu thời gian hoặc dữ liệu chéo. Điều này cũng có thể làm cho kết quả của việc ước lượng các tham số dữ liệu bảng chính xác hơn.

2. Dữ liệu bảng cho phép chúng ta xác định và đo lường tác động mà những tác động này không thể được xác định và đo lường khi sử dụng sử dụng chéo hoặc dữ liệu thời gian.

Chẳng hạn, giả sử mục đích của chúng ta là ước lượng một hàm sản xuất để đánh giá lợi thế kinh tế theo quy mô và cải tiến công nghệ ở một ngành công nghiệp cụ thể.

  • Với dữ liệu chéo, chúng ta có thể dự báo được sự thay đổi công nghệ.
  • Với dữ liệu thời gian, chúng ta không thể tách riêng được lợi thế kinh tế theo quy mô từ sự thay đổi công nghệ. Để tách riêng lợi thế kinh tế theo quy mô từ sự thay đổi công nghệ, các nghiên cứu dữ liệu thời gian trong quá khứ đã giả định rằng lợi thế không đổi theo quy mô; Tuy nhiên, đây sẽ là một phương pháp rất không đáng tin cậy.
  • Với dữ liệu bảng, chúng ta có thể xác định và đo lường cả hai yếu tố lợi thế kinh tế theo quy mô và sự thay đổi công nghệ.
2.

Các ví dụ về dữ liệu bảng

Ví dụ 1: Mục tiêu của chúng ta là sử dụng dữ liệu mẫu về độ tuổi lao động để ước lượng đúng [không chệch] tác động của trình độ giáo dục lên mức lương của người lao động. Chúng ta tin rằng có các yếu tố quan trọng nhất tác động đến mức lương là trình độ giáo dục, kinh nghiệm làm việc và các kỹ năng bẩm sinh. Kinh nghiệm làm việc là một biến có thể quan sát được. Biến kỹ năng bẩm sinh là một biến không quan sát được. Chúng ta không thể quan sát các kỹ năng bẩm sinh và thu thập dữ liệu cho nó, và do vậy, không thể kiểm soát nó như là một biến giải thích trong mô hình. Tuy nhiên, chúng ta tin rằng các kĩ năng bẩm sinh này sẽ khác nhau giữa những người lao động, nhưng không thay đổi theo thời gian.

Vì vậy, nếu chúng ta có thể thu thập được dữ liệu bảng về thông tin mức lương, trình độ giáo dục, và kinh nghiệm làm việc, chúng ta có thể lựa chọn một mô hình tác động cố định và kiểm soát thống kê yếu tố kỹ năng bẩm sinh này.

Ví dụ 2: Mục đích của chúng ta là phân tích mối quan hệ giữa mức thu nhập [income], phạm vi bảo hiểm, và mức chi tiêu chăm sóc sức khoẻ tại Mỹ. Chúng ta muốn biết nếu thu nhập và phạm vi bảo hiểm có tác động lên mức chi tiêu cho chăm sóc sức khoẻ không và nếu có thì xu hướng và mức độ tác động là như thế nào. Chúng ta có dữ liệu về mức chi tiêu chăm sóc sức khoẻ bình quân đầu người, thu nhập bình quân đầu người và phần trăm dân số có bảo hiểm sức khoẻ ở 50 bang trong giai đoạn từ năm 1991 đến năm 2000. Chúng ta tin rằng có rất nhiều yếu tố tác động đến chi tiêu chăm sóc sức khoẻ và chúng có tương quan với mức thu nhập và bảo hiểm chăm sóc sức khoẻ. Bằng cách sử dụng dữ liệu bảng, chúng ta có thể kiểm soát những yếu tố này [khác nhau giữa các bang nhưng không thay đổi theo thời gian, và thay đổi theo thời gian nhưng không đổi giữa các bang].

3.

Cách ước lượng mô hình dữ liệu bảng

Dữ liệu bảng có thể được ước lượng qua 3 cách phổ biến như sau:

Việc lựa chọn một ước lượng/mô hình phù hợp sẽ được trình bày ở bài Lựa chọn mô hình.

CHÚ THÍCH

[1] Ước lượng [Estimation]: Dữ liệu mẫu được sử dụng để có được đánh giá của các thông số tổng thể chưa biết của mô hình kinh tế lượng, \[{\beta _1}\], \[{\beta _2}\], … \[{\beta _k}\]. Để có được đánh giá của các thông số, chúng ta phải chọn một ước lượng. Một ước lượng là một quy tắc hay công thức cho chúng ta biết làm thế nào để sử dụng các dữ liệu mẫu nhằm có được một đánh giá của một tham số tổng thể. Một ước lượng chính xác và đáng tin cậy sẽ cho một kết quả đánh giá càng gần nhất với giá trị thực sự của tham số tổng thể.

Bài liên quan

Loading Preview

Sorry, preview is currently unavailable. You can download the paper by clicking the button above.

Phân tích hồi quy là một phân tích thống kê để xác định xem các biến độc lập [biến thuyết minh] quy định các biến phụ thuộc [biến được thuyết minh] như thế nào.

Đây là một phương pháp thống kê mà giá trị kỳ vọng của một hay nhiều biến ngẫu nhiên được dự đoán dựa vào điều kiện của các biến ngẫu nhiên [đã tính toán] khác. Cụ thể, có hồi qui tuyến tính, hồi qui lôgic, hồi qui Poisson và học có giám sát. Phân tích hồi qui không chỉ là trùng khớp đường cong [lựa chọn một đường cong mà vừa khớp nhất với một tập điểm dữ liệu]; nó còn phải trùng khớp với một mô hình với các thành phần ngẫu nhiên và xác định [deterministic and stochastic components]. Thành phần xác định được gọi là bộ dự đoán [predictor] và thành phần ngẫu nhiên được gọi là phần sai số [error term].

Dạng đơn giản nhất của một mô hình hồi qui chứa một biến phụ thuộc [còn gọi là "biến đầu ra," "biến nội sinh," "biến được thuyết minh", hay "biến-Y"] và một biến độc lập đơn [còn gọi là "hệ số," "biến ngoại sinh", "biến thuyết minh", hay "biến-X"].

Ví dụ thường dùng là sự phụ thuộc của huyết áp Y theo tuổi tác X của một người, hay sự phụ thuộc của trọng lượng Y của một con thú nào đó theo khẩu phần thức ăn hằng ngày X. Sự phụ thuộc này được gọi là hồi qui của Y lên X.

Xem thêm: phân phối chuẩn đa biến [multivariate normal distribution], các ẩn bản quan trọng trong phân tích hồi qui.

Hồi qui thường được xếp vào loại bài toán tối ưu vì chúng ta nỗ lực để tìm kiếm một giải pháp để cho sai số và phần dư là tốt nhất. Phương pháp sai số chung nhất được sử dụng là phương pháp bình phương cực tiểu: phương pháp này tương ứng với một hàm hợp lý dạng Gauss của các dữ liệu quan sát khi biết biến ngẫu nhiên [ẩn]. Về một mặt nào đó, bình phương cực tiểu là một phương pháp ước lượng tối ưu: xem định lý Gauss-Markov.

Để giải quyết bài toán tối ưu trong hồi qui thường dùng các giải thuật như giải thuật hạ bậc gradient gradient descent, giải thuật Gauss-Newton, và giải thuật Levenberg-Marquardt. Các giải thuật xác suất như RANSAC có thể được dùng để tìm một phù hợp tốt cho tập mẫu, khi cho trước một mô hình tham số hóa của hàm đường cong.

Hồi qui có thể được biểu diễn bằng phương pháp hàm hợp lý ước lượng các tham số của một mô hình nào đó. Tuy nhiên, với một lượng nhỏ dữ liệu, ước lượng này có thể có phương sai lớn [high variance]. Các phương pháp Bayesian có thể được sử dụng để ước lượng các mô hình hồi qui. Các tham số có một phân phối điều kiện được giả định trước, nó bao gồm mọi thông tin thống kê đã biết trước về các biến. [Ví dụ, nếu một tham số được biết là không âm thì một phân phối không âm sẽ được gán cho nó.] Phân phối được giả định trước này sau đó được áp dụng cho vector tham số. Phương pháp Bayes có ưu điểm là khai thác được toàn bộ các thông tin đã có và nó là ước lượng chính xác, không phải ước lượng chệch và do đó rất tốt cho các tập số liệu nhỏ. Trong thực hành, người ta sử dụng phương pháp MAP maximum a posteriori, phương pháp này đơn giản hơn phân tích Bayes đầy đủ, trong đó các tham số được chọn sao cho cực đại hóa phân phối giả định trước posterior. Các phương pháp MAP có liên hệ với Occam's Razor: ở chỗ có sự ưu tiên cho sự đơn giản, khi có nhiều mô hình hồi qui [đường cong] cũng như khi có nhiều lý thuyết thì chọn cái đơn giản.

Chúng ta muốn dự báo giá trị của một biến ngẫu nhiên Y có điều kiện dựa trên một biến ngẫu nhiên khác gọi là nhân tố. Đặt p ∈ N ∗ {\displaystyle p\in \mathbb {N} ^{*}}   là số nhân tố được sử dụng cho dự đoán này.

[ Ω , A , P ] {\displaystyle [\Omega ,{\mathcal {A}},P]}   xác định một không gian xác suất và [ Γ , S ] {\displaystyle [\Gamma ,S]}   là một không gian đo được trong đó [ Γ , + , . ] {\displaystyle [\Gamma ,+,.]}   Γ = R n {\displaystyle \Gamma =\mathbb {R} ^{n}}   S = B n {\displaystyle S={\mathcal {B}}_{n}}   với n ∈ N ∗ {\displaystyle n\in \mathbb {N} ^{*}}  ]. Bây giờ chúng ta có thể xác định biến phụ thuộc Y : [ Ω , A ] → [ Γ , S ] {\displaystyle Y:[\Omega ,{\mathcal {A}}]\rightarrow [\Gamma ,S]}   ∀ i ∈ { 1 , ⋯ , p } , X i : [ Ω , A ] → [ Γ , S ] {\displaystyle \forall i\in \{1,\cdots ,p\},X_{i}:[\Omega ,{\mathcal {A}}]\rightarrow [\Gamma ,S]}  . Bây giờ, đặt F {\displaystyle F}   là tập các hàm được xác định bởi Ω {\displaystyle \Omega }   nhận các giá trị trong Γ {\displaystyle \Gamma }   Y , X 1 , ⋯ , X p ∈ F {\displaystyle Y,X_{1},\cdots ,X_{p}\in F}   d {\displaystyle d}   là một metric [độ đo] sao cho [ F , d ] {\displaystyle [F,d]}   là một không gian metric đầy đủ complete metric space.

Chúng ta đang tìm một hàm đo được f : [ Γ p , S p ] → [ Γ , S ] {\displaystyle f:[\Gamma ^{p},S^{p}]\rightarrow [\Gamma ,S]}   sao cho d [ ω ↦ Y [ ω ] , ω ↦ f [ X 1 [ ω ] , ⋯ , X p [ ω ] ] {\displaystyle d[\omega \mapsto Y[\omega ],\omega \mapsto f[X_{1}[\omega ],\cdots ,X_{p}[\omega ]]}   là nhỏ nhất.

Hồi quy tuyến tính là một trường hợp rất phổ biến trong thực tế. Ta giả thiết rằng hàm f {\displaystyle f}   phụ thuộc tuyến tính vào bộ X 1 , ⋯ , X p {\displaystyle X_{1},\cdots ,X_{p}}   như vậy ta chỉ cần tìm kiếm các hệ số phù hợp.

Đặt Θ {\displaystyle \Theta }   là tập các hệ số. Đối thuyết của hồi quy tuyến tính là:

∃ [ β 0 , ⋯ , β p ] ∈ θ p + 1 : {\displaystyle \exists [\beta ^{0},\cdots ,\beta ^{p}]\in \theta ^{p+1}:}   E [ Y | X 1 , ⋯ , X p ] = β 0 + ∑ j = 1 p β j X j {\displaystyle \mathbb {E} [Y|X_{1},\cdots ,X_{p}]=\beta ^{0}+\sum _{j=1}^{p}\beta ^{j}X_{j}}  

và matric được sử dụng ở đây là:

∀ f , g ∈ F , d [ f , g ] = E [ [ f − g ] 2 ] {\displaystyle \forall f,g\in F,d[f,g]=\mathbb {E} [[f-g]^{2}]}  

Chúng ta muốn cực tiểu hóa E [ [ Y − f [ X 1 , ⋯ , X p ] ] 2 ] {\displaystyle \mathbb {E} [[Y-f[X_{1},\cdots ,X_{p}]]^{2}]}  , có nghĩa là

f [ X 1 , ⋯ , X p ] = E [ Y | X 1 , ⋯ , X p ] = β 0 + ∑ j = 1 p β j X j {\displaystyle f[X_{1},\cdots ,X_{p}]=\mathbb {E} [Y|X_{1},\cdots ,X_{p}]=\beta ^{0}+\sum _{j=1}^{p}\beta ^{j}X_{j}}  .

Như vậy chỉ cần tìm β 0 , ⋯ , β p {\displaystyle \beta ^{0},\cdots ,\beta ^{p}}  . Để giải quyết bài toán này một cách hiệu quả, một số phương pháp đã được đưa ra. Phương pháp phổ biến nhất là phương pháp Gauss-Markov, nhưng nó đòi hỏi thêm một số đối thuyết nữa.

Xem thêm bình phương cực tiểu

Ví dụ đơn giản nhất của hồi qui là trong trường hợp 1 chiều. Chúng ta được cấp một vec-tơ của các giá trị x và một vec-tơ khác của các giá trị y và chúng ta đang cố gắng tìm kiếm một hàm mà f [ x i ] = y i {\displaystyle f[x_{i}]=y_{i}}  .

giả sử x → = [ − 2 − 1 0 1 2 ] , y → = [ 5 2 1 2 5 ] {\displaystyle {\vec {x}}={\begin{pmatrix}-2\\-1\\0\\1\\2\\\end{pmatrix}},{\vec {y}}={\begin{pmatrix}5\\2\\1\\2\\5\\\end{pmatrix}}}  

Giả thiết rằng giải pháp [hàm] của chúng ta là thuộc họ các hàm được định bởi chuỗi Fourier mở rộng cấp 3 [3rd degree Fourier expansion] được viết dưới dạng:

f [ x ] = a 0 / 2 + a 1 cos ⁡ [ x ] + b 1 sin ⁡ [ x ] + a 2 cos ⁡ [ 2 x ] + b 2 sin ⁡ [ 2 x ] + a 3 cos ⁡ [ 3 x ] + b 3 sin ⁡ [ 3 x ] {\displaystyle f[x]=a_{0}/2+a_{1}\cos[x]+b_{1}\sin[x]+a_{2}\cos[2x]+b_{2}\sin[2x]+a_{3}\cos[3x]+b_{3}\sin[3x]}  

với a i , b i {\displaystyle a_{i},b_{i}}   là các số thực. Bài toán này có thể được biểu diễn theo dạng ma trận như sau:

[ 1 / 2 , cos ⁡ [ x ] , sin ⁡ [ x ] , cos ⁡ [ 2 x ] , sin ⁡ [ 2 x ] , cos ⁡ [ 3 x ] , sin ⁡ [ 3 x ] , ] [ a 0 a 1 b 1 a 2 b 2 a 3 b 3 ] = y → {\displaystyle {\begin{pmatrix}1/2,&\cos[x],&\sin[x],&\cos[2x],&\sin[2x],&\cos[3x],&\sin[3x],\\\end{pmatrix}}{\begin{pmatrix}a_{0}\\a_{1}\\b_{1}\\a_{2}\\b_{2}\\a_{3}\\b_{3}\\\end{pmatrix}}={\vec {y}}}  

điền vào dạng này các giá trị của chúng ta sẽ cho ta bài toán với dạng Xw = y

[ 1 / 2 cos ⁡ [ − 2 ] sin ⁡ [ − 2 ] cos ⁡ [ − 4 ] sin ⁡ [ − 4 ] cos ⁡ [ − 6 ] sin ⁡ [ − 6 ] 1 / 2 cos ⁡ [ − 1 ] sin ⁡ [ − 1 ] cos ⁡ [ − 2 ] sin ⁡ [ − 2 ] cos ⁡ [ − 3 ] sin ⁡ [ − 3 ] 1 / 2 1 0 1 0 1 0 1 / 2 cos ⁡ [ 1 ] sin ⁡ [ 1 ] cos ⁡ [ 2 ] sin ⁡ [ 2 ] cos ⁡ [ 3 ] sin ⁡ [ 3 ] 1 / 2 cos ⁡ [ 2 ] sin ⁡ [ 2 ] cos ⁡ [ 4 ] sin ⁡ [ 4 ] cos ⁡ [ 6 ] sin ⁡ [ 6 ] ] . [ a 0 a 1 b 1 a 2 b 2 a 3 b 3 ] = [ 5 2 1 2 5 ] {\displaystyle {\begin{pmatrix}1/2&\cos[-2]&\sin[-2]&\cos[-4]&\sin[-4]&\cos[-6]&\sin[-6]\\1/2&\cos[-1]&\sin[-1]&\cos[-2]&\sin[-2]&\cos[-3]&\sin[-3]\\1/2&1&0&1&0&1&0\\1/2&\cos[1]&\sin[1]&\cos[2]&\sin[2]&\cos[3]&\sin[3]\\1/2&\cos[2]&\sin[2]&\cos[4]&\sin[4]&\cos[6]&\sin[6]\\\end{pmatrix}}.{\begin{pmatrix}a_{0}\\a_{1}\\b_{1}\\a_{2}\\b_{2}\\a_{3}\\b_{3}\\\end{pmatrix}}={\begin{pmatrix}5\\2\\1\\2\\5\\\end{pmatrix}}}  

Bài toán này bây giờ có thể chuyển thành bài toán tối ưu để tìm ra tổng cực tiểu của bình phương sai số.

 

hàm Fourier bậc 3

min w → ∑ i = 1 n [ x i → w → − y i ] 2 {\displaystyle \min _{\vec {w}}\sum _{i=1}^{n}[{\vec {x_{i}}}{\vec {w}}-y_{i}]^{2}}   min w → ‖ X w → − y → ‖ 2 . {\displaystyle \min _{\vec {w}}\|X{\vec {w}}-{\vec {y}}\|^{2}.}  

giải bằng phương pháp bình phương cực tiểu cho ra:

w → = [ 0 4.25 0 − 6.13 0 2.88 0 ] {\displaystyle {\vec {w}}={\begin{pmatrix}0\\4.25\\0\\-6.13\\0\\2.88\\0\\\end{pmatrix}}}  

vì thế hàm Fourier bậc 3 mà trùng khớp nhất với dữ liệu có công thức cụ thể:

f [ x ] = 4.25 cos ⁡ [ x ] − 6.13 cos ⁡ [ 2 x ] + 2.88 cos ⁡ [ 3 x ] . {\displaystyle f[x]=4.25\cos[x]-6.13\cos[2x]+2.88\cos[3x].}  
  • Mạng nơ-ron nhân tạo
  • Kriging
  • Khai phá dữ liệu
  • Thống kê

  • Audi, R., Ed. [1996] The Cambridge Dictionary of Philosophy. Cambridge, Cambridge University Press. curve fitting problem p. 172-173.
  • David Birkes and Yadolah Dodge, Alternative Methods of Regression [1993], ISBN 0-471-56881-3
  • W. Hardle, Applied Nonparametric Regression [1990], ISBN 0-521-42950-1
  • J. Fox, Applied Regression Analysis, Linear Models and Related Methods. [1997], Sage
  • Regression Analysis SixSigmaFirst
  • Curve Expert [shareware] Lưu trữ 2006-05-07 tại Wayback Machine fits functions to data [limited to one dependant and one independent variable.]
  • Online curve and surface fitting Online curve and surface fitting
  • TableCurve2D and TableCurve3D by Systat automates curve fitting
  • LMS applet Lưu trữ 2005-04-08 tại Wayback Machine
  • another choice
  • online curve-fitting textbook

Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.

  • x
  • t
  • s

Wikimedia Commons có thêm hình ảnh và phương tiện truyền tải về Phân tích hồi quy.

Lấy từ “//vi.wikipedia.org/w/index.php?title=Phân_tích_hồi_quy&oldid=67713658”

Video liên quan

Chủ Đề