Cfa SEM là gì

Các phương pháp ANOVA, hồi quy tuyến tính đa biến, ANCOVA, MANOVA trong phương pháp hồi quy tuyến tính tổng quát [GLM] được xem là 1 trường hợp giới hạn của mô hình SEM [Fan, 1997]. Vậy mô hình SEM là gì? Vì sao mô hình SEM cho phép thực hiện các phân tích linh hoạt hơn GLM và ngày càng được áp dụng phổ biến trong các nghiên cứu khoa học & thực nghiệm? Mặc dù rất nhiều tài liệu tiếng anh viết về vấn đề này, tuy nhiên, tại Việt Nam các lý thuyết về mô hình SEM là rất hạn chế.

Bài viết này sẽ lần lượt trình bày, phân biệt rõ ràng các khái niệm cơ bản của mô hình SEM như biến quan sát [observed variables hoặc manifest variables], chỉ báo [indicators], biến ẩn [latent variables], khái niệm [constructs] hoặc nhân tố [factors], cũng như phân biệt mô hình SEM với các mô hình/phương pháp thống kê truyền thống. Ngoài ra, bài viết còn đi sâu phân tích các đặc trưng cơ bản của mô hình SEM như yêu cầu cở mẫu lớn, ít tập trung vào các kiểm định thống kê riêng rẻ,… thông qua đó người đọc có thể biết được cách xác định cở mẫu tối ưu cho mô hình SEM, cũng như sử dụng các phép kiểm định thống kê phù hợp.

Xem thêm:

  • Giới thiệu CFA và phân biệt CFA vs EFA
  • Thực hành ước lượng mô hình SEM trên SPSS với AMOS
  • Thực hành ước lượng mô hình SEM trên Stata
  • Một số báo cáo NCKH sử dụng mô hình SEM

Đầu tiên, chúng ta bắt đầu với việc phân biệt rõ ràng các khái niệm cơ bản nhưng rất quan trọng trong mô hình SEM.

SEM là viết tắt của Structural Equation Modelling, tạm hiểu là mô hình hệ phương trình cấu trúc và viết tắt là mô hình SEM. Thuật ngữ SEM không phải là một kỹ thuật đơn nhất, nó đề cập đến một nhánh các phương pháp liên quan. Các thuật ngữ khác như covariance structure analysis, covariance structure modeling, hoặc là analysis of covariance structures cũng được sử dụng trong lý thuyết để phân loại những phương pháp này. Những thuật ngữ này có thể thay thế cho nhau, nhưng chỉ duy nhất thuật ngữ đầu tiên sẽ được sử dụng trong chuỗi bài viết về mô hình SEM.

1. Phân biệt rõ ràng giữa biến quan sát và biến ẩn

Có 2 nhóm biến được sử dụng phổ biến trong mô hình SEM là biến quan sát và biến ẩn [latent variables].

  • Biến quan sát [observed variables] là các biến mà bạn có thể tiến hành thu thập giá trị và nhập vào file dữ liệu. Biến quan sát còn được gọi là biến trực quan [manifest variables]. Biến quan sát có thể là biến danh mục [categorical], thứ tự [ordinal] hoặc biến liên tục [continuous], nhưng tất cả các biến ẩn [latent variables] trong mô hình SEM là biến liên tục. có những kỹ thuật thống kê khác để phân tích các mô hình với biến ẩn dạng danh mục, nhưng SEM chỉ xử lý với các biến ẩn dạng liên tục [Kline, 2011].
  • Biến ẩn [latent variables] trong mô hình SEM thông thường đi kèm với các khái niệm giả thuyết [hypothetical constructs] hoặc còn gọi là nhân tố [factors] là các biến giải thích được sử dụng để phản ánh các tác động không quan sát được [Kline, 2011]. Một ví dụ liên quan đến biến ẩn là khái niệm sự thông minh. Biến ẩn [Latent variables] là các khái niệm lý thuyết hoặc giả thuyết [theorical or hypothetical constructs] quan trọng trong nhiều ngành khoa học, nó được xem như là biến nhưng không quan sát hoặc đo lường trực quan được. Thông thường, không có một phương pháp đo lường trực tiếp các biến ẩn hoặc một phương pháp chính xác để đánh giá nó [Raykov, T., & Gorge, S.A, 2006]. Không có một định nghĩa duy nhất, cụ thể chắc chắn nào về sự thông minh. Thay vào đó, các nhà nghiên cứu sử dụng nhiều biến quan sát khác nhau, chẳng hạn như ngôn ngữ lời nói, trí nhớ,… để đại diện cho sự thông minh.


Trong khái niệm về biến ẩn, chúng ta cần làm rõ 2 thuật ngữ biến ẩn nội sinh và biến ẩn ngoại sinh. Theo Byrne [2010], biến ẩn nội sinh [endogenous latent variables] là đồng nghĩa với biến phụ thuộc và nó bị ảnh hưởng bởi các biến ngoại sinh trong mô hình, có thể được đo lường trực tiếp hoặc gián tiếp. Sự biến thiên giá trị của các biến ẩn nội sinh được giải thích bởi mô hình. Biến ẩn ngoại sinh [exogenous latent variables] cũng đồng nghĩa với biến độc lập hoặc giải thích, nó gây ra sự thay đổi giá trị của các biến ẩn khác trong mô hình. Sự biến thiên giá trị của các biến ẩn ngoại sinh không được giải thích bởi mô hình mà bị ảnh hưởng bởi các yếu tố bên ngoài mô hình như giới tính, tuổi, điều kiện kinh tế – xã hội [các biến cơ sở].

Một biến quan sát được sử dụng để đo lường gián tiếp cho một khái niệm [constructs] được gọi là một chỉ báo [indicator]. Sự phân biệt rõ ràng giữa các nhân tố [factors] và các chỉ báo [indicators] trong mô hình SEM cho phép một người có thể kiểm định đa dạng các giả thuyết về phép đo [measurement]. Giả sử, một nhà nghiên cứu tin rằng biến X1, X2 và X3 nằm chung trong một nhóm khác biệt so với nhóm khác bao gồm 2 biến X4, và X5. Trong ví dụ này, nhà nghiên cứu tương đối dễ dàng để xác định X1-X3 là các indicators cho một factor nào đó và X4, X5 là các indicators cho một factor khác trong mô hình SEM. Nếu độ phù hợp của mô hình mô tả dữ liệu kém thì giả thuyết đo lường này sẽ bị bác bỏ. Đây là điểm khác biệt của mô hình SEM so với các phương pháp thống kê chuẩn khác như phân tích phương sai [ANOVA], hồi quy đa biến khi chỉ phân tích được các biến quan sát.

Một nhóm biến khác trong mô hình SEM tương ứng với thành phần phần dư [residual] hoặc sai số [error terms], có thể liên quan đến các biến quan sát [observed variables] hoặc nhân tố [factors] được xác định như là kết quả [biến phụ thuộc]. Trong trường hợp của các indicators, thành phần phần dư thể hiện phần phương sai không được giải thích bởi factor [ variance unexplained by the factor]. Một phần của phương sai không được giải thích này có thể là do sai số đo lường ngẫu nhiên [random measurement error] hoặc do các giá trị thu thập không đáng tin cậy [score unreliability][1].

Việc thể hiện rõ ràng các sai số đo lường là một điểm đặc biệt của mô hình SEM. Rất nhiều các phương pháp thống kê chuẩn xây dựng các giả thuyết phi thực tế [unrealistic] về vấn đề này. Chẳng hạn như trong hồi quy tuyến tính đa biến giả định rằng tất cả các biến giải thích được đo lường đúng [không có sai số]. Trong sơ đồ khối quy trình phân tích các phương trình cấu trúc, các thành phần phần dư được kí hiệu giống như kí hiệu các biến ẩn. Điều này bởi vì các phương sai sai số phải được ước lượng với mô hình và dữ liệu cho trước. Theo ý nghĩa này các phương sai sai số không được đo lường trực tiếp ở dữ liệu ban đầu.

2. Luôn phân tích hiệp phương sai và GTTB

Thống kê cơ bản của mô hình SEM là hiệp phương sai [covariance], được xác định cho 2 biến quan sát dạng liên tục X, Y như sau: Cov[XY] = r[XY]*SD[X]*SD[Y]

Trong đó r[XY] là hệ số tương quan Pearson giữa X và Y và SD[X], SD[Y] lần lượt là độ lệch chuẩn của X và Y. Hiệp phương sai cho biết mức độ quan hệ giữa X với Y và mức độ biến thiên của chúng. Bởi vì tham số hiệp phương sai là một thống kê chưa chuẩn hóa [unstandardized statistics], giá trị của nó không tồn tại ngưỡng trên và ngưỡng dưới. Hiệp phương sai bằng -1000 hoặc 13.58 đều có thể tồn tại. Trong bất kì sự kiện nào thì hiệp phương sai luôn truyền tải nhiều thông tin hơn so với hệ số tương quan [Kline, 2011].

Sở dĩ gọi hiệp phương sai là một thống kê cơ bản trong mô hình SEM vì:

  • Để hiểu về cấu trúc ma trận hiệp phương sai của các biến quan sát.
  • Để giải thích tối đa phương sai của các biến quan sát trong mô hình nghiên cứu.

Một giả thuyết liên quan về các phương sai, hiệp phương sai trong mô hình SEM là cấu trúc hiệp phương sai [covariance structure].

Một vài nhà nghiên cứu quen với việc sử dụng ANOVA như là công cụ phân tích phương sai chính đã ngạc nhiên rằng SEM cũng có thể phân tích hiệp phương sai. Tuy nhiên, hơn thế nữa bên cạnh phân tích hiệp phương sai SEM cũng có thể phân tích cả các giá trị trung bình [GTTB]. Nghĩa là các GTTB của các biến ẩn cũng có thể được ước lượng. SEM có thể phân tích các tác động between group, with-in group [chẳng hạn, các phép hồi quy lặp repeated measures] như các phương pháp phân tích truyền thống. Chẳng hạn, trong mô hình SEM chúng ta có thể đánh giá mức độ khác nhau về GTTB của các biến ấn, mà điều này đôi khi không thể thực hiện được ở phương pháp ANOVA [ANOVA chỉ phân tích các biến quan sát được].

Khi GTTB được ước lượng cùng với hiệp phương sai, mô hình SEM sẽ bao gồm 2 cấu trúc: cấu trúc hiệp phương sai [covariance structure] và cấu trúc GTTB [mean structure], trong đó cấu trúc GTTB thường thể hiện ước lượng GTTB cho các nhân tố. Tuy nhiên, đa phần các nghiên cứu sử dụng mô hình SEM người ta thường không phân tích cấu trúc GTTB, nghĩa là cấu trúc GTTB không phải là một yêu cầu bắt buộc.

Ví dụ, đôi khi chúng ta quan tâm đến việc ước lượng các nhân tố bằng cách phân tích các hiệp phương sai của các biến quan sát, nhưng cũng muốn biết liệu GTTB của những nhân tố [biến ẩn] này có bằng nhau giữa các nhóm khác nhau [nam/nữ] hay không. Trong trường hợp này, cả cấu trúc hiệp phương sai và cấu trúc GTTB đều được phân tích trong mô hình SEM. Tuy nhiên, trong trường hợp khác chúng ta không quan tâm đến GTTB của các biến ẩn. Thay vào đó, chúng ta chỉ tập trung vào xác định các nhân tố dựa vào phân tích hiệp phương sai của các biến quan sát. Nghĩa là, chúng ta chỉ muốn biết có bao nhiêu nhân tố trong mẫu dữ liệu thu thập của các biến quan sát thì trong mô hình SEM không cần thiết phải phân tích cấu trúc GTTB bên cạnh cấu trúc hiệp phương sai.

3. Mô hình SEM đòi hỏi cở mẫu lớn

Có rất nhiều nỗ lực nhằm biến đổi mô hình SEM tương thích với các mẫu dữ liệu nhỏ, tuy nhiên, một thực tế phổ biến SEM là một kỹ thuật ước lượng mẫu lớn. Sở dĩ là vì một vài ước lượng thống kê trong mô hình SEM chẳng hạn như sai số chuẩn ước lượng có thể sẽ không chính xác khi cở mẫu không đủ lớn hoặc vấn đề lớn hơn về kỹ thuật của ước lượng hợp lý cực đại.

Câu hỏi đặt ra là “lớn thế nào là đủ”. Rất khó để đưa ra một câu trả lời hoàn chỉnh bởi nó phụ thuộc vào độ phức tạp của mô hình. Mô hình phức tạp yêu cầu cở mẫu lớn hơn mô hình đơn giản bởi có nhiều tham số được ước lượng hơn, vì vậy, yêu cầu cở mẫu phải lớn hơn để đảm bảo sự ổn định và tin cậy của kết quả ước lượng. Ngoài ra, cở mẫu còn phụ thuộc vào dạng phân phối của dữ liệu. Thông thường, có thể chấp nhận cở mẫu nhỏ hơn khi các biến phụ thuộc dạng liên tục có phân phối chuẩn và có mối quan hệ tuyến tính với các biến khác.

Một quy tắc kinh nghiệm hữu ích [rule of thumb] liên quan đến mối quan hệ giữa cở mẫu và độ phức tạp của mô hình được Jackson [2003] đề cập là quy tắc N:q. Quy tắc N:q được áp dụng khi phương pháp ước lượng được sử dụng là phương pháp ước lượng hợp lý cực đại ML [maximum likelihood] được sử dụng khá phổ biển trong mô hình SEM. Theo đó, Jackson [2003] đề nghị cở mẫu tối thiểu cần thiết sẽ dựa trên tỉ lệ số quan sát [N] trên mỗi tham số được ước lượng [q]. Một mẫu tối thiểu lý tưởng sẽ có tỉ lệ N:q là 20:1. Ví dụ, chúng ta có 10 tham số ước lượng thì cở mẫu tối thiểu lý tưởng là 20*10 = 200 quan sát. Ngoài ra, trong trường hợp việc tiếp cận dữ liệu bị giới hạn thì Jackson [2003] cũng đề nghị 1 tỉ lệ ít lí tưởng hơn có thể sử dụng tỉ lệ N:q là 10:1 cũng đảm bảo tính chất tin cậy của kết quả.

Ngoài ra, cở mẫu điển hình trong phân tích mô hình SEM là 200. Gọi là điển hình bởi có khá nhiều nghiên cứu của các học giả sử dụng cở mẫu này. Cụ thể theo kết quả thống kê của Breckler [1990] cho thấy có đến 72 bài báo đăng trên các personality and social psychology journals sử dụng cở mẫu 200 hoặc kết quả thống kê Shah and Goldstein [2006] với hơn 93 bài báo đăng trên tạp chí khoa học quản lý [management science journals]. Tuy nhiên, một mẫu với 200 quan sát là rất nhỏ khi phân tích một mô hình phức tạp, sử dụng một phương pháp ước lượng khác, hoặc dữ liệu không có phân phối chuẩn…

4. Ít tập trung vào các kiểm định thống kê

Rất nhiều các ảnh hưởng lớn có thể được kiểm định trong mô hình SEM, từ các kiểm định phương sai của một biến riêng rẻ đến đánh giá toàn bộ mô hình theo các mẫu. Tuy nhiên, có 4 nguyên nhân chính lý giải tại sao mô hình SEM ít thực hiện các kiểm định thống kê hơn so với các loại kỹ thuật khác như ANOVA, hồi quy đa biến.

  • Thứ nhất, SEM cho phép đánh giá toàn bộ mô hình, mang đến một cách đánh giá cao hơn theo quan điểm của nhà phân tích. Các kiểm định thống kê của các tác động riêng rẻ được trình bày trong mô hình có thể được quan tâm nhưng ở một khía cạnh khác, bạn phải chắc chắn rằng mô hình đang xây dựng không bị bác bỏ hoặc phải điều chỉnh thêm. Vì vậy, SEM cho một cách nhìn tổng quan về độ tin cậy của mô hình hơn so với các tác động riêng rẻ.
  • Thứ hai, các kiểm định thống kê đóng vai trò nhỏ hơn trong mô hình SEM. Điều này liên quan đến vấn đề cở mẫu đã trình bày mục 3. Với phần lớn các kiểm định thống kê, chúng ta có thể nhận kết quả giá trị p-value rất tốt [p < 0.0001 chẳng hạn] nhưng nó chỉ tồn tại khi cở mẫu lớn. Nói cách khác, các tác động ảo sẽ tồn tại ứng với mẫu lớn. Hoặc nói như [Thompson, 1992] rằng nếu mẫu lớn thì kết quả ý nghĩa thống kê chỉ đơn giản là xác nhận một mẫu lớn [if the sample size is large, then a statistically significant result just basically confirms a large sample
    [Thompson, 1992].
  • Thứ ba, ý nghĩa thống kê của hệ số ước lượng [đại diện bởi giá trị p-value] cho các tác động của biến ẩn được ước lượng có thể thay đổi ở các phần mềm thống kê. Dĩ nhiên, sự thay đổi này là không thực sự lớn, tuy nhiên, một sự thay đổi nhỏ trong giá trị p-value này cũng có thể dẫn đến khả năng bác bỏ hoặc chấp nhận một giả thuyết kiểm định riêng rẻ nào đó. Chẳng hạn p = 0.053 và 0.047 không thể có ý nghĩa giống nhau ở mức ý nghĩa 5%.
  • Thứ tư, đây không phải là điểm đặc trưng của mô hình SEM, nhưng liên quan đến phần lớn loại phân tích thống kê trong khoa học hành vi: quan tâm nhiều hơn đến mức độ tác động hơn là kết quả của các kiểm định thống kê [Kline, 2004]. Ngoài ra, SEM cho các kết quả ước lượng về mức độ tác động tốt hơn các phương pháp truyền thống khác như ANOVA, hối quy tuyến tính đa biến.

5. SEM và hồi quy tuyến tính tổng quát GLM

Phân tích ANOVA là 1 trường hợp giới hạn của hồi quy tuyến tính đa biến. Cả 2 phương pháp này đều là các trường hợp cụ thể của hồi quy tuyến tính tổng quát GLM [General Linear Model]. Ngoài ra, các kỹ thuật phân tích đa biến khác như MANOVA [multivariate ANOVA], ANCOVA, Repeated ANOVA, phân tích tương quan chính tắc [canonical correlation] cũng chỉ là các trường hợp của GLM. Tuy nhiên, theo [Fan, 1997] thì toàn bộ phương pháp GLM có thể được xem là 1 trường hợp giới hạn của SEM. Vì vậy, nghiên cứu mô hình SEM sẽ nâng cao kỹ năng phân tích dữ liệu thêm 1 bậc và có thể thực hiện được các phân tích linh hoạt hơn GLM.

6. Phân biệt mô hình SEM với các mô hình/phương pháp thống kê truyền thống.

Tính phổ biến & bao quát của mô hình SEM so với các phương pháp thống kê truyền thống được thể hiện ở chổ mô hình SEM được sử dụng trong hầu hết các nghiên cứu xã hội, hành vi, khoa học giáo dục, cũng như các ngành sinh học, kinh tế, marketing và cả trong các nghiên cứu y học. Lý do cho sự phổ biến của phương pháp là mô hình SEM cung cấp một công cụ hiệu quả để định lượng và kiểm chứng các lý thuyết. Những khía cạnh của mô hình SEM khác biệt so với các phương pháp ước lượng truyền thống có thể liệt kê như sau:

  • Thứ nhất, mô hình SEM tiếp cận vấn đề theo cách xác nhận [confirmatory] hơn là khám phá [exploratory] khi phân tích dữ liệu [mặc dù mô hình SEM vẫn thực hiện được nhân tố khám phá]. Hơn nữa, bằng cách đòi hỏi mối quan hệ giữa các biến [intervariable relations] trong mô hình phải được xác định trước, mô hình SEM tập trung vào phân tích dữ liệu cho mục đích diễn giải [inference] thống kê. Ngược lại, phần lớn các phương pháp phân tích đa biến khác chủ yếu là mô tả [chẳng hạn, nhân tố khám phá], vì vậy, khó khăn hoặc không thể kiểm định giả thuyết [Byrne, 2010].
  • Thứ hai, nhiều phương pháp phân tích đa biến truyền thống không xét đến hoặc không khắc phục các sai số đo lường của biến. Mô hình SEM cho phép ước lượng tham số chi tiết của những phương sai sai này đo lường này. Thật vậy, các phương pháp khác, chẳng hạn hồi quy OLS, ước lượng tuyến tính tổng quát GLM, đều giả định rằng các sai số trong biến giải thích bị triệt tiêu hay không tồn tại sai số trong các biến giải thích. Vì vậy, áp dụng những phương pháp truyền thống này, nếu tồn tại sai số đo lường trong các biến giải thích thì sẽ dẫn đến một sự không chính xác đáng kể, nhất là khi các sai số đo lường này lớn [Byrne, 2010]. Trong trường hợp đó, áp dụng mô hình SEM là một giải pháp rất phù hợp.
  • Thứ ba, mặc dù trong phân tích dữ liệu các phương pháp trước chỉ dựa trên các biến đo lường được, ngược lại, mô hình SEM có thể sử dụng được với các biến đo lường [observed variables], lẫn các biến không đo lường được [unobserved variables] hay còn gọi là biến ẩn [latent variables].
  • Thứ tư, mô hình SEM cũng có thể thực hiện các kiểm định giả thuyết, các ước lượng điểm, ước lượng khoảng tương tự các phương pháp truyền thống khác.

1. Một lí do khác của phương sai không được giải thích có thể dữ liệu đảm bảo độ tin cậy nhưng không liên quan đến khái niệm đo lường. Một tên gọi khác cho phần sai phần dư [residual variance] này là phương sai riêng [specific variance].

Bài liên quan

Video liên quan

Chủ Đề