Hướng dẫn sử dụng phần mềm kinh tế lượng r

Lời Nói Đầu Tại sao dùng R? Với nhiều công cụ cho tích dữ liệu mà bạn có thể lựa chọn như Eviews, Stata, SPSS – AMOS, Excel, S-PLUS, MATLAB thì rõ ràng câu hỏi đầu tiên là tại sao phải dùng R? Có ít nhất năm lí do để bạn lựa chọn R. Thứ nhất, với tư cách là một công cụ cho nghiên cứu thống kê – kinh tế lượng, năng lực phân tích của R là không thua kém bất kì phần mềm thống kê nào hiện có, thậm chí trong nhiều tình huống còn làm tốt hơn. Chẳng hạn, nếu phân tích dữ liệu mảng [Panel Data] thì chúng ta sẽ cân nhắc giữa Stata và Eviews vì Stata có năng lực phân tích đa dạng và linh động hơn so với Eviews. Còn nếu bạn thực hiện các phân tích thống kê đa biến như phân tích EFA, CFA thì bạn sẽ có xu hướng chọn Stata hoặc SPSS – AMOS do chúng linh hoạt và tiện lợi hơn. Tuy nhiên, nếu dùng R thì bạn chẳng cần phải đắn đo về vấn đề này: nó có thể thực hiện tất cả những phân tích mà các phần mềm thống kê thương mại trên có thể làm và làm tốt hơn. Thứ hai, R còn là một ngôn ngữ lập trình hoàn thiện định hướng cho tính toán thống kê, phân tích dữ liệu. Nó cho phép bạn xây dựng những hàm, những câu lệnh chỉ để giải quyết một nhóm các nhiệm vụ phân tích đặc thù nào đó và chia sẻ chúng trên mạng. Chẳng hạn, nếu có một kiểm định mới, một mô hình mới về phương diện lý thuyết và được đăng trên một tạp chí chuyên nghành nào đó, bạn hoàn toàn có thể viết một chương trình nhằm biến kiểm định mới, những mô hình mới chỉ ở dạng lý thuyết kia thành một hàm cụ thể trong R. Nếu được kiểm tra bởi cộng đồng những người sử dụng rằng đúng và không có lỗi, hàm mà bạn viết sẽ được thừa nhận và sử dụng rộng rãi. Thứ ba, với tư cách là một công cụ phân tích dữ liệu nói chung, R còn là một công cụ cho Data Mining, Big Data, và Machine Learning. Tôi lấy một ví dụ của Data Mining bằng hình ảnh ấn tượng dưới đây:

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

4

Hình ảnh này được vẽ trong R dựa trên các số liệu thu thập được về các chuyến bay của 7 hãng hàng không lớn nhất thế giới. Dựa vào hình ảnh này các bạn có thể thấy trung tâm của cái mạng nhện này là ở Bắc Mĩ và Châu Âu – những đầu mối nhộn nhịp nhất của vận tải hàng không. Nếu căn cứ vào màu sắc [mỗi hãng hàng không một màu] thì bạn cũng thấy rõ ngay các thị trường chính của những hàng không này. Suy rộng ra là, với tư cách là một nhà nghiên cứu thị trường, các xu hướng xã hội, hay buộc dữ liệu phải lên tiếng, phải cung cấp cho ta một thông tin đáng giá nào đó thì R hoàn toàn là một công cụ thích hợp cho bạn lựa chọn. Một ví dụ nữa của Data Mining là sử dụng dữ liệu từ Google Scholar, chúng ta có thể hình ảnh hóa [Data Visualization] về thị phần của R từ năm 1995 đến 2011 dựa trên các truy vấn tìm kiếm như sau:

Dữ liệu cần thiết đễ vẽ đồ thị trên tôi cũng gửi kèm với tài liệu này. Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

5

Thứ tư, sử dụng R trong nghiên cứu và phân tích dữ liệu là một xu hướng và ngày càng phổ biến, ít nhất là trong nghiên cứu thống kê – kinh tế lượng. Hiện R được giảng dạy và sử dụng như một công cụ phân tích dữ liệu ở nhiều trường đại học lớn, có uy tín trong lĩnh vực này ở Mĩ và Châu Âu. Đây cũng là lý đo xứng đáng để bạn chọn R. Cuối cùng, các trường đại học – nơi được cho là đào tạo ra những con người có kĩ năng, đạo đức và tuân thủ pháp luật thì không thể giáo dục gì về tuân thủ pháp luật cũng như sự trung thực cho sinh viên của mình khi mà chính nó cũng đang vi phạm pháp luật cũng bằng cách sử dụng các phần mềm chùa như hiện nay. Đối tượng bạn đọc của tài liệu này là ai? Đây chắc chắn là câu hỏi mà tôi phải trả lời trước ki viết tài liệu này. Đối tượng bạn đọc mà tôi hướng đến trước hết là các bạn học khối nghành kinh tế nói chung có nhu cầu sử dụng R như là một công cụ nghiên cứu – thực hành thống kê cũng như kinh tế lượng. Tất nhiên bạn đọc không thuộc khối kinh tế cũng có thể thu được nhiều lợi ích khi sử dụng tài liệu này. Ngoài ra, nếu bạn là người phóng khoáng, ưa thích cái đẹp và sự chính xác thì chắc chắn R sẽ trở thành người bạn đồng hành lâu dài của bạn ngay cả khi bạn chọn cho mình một nghề nghiệp mà buộc dữ liệu phải nói điều gì đó có ích. Ví dụ, không giống như một số phần mềm thương mại khô cứng khác [và bạn chẳng biến nó tính toán ra sao] khi thực hiện hồi quy OLS bạn cứ làm mãi mỗi một thao tác. R thì không như vậy, cũng là hồi quy OLS nhưng bạn có thể có hàng chục cách thức khác nhau. Về sự chính xác, theo tôi được biết thì cho đến tận phiên bản mới nhất của Stata mà tôi đang dùng [Version 14] thì khi tính R2 với dữ liệu mảng, Stata vẫn báo kết quả sai. Với R thì điều này không có. Vì bạn biết từng bước trong tính toán nếu muốn bằng cách xem trực tiếp những dòng mã lệnh. Bạn cần có gì để sử R với tài liệu này? Trước hết cần nói rằng đây không phải là một tài liệu về kinh tế lượng. Nó là một cuốn hướng dẫn sử dụng R với các áp dụng cho kinh tế lượng, do vậy sẽ không đề cập nhiều đến lý thuyết [mặc dù có một số tình huống tôi cũng có nhắc lại lý thuyết]. Tôi mặc định là các bạn đã có kiến thức nền tảng về thống kê và kinh tế lượng. Ngoài ra tôi cũng khuyến cáo bạn nên sử dụng tài liệu này kèm với cuốn Giáo Trình Kinh Tế Lượng in năm 2012 của T.S Nguyễn

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

6

Quang Dong và T.S Nguyễn Thị Minh [nhà xuất bản Đại Học Kinh Tế Quốc Dân]. Ngoài ra, từ chương 8 trở đi của cuốn giáo trình của NEU sử dụng nhiều dữ liệu từ cuốn sách Introductory Econometrics: A Modern Approach của Wooldridge [2013] nên tôi cũng gửi kèm các bạn cuốn sách này để tham khảo và đối chiếu. Dùng R có khó không? Tôi chỉ nói ngắn gọn thế này: không. Và tôi tin chắc là nếu bạn thành thạo R ở mức tối thiểu, bạn có xu hướng không sử dụng các phần mềm thống kê thương mại khác. Vì sao? Vì bạn hiểu bạn đang làm gì. Tuy nhiên là một người tự học nên tôi có một lời khuyên: R không phải là một kiểu “mì ăn liền” như Eviews, SPSS, hay Stata – những phần mềm mà các bạn chủ yếu là kích chuột, kích chuột là có kết quả. R có chút khắt khe hơn khi nó yêu cầu bạn hai thứ: [1] sự thận trọng trong việc gõ các câu lệnh, và [2] tuần tự từng bước. Theo kinh nghiệm của tôi cũng như nhiều người khác, là một người mới sử dụng R, bạn không thể nào học theo lối nhảy cóc được. Kết cấu của tài liệu này Dự kiến tôi sẽ viết tài liệu này thành ba phần. Phần một tương ứng với học phần kinh tế lượng 1 được giảng ở NEU. Phần hai tương ứng với nội dung phân tích dữ liệu mảng, một số mô hình như hồi quy phân vị, Logistic, Probit, Poisson, các mô hình có biến kiểm duyệt, mô hình hồi quy với biến công cụ và các ước lượng GMM. Phần ba tương ứng với nội dung phân tích chuỗi dữ liệu thời gian với một số mô hình quen thuộc như ARCH, GARCH, VAR, BVAR. Ngoài các nội dung kiến thức bám sát với cuốn giáo trình kinh tế lượng được trình bày ở trên tôi còn dành hẳn ra một mục với tên gọi khiêm tốn là Phụ Lục dành cho những phân tích đặc biệt. Chính ở phần này các bạn sẽ thấy sức mạnh vượt trội của R so với các phần mềm thương mại khác. Sở dĩ tôi để nó vào phần có tên là Phụ Lục vì: [1] không tương ứng với bất kì mảng kiến thức nào được trình bày trong các giáo trình kinh tế lượng tiêu chuẩn, [2] phạm vi kiến thức nằm ngoài giáo trình, [3] vì cả hai lí do nêu trên. Dữ liệu sử dụng cho tài liệu Một trong những nguyên tắc chủ đạo của tôi khi viết tài liệu này là sử dụng data có nguồn gốc rõ ràng và đáng tin cậy. Điều này đảm bảo rằng các bạn có thể kiểm tra, đối chiếu các kết quả

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

7

phân tích thu được nếu cần. Một lí do nữa tôi tin rằng không thể học tốt kinh tế lượng nếu như không am hiểu ở mức độ tối thiểu về dữ liệu mà mình đang sử dụng. Tất cả số liệu được sử dụng trong tài liệu này các bạn có thể dễ dàng lấy trên Internet. Tuy nhiên để thuận tiện tôi gửi toàn bộ chúng cùng tài liệu này. Cụ thể, các số liệu được sử dụng trong tài liệu này đến từ 5 nguồn chủ yếu dưới đây: 1. Các số liệu được cung cấp bởi khoa toán ở dạng file Eviews [gửi kèm tài liệu này] được sử dụng kèm với cuốn giáo trình kinh tế lượng của NEU. Các bạn có thể download trực tiếp tại: //innocom.vn/mfe/wp-content/uploads/Data_Giaotrinh_KTL_130919.rar 2. Bộ số liệu CPS 1988 đi kèm với gói AER. Bộ số liệu engel đi kèm gói quantreg. Ngoài ra còn có một số bộ dữ liệu khác được sử dụng và được tích hợp [có sẵn] trong một số gói phân tích của R. 3. Một số bộ số liệu [file Stata] lấy từ cuốn Econometrics by Example in năm 2011 của Gujarati. 4. Bộ số liệu panel1.dta [file Stata] sử dụng ở chương 10 cho phân tích dữ liệu mảng lấy từ cuốn Econometric Analysis of Panel Data in năm 2005 của Baltagi. 5. Một số bộ dữ liệu lấy từ một số giáo trình điển hình khác về kinh tế lượng như cuốn Introductory Econometrics: A Modern Approach ấn bản năm 2013 của Wooldridge, cuốn Applied Logistic Regression ấn bản năm 2013 của Hosmer và Lemeshow và một số sách khác. Các dữ liệu này ở dạng file Stata. Điều này có nghĩa là, bất kể khi nào bạn gặp một file ở dạng Eviews thì đó là số liệu của khoa toán thuộc NEU còn dữ liệu ở các định dạng khác thì được lấy từ các tài liệu hoặc gói nào đó của R. Về văn phong của tài liệu này Trước khi công bố tài liệu này tôi cũng gửi cho nhiều bạn đọc thẩm định trước. Ý kiến phản hồi về tài liệu chủ yếu là ở hai khía cạnh sau. Một là, văn phong bình dân với bằng chứng từ việc sử dụng nhiều đại từ “chúng ta”, “các bạn”. Việc này tôi cũng có cân nhắc trước khi viết. Sự thực là thay vì viết “Chúng ta có thể tính kiểm định F trực tiếp như sau..” bằng “Tính trực tiếp kiểm định F như sau..” là việc tôi có thể làm Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

8

được. Nhưng tôi thấy viết kiểu đó tài liệu trở nên “kém thân thiện”. Tôi hoàn toàn có thể viết tài liệu theo xung hướng long trọng và học thuật điển hình của các thesis, research paper. Tuy nhiên, tôi thích kiểu “thân thiện” hơn nên sẽ vẫn để nguyên phong cách ngôn ngữ như vậy. Có lẽ tôi bị ảnh hưởng từ A. Field – một trong số các tác giả yêu thích. Chẳng hạn, một trong các cuốn sách thống kê của tác giả này có tên Discovering statistics using SPSS: [and sex and drugs and rock 'n' roll] – dịch ra là : Khám phá thống kê sử dụng SPSS: [và tình dục, ma túy, nhạc Rock – Roll]. Hai là, giải thích chi tiết quá. Về điểm này tôi cần giải thích như sau. Đối tượng bạn đọc của tài liệu này có thể có mức độ học và hiểu thống kê – kinh tế lượng ở các mức độ khác nhau: từ những người được đào tạo bài bản về thống kê – kinh tế lượng như ở khoa Toán của đại học Kinh Tế Quốc Dân cho đến những bạn đọc không chuyên về thống kê như tôi. Nên viết chi tiết, nhất là ở khía cạnh thực hành, là điều tôi muốn hướng tới. Điều này còn dựa trên kinh nghiệm của chính bản thân tôi khi học cách sử dụng R: một lỗi rất nhỏ trong thao tác có thể làm cho một câu lệnh hay toàn bộ một chương trình không vận hành. Mà có thể tìm mãi cũng không ra. Bạn đọc có thể thấy điều này về cuốn sách về R vừa được tái bản ở Việt Nam của T.S Nguyễn Văn Tuấn [in cuối năm 2015]. Rõ ràng ông có thể viết cuốn sách ngắn cô đọng hơn. Nhưng ông không làm thế. Các sai sót Dù đã rất cẩn thận và cố gắng, tôi tin chắc tài liệu này còn có thiếu sót. Do vậy tôi rất mong nhận được bất kì phản hồi nào của các bạn về tài liệu. Dựa trên những phản hồi ấy tôi sẽ hiệu chỉnh và hoàn thiện hơn tài liệu cho những lần đánh máy sau. Trợ giúp từ người viết tài liệu này Trong tình huống các bạn gặp trục trặc [như thiếu data chẳng hạn] hay có bất kì phê phán nào đối với tài liệu, các bạn có thể nhận được hỗ trợ và phản hồi một cách nhanh chóng nhất có thể từ tôi qua ba cách thức sau [theo thứ tự ưu tiên và cập nhật giảm dần]: 1. Website gồm các bài viết về phân tích dữ liệu nói chung và kinh tế lượng nói riêng tại: //rpubs.com/chidungkt.

Các bài viết ở mục này sẽ có nhãn KTLR và các bạn có thể

phản hồi ngay lập tức. Tôi sẽ cố gắng cập nhật, trả lời phản hồi nhanh nhất có thể.

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

9

2. Gửi câu hỏi đến địa chỉ: //phantichdinhluong.wordpress.com/. Đây là Blog của tôi được thành lập để chúng ta trao đổi mọi thắc mắc về R. Do tôi chưa có kinh nghiệm dùng Blog nên giao diện của nó còn chưa tiện dụng và xấu. Tuy nhiên cái đó không quan trọng vì chắc chắn nó sẽ được cải thiện. Cách này được khuyến khích. 3. Chụp lại màn hình rắc rối của bạn và gửi qua FB tại: //www.facebook.com/Econometrics-and-Quantitative-Analysis-1429972370648696/

4. Tài liệu này luôn được làm mới và cập nhật cứ 2 tháng mỗi lần tại: //www.mediafire.com/download/3lg8bsfbu6csq8d/KinhTeLuongUngDungVoiR.rar

Lời cảm ơn Tất nhiên, mọi thứ không thể được xây dựng từ chân không. Người viết tài liệu này được hưởng lợi từ sự động viên, định hướng, công sức và sự nhiệt tình của nhiều người và do vậy tôi muốn nói lời cảm ơn chân thành tới họ. Trước hết, đó là Thầy Lê Đức Hoàng [Viện Ngân Hàng – Tài Chính, đại học Kinh Tế Quốc Dân] – người đã giúp đỡ tôi nhiều mặt [và cũng là một người bạn]. Thầy đã tạo cho tôi sự chú ý đối với R thông qua cuốn sách tuyệt vời Analysis of Financial Time Series của Ruey S. Tsay. Ngoài ra, tôi cũng gián tiếp được hưởng lợi từ: [1] T.S Nguyễn Văn Tuấn ở viện nghiên cứu Garvan [Australia] – người nhiệt thành cổ vũ cho việc sử dụng R trong các nghiên cứu và phân tích bằng việc công bố tài liệu tiếng Việt đầu tiên về R qua Blog của mình vào những năm 2004, [2] T.S Daniel Zelterman [Yale University] – người đã gửi cho tôi rất nhiều dữ liệu từ các nghiên cứu của ông cũng như cho cuốn Applied Multivariate Statistics with R, [3] T.S Hadley Wickham [Rice University] – người đã hào phóng gửi cho tôi bản mềm cuốn sách ggplot2 - Elegant Graphics for Data Analysis còn đang trong quá trình in ấn của mình mà không suy nghĩ gì về vấn đề bản quyền. Nhiều kiến thức thu được về sử dụng gói ggplot2 từ cuốn sách này được sử dụng để viết một phần chương 3 của tài liệu. Tôi cũng muốn nói lời cảm ơn đến bố - mẹ, những bạn bè thân hữu đã cũng tạo điều kiện và giúp đỡ tôi hoàn thành tài liệu này mặc dù họ có thể không ý thức được điều đó. Cuối cùng, tôi cũng muốn nói lời cảm ơn đến tất cả các bạn – những người quan tâm và sử dụng tập tài liệu này.

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

10

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

11

Mục Lục Chương 1: R với tư cách một công cụ nghiên cứu kinh tế lượng ...................................................... 19 1.1 Tổng quan về R ............................................................................................................................................. 19 1.2 Cài đặt R, Rstudio và các Packages cần thiết ...................................................................................... 20 1.2.1 Cài đặt R cho cho Windows ...................................................................................................... 20 1.2.2 Cài đặt các packages.................................................................................................................. 21 1.2.3 Yêu cầu một Package cụ thể trình diện ................................................................................. 23 1.2.4 Cài đặt Rstudio ........................................................................................................................... 24 1.3 Trợ giúp từ R ................................................................................................................................................. 26 1.4 Các quy ước ................................................................................................................................................... 27 Chương 2: Môi trường làm việc trong R .................................................................................................... 28 2.1 Nhập dữ liệu trực tiếp vào R.................................................................................................................... 28 2.2 Hiệu chỉnh dữ liệu ....................................................................................................................................... 29 2.3 Nhập dữ liệu từ file sẵn có vào R............................................................................................................ 29 2.3.1 Đọc dữ liệu từ file Eviews ........................................................................................................ 30 2.3.2 Đọc dữ liệu từ file Stata, SPSS, MATLAB, SAS ....................................................................... 32 2.3.4 Đọc dữ liệu từ file Excel ........................................................................................................... 33 2.3.5 Đọc dữ liệu từ file đuôi .txt và .csv ......................................................................................... 34 2.4 Quản lý dữ liệu, đổi tên, hiệu chỉnh dữ liệu ở dạng data frame.................................................. 34 2.5 Biến đổi, chiết, ghép, và chọn ngẫu nhiên dữ liệu ở dạng data.frame ...................................... 36 2.5.1 Biến một cột dữ liệu từ dạng số thành dạng kí tự............................................................... 36 2.5.2 Biến một cột dữ liệu từ dạng kí tự thành dạng số............................................................... 38 2.5.3 Ghép một cột dữ liệu vào một data.frame sẵn có ................................................................ 38 2.5.4 Tách dữ liệu từ data.frame ..................................................................................................... 38 2.5.6 Chọn một mẫu nhỏ từ các quan sát đã có ở một data.frame .............................................. 39 2.6 Lưu các dữ liệu đã có trong R thành file Excel, Stata ..................................................................... 40 2.7 Sử dụng R thu thập dữ liệu từ World Bank ........................................................................................ 41 2.7.1 Giới thiệu về các số liệu được cung cấp bởi World Bank .................................................... 41 2.7.2 Lấy các dữ liệu từ World Bank từ R với sự trợ giúp của gói WDI ..................................... 43 2.8 Thực hiện các tính toán thông thường trong R ................................................................................ 45 2.9 Mô phỏng dữ liệu ......................................................................................................................................... 47 Chương 3: Các thống kê mô tả và graph trong R ..................................................................................... 50

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

12 3.1 Thực hiện các thống kê mô tả trong R.................................................................................................. 50 3.1.1 Thống kê mô tả với các hàm sẵn có trong R ......................................................................... 50 3.1.2 Thống kê mô tả chi tiết với gói pastecs ................................................................................. 52 3.1.3 Thống kê mô tả chi tiết với gói stargazer ............................................................................. 53 3.1.4 Thống kê mô tả chi tiết với gói fBasics .................................................................................. 54 3.2 Tìm các giá trị thống kê và mức xác suất của phân phối N, t, F,và χ2 ........................................ 55 3.2.1 Phân phối chuẩn N .................................................................................................................... 55 3.2.2 Phân phối Student t ................................................................................................................... 59 3.2.3 Phân phối F ................................................................................................................................. 60 3.2.4 Phân phối χ2 ............................................................................................................................... 61 3.3 Vẽ các graph và đồ thị trong R................................................................................................................. 62 3.3.1 Các Graphs với gói mặc định Basic Graph của R .................................................................. 63 3.3.1.1 Vẽ Scatter Plot ...................................................................................................................... 63 3.3.1.3 Vẽ Histogram ....................................................................................................................... 64 3.3.1.4 Hàm mật độ xác suất Density ............................................................................................ 66 3.3.1.5 Boxplots ................................................................................................................................ 67 3.3.1.6 Pie Chart ............................................................................................................................... 71 3.3.1.7 Trình bày nhiều Graphs trên cùng một cửa sổ hiển thị trong R .................................. 72 3.3.2 Các Graphs với gói ggplot2 ...................................................................................................... 73 3.3.2.1 Vẽ Scatter Plot ...................................................................................................................... 74 3.3.2.2 Vẽ đường hồi quy ................................................................................................................ 75 3.3.2.3 Vẽ Histogram ....................................................................................................................... 78 3.3.3.4 Boxplots ................................................................................................................................ 80 3.3.2.5 Biểu đồ cột ............................................................................................................................ 82 3.3.2.6 Vẽ các đường cong hồi quy bặc hai .................................................................................. 84 3.3.2.7 Hàm mật độ xác suất Density ............................................................................................ 86 3.3.2.8 Trình bày nhiều Graphs trên cùng một cửa sổ hiển thị trong R với gói grid ............ 88 3.3.2.9 Vẽ thêm Histogram cho đường hồi quy với gói ggExtra ............................................... 90 3.3.2.10 Vẽ thêm hàm mật độ xác suất cho đường hồi quy với gói gridExtra........................ 90 3.3.2.11 Vẽ thêm Boxplot cho đường hồi quy với gói gridExtra ............................................... 92 3.3.2.12 Vẽ đồ thị thị phần của R giai đoạn 1995 - 2011 ........................................................... 92 3.4 Lưu các Graphs ............................................................................................................................................. 94 Chương 4: Mô hình hồi quy tuyến tính hai biến số trong R ................................................................. 95

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

13 4.1 Một số thống kê cơ bản về bộ dữ liệu ................................................................................................... 96 4.2 Thực hiện hồi quy và một số tiêu kiểm định thường gặp ............................................................. 97 4.2.1 Hồi quy đơn, khoảng tin cậy cho các hệ số và bảng ANOVA .............................................. 97 4.2.2 Tìm các quan sát bất thường................................................................................................. 102 4.2.3 Thực hiện một số kiểm định thường gặp cho mô hình hồi quy ..................................... 103 4.2.3.1 Kiểm định tính phân phối chuẩn của phần dư ............................................................. 103 4.2.3.2 Kiểm định Durbin - Watson ............................................................................................. 106 4.2.3.3 Kiểm định Wald về một giá trị cụ thể của một hệ số hồi quy ...................................... 107 4.2.3.4 Kiểm định Wald đồng thời cho nhiều hệ số hồi quy ..................................................... 107 4.3 Mô phỏng Monte Carlo kiểm tra các giả thuyết CLMR .................................................................. 108 4.4 Sử dụng kết quả hồi quy cho ước lượng ........................................................................................... 110 4.5 Một số tiêu chí thường sử dụng để đánh giá chất lượng mô hình ........................................... 112 4.5.1 Tiêu chí R2 và tương quan giữa Y và Ŷ................................................................................. 113 4.5.2 Các tiêu chí đánh giá theo phần dư ....................................................................................... 113 4.5.3 Các tiêu chuẩn thông tin AIC, SIC, và Cp của Mallow ........................................................... 114 4.5.4 Tỉ lệ sai sót huấn luyện và sai sót kiểm định và hiện tượng quá khớp ............................ 115 4.6 Đánh giá chất lượng của mô hình bằng các phương pháp tái chọn mẫu ............................... 119 4.6.1 Phương pháp Bootstrap......................................................................................................... 120 4.6.2 Phương pháp kiểm tra chéo .................................................................................................. 127 4.6.2.1 Kiểm tra chéo LOOCV....................................................................................................... 127 4.6.2.2 Kiểm tra chéo k lớp.......................................................................................................... 129 4.6.2.3 Sự đánh đổi Bias – Variance ........................................................................................... 130 Chương 5: Hồi quy bội ................................................................................................................................... 132 5.1 Thực hiện hồi quy bội trong R và khoảng tin cậy cho các hệ số ................................................ 132 5.2 Khoảng tin cậy cho một biểu thức của hệ số hồi quy .................................................................... 133 5.3 Kiểm định Wald về sự ràng buộc của các hệ số hồi quy............................................................... 134 5.4 Kiểm định F về việc đồng thời bằng không của nhiều hệ số hồi quy....................................... 135 5.5 Mối liên hệ hình chữ U ngược giữa giáo dục và mức lương....................................................... 138 5.6 hồi quy chuẩn hóa và vấn đề so sánh tác động của các biến độc lập ....................................... 139 5.7 Kiểm định LM, LR trong trường hợp kích cỡ mẫu là lớn ............................................................ 140 5.8 Gợi ý trả lời một sô bài tập chương 2 thuộc cuốn giáo trình của NEU.................................... 144 Chương 6: Các mô hình hồi quy biến giả ................................................................................................. 153 6.1 Bản chất của biến giả và các mô hình hồi quy ANOVA .................................................................. 153 6.1.1 mô hình ANOVA với chỉ một biến giải thích là biến giả duy nhất................................... 153 Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

14 6.1.2 mô hình ANOVA với hai biến giả trở lên ............................................................................. 154 6.1.3 mô hình ANOVA có sự tương tác của các biến giả ............................................................. 155 6.2. Mô hình có chứa cả biến giả lẫn biến định lượng – mô hình ANCOVA................................... 156 6.2.1 Mô hình ANCOVA không có sự tương tác giữa các biến ..................................................... 156 6.2.2 Mô hình ANCOVA có sự tương tác giữa các biến ............................................................... 157 6.2.3 Vai trò của biến định tính và kiểm định Chow ................................................................... 158 6.2.4 Sử dụng biến giả thay thế cho kiểm định Chow ................................................................. 159 6.3. Biến định tính có nhiều phạm trù ....................................................................................................... 163 6.4. Hồi quy riêng lẻ cho từng nhóm dữ liệu từ cùng một bộ số liệu.............................................. 165 6.5 Vấn đề gán giá trị cho biến giả .............................................................................................................. 169 Chương 7: Hiện tượng đa cộng tuyến....................................................................................................... 171 7.1 Hiện tượng đa cộng tuyến ...................................................................................................................... 171 7.2 Một ví dụ minh họa hiện tượng đa cộng tuyến ............................................................................... 175 7.3 Xử lý hiện tượng đa cộng tuyến bằng bỏ biến số căn cứ vào tiêu chí Cp của Mallows...... 180 7.4 Xử lý hiện tượng đa cộng tuyến bằng phân tích thành phần chính PCA ................................ 187 Chương 8: Phương sai sai số thay đổi ....................................................................................................... 191 8.1 Phương sai sai số thay đổi và hậu quả ............................................................................................... 191 8.2 Chẩn đoán phương sai sai số thay đổi................................................................................................ 193 8.2.1 Các phương pháp không chính thức.................................................................................... 193 8.2.1.1 Căn cứ vào bản chất của các biến số kinh tế ................................................................. 193 8.2.1.2 Căn cứ vào đồ thị phần dư ............................................................................................... 193 8.2.2 Căn cứ vào các bằng chứng thống kê chính thức .............................................................. 194 8.2.2.1 Kiểm định Park .................................................................................................................. 194 8.2.2.2 Kiểm định Glejser .............................................................................................................. 198 8.2.2.3 Kiểm định Goldfeld - Quandt ........................................................................................... 199 8.2.2.4 Kiểm định do Breusch – Pagan đề xuất dựa trên kiểm định F ................................... 200 8.2.2.5 Kiểm định White ................................................................................................................ 203 8.2.2.6 Kiểm định Koenker - Basett ............................................................................................. 205 8.3 Một số cách khác phục phương sai sai số thay đổi ........................................................................ 206 8.3.1 Phương pháp bình phương nhỏ nhất có trọng số và đổi biến số ................................... 206 8.3.2 Sử dụng biến đổi Box – Cox và Yeo-Johnson....................................................................... 209 Chương 9: Lỗi định dạng mô hình .............................................................................................................. 214 9.1 Các tiêu chuẩn lựa chọn mô hình ......................................................................................................... 214 9.2 Các loại lỗi mô hình ................................................................................................................................... 215 Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

15 9.3 Bỏ sót biến quan trọng ............................................................................................................................ 216 9.3.1 Các hậu quả của việc bỏ sót biến quan trọng ..................................................................... 216 9.3.2 Kiểm định Wald ....................................................................................................................... 216 9.3.3 Kiểm định F............................................................................................................................... 219 9.3.4 Kiểm định Ramsey RESET ...................................................................................................... 220 9.3.5 Kiểm định Lagrange Multiplier ............................................................................................ 222 9.4 Thêm biến không cần thiết .................................................................................................................... 223 9.4.1 Các hậu quả của thêm biến không cần thiết vào mô hình................................................ 223 9.4.2 Các kiểm định ........................................................................................................................... 223 9.5 Dạng hàm sai ............................................................................................................................................... 224 9.5.1 Kiểm định Koop ....................................................................................................................... 224 9.5.2 Ramsey Test ............................................................................................................................. 226 9.5.3 Davidson – MacKinnon Test .................................................................................................. 228 9.6 Lỗi đo lường ................................................................................................................................................ 230 9.7 Lỗi do các quan sát bất thường, đòn bẩy cao, quan sát gây ảnh hưởng ................................. 231 Chương 9: Hồi quy với biến công cụ và hồi quy hai giai đoạn 2SLS................................................ 236 9.1 Nguyên nhân của việc sử dụng biến công cụ cho mô hình hồi quy .......................................... 236 9.2 Sử dụng đồng thời nhiều biến công cụ cho một biến số .............................................................. 240 9.3 Kiểm định biến công cụ yếu, kiểm định Wu-Hausman và Sargan ............................................ 241 9.4 Hậu quả của việc sử dụng biến công cụ yếu ..................................................................................... 242 9.5 Ước lượng bình phương nhỏ nhất hai giai đoạn 2SLS ................................................................. 244 Chương 10: Phân tích dữ liệu bảng [Panel Data].................................................................................. 247 10.1 Giới thiệu về dữ liệu bảng.................................................................................................................... 247 10.2 Giới thiệu bộ số liệu sử dụng và package cần thiết cho phân tích ......................................... 249 10.3 Phân tích dữ liệu mảng cho mô hình nghiên cứu ........................................................................ 251 10.3.1 Hồi quy gộp [Pooled OLS] .................................................................................................... 252 10.3.2 Mô hình tác động cố định biến giả SLDV và kiểm định gộp ........................................... 254 10.3.3 Mô hình tác động cố định không có biến giả .................................................................... 259 10.3.4 Mô hình tác động ngẫu nhiên cho phân tích dữ liệu mảng ........................................... 261 10.4 Một số kiểm định lựa chọn và chẩn đoán lỗi của mô hình ....................................................... 264 10.4.1 Kiểm định Hausman cho lựa chọn giữa FEM và REM ..................................................... 264 11.4.2 Kiểm định Breusch-Pagan cho lựa chọn giữa REM và Pooled OLS .............................. 267 10.4.3 Một số kiểm định khác chẩn đoán lỗi mô hình sử dụng dữ liệu mảng ....................... 268 10.4.3.1 Kiểm định tương quan phần dư giữa các cá thể ....................................................... 268 Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

16 10.4.3.2 Kiểm định tương quan chuỗi cho FEM, REM ............................................................... 268 10.4.3.3 Kiểm định phương sai sai số thay đổi cho FEM .......................................................... 269 10.5 Một số phân tích hình ảnh – đồ thị cho dữ liệu bảng .................................................................. 270 10.6 Một số lưu ý về định dạng dữ liệu khi tích dữ liệu bảng ........................................................... 273 10.7 Một vài kết luận cho chương 10 ........................................................................................................ 274 Chương 11: Các mô hình phân loại............................................................................................................. 276 11.1 Mô hình xác suất tuyến tính LPM ...................................................................................................... 276 11.2 Mô hình Logistic và một số tiêu chí đánh giá ................................................................................ 278 11.2.1 Mô hình Logistic ..................................................................................................................... 278 11.2.2 Một số tiêu chí đánh giá chất lượng của mô hình Logistic .............................................. 288 11.2.2.1 Kiểm định Hosmer-Lemeshow ...................................................................................... 288 11.2.2.2 Các tiêu chí khác đo lường khả năng phân loại của mô hình .................................. 289 11.3 Một nghiên cứu thú vị về vai trò của chủng tộc đối với việc kết án tử hình....................... 294 11.4 Mô hình Logistic đa cấp độ .................................................................................................................. 296 11.6 Mô hình Probit ......................................................................................................................................... 300 11.6 So sánh mô hình Probit và Logistic................................................................................................... 303 11.7 Một vài nhận xét về chương 10 sách giáo trình ........................................................................... 303 11.8 Ứng dụng trong nghiên cứu của mô hình Logit và Probit và một số mô hình phân loại khác cho xếp hạng tín dụng........................................................................................................................... 306 11.9 Mô hình cây phân loại và so sánh với mô hình Logistic ............................................................ 320 Chương 12: Mô hình có biến bị kiểm duyệt: Tobit và hồi quy Poisson ......................................... 332 12.1 Mô hình Tobit ........................................................................................................................................... 332 13.2 Hồi quy Poisson ....................................................................................................................................... 334 Chương 13: Phân tích nhân tố khám phá EFA ........................................................................................ 336 13.1 Mô tả số liệu và các gói cần thiết cho phân tích ............................................................................ 336 13.2 Các phân tích sơ bộ cần thiết .............................................................................................................. 337 13.2.1 Phân tích tương quan ........................................................................................................... 337 13.2.2 Phân tích một số chỉ tiêu thống kê về các câu hỏi ............................................................. 339 13.3 Kiểm định KMO và Bartlett.................................................................................................................. 341 13.3.1 Kiểm định KMO ....................................................................................................................... 341 13.3.2 Kiểm định Bartlett ................................................................................................................. 342 13.4 Số lượng các nhân tố chính rút ra ..................................................................................................... 343 13.5 Các biến cụ thể cấu thành nhân tố chính và kiểm định Cronbach Alpha ............................ 345 13.6 Về xu hướng sử dụng phân tích EFA trong nghiên cứu hiện nay........................................... 349

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

17 Chương 14: Hồi quy phân vị ......................................................................................................................... 350 14.1 Giới thiệu về hồi quy phân vị .............................................................................................................. 350 14.2 Một ví dụ nghiên cứu về hồi quy phân vị ........................................................................................ 351 14.3 Một số kết luận ......................................................................................................................................... 354 Chương 15: Các mô hình hồi quy cơ bản cho dữ liệu thời gian ...................................................... 356 15.1 Các mô hình tĩnh...................................................................................................................................... 356 15.2 Khai báo chuỗi thời gian trong R....................................................................................................... 357 15.2.1 Khai báo chuỗi thời gian đều ............................................................................................... 357 15.2.2 Khai báo chuỗi thời gian không đều ................................................................................... 358 15.2.3 Thu thập dữ liệu tài chính với gói quantmod .................................................................... 358 15.3 Mô hình phân phối trễ hữu hạn ......................................................................................................... 361 15.4 Mô hình có tác động của yếu tố xu hướng ...................................................................................... 364 15.5 Mô hình có tác động của yếu tố thời vụ ........................................................................................... 366 Chương 16: Các mô hình tuyến tính cho dữ liệu tài chính ................................................................ 368 16.1 Tính dừng của chuỗi thời gian và tầm quan trọng của tính dừng ......................................... 368 PHỤ LỤC A: Gia công một hàm viết sẵn ..................................................................................................... 374 PHỤ LỤC B: Text Data Mining ....................................................................................................................... 374 1 . Tạo đám mây từ [word cloud] ................................................................................................................ 375 2 . Biểu đồ cột cho 10 từ xuất hiện nhiều nhất ....................................................................................... 377 3 . Tìm tương quan của các từ với một từ cụ thể................................................................................... 379 4 . Ứng dụng Text Data Mining trong thực tế: sản phẩm Antispam của Viettel.......................... 379 PHỤ LỤC C: Tiền xử lý số liệu [Data Pre-processing]........................................................................... 380 1 . Loại bỏ các biến có phương sai không hoặc gần bằng không ...................................................... 381 2 . Loại bỏ các biến có tương quan cao...................................................................................................... 382 3 . Tác động của việc loại bỏ 56 biến số .................................................................................................... 384 PHỤ LỤC D: Các tiếp cận Artificial Neural Network trong dự báo thay cho OLS ........................ 386 PHỤ LỤC E: Xử lí số liệu thiếu [Missing Data Processing] .................................................................. 394 PHỤ LỤC F: Xây dựng hệ thống hỗ trợ ra quyết định trong quản lý siêu thị................................ 398 1 . Giới thiệu ....................................................................................................................................................... 398 2. Cơ sở lý thuyết của luật kết hợp ............................................................................................................. 399 3 . Các tiêu chí xác định một quy luật kết hợp có ý nghĩa ................................................................... 400 4. Áp dụng luật kết hợp cho tình huống nghiên cứu cơ sở dữ liệu của BigX ............................... 401 5. Kết luận............................................................................................................................................................ 407

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

18

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

19

Chương 1: R với tư cách một công cụ nghiên cứu kinh tế lượng Chương này chúng ta sẽ tìm hiểu về R với tư cách là một phần mềm tính toán thống kê – kinh tế lượng kiêm ngôn ngữ lập trình cũng như cách cài đặt R và một số Packages [gói] cần thiết cho nghiên cứu thống kê – kinh tế lượng. 1.1 Tổng quan về R

Động lực ra đời của R khá đơn giản. Vào khoảng năm 1993 Ross Ihaka và Robert Gentleman ở University of Auckland [New Zealand] nhận thấy rằng các phần mềm thống kê thương mại sử dụng cho các tính toán thống kê vào thời điểm ấy là còn đắt đỏ và quan trọng hơn là không phù hợp và linh hoạt cho cả mục đích giảng dạy thống kê cũng như một số tình huống công việc. Hai ông đã quyết định lựa chọn ngôn ngữ S được phát triển bởi Bell Laboratories với nỗ lực viết một phần mềm thống kê mới cho các mục đích giảng dạy. Lí do lựa chọn S có lẽ là do sự thành công của S-PLUS – một phần mềm thống kê cũng dựa trên ngôn ngữ S được phát triển những năm 80 và đến thời điểm đó đã được sử dụng phổ biến. Tuy nhiên người nhìn thấy tiềm năng và sức mạnh của R nếu như mã nguồn [R code] của nó được công khai với tư cách là một phần mềm miễn phí chính là Martin Maechler. Bị thuyết phục bởi Maechler, Ross Ihaka và Robert Gentleman đã quyết định rằng R là miễn phí cho tất cả người sử dụng vào năm 1995. Kể từ thời điểm đó, R được đón nhận và ngày càng trở nên mạnh mẽ vì nó được phát triển bởi một cộng đồng rộng lớn những chuyên gia về phân tích dữ liệu mà trước tiên là các nhà thống kê và kinh tế lượng. Đến thời điểm hiện tại thì R đã là một công cụ phân tích dữ liệu đa năng không chỉ sử dụng cho thống kê mà còn là công cụ của Data Mining, Machine Learning, và Big Data. Với tư cách là một công cụ cho nghiên cứu thống kê – kinh tế lượng, R ngày càng trở nên phổ biến và được giảng dạy ở hầu hết các trường đại học lớn có uy tín trong lĩnh vực này như Princeton, Yale, University of California at Berkeley, University of California at Los Angeles, Stanford, Havard, MIT.. ở Hoa Kì và Cambridge ở Anh. Khoảng năm 2004, TS Nguyễn Văn Tuấn có lẽ là người Việt Nam đầu tiên viết về R khi giới thiệu tập tài liệu về R [hồi đó là hơn 100 trang] qua blog của mình. Hiện tài liệu này đã trở thành một cuốn sách dày hơn 500 trang được in bởi nhà xuất bản thành phố Hồ Chính Minh

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

20

[cuối năm 2015]. Tuy nhiên, tác giả là một nhà nghiên cứu Y Học nên cuốn sách này là thuộc Biostatistics [thống kê Y – Sinh] nên có thể chưa phù hợp lắm nhu cầu của người học và nghiên cứu các vấn đề kinh tế. Với mục đích nghiên cứu thống kê – kinh tế lượng, R có thể thực hiện được tất cả các phân tích mà các phần mềm thống kê thương mại như Eviews, SPSS – AMOS, STATA, SAS có thể làm. Và trong nhiều tình huống còn làm tốt hơn. Chẳng hạn, nếu phân tích dữ liệu mảng thì Eviews có khả năng hạn chế và kém hơn so với Stata. Nhưng nếu là nghiên cứu dùng đến thống kê đa biến, thống kê nhiều chiều như phân tích nhân tố khám phá EFA, CFA, phân tích đường dẫn [Path Analysis]… thì bạn có xu hướng dùng SPSS – AMOS hay Stata vì nó phù hợp hơn. Nhưng với R bạn chẳng cần lựa chọn gì cả. Nó thực hiện được tất cả các phân tích đó, kể các các phân tích phức tạp cho dữ liệu chéo, dữ liệu mảng, đến dữ liệu chuỗi thời gian và dữ liệu tần số cao [High Frequency Data] vốn phổ biến trong nghiên cứu tài chính. Ngoài ra, với tư cách là một ngôn ngữ lập trình hoàn thiện, R cho phép bạn xử lý những phân tích một cách linh hoạt hoặc thiết kê những hàm, những chương trình cho phép bạn xử lí một vấn đề phân tích cụ thể nào đó và có thể chia sẻ với người khác. Việc học và làm chủ được một công cụ phân tích số liệu mạnh như R cho thống kê – kinh tế lượng là một công việc không hề khó. Điều này tôi có thể khẳng định chắc chắn. Thứ bạn cần là sự đều đặn trong thực hành [thường không quá 1 tháng với mỗi ngày học 60 phút]. Một khi đã thành thao R ở một mức độ tối thiểu nào đó chắc chắn bạn chỉ muốn học thêm nhiều về R. 1.2 Cài đặt R, Rstudio và các Packages cần thiết Phần này giới thiệu cách thức cài đặt R cho Windown, Mac cũng như một số khía cạnh liên quan khác. 1.2.1 Cài đặt R cho cho Windows Để sử dụng R cho các máy dùng hệ điều hành Windows, trước hết các bạn cần cài đặt nó. Tôi kiến nghị rằng các bạn nên cài đặt phiên bản mới nhất R 3.2.3 từ địa chỉ sau. //cran.r-project.org/bin/windows/base/R-3.2.3-win.exe

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

21

Sau khi cài đặt [cả cài và download chưa đến 10 phút], R có giao diện như sau:

Nếu dùng Mac bạn cần cài đặt R cho phiên bản Mac ở mục Download R for [Mac] OS X tại: //cran.r-project.org/ 1.2.2 Cài đặt các packages Ban đầu được phát triển như là một công cụ cho tính toán Thống Kê - Kinh Tế Lượng nhưng theo thời gian R đã trở thành một công cụ phân tích dữ liệu đa năng. Từ đào mỏ dữ liệu [Data Mining], dữ liệu lớn [Big Data] trong nhiều lĩnh vực khác nhau [Marketing, Kinh Tế, Tài Chính, Thống kê Y - Sinh, nghiên cứu Ngôn Ngữ Học]. đến cả vẽ bản đồ. R cũng đồng thời là một ngôn ngữ lập trình hoàn thiện. Điều này ngụ ý rằng chúng ta không cần đến mọi chức năng phân tích của nó. Việc này được hiện thực hóa qua các Packages [gói] của R: cần đến gói nào thì chúng ta sẽ cài đặt gói ấy. Cho đến thời điểm tài liệu này được viết đã có hơn 7000 gói được viết cho R bởi một cộng đồng rộng lớn thuộc giới phân tích dữ liệu – bao gồm cả các nhà thống kê, kinh tế lượng chuyên nghiệp có uy tín. Chúng ta tạm hiểu một Package của R là một tập hợp các chương trình, hàm được viết sẵn để xử lý một nhóm các phân tích hay một

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

22

nhóm các bài toán nào đó. Trong nhiều trường hợp, các Packages này có thể bao gồm cả dữ liệu đi kèm. Ví dụ gói AER – một gói trong số các gói mà chúng sử dụng trong tập tài liệu này có chứa bộ dữ liệu CPS1988 – một bộ dữ liệu tương tự như VHLSS của Việt Nam. Đối với nghiên cứu thống kê – kinh tế lượng, dưới đây là một số gói quan trọng mà chúng ta cần đến: Tên gói

Cài đặt packages

Công dụng

xlsx

install.packages["xlsx"]

Đọc data đuôi .xlsx [file Excel]

gdata

install.packages["gdata"]

Đọc data đuôi .xls [fileExcel]

foreign

install.packages["foreign"]

Đọc data đuôi .sav [file SPSS], .dta [file Stata] …

hexView

install.packages["hexView"]

Đọc data đuôi .wf1 và .WF1[file Eviews]

AER

install.packages[“AER”]

Cung cấp các hàm, lệnh cho các mô hình kinh tế lượng

ggplot2

install.packages[“ggplot2”]

Hỗ trợ chức năng Graph [xem trang cuối cùng của chương 6]

pastecs

install.packages["pastecs"]

Cung cấp các hàm, lệnh cho các mô hình kinh tế lượng – thống kê chi tiết

fBasics

install.packages["fBasics"]

Cung cấp các hàm, lệnh cho thực hiện các phân tích kinh tế lượng – thống kê chi tiết

lmtest

install.packages["lmtest"]

Cung cấp các hàm, lệnh cho thực hiện các kiểm định– thống kê chi tiết

car

install.packages["car"]

Cung cấp các hàm, lệnh cho thực hiện các kiểm định– thống kê chi tiết

stargazer install.packages["stargazer "] Cung cấp các hàm, lệnh cho các mô hình kinh tế lượng – thống kê chi tiết

“Một số gói quan trọng” nghĩa là vẫn còn một số gói “râu ria” nữa. Đương nhiên sau một thời gian thực hành các bạn sẽ thành thạo việc xác định gói nào cần và tự biết cách tự cài đặt cũng như sử dụng chúng. Các bạn sẽ hiểu rõ hơn vấn đề này ở mục 1.2.3 và 1.3.

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

23

Để cài đặt một gói nào đó, ví dụ gói ggplot2 chẳng hạn, các bạn làm như sau. Tại cửa sổ lệnh của R các bạn gõ install.packages[“ggplot2”]. Chờ vài giây R sẽ đưa ra màn hình sau:

Kế tiếp R nó yêu cầu là bạn chọn CRAN ở cửa sổ HTTPS CRAN mirror – thực chất là nơi máy chủ nó lưu trữ các package mà bạn cần cài đặt. Bạn sẽ thấy có tên của nhiều thành phố hoặc quốc gia. Tốt nhất bạn nên chọn thành phố/quốc gia nào mà: [1] hoặc gần mình nhất nhưng ngon nhất về chất lượng mạng – mình hay chọn Hàn Quốc hoặc Nhật Bản, hoặc [2] cách mình nửa vòng quả đất. Nguyên nhân là càng trái múi giờ sẽ install càng nhanh vì đỡ nghẽn mạng. Trước mắt, các bạn nên cài đặt tất cả các gói mà tôi liệt kê ở trên.

1.2.3 Yêu cầu một Package cụ thể trình diện Yêu cầu một gói trình diện để sử dụng trong R quan trọng đến mức tôi phải để riêng một mục riêng. Nếu có một công việc nào đó bạn yêu cầu R thực hiện lệnh ggplot[] nhưng bạn quên không gọi package tương ứng để thực hiện công việc ấy thì R sẽ báo lỗi kiểu như sau:

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

24

Lí do là vì ggplot là một hàm [lệnh] thuộc gói ggplot2 – một gói mà bạn đã cài đặt nhưng bạn quên yêu cầu gói này trình diện. Để gọi gói này trình diện, bạn thực hiện theo câu lệnh sau: library[ggplot2] Các bạn thực hiện theo cú pháp này: tên gói bạn muốn gọi luôn để trong dấu [ ] của câu lệnh trên. Điều này áp dụng cho mọi gói trong R. Tượng tự, nếu bất kể khi nào mà bạn gõ lệnh library[XXX] nhưng R lại báo lỗi như sau: Error in library[XXX] : there is no package called ‘XXX’ Thì có nghĩa là bạn chưa cài đặt gói này. Lúc đó, bạn quay trở lại mục 1.2.2 để xem lại cách cài đặt gói có tên XXX. 1.2.4 Cài đặt Rstudio Nếu bạn nào từng sử dụng các phần mềm thống kê có môi trường làm việc dạng giao diện cửa sổ [SPSS là một điển hình] thì khi làm việc với R bạn sẽ cảm thấy khá khó chịu. Thay vì di chuyển và kích chuột bạn cần phải nhớ các dòng lệnh khi làm việc với R. Chưa hết, nếu bạn gõ sai R cũng không báo cho bạn biết. Rstudio được ra đời với nhiều mục đích trợ giúp [hay chí ít là làm cho R “gần hơn” với giao diện cửa sổ - vốn rất dễ sử dụng] khi làm việc với R. Hiện nay Hadley Wickham là Chief Scientist của Rstudio. Chúng ta cũng nên biết thêm một tẹo về Hadley Wickham [hiện là GS tại Rice University]– người được mệnh danh là người đàn ông cách mạng hóa R - the Man Who Revolutionized R. Gốc New Zealand, tốt nghiệp đại học từ University of Auckland [cần nói thêm rằng đây cũng là nơi ra đời của R] và sinh ra trong một gia đình có truyền thống về thống kê [cha là ông Brian Wickham hiện là giáo sư thống kê tại Cornell University còn chị gái là Charlotte Wickham tốt nghiệp từ UC Berkeley nghành .. thống kê hiện đang giảng ở Oregon State University]. Rstudio có hai phiên bản, trong đó có một phiên bản miễn phí dành cho các máy tính cá nhân. Tuy thuộc vào dòng máy [dùng Windows hay máy Mac] mà bạn cần cài Rstudio tại: //www.rstudio.com/products/rstudio/download/ Khi kích vào link trên bạn nhớ chọn cho mình phiên bản Rstudio phù hợp dưới đây:

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

25

Sau khi load và cài đặt [tầm 5 đến 10 phút] khởi động Rstudio chúng ta có giao diện như sau:

Giao diện của nó được chia thành 4 phần và phần dưới cùng bên trái chính là nơi chúng ta sẽ gõ các dòng lệnh. Đến đây bạn có thể trải nghiệm những khả năng của Rstudio. Lúc này các dòng lệnh sẽ là màu xanh và kết quả hiện lên có chữ màu đen. Hình ảnh [nếu có] sẽ được hiện ở mục có chữ Plots ở khu vực phía dưới bên phải của màn hình. Tất nhiên các bạn gõ lệnh trong R và Rstudio thì kết quả luôn luôn như nhau. Nhớ rằng Rstudio là thư hỗ trợ chúng ta sử dụng R thuận tiện hơn. Ngoài ra Rstudio còn có thể “biến” các phân tích của bạn thành một bài trien web site. Ví dụ: //rpubs.com/chidungkt/185954

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

26

1.3 Trợ giúp từ R

Mục này tuy không quan trọng lắm nhưng bạn nên biết để tự xử trả lời một số tình huống chưa hiểu, thậm chí là khó khăn nếu có khi sử dụng R với sự trợ giúp của Google dịch [nếu bạn đọc tiếng Anh chưa thạo]. Chẳng hạn bạn muốn biết sơ bộ các hàm, lệnh [và mọi thứ cơ bản khác] thuộc một gói nào đó, trong R bạn gõ: help[package=lmtest] Để xác định một gói cụ thể, chẳng hạn lmtesst, có đi kèm với những bộ số liệu nào các bạn gõ: data[package=”lmtest”] Sau khi thực hiện câu lệnh này các bạn sẽ thấy có một web site về gói này [tất nhiên không bằng tiếng Việt] với các thông tin về hàm [lệnh] hoặc dữ liệu đi kèm. Trở lại báo lỗi của R ở mục 1.2.3:

Tại cửa sổ lệnh của R các bạn gõ: ?ggplot R sẽ chỉ ra một web site kiểu thế này:

Căn cứ vào thông tin được cung cấp, các bạn biết ngay lệnh này thuộc gói ggplot2. Nếu quên chưa cài đặt, các bạn phải cài đạt gói này.

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

27

Đến đây bạn có thể xử một số trở ngại điển hình [chỉ dành cho người học R giai đoạn đầu] thường gặp: bất kể khi nào bạn gặp dòng lệnh library[XXX] với XXX là một cụm kí tự hay kí tự lẫn cả số thì có nghĩa là lệnh này chỉ thị cho R gọi gói tên là XXX để sử dụng. Nếu ngay sau khi gõ dòng này mà R báo lỗi thì bạn xử lí gọn nhẹ bằng cách gõ install.packages[“XXX”]. Một tình huống khác bạn hay gặp [thường là các sách..dày cả ngàn trang về R]: bạn gõ chính xác tất cả các câu lệnh nhưng R lại không cho ra kết quả như kì vọng. Trong tình huống này bạn nên rà soát xem có gói nào bạn chưa cài đặt và yêu cầu R sử dụng hay không. 1.4 Các quy ước

Để thuận lợi trong việc sử dụng tài liệu này chúng ta có một vài quy ước với nhau như sau: 1. Luôn để các file dữ liệu vào thư mục KTLR [xem kĩ mục 2.3 của chương 2 về cách tạo thư mục này]. 2. Giải thích cho ý nghĩa dòng lệnh [nếu có] được đặt sau dấu #. 3. Nói không với thao tác copy – paste. Các bạn có bản mềm của tài liệu này trong tay. Điều này có nghĩa là về cơ bản, các bạn có thể copy lệnh từ tài liệu rồi paste vào R. Trong hầu hết các tình huống R sẽ cho ra kết quả như mong muốn. Tuy nhiên tôi khuyến cáo không làm thế vì ít nhất hai lí do: [1] một số tình huống, thao tác copy – paste này không có tác dụng, và [2] các bạn chẳng học được gì bằng cách copy – paste như vậy. Về điều này tôi khẳng định chắc chắn. Chú ý: Khi các bạn thành thạo về đường dẫn thì quy ước đầu tiên không cần . Nhưng bốn quy ước sau nên tuân thủ.

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

28

Chương 2: Môi trường làm việc trong R Trong chương này, các mục đặc biệt quan trọng là từ 2.1 đến 2.5. Đây là các mục mà các bạn nên thành thạo ở mức tối thiểu. 2.1 Nhập dữ liệu trực tiếp vào R

Để phân tích dữ liệu thứ đầu tiên bạn cần làm là nhập dữ liệu vào R. Bạn có thể nhập dữ liệu trực tiếp vào R. Để mình họa chúng ta xét bảng số liệu sau:

[Bảng 1. Dữ liệu về thu nhập và chi tiêu. Nguồn: www.mfe.edu.vn/buiduonghai] Để nhập bảng dữ liệu trên chúng ta làm như sau: luong=c[20,30,28,24,42,36,32,34,24,22,28,30] thunhapkhac=c[16,10,2,0,18,10,16,24,28,20,8,4] chitieu=c[24.4,31.2,29.2,23.6,36,31.4,32.6,36.8,32.8,29.8,30.2,26.8]

Sau khi nhập bộ dữ liệu này các bạn có thể xem lại, chẳng hạn biến có tên luong trong R: luong ##

[1] 20 30 28 24 42 36 32 34 24 22 28 30

Nguyễn Chí Dũng

phantichdinhluong.wordpress.com

29

2.2 Hiệu chỉnh dữ liệu

Trong tình huống bạn nhập sai một quan sát nào đó, chẳng hạn với biến luong, quan sát cuối cùng thực tế là 32 nhưng bạn nhập sai thành 30. Để hiệu chỉnh giá trị này các bạn làm như sau trong R: luong=edit[luong]

R sẽ ra cửa sổ sau:

Lúc này bạn có thể di chuyển con trỏ đến vị trí 30 cuối cùng và chỉnh thành 32. Một điểm cần chú ý là các dấu = như các bạn đã sử dụng ở trên có thể thay bằng dấu

Chủ Đề