So sánh phân tích dữ với r nguyễn văn tính

Tôi rất hân hạnh giới thiệu một lớp học (workshop) về phương pháp phân tích dữ liệu (Basic Data Analysis) do Viện Chính Sách và Kinh tế thuộc Đại học Tôn Đức Thắng tổ chức, từ ngày 16/4/2022 đến 21/4/2022. Đây là workshop đầu tiên sau 2 năm chúng tôi ‘vắng bóng’ ở Việt Nam vì tình hình dịch bệnh. Kính mời các bạn tham dự. Lớp học vừa trực tiếp vừa trực tuyến (online). Chi tiết dưới đây:

Giới thiệu

Chúng tôi hân hạnh thông báo đến các bạn lớp tập huấn (workshop) 6 ngày về phương pháp phân tích dữ liệu cơ bản (Basic Data Analysis) sẽ được tổ chức tại Trường ĐH Tôn Đức Thắng từ 16/4/2022 đến 21/4/2022.

Phân tích dữ liệu là một môn học quan trọng trong Khoa học Dữ liệu (Data Science). Để hoán chuyển một rừng dữ liệu thô thành những thông tin có ích, phương pháp phân tích dữ liệu là chìa khoá. Trong nghiên cứu khoa học và các chương trình học sau đại học, phân tích dữ liệu là một kĩ năng rất quan trọng để bảo đảm kết quả nghiên cứu có thể công bố trên các tập san quốc tế. Không chỉ trong nghiên cứu khoa học, mà ngay cả các hoạt động quản lí cũng cần đến phân tích dữ liệu, và kết quả phân tích có thể giúp cho việc định hướng chính sách.

Thế nhưng trong thực tế, rất nhiều sinh viên sau đại học và các chuyên gia thiếu các kĩ năng cơ bản về phân tích dữ liệu. Nhiều người ứng dụng sai phương pháp và dẫn đến kết luận sai. Một số thì phân tích bằng những mô hình phức tạp nhưng vì thiếu kiến thức cơ bản nên diễn giải sai kết quả phân tích. Workshop này sẽ lắp vào khoảng trống kĩ năng đó cho các bạn đang cần những phương pháp cơ bản để biến dữ liệu thành thông tin.

Học viên sẽ được thực hành trên bộ dữ liệu thực tế bằng ngôn ngữ lập trình R. Là một ngôn ngữ lập trình có mã nguồn mở, miễn phí và có thể mở rộng, R ngày càng trở nên thịnh hành hơn hẳn các phần mềm phân tích dữ liệu hiện hữu. R sẽ giải quyết được bài toán về chi phí khổng lồ cho cho các Đại học và doanh nghiệp trong việc mua bản quyền truy cập phần mềm phân tích dữ liệu – một yêu cầu tất yếu trong công tác quản lý, nghiên cứu khoa học và công bố quốc tế. Chính vì vậy, sử dụng ngôn ngữ R là giải pháp hiệu quả và sẽ sớm trở thành xu hướng chung.

Mục tiêu và kì vọng

Mục tiêu chung của khoá học là tiếp cận các khái niệm, phương pháp phân tích dữ liệu cơ bản và hiển thị dữ liệu (data visualization). Chúng tôi kì vọng học viên sau khi xong lớp học sẽ:

  • Có thể sử dụng ngôn ngữ R và JASP cho phân tích và trình bày dữ liệu
  • Hiểu các phương pháp phân tích mô tả
  • Có khả năng trình bày dữ liệu phức tạp bằng các biểu đồ trực quan
  • Hiểu mô hình hồi qui tuyến tính và mô hình hồi qui logistic

Học viên

Lớp học được thiết kế dành cho các sinh viên đại học năm cuối, sau đại học, nghiên cứu sinh, nhà khoa học, nhà quản lí, người có nhu cầu phân tích dữ liệu. Học viên không cần có (a) kiến thức cơ bản về thống kê học; và (b) kĩ năng cơ bản về ngôn ngữ R.

Nội dung

Khóa học sẽ bao gồm khoảng 15 bài giảng, dữ liệu nghiên cứu thực tế trong lĩnh vực y học, giáo dục, kinh tế và xã hội (tùy theo học viên). Tài liệu khóa học được soạn bằng tiếng Anh, nhưng giảng bằng tiếng Việt. Học viên sẽ thực hành mỗi ngày. Buổi sáng giảng về lí thuyết, buổi chiều thực hành trên dữ liệu thực tế. Lớp học vừa trực tiếp vừa trực tuyến (online)

Chương trình dự kiến cho từng ngày như sau:

NGÀY I: GIỚI THIỆU NGÔN NGỮ R VÀ JASP

  • Giới thiệu R: giới thiệu ngôn ngữ R, cách đọc dữ liệu vào R, môi trường vận hành, biên tập dữ liệu với chương trình tidyverse.
  • Giới thiệu RStudio và RMarkdown: giới thiệu môi trường RStudio và ngôn ngữ ‘Markdown’ sẽ được sử dụng xuyên suốt trong khoá học
  • Giới thiệu chương trình JASP: đây là một software mới được xây dựng trên nền tảng R, nhưng rất dễ sử dụng cho những ai quen với menu

NGÀY II: PHƯƠNG PHÁP HIỂN THỊ DỮ LIỆU (DATA VISUALIZATION)

  • Nguyên tắc hiển thị dữ liệu: giới thiệu 4 nguyên lí Tufte trong biểu đồ và minh hoạ bằng một số biểu đồ đơn giản.
  • Biểu đồ đơn giản với ggplot2 – phần 1: học phương pháp soạn biểu đồ chất lượng cao và đẹp. Phần 1 sẽ tập trung vào biểu đồ phân bố (histogram), biểu đồ thanh (bar chart) và biểu đồ hộp (box plot).
  • Biểu đồ đơn giản với ggplot2 – phần 2: phần này sẽ tập trung vào biểu đồ tương quan và những biểu đồ liên quan.

NGÀY III: PHÂN TÍCH MÔ TẢ (DESCRIPTIVE ANALYSIS)

  • Phân tích mô tả – biến liên tục, biến phân loại: học cách dùng các chương trình như table1, compareGroups và JASP cho những phân tích mô tả (trung bình, trung vị, tỉ lệ, độ lệch chuẩn, khoảng tin cậy 95%).
  • So sánh hai nhóm – t-test, Chi-squared test: phương pháp kiểm định giả thuyết về sự khác biệt giữa hai nhóm đối với biến liên tục (t-test) và biến phân nhóm (kiểm định Ki bình phương).

NGÀY IV: PHÂN TÍCH LIÊN QUAN (ASSOCIATION ANALYSIS)

  • Mô hình hồi qui tuyến tính đơn giản (simple linear regression model): giới thiệu phương pháp phân tích tương quan và mô hình hồi qui đơn giản cùng cách diễn giải kết quả phân tích.
  • Phân tích dao động dư (residual analysis): kiểm tra giả định mô hình hồi qui tuyến tính và ứng dụng trong thực tế.
  • Mô hình hồi qui đa thức (polynomial regression): giới thiệu mô hình hồi qui đa thức cho những trường hợp liên quan phi tuyến tính.

NGÀY V: MÔ HÌNH HỒI QUI ĐA BIẾN (MULTIPLE LINEAR REGRESSION)

  • Mô hình hồi qui tuyến tính đa biến (multiple linear regression model): mô hình hồi qui với nhiều biến độc lập.
  • Cách chọn biến độc lập cho mô hình hồi qui đa biến: giới thiệu phuơng pháp BMA trong việc tìm những biến liên quan cho mô hình hồi qui đa biến.
  • Cách đánh giá tầm quan trọng của biến độc lập trong mô hình hồi qui đa biến: giới thiệu phương pháp ‘relative importance’ để đánh giá tầm quan trọng của các biến tiên lượng trong mô hình.

NGÀY VI: MÔ HÌNH HỒI QUI LOGISTIC (LOGISTIC REGRESSION FOR BINARY OUTCOME)

  • Mô hình hồi qui logistic đơn giản: giới thiệu khái niệm odds và odds ratio, cùng mô hình hồi qui logistic cho những trường hợp biến phụ thuộc là nhị phân (binary data).
  • Mô hình hồi qui logistic đa biến: mô hình hồi qui logistic đa biến và phương pháp tìm biến liên quan (không phải stepwise).

Giảng viên

Giảng viên phụ trách lớp học bao gồm các nhà khoa học thực nghiệm có kinh nghiệm lâu năm về nghiên cứu khoa học và công bố quốc tế:

Tôi (Nguyễn Văn Tuấn)

Ts Lê Thị Thanh Loan: Chuyên ngành Thống kê Kinh tế, phân tích định lượng trong kinh tế. Hiện là Viện trưởng Viện Chính sách Kinh tế và Kinh Doanh thuộc Trường ĐH Tôn Đức Thắng.

Ts Trần Sơn Thạch: Giảng viên Đại học New South Wales và nhà nghiên cứu y khoa thuộc Viện nghiên cứu y khoa Garvan.

Ts Hà Tấn Đức: Trưởng khoa can thiệp đột quỵ, Bệnh viện Đa khoa Trung Ương Cần Thơ.

Học phí: 5 triệu đồng mỗi học viên. Giảng viên, viên chức TDTU: 4.5 triệu. Sinh viên tại các trường đại học (có thẻ sinh viên): 4 triệu.

  • Học viên sẽ đăng kí từ ngày ra thông báo đến hết ngày 10/4/2022.
  • Lệ phí khóa học: 5 triệu đồng/học viên (bao gồm sách, tài liệu giảng dạy, và teabreak trong suốt 6 ngày học). Học phí cho sinh viên là 4 triệu đồng.

Mọi thông tin vui lòng liên hệ: Viện Chính sách Kinh tế và Kinh doanh, số 19, Đường Nguyễn Hữu Thọ, P. Tân Phong, Q.7, TP. HCM; Email: [email protected].

Thông tin liên hệ của người phụ trách: Nguyễn Phúc Huy, SĐT: 0343994226.

Ghi chú, khi nhận thông tin đăng ký cần hỏi rõ học viên thuộc lĩnh vực nào. Có thể tạo câu hỏi trong form đăng ký.