Hướng dẫn cài data mining trong excel 2010

Khóa học giúp bạn trở thành cao thủ Excel với sự hướng dẫn của chuyên gia MOS Master được Microsoft công nhận toàn cầu.

Khóa học “Excel nâng cao – Quản lý dữ liệu chuyên nghiệp và tự động hóa báo cáo với Excel” sẽ giúp bạn làm chủ Excel ở mức độ cao cấp. Khóa học cung cấp đến bạn một hệ thống kiến thức chi tiết, đầy đủ, và phong phú, giúp bạn biết mọi “ngóc ngách” của Excel. Sau khi học xong, bạn sẽ làm được mọi việc với Excel, giúp bạn tự tin và tỏa sáng trong công việc.

1] Đối tượng học viên:

Học viên đã có thời gian làm việc với Excel từ 6 tháng trở lên, đã biết cách thức sử dụng Excel ở mức độ cơ bản.

Học viên muốn làm chủ Excel ở cấp độ cao hơn, muốn ứng dụng Excel để làm các loại báo cáo một cách nhanh chóng và hiệu quả hơn.

2] Mô tả khóa học:

Khóa học được thiết kế dành cho học viên đã có kiến thức cơ bản về Excel để cùng làm chủ các kỹ năng nâng cao hơn của Excel.

Khóa học được tiếp cận theo nguyên tắc TOP-DOWN: Giới thiệu Mô hình để làm báo cáo tự động trên Excel. Sau khi hiểu được mô hình, học viên sẽ được học cách để chuẩn bị dữ liệu đưa vào Excel, từ dữ liệu chuẩn sẽ sử dụng các công thức và hàm để tổng hợp dữ liệu, hoặc dùng công cụ Pivot Table. Sau khi có dữ liệu dạng bảng biểu, học viên sẽ ứng dụng bảng biểu đó để làm báo cáo dạng Dashboard thông qua các kỹ năng về vẽ biểu đồ, và định dạng có điều kiện Conditional Formating.

Trong khóa học nhiều công thức phức tạp được giới thiệu như công thức mảng, nhiều hàm lồng nhau hiệu quả được giới thiệu như việc kết hợp SUMIFS với INDEX và MATCH, kết hợp sử dụng OFFSET, MATCH và COUNTIF…

Kỹ năng tùy biến biểu đồ, làm báo cáo Dashboard một cách sinh động cũng là một phần quan trọng trong khóa học Excel nâng cao này.

Các ví dụ trong khóa học được minh họa cụ thể trong lĩnh vực tài chính, ngân hàng nhưng bất kỳ học viên của lĩnh vực nào cũng có thể theo học.

3] Lợi ích sau khóa học:

Học viên tự tin làm các loại báo cáo theo yêu cầu của lãnh đạo.

Học viên có kiến thức nền tảng vững chắc để sẵn sàng làm chủ kỹ năng cao cấp nhất trong Excel – tự động hóa Excel bằng Visual Basic for Application.

4] Yêu cầu đầu vào:

Học viên có Laptop hoặc Desktop cài sẵn Microsoft Excel phiên bản từ 2010 trở lên.

Khuyến khích học viên sử dụng phiên bản Microsoft Excel 2013 hoặc 2016 để giống với phiên bản Excel mà Giảng viên sử dụng để minh họa trong khóa học.

Khuyến khích học viên hoàn thành khóa học “Excel cơ bản – Làm quen với Excel từ A tới Z dành cho người mới bắt đầu” của MasterMOS để có được hệ thống kiến thức bài bản và logic.

DƯỚI ĐÂY LÀ GIÁO TRÌNH CỦA KHÓA HỌC

Nguyễn Ngọc Chiến

Chuyên gia đào tạo - Giám đốc công ty TNHH Giáo dục và đào tạo MasterMOS.

1. Kinh nghiệm đào tạo:

Giảng viên uy tín với 10 năm kinh nghiệm, được tin tưởng đồng hành trong chương trình đào tạo của các tập đoàn, công ty lớn nhất Việt Nam như VCB, Viettel, MB, LienVietPostBank, SSI, Mcredit, NCB, OCB.

Recommended

More Related Content

What's hot

What's hot[20]

Similar to PHÂN TÍCH THỐNG KÊ SỬ DỤNG EXCEL

Similar to PHÂN TÍCH THỐNG KÊ SỬ DỤNG EXCEL[20]

More from Le Nguyen Truong Giang

More from Le Nguyen Truong Giang[20]

Recently uploaded

Recently uploaded[20]

PHÂN TÍCH THỐNG KÊ SỬ DỤNG EXCEL

  • 1. THỐNG KÊ SỬ DỤNG EXCEL® Nguyễn Ngọc Anh Nguyễn Đình Chúc Đoàn Quang Hưng Copyright © 2008 DEPOCEN
  • 2. and Policies Research Center [DEPOCEN] 2 PHÂN TÍCH THỐNG KÊ SỬ DỤNG EXCEL® Tác giả Nguyễn Ngọc Anh Nguyễn Đình Chúc Đoàn Quang Hưng Copyright notice This material is copyrighted by DEPOCEN® . Authorized users may be allowed to use this material for their personal educational and research purposes. Other use, storage, reproduction, and distribution is strictly prohibited.
  • 3. and Policies Research Center [DEPOCEN] 3 MỤC LỤC 1 GIỚI THIỆU................................................................................................................ 4 2 NHẬP DỮ LIỆU ......................................................................................................... 5 3 BỘ CÔNG CỤ DATA ANALYSIS TOOLPACT...................................................... 5 4 THỐNG KÊ MÔ TẢ................................................................................................... 6 5 PHÂN PHỐI CHUẨN*............................................................................................... 8 6 XÂY DỰNG KHOẢNG TIN CẬY CHO TRUNG BÌNH TỔNG THỂ .................. 12 6.1 Khi qui mô của mẫu thống kê lớn [n lớn hơn 30].............................................. 12 6.2 Mẫu nhỏ [ít hơn 30 quan sát] ............................................................................. 15 7 KIỂM ĐỊNH GIẢ THUYẾT VỀ TRUNG BÌNH TỔNG THỂ................................ 16 8 KIỂM ĐỊNH SỰ KHÁC BIỆT GIỮA HAI TRUNG BÌNH TỔNG THỂ................ 18 8.1 Mẫu lớn: ............................................................................................................. 18 8.2 Mẫu nhỏ: Một trong hai mẫu có số lượng các quan sát nhỏ hơn 30. ................. 22 9 TƯƠNG QUAN TUYẾN TÍNH VÀ PHÂN TÍCH HỒI QUI*................................ 26 9.1 Phân tích tương quan tuyến tính......................................................................... 27 9.2 Phân tích hồi qui................................................................................................. 29 Lưu ý: Những mục đánh dấu * sẽ được học viên đọc thêm
  • 4. and Policies Research Center [DEPOCEN] 4 1 GIỚI THIỆU EXCEL là một chương trình bảng tính do Microsoft® phát triển. Đây là một chương trình bảng tính được sử dụng rộng rãi nhất. Trong EXCEL có bộ công cụ cho phép người sử dụng tiến hành phân tích dữ liệu thống kê. EXCEL có thể được sử dụng để tổ chức sắp xếp dữ liệu, trình bày dữ liệu, lập bảng, vẽ đồ thị và phân tích thống kê [thống kê mô tả, kiểm định giả thuyết và phân tích hồi qui].1 Hình 1: Ví dụ về số liệu trong EXCEL 1 Để thực hiện các phân tích thống kê phức tạp hơn, chúng ta phải sử dụng các phần mềm thống kê chuyên dụng khác như SPSS, SAS, Splus, R, STATA, GAUSS. Trong số các phần mềm nêu trên, phần mềm R là phần mềm miễn phí nhưng lại có ưu điểm vượt trội hơn khá nhiều phần mềm thương mại khác. Tên biến Số liệu
  • 5. and Policies Research Center [DEPOCEN] 5 Một số lưu ý: Dòng trên cùng cho người sử dụng biết tên các biến số. Mỗi dòng trong bảng số liệu gọi là một quan sát. Đơn vị quan sát có thể ở cấp cá nhân [số liệu về các cá nhân], hộ gia đình [số liệu về gia đình], công ty, quận, tỉnh, quốc gia. Số liệu không nhất thiết phải ở dạng con số [numerics], mà có thể ở dạng chữ [string]. Trong Hình 1, cột thứ 2, thể hiện biến số Tên cho ta thấy số liệu là tên người ở dạng chữ. 2 NHẬP DỮ LIỆU Để có số liệu như trong Hình 1, thông thương người sử dụng/nhà nghiên cứu phải tiến hành nhập số liệu vào trong EXCEL. Việc nhập dữ liệu trong Excel rất đơn giản. Một bảng EXCEL [worksheet] được chia thành các dòng và các cột. Dòng được đánh dấu bằng số và cột được đánh số bằng chữ. Dòng và cột tạo ra các ô trong worksheet. Mỗi ô đều có địa chỉ theo số của dòng và chữ của cột. Để có thể nhập dữ liệu vào một ô, chúng ta cần phải ô cần nhập dữ liệu là ô đang hoạt động. Để làm điều này, chúng ta nhấn chuột vào ô đó. Mỗi ô có thể chứa các dãy ký tự, các giá trị bằng số, giá trị logic hoặc chứa công thức. Dãy ký tự có thể bao gồm chữ, số hoặc ký hiệu. Giá trị bằng số là những con số tự nhiên mà chúng ta biết và chỉ có con số mới có thể được dùng trong tính toán. Giá trị logic là giá trị cho ta biết một điều gì đó “đúng” hoặc “sai”. Công thức cho phép chúng ta thực hiện việc tính toán một cách tự động đối với giá trị của các ô khác. 3 BỘ CÔNG CỤ DATA ANALYSIS TOOLPACT Microsoft Excel có một bộ công cụ có thể dùng để phân tích dữ liệu được gọi là Analysis Toolpack mà chúng ta có thể sử dụng để phân tích dữ liệu. Nếu như lệnh Data Analysis đã hiển thị trên thanh công cụ Tool menu, thì bộ công cụ Analysis Toolpack đã được cài trên hệ thống. Nếu không chúng ta có thể tiến hành cài bộ công cụ này như sau. Trước hết bạn chọn thanh công cụ Tool, sau đó chọn Add-ins, sau đó nhấn nút OK.
  • 6. and Policies Research Center [DEPOCEN] 6 Nếu như, mục Analysis Toolpack không được liệt kê trong cửa sổ Add-ins thì bạn bấm nút Browse để tìm tệp Analys32.xll thường ở tại program filesmicrosoft officeoffice libraryanalysis. Sau khi đã tìm và chọn được tệp analyse32.xll, bạn nhấn nút OK. Sau khi làm các thao tác này, bộ công cụ Analysis Toolpack sẽ được cài đặt và bạn có thể sử dụng. Microsoft Excel là một phần mềm bảng tính rất mạnh được sử dụng để duy trì thông tin và dữ liệu theo cột và hàng. Phần mềm Excel thực hiện các công việc theo workbooks, và mỗi workbook lại có các worksheet, và worksheet là nơi mà chúng ta sẽ liệt kê và phân tích dữ liệu với Excel. Khi chúng ta bắt đầu khích hoạt phần mềm Excel, một worksheet trắng sẽ được hiển thị, bao gồm nhiều ổ trên bảng tính. Mỗi ô trên bảng tính được dẫn chiếu thông qua toạ độ của chúng. 4 THỐNG KÊ MÔ TẢ Bộ công cụ Data Analysis Toolpack có một bộ công cụ con để chúng ta có thể tiến hành thực hiện các phương pháp thống kê mô tả. Để tiến hành tìm các đại lượng trong thống kê mô tả, ta thực hiện các bước như sau Bước 1. Từ menu chúng ta chọn Tool, nếu như chúng ta thấy lệnh data analysis có hiển thị, chúng ta chọn lệnh này, nếu không chúng ta chọn add-ins để cài đặt Analysis Toolpack như đã nêu ở trên. Bước 2. Sau khi đã chon data analysis, chúng ta chọn descriptive statistics.
  • 7. and Policies Research Center [DEPOCEN] 7 Bước 3. Khi xuất hiện cửa sổ Descriptive statistics, chúng ta sẽ nhập khoảng dữ liệu, sau đó chúng ta sẽ chọn ô để Excel xuất kết quả. Sau đó bấm OK và xem xét kết quả thu được
  • 8. and Policies Research Center [DEPOCEN] 8 Ta thấy Excel cho ta các đại lượng thống kê mô tả cơ bản như trung bình [mean], độ lệch chuẩn [standard deviation], phương sai [variance], dải biến thiên [range], số quan sát [count], giá trị tối đa và giá trị tối thiểu, trung vị [median], sai số chuẩn của trung bình mẫu [standard error]. 5 PHÂN PHỐI CHUẨN Giả sử chúng ta muốn tìm xác suất của một biến X nhận giá trị nhỏ hơn một giá trị nhất định nào đó. Chúng ta giả sử là điểm số của các cá nhân trong lớp là phân bổ theo phân phối chuẩn có trị trung bình là 500 và độ lệch chuẩn là 100. Các câu hỏi mà chúng ta phải trả lời là a. Xác suất để một sinh viên được chọn ngẫu nhiên có điểm số thấp hơn 600 là bao nhiêu? b. Xác suất để một sinh viên được chọn ngẫu nhiên có điểm số cao hơn 600 là bao nhiêu? c. Xác suất để một sinh viên được chọn ngẫu nhiên có điểm số nằm trong khoảng 400- 600 là bao nhiêu?
  • 9. and Policies Research Center [DEPOCEN] 9 Gợi ý: Khi sử dụng Excel chúng ta có thể tìm được xác suất của một biến X nhận giá trị nhỏ hơn hoặc bằng một giá trị cho trước nào đó. Và khi chúng ta đã biết trị trung bình và độ lệch chuẩn, chúng ta phải suy nghĩ một cách “thông minh” để tính toán vì chúng ta biết rằng tổng xác suất nằm dưới đường cong chuẩn là bằng 1. Giải đáp Bước 1. Chọn ô mà ta muốn Excel xuất kết quả, sau đó chọn Insert Bước 2. Sau khi bấm vào insert chúng ta chọn Function Bước 3. Sau khi chúng ta bấm vào Function, cửa sổ insert function sẽ xuất hiện. Chúng ta sẽ chọn statistical, và sau đó chọn Normdist trong số các hàm có sẵn trong Excel
  • 10. and Policies Research Center [DEPOCEN] 10 Bước 4. Sau khi nhấn OK, cửa sổ Normdist sẽ xuất hiện, và chúng ta cung cấp các thông số cần thiết. Chúng ta điền 600 vào X, 500 vào ô mean, 100 vào ô standard deviation, và điền true vào ô cumulative box, và sau đó nhấn OK.
  • 11. and Policies Research Center [DEPOCEN] 11 Chúng ta sẽ có kết quả sau Như chúng ta thấy, xác suất để một học sinh được chọn ngẫu nhiên có số điểm thấp hơn 600 là 0.84134474. Để trả lời được câu b, chúng ta lấy 1 trừ đi con số này và kết quả là 0.158653. Đây là xác suất để một học sinh được chọn ngẫu nhiên có số điểm lớn hơn 600. Thực hiện các bước như trên và suy nghĩ một cách hợp lý chúng ta có thể tính được xác suất một học sinh được chọn ngẫu nhiên sẽ có số điểm nằm trong khoảng 400-600. Người đọc nên lấy đây làm bài tập cho chính mình để thực hiện thành thạo các bước ở trên.
  • 12. and Policies Research Center [DEPOCEN] 12 6 XÂY DỰNG KHOẢNG TIN CẬY CHO TRUNG BÌNH TỔNG THỂ Giả sử chúng ta muốn xây dưng khoảng tin cậy cho trung bình của một tổng thể. Tuỳ theo qui mô của mẫu thống kê mà chúng ta có thể sử dụng một trong số các trường hợp sau 6.1 Khi qui mô của mẫu thống kê lớn [n lớn hơn 30] Công thức chung để xây dựng khoảng tin cậy cho trung bình tổng thể là ]/[* nSZx ± trong đó x là trung bình mẫu; Z là hệ số khoảng tin cậy chúng ta có thể tìm thấy trong bảng phân phối chuẩn [ví dụ, hệ số khoảng tin cậy cho khoảng tin cậy 95% là 1.96]. S là độ lệch chuẩn của mẫu và n là kích thước của mẫu [số lượng các quan sát của mẫu]. Chúng ta muốn sử dụng Excel để xây dựng khoảng tin cậy cho trung bình tổng thể dựa trên các thông tin của mẫu thống kê. Như chúng ta sẽ thấy, để sử dụng được công thức trên, chúng ta cân có trung bình mẫu x , và biên độ sai số ]/[* nSZ . Excel sẽ tính toán các đại lượng này cho chúng ta. Điều duy nhất mà chúng ta phải làm là cộng biên độ sai số ]/[* nSZ vào trung bình mẫu x để tìm chặn trên của khoảng tin cậy và lấy trung bình mẫu x trừ đi biên độ sai số ]/[* nSZ để tìm chặn dưới của khoảng tin cậy. Sau khi nhập dữ liệu vào Excel, chúng ta lại thực hiện các bước như chúng ta đã thực hiện đối với việc tính toán các đại lượng thống kê mô tả. Công việc duy nhất khác với việc tính toán các đại lượng thống kê mô tả là lần này chúng ta sẽ chọn ô confidence interval [khoảng tin cậy] trong cửa sổ descriptive statistics [thống kê mô tả] và chọn mức tin cậy [confidence level], và trong trường hợp này chúng ta chọn 95%. Các bước cụ thể như sau
  • 13. and Policies Research Center [DEPOCEN] 13 Bước 1. Nhập dữ liệu: 6, 8, 6.5, 7, 7, 6.5, 8, 6.5, 7, 7, 7.5, 6, 6, 6, 7.5, 8, 7, 6.5, 7, 8, 6, 6, 6.5, 7, 8, 7.5. Bước 2. Chọn Tool và sau đó chọn Data Analysis, rồi chọn Descriptive Statistics Bước 3. Trên cửa sổ Descriptive statistics, chúng ta chọn Summary Statistics. Sau khi chúng ta đã thực hiện các bước này, chúng ta chọn confidence interval và chọn mức tin cậy là 95%. Ở mục chọn ô để Excel xuất kết quả, chúng ta có thể chọn ô bất kỳ không trùng đè lên các dữ liệu.
  • 14. and Policies Research Center [DEPOCEN] 14 Sau khi bấm OK, chúng ta sẽ nhận được kết quả như sau. Như chúng ta thấy, trung bình của mẫu là 94.6=x và giá trị tuyệt đối của sai số 2997.0]/[* =± nSZ . Khoảng tin cậy 95% có chặn trên là 6.94+0.2997 và chặn dưới
  • 15. and Policies Research Center [DEPOCEN] 15 là 6.94-0.2997. Lưu ý rằng chúng ta có thể nói rằng các khoảng tin cậy được xây dựng theo cách này 95% chúng sẽ chứa trung bình tổng thể. 6.2 Mẫu nhỏ [ít hơn 30 quan sát] Nếu như qui mô của mẫu ít hơn 30 quan sát, chúng ta phải sử dụng một qui trình đối với mẫu nhỏ để xây dựng độ tin cậy cho trung bình của tổng thể. Công thức chung để xây dựng khoảng tin cậy cho trung bình tổng thể dựa trên mẫu qui mô nhỏ là ]/[*2/ nStx α± Trong công thức này x là trung bình mẫu, 2/αt là hệ số khoảng tin cậy có thể tìm được trong bảng phân phối t với n-1 độ tự do [ví dụ hệ số khoảng tin cậy 90% là 1.833 nếu như mẫu có 10 quan sát]. S là độ lệch chuẩn của mẫu và n là số quan sát hay kích thước mẫu. Bay giờ chúng ta sẽ xem Excel được sử dụng để xây dựng khoảng tin cậy của trung bình tổng thể dựa trên một mẫu thống kê kích thước nhỏ. Như chúng ta đã thấy, để sử dụng công thức này, chúng ta phải tính được trung bình mẫu x và biên độ sai số ]/[*2/ nStα [margin of error]. Tương tự như trên điều duy nhất mà chúng ta phải làm là cộng biên độ sai số vào trung bình mẫu để tính chặn trên và lấy trung bình mẫu trừ đi biên độ sai số để tính chặn dưới của khoảng tin cậy.
  • 16. and Policies Research Center [DEPOCEN] 16 7 KIỂM ĐỊNH GIẢ THUYẾT VỀ TRUNG BÌNH TỔNG THỂ Tương tự như trên, chúng ta cần phải phân biệt hai trường hợp là mẫu lớn và mẫu nhỏ. Mẫu lớn [khi n>30]: Ở phần này chúng ta sẽ trình bầy cách sử dụng Excel để tiến hành kiểm định giả thuyết về trung bình tổng thể. Chúng ta sẽ sử dụng dữ liệu Mục tiêu của chúng ta là tiến hành kiểm định giả thuyết trống H0 nào đó, ví dụ trong trường hợp này chúng ta muốn kiểm định giả thuyết là trị trung bình của một biến ngẫu nhiên nào đó có giá trị là 7 như sau: H0: μ=7 với giả thuyết thay thế H1: 7≠μ Ở đây ra sẽ lặp lại các bước để tính các đại lượng thống kê mô tả như ở trên. Điều khác biệt là ta sau đó tính toán giá trị các đại lượng kiểm định. Bước 1: Chọn Tool, sau đó chọn Data Analysis, rồi chọn Descriptive statistics. Bước 2: Để tính toán được giá trị đại lượng kiểm định, chúng ta cần biết trị trung bình [mean] và sai số chuẩn [standard error]. Ta có thể tìm được các giá trị trên trong bảng kết quả trong Excel. Ví dụ, trong bảng kết quả mô tả thống kê ở trên, chúng ta thấy trị trung bình nằm tại ô D3 và sai số chuẩn nằm tại ô D4. Bước 3: Để tính được giá trị đại lượng kiểm định ta làm như sau: chọn một ô trên bảng tính để hiển thị kết quả, sau đó nhập công thức cho ô đó là =[C3-7]/C4. Ở đây ta thấy C3 là giá trị trung bình của mẫu, 7 là giá trị của giả thuyết trống, và C4 là sai số chuẩn, và công thức này là công thức cho phép ta tính giá trị kiểm định Z.
  • 17. and Policies Research Center [DEPOCEN] 17 Bước 4: Nếu như giá trị Z lớn nằm ngoài khoảng -1.96 tới +1.96 chúng ta sẽ bác bỏ giả thuyết trống với mức ý nghĩa là 95%, nếu như giá trị Z nằm trong khoảng -1.96 tới +1.96, chúng ta sẽ không bác bỏ giả thuyết trống. Mẫu nhỏ [n

Chủ Đề