Trong hướng dẫn này, chúng ta sẽ quay trở lại với toán học và nghiên cứu thống kê cũng như cách tính các số quan trọng dựa trên tập dữ liệu
Chúng tôi cũng sẽ tìm hiểu cách sử dụng các mô-đun Python khác nhau để có được câu trả lời mà chúng tôi cần
Và chúng ta sẽ học cách tạo các hàm có khả năng dự đoán kết quả dựa trên những gì chúng ta đã học
Tập dữ liệu
Trong suy nghĩ của máy tính, tập dữ liệu là bất kỳ tập hợp dữ liệu nào. Nó có thể là bất cứ thứ gì từ một mảng đến một cơ sở dữ liệu hoàn chỉnh
Ví dụ về một mảng
[99,86,87,88,111,86,103,87,94,78,77,85,86]
Ví dụ về cơ sở dữ liệu
CarnameColorTuổiTốc độAutoPassBMWred599YVolvoblack786YVWgray887NVWwhite788YFordwhite2111YVWwhite1786YTeslared2103YBMWblack987YVolvogray494NFordwhite1178NToyotagray1277NVWwhite985NToyotablue686YBằng cách nhìn vào mảng, chúng ta có thể đoán rằng giá trị trung bình có thể vào khoảng 80 hoặc 90 và chúng ta cũng có thể xác định giá trị cao nhất và giá trị thấp nhất, nhưng chúng ta có thể làm gì khác?
Và bằng cách nhìn vào cơ sở dữ liệu, chúng ta có thể thấy rằng màu phổ biến nhất là màu trắng và chiếc xe cũ nhất đã 17 năm tuổi, nhưng điều gì sẽ xảy ra nếu chúng ta có thể dự đoán liệu một chiếc xe có AutoPass hay không, chỉ bằng cách nhìn vào các giá trị khác?
Đó là những gì Machine Learning dành cho. Phân tích dữ liệu và dự đoán kết quả
Trong Machine Learning, người ta thường làm việc với các tập dữ liệu rất lớn. Trong hướng dẫn này, chúng tôi sẽ cố gắng làm cho việc hiểu các khái niệm khác nhau về học máy trở nên dễ dàng nhất có thể và chúng tôi sẽ làm việc với các tập dữ liệu nhỏ dễ hiểu
Loại dữ liệu
Để phân tích dữ liệu, điều quan trọng là phải biết chúng ta đang xử lý loại dữ liệu nào
Chúng ta có thể chia các loại dữ liệu thành ba loại chính
- số
- phân loại
- thông thường
Dữ liệu số là các số và có thể được chia thành hai loại số
- Dữ liệu rời rạc
- số bị giới hạn ở số nguyên. Thí dụ. Số lượng ô tô đi qua. - Dữ liệu liên tục
- số có giá trị vô hạn. Thí dụ. Giá của một mặt hàng hoặc kích thước của một mặt hàng
Dữ liệu phân loại là các giá trị không thể đo lường được với nhau. Thí dụ. một giá trị màu hoặc bất kỳ giá trị có/không nào
Dữ liệu thông thường giống như dữ liệu phân loại, nhưng có thể được đo lường với nhau. Thí dụ. điểm trường nơi A tốt hơn B, v.v.
Khi biết loại dữ liệu của nguồn dữ liệu, bạn sẽ có thể biết nên sử dụng kỹ thuật nào khi phân tích chúng
Câu trả lời của Aman Dalmia cho Tôi nên làm gì nếu muốn làm việc trong lĩnh vực trí tuệ nhân tạo khi lớn hơn?
Để bắt đầu các dự án trong ML, điều này có thể hữu ích
Câu trả lời của Aman Dalmia cho Làm thế nào tôi có thể bắt đầu với các dự án học máy và trí tuệ nhân tạo?
Để bắt đầu triển khai các thuật toán Máy học trong Python
Để bắt đầu, tốt nhất bạn nên theo dõi khóa học Giới thiệu về Máy học của Udacity. Nó được dạy bởi chính Sebastian Thrun [Người sáng lập Udacity]. Họ sử dụng scikit-learning cho các bài tập lập trình và chỉ cho bạn cách sử dụng gói để giải quyết các vấn đề khác nhau cho từng thuật toán [hồi quy, bayes ngây thơ, cây quyết định, SVM, v.v. ] cùng với những cân nhắc thực tế để giải quyết các vấn đề trong thế giới thực. Tại sao tôi thích khóa học này hơn khóa học của Andrew Ng mà bạn có thể đã nghe nói đến, hoàn toàn là từ quan điểm triển khai. Bài tập lập trình có trong Octave/Matlab hiện nay ít dùng
Khóa học sẽ giúp bạn bắt đầu với machine learning trong python. Nếu bạn có động lực sau đó, bạn có thể xem Hướng dẫn sử dụng của scikit-learn. Nó trình bày tất cả các thuật toán khác nhau mà gói bao gồm cùng với các mẫu mã giúp bạn hình dung chúng rất nhiều. Ngoài ra, nếu bạn đang muốn tham gia vào lĩnh vực này, việc trực quan hóa dữ liệu của bạn sẽ là một kỹ năng quan trọng, cho bạn một lý do để dành thời gian cho việc này.
Các thuật toán quan trọng cần hiểu [từ hướng dẫn sử dụng ở trên] sẽ là
[P -> được sử dụng nhiều hơn trong thực tế, VI -> rất quan trọng]
Học có giám sát- Bình phương nhỏ nhất thông thường, Hồi quy độ dốc, Lasso, Hồi quy logistic [VI], Độ dốc dốc ngẫu nhiên [SGD][VIP], Perceptron, SVM [VIP], Hàng xóm gần nhất [NN], Naive Bayes [VI để hiểu toán học đằng sau ML],
- Mô hình hỗn hợp Gaussian [GMM], phân cụm K-mean, Giảm kích thước — PCA [VIP], LDA, Mạng thần kinh [VIP] [Có, ở đây nữa ;]]
Đối với Mạng thần kinh cụ thể, có rất nhiều tài nguyên ngoài kia nhưng gần đây Andrew Ng gần đây đã có một loạt 5 khóa học như một phần của deeplearning. ai trên Coursera. Tôi đã thực hiện những nguồn đó và tôi chắc chắn sẽ giới thiệu chúng là nguồn hữu ích nhất cho bất kỳ ai sẵn sàng làm việc trong lĩnh vực AI