Khi nào tôi nên bắt đầu học machine learning trong python?

Trong hướng dẫn này, chúng ta sẽ quay trở lại với toán học và nghiên cứu thống kê cũng như cách tính các số quan trọng dựa trên tập dữ liệu

Chúng tôi cũng sẽ tìm hiểu cách sử dụng các mô-đun Python khác nhau để có được câu trả lời mà chúng tôi cần

Và chúng ta sẽ học cách tạo các hàm có khả năng dự đoán kết quả dựa trên những gì chúng ta đã học


Tập dữ liệu

Trong suy nghĩ của máy tính, tập dữ liệu là bất kỳ tập hợp dữ liệu nào. Nó có thể là bất cứ thứ gì từ một mảng đến một cơ sở dữ liệu hoàn chỉnh

Ví dụ về một mảng

[99,86,87,88,111,86,103,87,94,78,77,85,86]

Ví dụ về cơ sở dữ liệu

CarnameColorTuổiTốc độAutoPassBMWred599YVolvoblack786YVWgray887NVWwhite788YFordwhite2111YVWwhite1786YTeslared2103YBMWblack987YVolvogray494NFordwhite1178NToyotagray1277NVWwhite985NToyotablue686Y

Bằng cách nhìn vào mảng, chúng ta có thể đoán rằng giá trị trung bình có thể vào khoảng 80 hoặc 90 và chúng ta cũng có thể xác định giá trị cao nhất và giá trị thấp nhất, nhưng chúng ta có thể làm gì khác?

Và bằng cách nhìn vào cơ sở dữ liệu, chúng ta có thể thấy rằng màu phổ biến nhất là màu trắng và chiếc xe cũ nhất đã 17 năm tuổi, nhưng điều gì sẽ xảy ra nếu chúng ta có thể dự đoán liệu một chiếc xe có AutoPass hay không, chỉ bằng cách nhìn vào các giá trị khác?

Đó là những gì Machine Learning dành cho. Phân tích dữ liệu và dự đoán kết quả

Trong Machine Learning, người ta thường làm việc với các tập dữ liệu rất lớn. Trong hướng dẫn này, chúng tôi sẽ cố gắng làm cho việc hiểu các khái niệm khác nhau về học máy trở nên dễ dàng nhất có thể và chúng tôi sẽ làm việc với các tập dữ liệu nhỏ dễ hiểu



Loại dữ liệu

Để phân tích dữ liệu, điều quan trọng là phải biết chúng ta đang xử lý loại dữ liệu nào

Chúng ta có thể chia các loại dữ liệu thành ba loại chính

  • số
  • phân loại
  • thông thường

Dữ liệu số là các số và có thể được chia thành hai loại số

  • Dữ liệu rời rạc
    - số bị giới hạn ở số nguyên. Thí dụ. Số lượng ô tô đi qua.
  • Dữ liệu liên tục
    - số có giá trị vô hạn. Thí dụ. Giá của một mặt hàng hoặc kích thước của một mặt hàng

Dữ liệu phân loại là các giá trị không thể đo lường được với nhau. Thí dụ. một giá trị màu hoặc bất kỳ giá trị có/không nào

Dữ liệu thông thường giống như dữ liệu phân loại, nhưng có thể được đo lường với nhau. Thí dụ. điểm trường nơi A tốt hơn B, v.v.

Khi biết loại dữ liệu của nguồn dữ liệu, bạn sẽ có thể biết nên sử dụng kỹ thuật nào khi phân tích chúng

Câu trả lời của Aman Dalmia cho Tôi nên làm gì nếu muốn làm việc trong lĩnh vực trí tuệ nhân tạo khi lớn hơn?

Để bắt đầu các dự án trong ML, điều này có thể hữu ích

Câu trả lời của Aman Dalmia cho Làm thế nào tôi có thể bắt đầu với các dự án học máy và trí tuệ nhân tạo?

Để bắt đầu triển khai các thuật toán Máy học trong Python

Để bắt đầu, tốt nhất bạn nên theo dõi khóa học Giới thiệu về Máy học của Udacity. Nó được dạy bởi chính Sebastian Thrun (Người sáng lập Udacity). Họ sử dụng scikit-learning cho các bài tập lập trình và chỉ cho bạn cách sử dụng gói để giải quyết các vấn đề khác nhau cho từng thuật toán (hồi quy, bayes ngây thơ, cây quyết định, SVM, v.v. ) cùng với những cân nhắc thực tế để giải quyết các vấn đề trong thế giới thực. Tại sao tôi thích khóa học này hơn khóa học của Andrew Ng mà bạn có thể đã nghe nói đến, hoàn toàn là từ quan điểm triển khai. Bài tập lập trình có trong Octave/Matlab hiện nay ít dùng

Khóa học sẽ giúp bạn bắt đầu với machine learning trong python. Nếu bạn có động lực sau đó, bạn có thể xem Hướng dẫn sử dụng của scikit-learn. Nó trình bày tất cả các thuật toán khác nhau mà gói bao gồm cùng với các mẫu mã giúp bạn hình dung chúng rất nhiều. Ngoài ra, nếu bạn đang muốn tham gia vào lĩnh vực này, việc trực quan hóa dữ liệu của bạn sẽ là một kỹ năng quan trọng, cho bạn một lý do để dành thời gian cho việc này.

Các thuật toán quan trọng cần hiểu (từ hướng dẫn sử dụng ở trên) sẽ là

(P -> được sử dụng nhiều hơn trong thực tế, VI -> rất quan trọng)

Học có giám sát
  • Bình phương nhỏ nhất thông thường, Hồi quy độ dốc, Lasso, Hồi quy logistic (VI), Độ dốc dốc ngẫu nhiên (SGD)(VIP), Perceptron, SVM (VIP), Hàng xóm gần nhất (NN), Naive Bayes (VI để hiểu toán học đằng sau ML),
Học không giám sát
  • Mô hình hỗn hợp Gaussian (GMM), phân cụm K-mean, Giảm kích thước — PCA (VIP), LDA, Mạng thần kinh (VIP) (Có, ở đây nữa ;))

Đối với Mạng thần kinh cụ thể, có rất nhiều tài nguyên ngoài kia nhưng gần đây Andrew Ng gần đây đã có một loạt 5 khóa học như một phần của deeplearning. ai trên Coursera. Tôi đã thực hiện những nguồn đó và tôi chắc chắn sẽ giới thiệu chúng là nguồn hữu ích nhất cho bất kỳ ai sẵn sàng làm việc trong lĩnh vực AI

Tôi có nên học Python trước khi học máy không?

Điều cần thiết là phải biết các ngôn ngữ lập trình như R và Python để triển khai toàn bộ quy trình Machine Learning . Cả Python và R đều cung cấp các thư viện dựng sẵn giúp triển khai các thuật toán Machine Learning rất dễ dàng.

Bạn nên bắt đầu học machine learning ở độ tuổi nào?

Như đã nói, độ tuổi tốt nhất để học máy học là ở độ tuổi sáu trở lên . Có rất nhiều tài nguyên cho trẻ học các ứng dụng đơn giản của máy học.

Độ tuổi tốt nhất để bắt đầu học Python là bao nhiêu?

Giới thiệu về Python dành cho trẻ em 12 tuổi trở lên . Trẻ em bắt đầu bằng cách tìm hiểu về các nguyên tắc cơ bản về mã hóa như biến, vòng lặp và câu lệnh if/then. Từ đó, họ tiến tới làm việc với đồ họa và cuối cùng là xây dựng trò chơi.

Tôi nên biết bao nhiêu Python trước khi học máy học?

1 câu trả lời. Để sử dụng Python cho Machine Learning, bạn chỉ cần biết những kiến ​​thức cơ bản về nó , bao gồm các khái niệm như in ra màn hình, tiếp cận người dùng .