Gradient Boosting Machine là gì
Show
Khi kỹ năng và kiến thức của bạn về học máy ngày càng tăng, thì số lượng những thuật toán học máy cũng tăng theo. Bài viết này sẽ đề cập đến những thuật toán học máy thường được sử dụng trong cộng đồng khoa học dữ liệu . Trong bài sẽ có một số thuật toán học máy được giải thích cặn kẽ hơn những thuật toán khác để bài viết ngắn gọn. Sẽ không có quá nhiều hàm lượng toán học trong bài viết để những người không có nhiều kiến thức toán có thể theo. Có thể xem bài viết là một bản tóm tắt ngắn gọn về từng tính năng và một số đặc điểm chính của các thuật toán. Chúng ta sẽ mở màn với 1 số ít thuật toán học máy cơ bản và sau đó đi sâu vào 1 số ít thuật toán mới như CatBoost, Gradient Boost và XGBoost . Hồi quy tuyến tínhHồi quy tuyến tính (Linear Regression) là một trong những thuật toán học máy cơ bản nhất được sử dụng để mô hình hóa mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập. Nói một cách đơn giản hơn, nó liên quan đến việc tìm ‘dòng phù hợp nhất’ (Line of best fit) đại diện cho hai hoặc nhiều biến.
Bạn đang đọc: Những thuật toán học máy thông dụng nhất bạn nên biết Đường tương thích nhất được tìm thấy bằng cách giảm thiểu khoảng cách bình phương giữa những điểm và đường tương thích nhất – điều này được gọi là giảm thiểu tổng những phần dư bình phương ( sum of squared residual ). Phần dư chỉ đơn thuần bằng giá trị Dự kiến trừ đi giá trị thực . Nếu bạn muốn khám phá thêm về toán học đằng sau hồi quy tuyến tính, hoàn toàn có thể khởi đầu với lời lý giải của Brilliant . Hồi quy logisticHồi quy logistic ( Logistic regression ) tựa như như hồi quy tuyến tính nhưng được sử dụng để quy mô hóa Tỷ Lệ của 1 số ít hiệu quả rời rạc, nổi bật là hai. Thoạt nhìn, hồi quy logistic nghe có vẻ như phức tạp hơn nhiều so với hồi quy tuyến tính, nhưng thực sự chỉ có một bước bổ trợ . Bước bổ trợ là phân phối điểm số mà bạn đã giám sát trước đó trong hàm sigmoid bên dưới để bạn nhận được Xác Suất đổi lại. Xác suất này sau đó hoàn toàn có thể được quy đổi thành đầu ra nhị phân, 1 hoặc 0 . Để tìm trọng số của phương trình bắt đầu để tính điểm, những giải pháp như giảm độ dốc hoặc năng lực xảy ra tối đa được sử dụng. Vì nó nằm ngoài khoanh vùng phạm vi của bài viết này nên tất cả chúng ta sẽ không đi vào cụ thể, nhưng như vậy cũng đủ giúp bạn hiểu nó hoạt động giải trí như thế nào ! K-Nearest NeighborsK-nearest neighbors là một ý tưởng đơn giản. Đầu tiên, bạn bắt đầu với dữ liệu đã được phân loại (tức là các điểm dữ liệu màu đỏ và xanh lam). Sau đó, khi bạn thêm một điểm dữ liệu mới, bạn phân loại nó bằng cách xem các điểm được phân loại gần k nhất. Lớp nào nhận được nhiều phiếu bầu nhất sẽ quyết định điểm mới được xếp vào loại nào. Trong trường hợp này, nếu tất cả chúng ta đặt k = 1, tất cả chúng ta hoàn toàn có thể thấy rằng điểm gần nhất tiên phong với mẫu màu xám là một điểm tài liệu màu đỏ. Do đó, điểm sẽ được phân loại là màu đỏ . Naive BayesNaive Bayes là một thuật toán phân loại. Điều này có nghĩa là Naive Bayes được sử dụng khi biến đầu ra là rời rạc . Naive Bayes có vẻ như là một thuật toán khó vì nó nhu yếu kiến thức và kỹ năng toán học sơ bộ về Phần Trăm có điều kiện kèm theo và Định lý Bayes, nhưng đó là một khái niệm cực kỳ đơn thuần và “ ngây thơ ”. Chúng ta hãy xem lý giải về thuật toán này bằng một ví dụ : Giả sử tất cả chúng ta có tài liệu nguồn vào về những đặc thù của thời tiết ( triển vọng – outlook, nhiệt độ – temperature, nhiệt độ – Humidity, gió – Windy ) và liệu bạn có chơi gôn hay không ( tức là cột ở đầu cuối ) . Điều mà Naive Bayes làm về cơ bản là so sánh tỷ suất giữa mỗi biến nguồn vào và những hạng mục trong biến đầu ra. Điều này hoàn toàn có thể được hiển thị trong bảng dưới đây . Lấy một ví dụ trong bảng trên để bạn hiểu, trong phần nhiệt độ, trời nóng trong hai ngày trong số chín ngày bạn chơi gôn ( tức là có ) . Sau khi có được điều này, bạn có thể dự đoán liệu mình có chơi gôn hay không với bất kỳ sự kết hợp nào của các đặc điểm thời tiết.
Đầu tiên, chúng tôi sẽ tính Phần Trăm bạn sẽ chơi gôn với X, P. ( yes | X ), tiếp theo là Xác Suất bạn sẽ không chơi gôn với X, P. ( no | X ) . Bây giờ tất cả chúng ta hoàn toàn có thể chỉ cần nhập thông tin này vào công thức sau : Tương tự, bạn sẽ triển khai xong trình tự những bước tương tự như cho P. ( no | X ) . Vì P. ( yes | X ) > P. ( no | X ), nên bạn hoàn toàn có thể Dự kiến rằng người này sẽ chơi gôn với điều kiện kèm theo là trời nắng, nhiệt độ ôn hòa, nhiệt độ thông thường và không có gió . Support Vector MachinesSupport Vector Machine là một kỹ thuật phân loại có giám sát có thể khá phức tạp nhưng khá trực quan ở cấp độ cơ bản nhất. Vì lợi ích của bài viết này, chúng ta sẽ mô tả nó ở mức khá cao (high level). Giả sử rằng có hai lớp dữ liệu. Support Vector Machine sẽ tìm một siêu phẳng (hyperplane) hoặc ranh giới giữa hai lớp dữ liệu để tối đa hóa lề (margin) giữa hai lớp (xem ở trên). Có nhiều mặt phẳng có thể tách hai lớp, nhưng chỉ một mặt phẳng có thể tối đa hóa lề hoặc khoảng cách giữa các lớp. Nếu bạn muốn tìm hiểu và khám phá về toán học đằng sau những thuật toán Support Vector Machines, hãy xem loạt bài viết này. ( tiếng Anh ) hoặc tại đây ( tiếng Việt ) Decision TreeRandom ForestTrước khi hiểu về Random Forest, có một số ít thuật ngữ mà bạn cần biết :
Bây giờ bạn đã hiểu những thuật ngữ này, hãy đi sâu vào chi tiết cụ thể . Random Forest là một kỹ thuật học tập tổng hợp được thiết kế xây dựng dựa trên những cây quyết định hành động. Random Forest tương quan đến việc tạo nhiều cây quyết định hành động bằng cách sử dụng tập dữ liệu khởi động của tài liệu gốc và chọn ngẫu nhiên một tập hợp con những biến ở mỗi bước của cây quyết định hành động. Sau đó, quy mô sẽ chọn chính sách ( mode ) của tổng thể những Dự kiến của mỗi cây quyết định hành động ( bagging ). Mục đích của điều này là gì ? Bằng cách dựa trên quy mô “ đa phần thắng ”, nó làm giảm rủi ro tiềm ẩn mắc lỗi từ một cây riêng không liên quan gì đến nhau .
Ví dụ, nếu tất cả chúng ta tạo ra một cây quyết định hành động, cây thứ ba, nó sẽ Dự kiến bằng 0. Nhưng nếu tất cả chúng ta dựa vào chính sách ( mode ) của cả 4 cây quyết định hành động, giá trị Dự kiến sẽ là 1. Đây là sức mạnh của những Random Forest AdaBoostAdaBoost, hoặc Adaptive Boost, cũng là một thuật toán tổng hợp sử dụng những giải pháp bagging và boosting để tăng trưởng một công cụ Dự kiến nâng cao . Ví dụ về một gốc cây
Về thực chất, AdaBoost có cách tiếp cận lặp lại nhiều hơn theo nghĩa là nó tìm cách cải tổ lặp đi lặp lại từ những sai lầm đáng tiếc mà ( những ) gốc trước đó đã mắc phải . Gradient BoostKhông có gì kinh ngạc khi Gradient Boost cũng là một thuật toán tổng hợp sử dụng những chiêu thức thôi thúc ( boosting ) để tăng trưởng một công cụ Dự kiến nâng cao. Theo nhiều cách, Gradient Boost tương tự như như AdaBoost, nhưng có 1 số ít điểm độc lạ chính :
Mặc dù điểm sau cuối hoàn toàn có thể gây nhầm lẫn, nhưng toàn bộ những gì bạn cần biết là Gradient Boost mở màn bằng cách thiết kế xây dựng một cây để cố gắng nỗ lực tương thích với tài liệu và những cây tiếp theo được kiến thiết xây dựng nhằm mục đích mục tiêu giảm phần dư ( lỗi ). Nó triển khai điều này bằng cách tập trung chuyên sâu vào những khu vực mà những người học hiện có hoạt động giải trí kém, tựa như như AdaBoost . XGBoostXGBoost là một trong những thuật toán học máy phổ cập và được sử dụng thoáng rộng nhất lúc bấy giờ vì đơn thuần là nó rất can đảm và mạnh mẽ. Nó tựa như như Gradient Boost nhưng có một vài tính năng bổ trợ làm cho nó mạnh hơn nhiều gồm có …
Tôi thực sự khuyên bạn nên xem video của StatQues t để hiểu cụ thể hơn về cách thuật toán hoạt động giải trí . LightGBMNếu bạn nghĩ XGBoost là thuật toán học máy tốt nhất hiện có, hãy nghĩ lại. LightGBM là một loại thuật toán thôi thúc khác được chứng tỏ là nhanh hơn và đôi lúc đúng mực hơn XGBoost . Điều làm cho LightGBM trở nên độc lạ là nó sử dụng một kỹ thuật độc lạ được gọi là Lấy mẫu một phía dựa trên Gradient ( GOSS – Gradient-based One-Side Sampling ) để lọc ra những thành viên tài liệu nhằm mục đích tìm ra giá trị phân tách. Điều này khác với XGBoost sử dụng những thuật toán được sắp xếp trước và dựa trên biểu đồ để tìm ra sự phân loại tốt nhất . Đọc thêm về Light GBM và XGBoost tại đây ! CatBoostCatBoost là một thuật toán khác dựa trên Gradient Descent có 1 số ít độc lạ nhỏ khiến nó trở nên độc lạ :
Nhìn chung, điều làm cho CatBoost trở nên can đảm và mạnh mẽ là nhu yếu về độ trễ thấp, tức là nó nhanh hơn XGBoost khoảng chừng tám lần . Phần kếtBây giờ bạn có lẽ rằng đã có ý tưởng sáng tạo tốt hơn về tổng thể những thuật toán học máy khác nhau . Đừng nản lòng nếu bạn gặp khó khăn vất vả khi hiểu một số ít thuật toán ở đầu cuối trong bài, không riêng gì phức tạp hơn mà chúng còn tương đối mới. Vì vậy, hãy theo dõi thêm những tài liệu chi tiết cụ thể để tìm hiểu và khám phá sâu hơn về những thuật toán này . Bài của tác giả Terence Shin, Data Scientist | MSc Analytics và MBA student đăng trên towardsdatascience.com Image by Pete Linforth from Pixabay Lưu ý : bạn hoàn toàn có thể gặp khó khăn vất vả khi truy vấn vào những link đến Medium. Hãy thử dùng VPN nếu bạn không hề truy vấn theo cách thường thì . Bạn nhìn nhận bài viết thế nào ?
Xem thêm: Xem Nhiều 11/2021 # Giá Bạc Ptsj 950 Mới Nhất # Top Trend Average rating 5 / 5. Vote count : 3 No votes so far ! Be the first to rate this post.
Source: https://chickgolden.com |