Học máy bằng tài liệu nghiên cứu về python

Trong thời đại hiện nay của cuộc Cách mạng công nghiệp lần thứ tư [4IR hay Industry 4. 0], thế giới kỹ thuật số có vô số dữ liệu, chẳng hạn như dữ liệu Internet vạn vật [IoT], dữ liệu an ninh mạng, dữ liệu di động, dữ liệu kinh doanh, dữ liệu truyền thông xã hội, dữ liệu sức khỏe, v.v. Để phân tích những dữ liệu này một cách thông minh và phát triển các ứng dụng tự động và thông minh tương ứng, kiến ​​thức về trí tuệ nhân tạo [AI], đặc biệt là học máy [ML] chính là chìa khóa. Nhiều loại thuật toán học máy khác nhau như học có giám sát, không giám sát, bán giám sát và học tăng cường tồn tại trong khu vực. Bên cạnh đó, học sâu, một phần của họ phương pháp học máy rộng hơn, có thể phân tích dữ liệu một cách thông minh trên quy mô lớn. Trong bài báo này, chúng tôi trình bày một cái nhìn toàn diện về các thuật toán học máy này có thể được áp dụng để nâng cao trí thông minh và khả năng của một ứng dụng. Do đó, đóng góp quan trọng của nghiên cứu này là giải thích các nguyên tắc của các kỹ thuật máy học khác nhau và khả năng ứng dụng của chúng trong các lĩnh vực ứng dụng khác nhau trong thế giới thực, chẳng hạn như hệ thống an ninh mạng, thành phố thông minh, chăm sóc sức khỏe, thương mại điện tử, nông nghiệp, v.v. Chúng tôi cũng nhấn mạnh những thách thức và hướng nghiên cứu tiềm năng dựa trên nghiên cứu của chúng tôi. Nhìn chung, bài viết này nhằm mục đích phục vụ như một điểm tham chiếu cho cả giới học thuật và các chuyên gia trong ngành cũng như cho những người ra quyết định trong các tình huống và lĩnh vực ứng dụng khác nhau trong thế giới thực, đặc biệt là từ quan điểm kỹ thuật

Làm việc trên một bản thảo?

Tránh những sai lầm phổ biến

Giới thiệu

Chúng ta đang sống trong thời đại dữ liệu, nơi mọi thứ xung quanh chúng ta được kết nối với một nguồn dữ liệu và mọi thứ trong cuộc sống của chúng ta đều được ghi lại bằng kỹ thuật số [21, 103]. Chẳng hạn, thế giới điện tử hiện tại có vô số loại dữ liệu, chẳng hạn như dữ liệu Internet vạn vật [IoT], dữ liệu an ninh mạng, dữ liệu thành phố thông minh, dữ liệu kinh doanh, dữ liệu điện thoại thông minh, dữ liệu truyền thông xã hội, dữ liệu sức khỏe, COVID-19 . Dữ liệu có thể được cấu trúc, bán cấu trúc hoặc không cấu trúc, được thảo luận ngắn gọn trong Phần. “Các loại dữ liệu trong thế giới thực và kỹ thuật học máy”, đang tăng lên từng ngày. Trích xuất thông tin chi tiết từ những dữ liệu này có thể được sử dụng để xây dựng các ứng dụng thông minh khác nhau trong các lĩnh vực liên quan. Chẳng hạn, để xây dựng một hệ thống an ninh mạng thông minh và tự động dựa trên dữ liệu, dữ liệu an ninh mạng có liên quan có thể được sử dụng [105]; . Do đó, các công cụ và kỹ thuật quản lý dữ liệu có khả năng trích xuất thông tin chi tiết hoặc kiến ​​thức hữu ích từ dữ liệu một cách kịp thời và thông minh là rất cần thiết, làm cơ sở cho các ứng dụng trong thế giới thực.

Quả sung. 1

Điểm phổ biến trên toàn thế giới của các loại thuật toán ML khác nhau [được giám sát, không giám sát, bán giám sát và tăng cường] trong phạm vi từ 0 [tối thiểu] đến 100 [tối đa] theo thời gian trong đó trục x biểu thị thông tin dấu thời gian và trục y biểu thị

Hình ảnh kích thước đầy đủ

Trí tuệ nhân tạo [AI], đặc biệt là máy học [ML] đã phát triển nhanh chóng trong những năm gần đây trong bối cảnh phân tích dữ liệu và điện toán thường cho phép các ứng dụng hoạt động theo cách thông minh [95]. ML thường cung cấp cho các hệ thống khả năng học hỏi và nâng cao kinh nghiệm một cách tự động mà không cần lập trình cụ thể và thường được gọi là các công nghệ mới nhất phổ biến nhất trong cuộc cách mạng công nghiệp lần thứ tư [4IR hoặc Industry 4. 0] [103, 105]. “Công nghiệp 4. 0” [114] điển hình là quá trình tự động hóa liên tục của các hoạt động sản xuất và công nghiệp thông thường, bao gồm xử lý dữ liệu khám phá, sử dụng các công nghệ thông minh mới như tự động hóa máy học. Do đó, để phân tích một cách thông minh những dữ liệu này và phát triển các ứng dụng tương ứng trong thế giới thực, thuật toán học máy chính là chìa khóa. Các thuật toán học có thể được phân loại thành bốn loại chính, chẳng hạn như học có giám sát, không giám sát, bán giám sát và học tăng cường trong khu vực [75], được thảo luận ngắn gọn trong Sect. “Các loại dữ liệu trong thế giới thực và kỹ thuật học máy”. Mức độ phổ biến của các phương pháp học tập này đang tăng lên từng ngày, được thể hiện trong Hình. 1, dựa trên dữ liệu được thu thập từ Google Xu hướng [4] trong 5 năm qua. Trục x của hình biểu thị các ngày cụ thể và điểm phổ biến tương ứng trong khoảng từ \[0 \; [tối thiểu]\] đến < . Theo hình. 1, giá trị chỉ báo phổ biến cho các loại hình học tập này thấp trong năm 2015 và đang tăng lên từng ngày. Những số liệu thống kê này thúc đẩy chúng tôi nghiên cứu về học máy trong bài báo này, có thể đóng một vai trò quan trọng trong thế giới thực thông qua Công nghiệp 4. 0 tự động hóa. \[100 \; [maximum]\] has been shown in y-axis. According to Fig. 1, the popularity indication values for these learning types are low in 2015 and are increasing day by day. These statistics motivate us to study on machine learning in this paper, which can play an important role in the real-world through Industry 4.0 automation.

Nói chung, hiệu quả và hiệu quả của một giải pháp học máy phụ thuộc vào bản chất và đặc điểm của dữ liệu và hiệu suất của các thuật toán học tập. Trong lĩnh vực thuật toán học máy, phân tích phân loại, hồi quy, phân cụm dữ liệu, kỹ thuật tính năng và giảm kích thước, học quy tắc kết hợp hoặc kỹ thuật học tăng cường tồn tại để xây dựng hiệu quả các hệ thống dựa trên dữ liệu [41, 125]. Bên cạnh đó, học sâu có nguồn gốc từ mạng lưới thần kinh nhân tạo có thể được sử dụng để phân tích dữ liệu một cách thông minh, được biết đến như một phần của họ các phương pháp học máy rộng lớn hơn [96]. Do đó, việc chọn một thuật toán học thích hợp phù hợp với ứng dụng mục tiêu trong một miền cụ thể là một thách thức. Lý do là mục đích của các thuật toán học khác nhau là khác nhau, thậm chí kết quả của các thuật toán học khác nhau trong một danh mục tương tự có thể khác nhau tùy thuộc vào đặc điểm dữ liệu [106]. Do đó, điều quan trọng là phải hiểu các nguyên tắc của các thuật toán học máy khác nhau và khả năng ứng dụng của chúng để áp dụng trong các lĩnh vực ứng dụng khác nhau trong thế giới thực, chẳng hạn như hệ thống IoT, dịch vụ an ninh mạng, hệ thống đề xuất và kinh doanh, thành phố thông minh, chăm sóc sức khỏe và COVID-19, bối cảnh . “Ứng dụng của học máy”

Dựa trên tầm quan trọng và tiềm năng của “Machine Learning” để phân tích dữ liệu được đề cập ở trên, trong bài viết này, chúng tôi cung cấp một cái nhìn toàn diện về các loại thuật toán machine learning khác nhau có thể được áp dụng để nâng cao trí thông minh và khả năng của một ứng dụng. Do đó, đóng góp chính của nghiên cứu này là giải thích các nguyên tắc và tiềm năng của các kỹ thuật học máy khác nhau và khả năng ứng dụng của chúng trong các lĩnh vực ứng dụng trong thế giới thực khác nhau đã đề cập trước đó. Do đó, mục đích của bài viết này là cung cấp một hướng dẫn cơ bản cho những người trong giới học thuật và công nghiệp muốn nghiên cứu, nghiên cứu và phát triển các hệ thống thông minh và tự động dựa trên dữ liệu trong các lĩnh vực liên quan dựa trên các kỹ thuật học máy.

Những đóng góp chính của bài viết này được liệt kê như sau

  • Để xác định phạm vi nghiên cứu của chúng tôi bằng cách tính đến bản chất và đặc điểm của các loại dữ liệu trong thế giới thực khác nhau và khả năng của các kỹ thuật học tập khác nhau

  • Để cung cấp một cái nhìn toàn diện về các thuật toán học máy có thể được áp dụng để nâng cao trí thông minh và khả năng của ứng dụng dựa trên dữ liệu

  • Để thảo luận về khả năng áp dụng các giải pháp dựa trên máy học trong các lĩnh vực ứng dụng trong thế giới thực khác nhau

  • Để làm nổi bật và tóm tắt các hướng nghiên cứu tiềm năng trong phạm vi nghiên cứu của chúng tôi để phân tích dữ liệu và dịch vụ thông minh

Phần còn lại của bài báo được tổ chức như sau. Phần tiếp theo trình bày các loại dữ liệu và thuật toán học máy theo nghĩa rộng hơn và xác định phạm vi nghiên cứu của chúng tôi. Chúng tôi thảo luận ngắn gọn và giải thích các thuật toán học máy khác nhau trong phần tiếp theo, sau đó thảo luận và tóm tắt các lĩnh vực ứng dụng khác nhau trong thế giới thực dựa trên thuật toán học máy. Trong phần áp chót, chúng tôi nhấn mạnh một số vấn đề nghiên cứu và các hướng tiềm năng trong tương lai, và phần cuối cùng kết luận bài viết này

Các loại dữ liệu trong thế giới thực và kỹ thuật học máy

Các thuật toán học máy thường sử dụng và xử lý dữ liệu để tìm hiểu các mẫu liên quan về cá nhân, quy trình kinh doanh, giao dịch, sự kiện, v.v. Sau đây, chúng tôi thảo luận về nhiều loại dữ liệu trong thế giới thực cũng như các loại thuật toán học máy

Các loại dữ liệu trong thế giới thực

Thông thường, tính sẵn có của dữ liệu được coi là chìa khóa để xây dựng mô hình học máy hoặc hệ thống thế giới thực dựa trên dữ liệu [103, 105]. Dữ liệu có thể ở nhiều dạng khác nhau, chẳng hạn như có cấu trúc, bán cấu trúc hoặc không cấu trúc [41, 72]. Bên cạnh đó, “siêu dữ liệu” là một loại khác thường đại diện cho dữ liệu về dữ liệu. Sau đây, chúng tôi thảo luận ngắn gọn về các loại dữ liệu này

  • có cấu trúc. Nó có cấu trúc rõ ràng, phù hợp với mô hình dữ liệu theo một trật tự chuẩn, có tính tổ chức cao, dễ truy cập và được sử dụng bởi một thực thể hoặc một chương trình máy tính. Trong các sơ đồ được xác định rõ, chẳng hạn như cơ sở dữ liệu quan hệ, dữ liệu có cấu trúc thường được lưu trữ, i. e. , ở định dạng bảng. Chẳng hạn, tên, ngày tháng, địa chỉ, số thẻ tín dụng, thông tin chứng khoán, vị trí địa lý, v.v. là những ví dụ về dữ liệu có cấu trúc

  • phi cấu trúc. Mặt khác, không có định dạng hoặc tổ chức được xác định trước cho dữ liệu phi cấu trúc, khiến việc nắm bắt, xử lý và phân tích trở nên khó khăn hơn nhiều, chủ yếu chứa văn bản và tài liệu đa phương tiện. Ví dụ: dữ liệu cảm biến, email, mục blog, wiki và tài liệu xử lý văn bản, tệp PDF, tệp âm thanh, video, hình ảnh, bản trình bày, trang web và nhiều loại tài liệu kinh doanh khác có thể được coi là dữ liệu phi cấu trúc

  • bán cấu trúc. Dữ liệu bán cấu trúc không được lưu trữ trong cơ sở dữ liệu quan hệ như dữ liệu có cấu trúc đã đề cập ở trên, nhưng nó có các thuộc tính tổ chức nhất định giúp phân tích dễ dàng hơn. Tài liệu HTML, XML, JSON, cơ sở dữ liệu NoSQL, v.v. , là một số ví dụ về dữ liệu bán cấu trúc

  • Metadata. Nó không phải là dạng dữ liệu thông thường, mà là “dữ liệu về dữ liệu”. Sự khác biệt chính giữa “dữ liệu” và “siêu dữ liệu” là dữ liệu chỉ đơn giản là tài liệu có thể phân loại, đo lường hoặc thậm chí ghi lại một thứ gì đó liên quan đến thuộc tính dữ liệu của tổ chức. Mặt khác, siêu dữ liệu mô tả thông tin dữ liệu có liên quan, mang lại nhiều ý nghĩa hơn cho người dùng dữ liệu. Một ví dụ cơ bản về siêu dữ liệu của tài liệu có thể là tác giả, kích thước tệp, ngày tạo bởi tài liệu, từ khóa để xác định tài liệu, v.v.

Trong lĩnh vực học máy và khoa học dữ liệu, các nhà nghiên cứu sử dụng nhiều bộ dữ liệu được sử dụng rộng rãi cho các mục đích khác nhau. Ví dụ, đây là các bộ dữ liệu an ninh mạng như NSL-KDD [119], UNSW-NB15 [76], ISCX’12 [1], CIC-DDoS2019 [2], Bot-IoT [59], v.v. , bộ dữ liệu điện thoại thông minh như nhật ký cuộc gọi điện thoại [84, 101], Nhật ký SMS [29], nhật ký sử dụng ứng dụng di động [137] [117], nhật ký thông báo điện thoại di động [73], v.v. , dữ liệu IoT [16, 57, 62], dữ liệu nông nghiệp và thương mại điện tử [120, 138], dữ liệu sức khỏe như bệnh tim [92], đái tháo đường [83, 134], COVID-19 [43, 74], . , và nhiều hơn nữa trong các lĩnh vực ứng dụng khác nhau. Dữ liệu có thể ở các loại khác nhau được thảo luận ở trên, có thể khác nhau giữa các ứng dụng trong thế giới thực. Để phân tích dữ liệu đó trong một miền vấn đề cụ thể và để trích xuất thông tin chi tiết hoặc kiến ​​thức hữu ích từ dữ liệu để xây dựng các ứng dụng thông minh trong thế giới thực, các loại kỹ thuật máy học khác nhau có thể được sử dụng tùy theo khả năng học tập của chúng, điều này sẽ được thảo luận trong

Các loại kỹ thuật học máy

Các thuật toán Machine Learning chủ yếu được chia thành bốn loại. Học có giám sát, Học không giám sát, Học bán giám sát và Học tăng cường [75], như trong Hình. 2. Sau đây, chúng tôi thảo luận ngắn gọn về từng loại kỹ thuật học tập với phạm vi ứng dụng của chúng để giải quyết các vấn đề trong thế giới thực

Quả sung. 2

Các loại kỹ thuật học máy khác nhau

Hình ảnh kích thước đầy đủ

Bảng 1 Các loại kỹ thuật học máy khác nhau với các ví dụ

Bảng kích thước đầy đủ

  • giám sát. Học có giám sát thường là nhiệm vụ của máy học để học một hàm ánh xạ đầu vào thành đầu ra dựa trên các cặp đầu vào-đầu ra mẫu [41]. Nó sử dụng dữ liệu đào tạo được gắn nhãn và tập hợp các ví dụ đào tạo để suy ra một chức năng. Học có giám sát được thực hiện khi các mục tiêu nhất định được xác định sẽ được hoàn thành từ một tập hợp đầu vào nhất định [105], i. e. , cách tiếp cận theo nhiệm vụ. Các tác vụ được giám sát phổ biến nhất là "phân loại" để phân tách dữ liệu và "hồi quy" phù hợp với dữ liệu. Chẳng hạn, dự đoán nhãn lớp hoặc cảm xúc của một đoạn văn bản, chẳng hạn như một tweet hoặc đánh giá sản phẩm, tôi. e. , phân loại văn bản, là một ví dụ về học có giám sát

  • không giám sát. Học tập không giám sát phân tích các bộ dữ liệu không được gắn nhãn mà không cần sự can thiệp của con người, i. e. , một quy trình dựa trên dữ liệu [41]. Điều này được sử dụng rộng rãi để trích xuất các tính năng chung, xác định các xu hướng và cấu trúc có ý nghĩa, các nhóm trong kết quả và mục đích khám phá. Các nhiệm vụ học tập không giám sát phổ biến nhất là phân cụm, ước tính mật độ, học tính năng, giảm kích thước, tìm quy tắc kết hợp, phát hiện bất thường, v.v.

  • bán giám sát. Học bán giám sát có thể được định nghĩa là sự kết hợp của các phương pháp được giám sát và không giám sát đã đề cập ở trên, vì nó hoạt động trên cả dữ liệu được gán nhãn và không được gán nhãn [41, 105]. Do đó, nó nằm giữa việc học “không có giám sát” và học “có giám sát”. Trong thế giới thực, dữ liệu được gắn nhãn có thể hiếm gặp trong một số ngữ cảnh và dữ liệu không được gắn nhãn thì rất nhiều, trong đó việc học bán giám sát là hữu ích [75]. Mục tiêu cuối cùng của mô hình học bán giám sát là mang lại kết quả dự đoán tốt hơn so với kết quả được tạo ra chỉ bằng cách sử dụng dữ liệu được gắn nhãn từ mô hình. Một số lĩnh vực ứng dụng sử dụng học bán giám sát bao gồm dịch máy, phát hiện gian lận, ghi nhãn dữ liệu và phân loại văn bản

  • cốt thép. Học tăng cường là một loại thuật toán học máy cho phép các tác nhân phần mềm và máy tự động đánh giá hành vi tối ưu trong một bối cảnh hoặc môi trường cụ thể để cải thiện hiệu quả của nó [52], i. e. , một cách tiếp cận dựa trên môi trường. Loại hình học tập này dựa trên phần thưởng hoặc hình phạt, và mục tiêu cuối cùng của nó là sử dụng những hiểu biết thu được từ các nhà hoạt động môi trường để hành động nhằm tăng phần thưởng hoặc giảm thiểu rủi ro [75]. Nó là một công cụ mạnh mẽ để đào tạo các mô hình AI có thể giúp tăng cường tự động hóa hoặc tối ưu hóa hiệu quả hoạt động của các hệ thống phức tạp như robot, nhiệm vụ lái xe tự hành, hậu cần chuỗi cung ứng và sản xuất, tuy nhiên, không nên sử dụng nó để giải quyết các vấn đề cơ bản hoặc đơn giản

Do đó, để xây dựng các mô hình hiệu quả trong các lĩnh vực ứng dụng khác nhau, các loại kỹ thuật học máy khác nhau có thể đóng một vai trò quan trọng tùy theo khả năng học tập của chúng, tùy thuộc vào bản chất của dữ liệu được thảo luận trước đó và kết quả mục tiêu. Trong Bảng 1, chúng tôi tóm tắt các loại kỹ thuật học máy khác nhau với các ví dụ. Trong phần sau đây, chúng tôi cung cấp một cái nhìn toàn diện về các thuật toán học máy có thể được áp dụng để nâng cao trí thông minh và khả năng của ứng dụng dựa trên dữ liệu

Nhiệm vụ và thuật toán học máy

Trong phần này, chúng tôi thảo luận về các thuật toán học máy khác nhau bao gồm phân tích phân loại, phân tích hồi quy, phân cụm dữ liệu, học quy tắc kết hợp, kỹ thuật tính năng để giảm kích thước cũng như các phương pháp học sâu. Cấu trúc chung của mô hình dự đoán dựa trên học máy đã được hiển thị trong Hình. 3, trong đó mô hình được đào tạo từ dữ liệu lịch sử trong giai đoạn 1 và kết quả được tạo trong giai đoạn 2 cho dữ liệu thử nghiệm mới

Quả sung. 3

Cấu trúc chung của mô hình dự đoán dựa trên học máy xem xét cả giai đoạn đào tạo và thử nghiệm

Hình ảnh kích thước đầy đủ

Phân tích phân loại

Phân loại được coi là một phương pháp học có giám sát trong học máy, cũng đề cập đến vấn đề về mô hình dự đoán, trong đó nhãn lớp được dự đoán cho một ví dụ nhất định [41]. Về mặt toán học, nó ánh xạ một hàm [f] từ biến đầu vào [X] sang biến đầu ra [Y] dưới dạng mục tiêu, nhãn hoặc danh mục. Để dự đoán lớp của các điểm dữ liệu đã cho, có thể tiến hành trên dữ liệu có cấu trúc hoặc phi cấu trúc. Ví dụ: phát hiện thư rác như “thư rác” và “không phải thư rác” trong các nhà cung cấp dịch vụ email có thể là một vấn đề phân loại. Sau đây, chúng tôi tóm tắt các vấn đề phân loại phổ biến

  • phân loại nhị phân. Nó đề cập đến các nhiệm vụ phân loại có hai nhãn lớp như “đúng và sai” hoặc “có và không” [41]. Trong các nhiệm vụ phân loại nhị phân như vậy, một lớp có thể là trạng thái bình thường, trong khi trạng thái bất thường có thể là một lớp khác. Ví dụ: “không phát hiện ung thư” là trạng thái bình thường của một nhiệm vụ liên quan đến xét nghiệm y tế và “phát hiện ung thư” có thể được coi là trạng thái bất thường. Tương tự, “thư rác” và “không phải thư rác” trong ví dụ trên về các nhà cung cấp dịch vụ email được coi là phân loại nhị phân

  • phân loại nhiều lớp. Theo truyền thống, điều này đề cập đến những nhiệm vụ phân loại có nhiều hơn hai nhãn lớp [41]. Phân loại đa lớp không có nguyên tắc kết quả bình thường và bất thường, không giống như các nhiệm vụ phân loại nhị phân. Thay vào đó, trong một phạm vi của các lớp được chỉ định, các mẫu được phân loại là thuộc về một. Ví dụ: nhiệm vụ phân loại nhiều lớp có thể là phân loại các loại tấn công mạng khác nhau trong bộ dữ liệu NSL-KDD [119], trong đó các loại tấn công được phân loại thành bốn nhãn lớp, chẳng hạn như DoS [Tấn công từ chối dịch vụ], U2R [

  • Phân loại đa nhãn. Trong học máy, phân loại nhiều nhãn là một cân nhắc quan trọng trong đó một ví dụ được liên kết với một số lớp hoặc nhãn. Do đó, đây là sự tổng quát hóa của phân loại đa lớp, trong đó các lớp liên quan đến vấn đề được cấu trúc theo thứ bậc và mỗi ví dụ có thể đồng thời thuộc về nhiều hơn một lớp trong mỗi cấp độ. g. , phân loại văn bản đa cấp. Chẳng hạn, tin tức của Google có thể được trình bày theo các danh mục “tên thành phố”, “công nghệ” hoặc “tin tức mới nhất”, v.v. Phân loại đa nhãn bao gồm các thuật toán học máy nâng cao hỗ trợ dự đoán các lớp hoặc nhãn không loại trừ lẫn nhau khác nhau, không giống như các tác vụ phân loại truyền thống nơi các nhãn lớp loại trừ lẫn nhau [82]

Nhiều thuật toán phân loại đã được đề xuất trong tài liệu khoa học dữ liệu và máy học [41, 125]. Sau đây, chúng tôi tóm tắt các phương pháp phổ biến và phổ biến nhất được sử dụng rộng rãi trong các lĩnh vực ứng dụng khác nhau

  • Naive Bayes [NB]. Thuật toán Bayes ngây thơ dựa trên định lý Bayes với giả định về tính độc lập giữa từng cặp tính năng [51]. Nó hoạt động tốt và có thể được sử dụng cho cả danh mục nhị phân và danh mục đa lớp trong nhiều tình huống thực tế, chẳng hạn như phân loại tài liệu hoặc văn bản, lọc thư rác, v.v. Để phân loại hiệu quả các trường hợp nhiễu trong dữ liệu và xây dựng một mô hình dự đoán mạnh mẽ, bộ phân loại NB có thể được sử dụng [94]. Lợi ích chính là, so với các phương pháp phức tạp hơn, nó cần một lượng nhỏ dữ liệu huấn luyện để ước tính các tham số cần thiết một cách nhanh chóng [82]. Tuy nhiên, hiệu suất của nó có thể bị ảnh hưởng do các giả định mạnh mẽ về tính độc lập của tính năng. Gaussian, Multinomial, Complement, Bernoulli, và Categorical là những biến thể phổ biến của bộ phân loại NB [82]

  • Phân tích phân biệt tuyến tính [LDA]. Phân tích phân biệt tuyến tính [LDA] là một bộ phân loại ranh giới quyết định tuyến tính được tạo bằng cách khớp mật độ có điều kiện của lớp với dữ liệu và áp dụng quy tắc Bayes [51, 82]. Phương pháp này còn được gọi là phương pháp tổng quát hóa phân biệt tuyến tính của Fisher, phương pháp này chiếu một tập dữ liệu đã cho vào một không gian có chiều thấp hơn, i. e. , giảm số chiều giúp giảm thiểu độ phức tạp của mô hình hoặc giảm chi phí tính toán của mô hình kết quả. Mô hình LDA tiêu chuẩn thường phù hợp với từng lớp với mật độ Gaussian, giả sử rằng tất cả các lớp chia sẻ cùng một ma trận hiệp phương sai [82]. LDA có liên quan chặt chẽ với ANOVA [phân tích phương sai] và phân tích hồi quy, tìm cách biểu thị một biến phụ thuộc dưới dạng kết hợp tuyến tính của các tính năng hoặc phép đo khác

  • Hồi quy logistic [LR]. Một mô hình thống kê dựa trên xác suất phổ biến khác được sử dụng để giải quyết các vấn đề phân loại trong học máy là Hồi quy logistic [LR] [64]. Hồi quy logistic thường sử dụng hàm logistic để ước tính xác suất, còn được gọi là hàm sigmoid được xác định bằng toán học trong Eq. 1. Nó có thể overfit tập dữ liệu chiều cao và hoạt động tốt khi tập dữ liệu có thể được phân tách tuyến tính. Các kỹ thuật chuẩn hóa [L1 và L2] [82] có thể được sử dụng để tránh khớp quá mức trong các tình huống như vậy. Giả định về sự tuyến tính giữa các biến phụ thuộc và biến độc lập được coi là nhược điểm lớn của Hồi quy logistic. Nó có thể được sử dụng cho cả bài toán phân loại và hồi quy, nhưng nó thường được sử dụng để phân loại hơn

    $$\begin{aligned} g[z] = \frac{1}{1 + \exp [-z]}. \end{aligned}$$

    [1]

  • K-hàng xóm gần nhất [KNN]. K-Nearest Neighbors [KNN] [9] là một “học tập dựa trên cá thể” hoặc học tập không khái quát hóa, còn được gọi là thuật toán “học tập lười biếng”. Nó không tập trung vào việc xây dựng một mô hình nội bộ chung; . KNN sử dụng dữ liệu và phân loại các điểm dữ liệu mới dựa trên các biện pháp tương tự [e. g. , hàm khoảng cách Euclide] [82]. Phân loại được tính toán từ một cuộc bỏ phiếu đa số đơn giản của k hàng xóm gần nhất của mỗi điểm. Nó khá mạnh đối với dữ liệu đào tạo ồn ào và độ chính xác phụ thuộc vào chất lượng dữ liệu. Vấn đề lớn nhất với KNN là chọn số lượng hàng xóm tối ưu để xem xét. KNN có thể được sử dụng cho cả phân loại cũng như hồi quy

  • Máy vectơ hỗ trợ [SVM]. Trong học máy, một kỹ thuật phổ biến khác có thể được sử dụng để phân loại, hồi quy hoặc các tác vụ khác là máy vectơ hỗ trợ [SVM] [56]. Trong không gian nhiều chiều hoặc vô hạn, máy vectơ hỗ trợ xây dựng một siêu phẳng hoặc tập hợp các siêu phẳng. Theo trực giác, siêu phẳng, có khoảng cách lớn nhất từ ​​​​các điểm dữ liệu đào tạo gần nhất trong bất kỳ lớp nào, đạt được sự phân tách mạnh vì nói chung, lề càng lớn, lỗi tổng quát hóa của bộ phân loại càng thấp. Nó hiệu quả trong không gian nhiều chiều và có thể hoạt động khác nhau dựa trên các hàm toán học khác nhau được gọi là hạt nhân. Tuyến tính, đa thức, hàm cơ sở xuyên tâm [RBF], sigmoid, v.v. , là các hàm nhân phổ biến được sử dụng trong bộ phân loại SVM [82]. Tuy nhiên, khi tập dữ liệu chứa nhiều nhiễu hơn, chẳng hạn như các lớp mục tiêu chồng chéo, SVM không hoạt động tốt

  • Cây quyết định [DT]. Cây quyết định [DT] [88] là một phương pháp học có giám sát phi tham số nổi tiếng. Các phương pháp học DT được sử dụng cho cả nhiệm vụ phân loại và hồi quy [82]. ID3 [87], C4. 5 [88] và GIỎ HÀNG [20] nổi tiếng với thuật toán DT. Hơn nữa, BehavDT được đề xuất gần đây [100] và IntrudTree [97] của Sarker et al. có hiệu quả trong các lĩnh vực ứng dụng có liên quan, chẳng hạn như phân tích hành vi người dùng và phân tích an ninh mạng, tương ứng. Bằng cách sắp xếp cây từ gốc đến một số nút lá, như trong Hình. 4, DT phân loại các trường hợp. Các thể hiện được phân loại bằng cách kiểm tra thuộc tính được xác định bởi nút đó, bắt đầu từ nút gốc của cây, sau đó di chuyển xuống nhánh cây tương ứng với giá trị thuộc tính. Để phân tách, tiêu chí phổ biến nhất là “gini” đối với tạp chất Gini và “entropy” đối với mức thu được thông tin có thể được biểu thị bằng toán học như [82]

    $$\begin{aligned} \mathrm{Entropy}. H[x] = & -\sum _{i = 1}^n p[x_i] \log _2 p[x_i] \end{aligned}$$

    [2]

    $$\begin{aligned} \mathrm{Gini} [E] = & 1 - \sum _{i = 1}^{c}{p_i}^2. \end{aligned}$$

    [3]

Quả sung. 4

Ví dụ về cấu trúc cây quyết định

Hình ảnh kích thước đầy đủ

Quả sung. 5

Một ví dụ về cấu trúc rừng ngẫu nhiên xem xét nhiều cây quyết định

Hình ảnh kích thước đầy đủ

  • Rừng ngẫu nhiên [RF]. Trình phân loại rừng ngẫu nhiên [19] được biết đến như một kỹ thuật phân loại tập hợp được sử dụng trong lĩnh vực học máy và khoa học dữ liệu trong các lĩnh vực ứng dụng khác nhau. Phương pháp này sử dụng "tập hợp song song" phù hợp song song với một số bộ phân loại cây quyết định, như trong Hình. 5, trên các mẫu phụ của tập dữ liệu khác nhau và sử dụng biểu quyết đa số hoặc giá trị trung bình cho kết quả hoặc kết quả cuối cùng. Do đó, nó giảm thiểu vấn đề khớp quá mức và tăng độ chính xác và khả năng kiểm soát của dự đoán [82]. Do đó, mô hình học RF với nhiều cây quyết định thường chính xác hơn mô hình dựa trên cây quyết định đơn lẻ [106]. Để xây dựng một loạt các cây quyết định với biến thể được kiểm soát, nó kết hợp tập hợp bootstrap [đóng gói] [18] và lựa chọn tính năng ngẫu nhiên [11]. Nó có thể thích ứng với cả vấn đề phân loại và hồi quy và phù hợp tốt cho cả giá trị phân loại và liên tục

  • Tăng cường thích ứng [AdaBoost]. Adaptive Boosting [AdaBoost] là một quy trình học tập đồng bộ sử dụng phương pháp lặp để cải thiện các trình phân loại kém bằng cách học hỏi từ các lỗi của chúng. Điều này được phát triển bởi Yoav Freund et al. [35] và còn được gọi là “siêu học”. Không giống như rừng ngẫu nhiên sử dụng tập hợp song song, Adaboost sử dụng "tập hợp tuần tự". Nó tạo ra một bộ phân loại mạnh mẽ bằng cách kết hợp nhiều bộ phân loại hoạt động kém để có được một bộ phân loại tốt với độ chính xác cao. Theo nghĩa đó, AdaBoost được gọi là bộ phân loại thích ứng bằng cách cải thiện đáng kể hiệu quả của bộ phân loại, nhưng trong một số trường hợp, nó có thể kích hoạt quá khớp. AdaBoost được sử dụng tốt nhất để tăng hiệu suất của cây quyết định, công cụ ước tính cơ sở [82], đối với các bài toán phân loại nhị phân, tuy nhiên, rất nhạy cảm với dữ liệu nhiễu và giá trị ngoại lệ

  • Tăng cường độ dốc cực cao [XGBoost]. Tăng cường độ dốc, giống như Rừng ngẫu nhiên [19] ở trên, là một thuật toán học tập đồng bộ tạo ra mô hình cuối cùng dựa trên một loạt các mô hình riêng lẻ, điển hình là cây quyết định. Độ dốc được sử dụng để giảm thiểu chức năng mất mát, tương tự như cách mạng thần kinh [41] sử dụng độ dốc giảm dần để tối ưu hóa trọng số. Tăng cường độ dốc cực độ [XGBoost] là một hình thức tăng cường độ dốc có tính đến các phép tính gần đúng chi tiết hơn khi xác định mô hình tốt nhất [82]. Nó tính toán độ dốc bậc hai của hàm mất mát để giảm thiểu mất mát và chuẩn hóa nâng cao [L1 và L2] [82], giúp giảm hiện tượng khớp quá mức, đồng thời cải thiện hiệu suất và tổng quát hóa mô hình. XGBoost diễn giải nhanh và có thể xử lý tốt các tập dữ liệu có kích thước lớn

  • Giảm độ dốc ngẫu nhiên [SGD]. Giảm dần độ dốc ngẫu nhiên [SGD] [41] là một phương pháp lặp để tối ưu hóa hàm mục tiêu với các thuộc tính độ trơn thích hợp, trong đó từ 'ngẫu nhiên' dùng để chỉ xác suất ngẫu nhiên. Điều này làm giảm gánh nặng tính toán, đặc biệt là trong các vấn đề tối ưu hóa chiều cao, cho phép lặp lại nhanh hơn để đổi lấy tốc độ hội tụ thấp hơn. Độ dốc là độ dốc của hàm tính toán mức độ thay đổi của một biến để đáp ứng với những thay đổi của biến khác. Về mặt toán học, Gradient Descent là một hàm lồi có đầu ra là một đạo hàm riêng của một tập hợp các tham số đầu vào của nó. Đặt, \[\alpha\] là tốc độ học và \[J_i\] is the training example cost of \[i \mathrm{th}\], then Eq. [4] represents the stochastic gradient descent weight update method at the \[j^\mathrm{th}\] . Trong học máy quy mô lớn và thưa thớt, SGD đã được áp dụng thành công cho các vấn đề thường gặp trong phân loại văn bản và xử lý ngôn ngữ tự nhiên [82]. Tuy nhiên, SGD rất nhạy cảm với tỷ lệ tính năng và cần một loạt các siêu tham số, chẳng hạn như tham số chính quy hóa và số lần lặp lại.

    $$\begin{aligned} w_j \. = \ w_j - \alpha \ \frac{\partial J_i}{\partial w_j}. \end{aligned}$$

    [4]

  • Phân loại dựa trên quy tắc. Thuật ngữ phân loại dựa trên quy tắc có thể được sử dụng để chỉ bất kỳ lược đồ phân loại nào sử dụng các quy tắc IF-THEN để dự đoán lớp. Một số thuật toán phân loại như Zero-R [125], One-R [47], cây quyết định [87, 88], DTNB [110], Ripple Down Rule learner [RIDOR] [125], Repeated Incremental Pruning to Produce Error Reduction . Cây quyết định là một trong những thuật toán phân loại dựa trên quy tắc phổ biến nhất trong số các kỹ thuật này vì nó có một số ưu điểm, chẳng hạn như dễ diễn giải hơn; . Các quy tắc dựa trên cây quyết định cũng cung cấp độ chính xác đáng kể trong mô hình dự đoán đối với các trường hợp thử nghiệm chưa từng thấy [106]. Do các quy tắc có thể diễn giải dễ dàng nên các bộ phân loại dựa trên quy tắc này thường được sử dụng để tạo ra các mô hình mô tả có thể mô tả một hệ thống bao gồm các thực thể và các mối quan hệ của chúng.

Quả sung. 6

Phân loại so với. hồi quy. Trong phân loại, đường chấm chấm biểu thị một ranh giới tuyến tính phân tách hai lớp;

Hình ảnh kích thước đầy đủ

Phân tích hồi quy

Phân tích hồi quy bao gồm một số phương pháp học máy cho phép dự đoán biến kết quả [y] liên tục dựa trên giá trị của một hoặc nhiều [x] biến dự đoán [41]. Sự khác biệt đáng kể nhất giữa phân loại và hồi quy là phân loại dự đoán các nhãn lớp riêng biệt, trong khi hồi quy tạo điều kiện dự đoán một đại lượng liên tục. Hình 6 cho thấy một ví dụ về cách phân loại khác với các mô hình hồi quy. Một số trùng lặp thường được tìm thấy giữa hai loại thuật toán học máy. Các mô hình hồi quy hiện được sử dụng rộng rãi trong nhiều lĩnh vực, bao gồm dự báo hoặc dự đoán tài chính, ước tính chi phí, phân tích xu hướng, tiếp thị, ước tính chuỗi thời gian, mô hình phản ứng thuốc, v.v. Một số loại thuật toán hồi quy quen thuộc là hồi quy tuyến tính, đa thức, lasso và sườn, v.v. , được giải thích ngắn gọn sau đây

  • Hồi quy tuyến tính đơn giản và bội. Đây là một trong những kỹ thuật lập mô hình ML phổ biến nhất cũng như một kỹ thuật hồi quy nổi tiếng. Trong kỹ thuật này, biến phụ thuộc là liên tục, [các] biến độc lập có thể liên tục hoặc rời rạc và dạng của đường hồi quy là tuyến tính. Hồi quy tuyến tính tạo mối quan hệ giữa biến phụ thuộc [Y] và một hoặc nhiều biến độc lập [X] [còn gọi là đường hồi quy] bằng cách sử dụng đường thẳng phù hợp nhất [41]. Nó được xác định bởi các phương trình sau

    $$\begin{aligned} y = & a + bx + e \end{aligned}$$

    [5]

    $$\begin{aligned} y = & a + b_1x_1 + b_2x_2 + \cdots + b_nx_n + e, \end{aligned}$$

    [6]

    trong đó a là phần chặn, b là độ dốc của đường và e là thuật ngữ lỗi. Phương trình này có thể được sử dụng để dự đoán giá trị của biến mục tiêu dựa trên [các] biến dự đoán đã cho. Hồi quy tuyến tính bội là phần mở rộng của hồi quy tuyến tính đơn giản cho phép hai hoặc nhiều biến dự đoán mô hình hóa một biến phản hồi, y, dưới dạng một hàm tuyến tính [41] được xác định trong biểu thức. 6, trong khi hồi quy tuyến tính đơn giản chỉ có 1 biến độc lập, được định nghĩa trong biểu thức. 5

  • Hồi quy đa thức. Hồi quy đa thức là một dạng phân tích hồi quy trong đó mối quan hệ giữa biến độc lập x và biến phụ thuộc y không phải là tuyến tính mà là bậc đa thức của \[n^\mathrm{th} . Phương trình hồi quy đa thức cũng được rút ra từ phương trình hồi quy tuyến tính [hồi quy đa thức bậc 1], được định nghĩa như sau. in x [82]. The equation for polynomial regression is also derived from linear regression [polynomial regression of degree 1] equation, which is defined as below:

    $$\begin{aligned} y = b_0 + b_1x + b_2x^2 + b_3x^3 + \cdots + b_nx^n + e. \end{aligned}$$

    [7]

    Ở đây, y là đầu ra dự đoán/đích, \[b_0, b_1,. b_n\] là các hệ số hồi quy, x là biến đầu vào/độc lập. Nói một cách đơn giản, chúng ta có thể nói rằng nếu dữ liệu không được phân phối tuyến tính, thì đó là \[n^\mathrm{th}\] bậc của đa thức .

  • LASSO và hồi quy sườn núi. LASSO và hồi quy Ridge nổi tiếng là các kỹ thuật mạnh mẽ thường được sử dụng để xây dựng các mô hình học tập với sự có mặt của một số lượng lớn các tính năng, do khả năng ngăn chặn quá khớp và giảm độ phức tạp của mô hình. Mô hình hồi quy LASSO [toán tử lựa chọn và co ngót tuyệt đối nhỏ nhất] sử dụng kỹ thuật chính quy hóa L1 [82] sử dụng phép co rút, điều này trừng phạt “giá trị tuyệt đối của độ lớn của các hệ số” [hình phạt L1]. Kết quả là, LASSO dường như đưa các hệ số về độ không tuyệt đối. Do đó, hồi quy LASSO nhằm mục đích tìm tập hợp con của các yếu tố dự đoán giúp giảm thiểu lỗi dự đoán cho một biến phản hồi định lượng. Mặt khác, hồi quy sườn sử dụng chuẩn hóa L2 [82], là “độ lớn bình phương của các hệ số” [hình phạt L2]. Do đó, hồi quy sườn buộc các trọng số phải nhỏ nhưng không bao giờ đặt giá trị hệ số bằng 0 và thực hiện một giải pháp không thưa thớt. Nhìn chung, hồi quy LASSO rất hữu ích để có được một tập hợp con các yếu tố dự đoán bằng cách loại bỏ các tính năng ít quan trọng hơn và hồi quy sườn hữu ích khi một tập dữ liệu có “đa cộng tuyến” đề cập đến các yếu tố dự đoán có tương quan với các yếu tố dự đoán khác

Phân tích cluster

Phân tích cụm, còn được gọi là phân cụm, là một kỹ thuật học máy không giám sát để xác định và nhóm các điểm dữ liệu liên quan trong tập dữ liệu lớn mà không cần quan tâm đến kết quả cụ thể. Nó thực hiện việc nhóm một tập hợp các đối tượng theo cách sao cho các đối tượng trong cùng một loại, được gọi là cụm, theo một nghĩa nào đó giống nhau hơn so với các đối tượng trong các nhóm khác [41]. Nó thường được sử dụng như một kỹ thuật phân tích dữ liệu để khám phá các xu hướng hoặc mẫu thú vị trong dữ liệu, chẳng hạn như. g. , nhóm người tiêu dùng dựa trên hành vi của họ. Trong nhiều lĩnh vực ứng dụng, chẳng hạn như an ninh mạng, thương mại điện tử, xử lý dữ liệu di động, phân tích sức khỏe, mô hình hóa người dùng và phân tích hành vi, phân cụm có thể được sử dụng. Sau đây, chúng tôi thảo luận ngắn gọn và tóm tắt các loại phương pháp phân cụm khác nhau

  • phương pháp phân vùng. Dựa trên các tính năng và điểm tương đồng trong dữ liệu, phương pháp phân cụm này phân loại dữ liệu thành nhiều nhóm hoặc cụm. Các nhà khoa học hoặc nhà phân tích dữ liệu thường xác định số lượng cụm động hoặc tĩnh tùy thuộc vào bản chất của ứng dụng đích, để tạo ra các phương pháp phân cụm. Các thuật toán phân cụm phổ biến nhất dựa trên các phương pháp phân vùng là Kmeans [69], K-Medoids [80], CLARA [55], v.v.

  • phương pháp dựa trên mật độ. Để xác định các nhóm hoặc cụm riêng biệt, nó sử dụng khái niệm rằng một cụm trong không gian dữ liệu là một vùng liền kề có mật độ điểm cao được phân lập với các cụm khác như vậy bởi các vùng liền kề có mật độ điểm thấp. Các điểm không phải là một phần của cụm được coi là nhiễu. Các thuật toán phân cụm điển hình dựa trên mật độ là DBSCAN [32], OPTICS [12], v.v. Các phương pháp dựa trên mật độ thường gặp khó khăn với các cụm có mật độ tương tự và dữ liệu có chiều cao

  • Phương pháp dựa trên thứ bậc. Phân cụm theo thứ bậc thường tìm cách xây dựng một hệ thống thứ bậc của các cụm,. e. , cấu trúc cây. Các chiến lược để phân cụm theo thứ bậc thường được chia thành hai loại. [i] Tập hợp—một cách tiếp cận “từ dưới lên” trong đó mỗi quan sát bắt đầu trong cụm của nó và các cặp cụm được kết hợp thành một, di chuyển lên trên hệ thống phân cấp và [ii] Chia rẽ—một cách tiếp cận “từ trên xuống” trong đó tất cả . Kỹ thuật BOTS được đề xuất trước đó của chúng tôi, Sarker et al. [102] là một ví dụ về thuật toán phân cụm từ dưới lên, có thứ bậc

  • Phương pháp dựa trên lưới. Để xử lý các tập dữ liệu lớn, phân cụm dựa trên lưới đặc biệt phù hợp. Để có được các cụm, nguyên tắc đầu tiên là tóm tắt tập dữ liệu bằng biểu diễn lưới và sau đó kết hợp các ô lưới. STING [122], CLIQUE [6], v.v. là các thuật toán tiêu chuẩn của phân cụm dựa trên lưới

  • phương pháp dựa trên mô hình. Chủ yếu có hai loại thuật toán phân cụm dựa trên mô hình. một sử dụng phương pháp học thống kê và phương pháp còn lại dựa trên phương pháp học mạng thần kinh [130]. Chẳng hạn, GMM [89] là một ví dụ về phương pháp học thống kê và SOM [22] [96] là một ví dụ về phương pháp học mạng thần kinh

  • Phương pháp dựa trên ràng buộc. Phân cụm dựa trên ràng buộc là một cách tiếp cận bán giám sát để phân cụm dữ liệu sử dụng các ràng buộc để kết hợp kiến ​​thức miền. Các ràng buộc hướng đến ứng dụng hoặc người dùng được kết hợp để thực hiện phân cụm. Các thuật toán điển hình của loại phân cụm này là COP K-means [121], CMWK-Means [27], v.v.

Quả sung. 7

Một diễn giải đồ họa của kỹ thuật phân cụm theo thứ bậc được sử dụng rộng rãi [Từ dưới lên và từ trên xuống]

Hình ảnh kích thước đầy đủ

Nhiều thuật toán phân cụm đã được đề xuất với khả năng nhóm dữ liệu trong học máy và tài liệu khoa học dữ liệu [41, 125]. Sau đây, chúng tôi tóm tắt các phương pháp phổ biến được sử dụng rộng rãi trong các lĩnh vực ứng dụng khác nhau

  • K-có nghĩa là phân cụm. K-means clustering [69] là một thuật toán nhanh, mạnh và đơn giản, cung cấp kết quả đáng tin cậy khi các tập dữ liệu được phân tách rõ ràng với nhau. Các điểm dữ liệu được phân bổ cho một cụm trong thuật toán này sao cho lượng bình phương khoảng cách giữa các điểm dữ liệu và tâm càng nhỏ càng tốt. Nói cách khác, thuật toán K-mean xác định k số trọng tâm và sau đó gán từng điểm dữ liệu cho cụm gần nhất trong khi giữ cho trọng tâm càng nhỏ càng tốt. Vì nó bắt đầu với sự lựa chọn ngẫu nhiên các trung tâm cụm, kết quả có thể không nhất quán. Vì các giá trị cực trị có thể dễ dàng ảnh hưởng đến giá trị trung bình, nên thuật toán phân cụm K-mean nhạy cảm với các giá trị ngoại lệ. Phân cụm K-medoids [91] là một biến thể của K-means mạnh hơn đối với tiếng ồn và ngoại lệ

  • phân cụm dịch chuyển trung bình. Phân cụm dịch chuyển trung bình [37] là một kỹ thuật phân cụm phi tham số không yêu cầu kiến ​​thức trước về số lượng cụm hoặc ràng buộc về hình dạng cụm. Phân cụm dịch chuyển trung bình nhằm mục đích khám phá các “đốm màu” trong sự phân bố hoặc mật độ mẫu trơn tru [82]. Đây là một thuật toán dựa trên centroid hoạt động bằng cách cập nhật các ứng cử viên centroid thành giá trị trung bình của các điểm trong một khu vực nhất định. Để tạo thành tập hợp trọng tâm cuối cùng, các ứng cử viên này được lọc trong giai đoạn xử lý hậu kỳ để loại bỏ các điểm gần trùng lặp. Phân tích cụm trong thị giác máy tính và xử lý hình ảnh là những ví dụ về miền ứng dụng. Mean Shift có nhược điểm là tốn kém về mặt tính toán. Ngoài ra, trong các trường hợp có số lượng lớn, trong đó số lượng cụm thay đổi đột ngột, thuật toán dịch chuyển trung bình không hoạt động tốt

  • DBSCAN. Phân cụm không gian dựa trên mật độ của các ứng dụng có nhiễu [DBSCAN] [32] là một thuật toán cơ bản cho phân cụm dựa trên mật độ được sử dụng rộng rãi trong khai thác dữ liệu và học máy. Đây được gọi là kỹ thuật phân cụm dựa trên mật độ không tham số để tách các cụm có mật độ cao khỏi các cụm có mật độ thấp được sử dụng trong xây dựng mô hình. Ý tưởng chính của DBSCAN là một điểm thuộc về một cụm nếu nó gần với nhiều điểm từ cụm đó. Nó có thể tìm thấy các cụm có hình dạng và kích cỡ khác nhau trong một khối lượng lớn dữ liệu ồn ào và chứa các giá trị ngoại lệ. DBSCAN, không giống như k-mean, không yêu cầu đặc tả trước về số lượng cụm trong dữ liệu và có thể tìm thấy các cụm có hình dạng tùy ý. Mặc dù k-means nhanh hơn nhiều so với DBSCAN, nhưng nó hiệu quả trong việc tìm kiếm các vùng có mật độ cao và các vùng ngoại lai, i. e. , mạnh mẽ đối với các ngoại lệ

  • phân cụm GMM. Các mô hình hỗn hợp Gaussian [GMM] thường được sử dụng để phân cụm dữ liệu, đây là thuật toán phân cụm dựa trên phân phối. Mô hình hỗn hợp Gauss là một mô hình xác suất trong đó tất cả các điểm dữ liệu được tạo ra bởi một hỗn hợp của một số hữu hạn các phân bố Gauss với các tham số chưa biết [82]. Để tìm các tham số Gaussian cho từng cụm, có thể sử dụng thuật toán tối ưu hóa có tên là tối đa hóa kỳ vọng [EM] [82]. EM là một phương pháp lặp sử dụng mô hình thống kê để ước tính các tham số. Trái ngược với phương tiện k, các mô hình hỗn hợp Gaussian giải thích cho sự không chắc chắn và trả về khả năng một điểm dữ liệu thuộc về một trong các cụm k. Phân cụm GMM mạnh hơn phương tiện k và hoạt động tốt ngay cả với phân phối dữ liệu phi tuyến tính

  • Phân cụm phân cấp kết tụ. Phương pháp phổ biến nhất của phân cụm theo thứ bậc được sử dụng để nhóm các đối tượng trong các cụm dựa trên sự giống nhau của chúng là phân cụm kết tụ. Kỹ thuật này sử dụng cách tiếp cận từ dưới lên, trong đó mỗi đối tượng trước tiên được thuật toán coi là một cụm đơn lẻ. Sau đó, từng cặp cụm được hợp nhất cho đến khi tất cả các cụm được hợp nhất thành một cụm lớn duy nhất chứa tất cả các đối tượng. Kết quả là một dendrogram, là một biểu diễn dựa trên cây của các phần tử. Liên kết đơn [115], Liên kết hoàn chỉnh [116], BOTS [102], v.v. là một số ví dụ về các kỹ thuật như vậy. Ưu điểm chính của phân cụm theo thứ bậc kết tụ so với phương tiện k là hệ thống phân cấp cấu trúc cây được tạo bởi phân cụm kết tụ có nhiều thông tin hơn so với tập hợp các cụm phẳng không có cấu trúc được trả về bởi phương tiện k, có thể giúp đưa ra quyết định tốt hơn trong các lĩnh vực ứng dụng có liên quan

Giảm kích thước và học tính năng

Trong học máy và khoa học dữ liệu, xử lý dữ liệu nhiều chiều là một nhiệm vụ đầy thách thức đối với cả nhà nghiên cứu và nhà phát triển ứng dụng. Do đó, giảm kích thước, một kỹ thuật học tập không giám sát, rất quan trọng vì nó giúp con người diễn giải tốt hơn, chi phí tính toán thấp hơn và tránh trang bị thừa và dư thừa bằng cách đơn giản hóa các mô hình. Cả quá trình lựa chọn tính năng và trích xuất tính năng đều có thể được sử dụng để giảm kích thước. Sự khác biệt chính giữa lựa chọn và trích xuất các tính năng là “lựa chọn tính năng” giữ một tập hợp con các tính năng ban đầu [97], trong khi “trích xuất tính năng” tạo ra các tính năng hoàn toàn mới [98]. Sau đây, chúng tôi thảo luận ngắn gọn về các kỹ thuật này

  • lựa chọn tính năng. Việc lựa chọn các tính năng, còn được gọi là lựa chọn các biến hoặc thuộc tính trong dữ liệu, là quá trình chọn một tập hợp con các tính năng duy nhất [biến, dự đoán] để sử dụng trong việc xây dựng mô hình khoa học dữ liệu và máy học. Nó làm giảm độ phức tạp của mô hình bằng cách loại bỏ các tính năng không liên quan hoặc ít quan trọng hơn và cho phép đào tạo các thuật toán học máy nhanh hơn. Một tập hợp con đúng và tối ưu của các đặc trưng được chọn trong miền vấn đề có khả năng giảm thiểu vấn đề khớp quá mức thông qua việc đơn giản hóa và tổng quát hóa mô hình cũng như tăng độ chính xác của mô hình [97]. Do đó, “lựa chọn tính năng” [66, 99] được coi là một trong những khái niệm cơ bản trong học máy ảnh hưởng lớn đến hiệu quả và hiệu suất của mô hình học máy mục tiêu. Kiểm tra chi bình phương, kiểm tra Phân tích phương sai [ANOVA], hệ số tương quan Pearson, loại bỏ tính năng đệ quy, là một số kỹ thuật phổ biến có thể được sử dụng để lựa chọn tính năng

  • Khai thác tính năng. Trong một mô hình hoặc hệ thống dựa trên máy học, các kỹ thuật trích xuất tính năng thường giúp hiểu rõ hơn về dữ liệu, một cách để cải thiện độ chính xác của dự đoán và giảm chi phí tính toán hoặc thời gian đào tạo. Mục đích của “trích xuất đặc trưng” [66, 99] là giảm số lượng đặc trưng trong tập dữ liệu bằng cách tạo các đặc trưng mới từ các đặc trưng hiện có và sau đó loại bỏ các đặc trưng ban đầu. Sau đó, phần lớn thông tin được tìm thấy trong bộ tính năng ban đầu có thể được tóm tắt bằng cách sử dụng bộ tính năng mới được rút gọn này. Chẳng hạn, phân tích các thành phần chính [PCA] thường được sử dụng như một kỹ thuật giảm kích thước để trích xuất không gian có chiều thấp hơn, tạo ra các thành phần thương hiệu mới từ các tính năng hiện có trong bộ dữ liệu [98]

Nhiều thuật toán đã được đề xuất để giảm kích thước dữ liệu trong tài liệu khoa học dữ liệu và máy học [41, 125]. Sau đây, chúng tôi tóm tắt các phương pháp phổ biến được sử dụng rộng rãi trong các lĩnh vực ứng dụng khác nhau

  • Ngưỡng phương sai. Một cách tiếp cận cơ bản đơn giản để lựa chọn tính năng là ngưỡng phương sai [82]. Điều này loại trừ tất cả các tính năng của phương sai thấp, tôi. e. , tất cả các tính năng có phương sai không vượt quá ngưỡng. Nó loại bỏ tất cả các đặc tính phương sai bằng 0 theo mặc định, tôi. e. , các đặc điểm có cùng giá trị trong tất cả các mẫu. Thuật toán lựa chọn tính năng này chỉ xem xét các tính năng [X], không phải đầu ra [y] cần thiết và do đó, có thể được sử dụng cho việc học không giám sát

  • Tương quan Pearson. Tương quan của Pearson là một phương pháp khác để hiểu mối quan hệ của một tính năng với biến phản hồi và có thể được sử dụng để lựa chọn tính năng [99]. Phương pháp này cũng được sử dụng để tìm mối liên hệ giữa các tính năng trong tập dữ liệu. Giá trị kết quả là \[[-1, 1]\] , trong đó \[-1\]< . Nếu hai biến ngẫu nhiên đại diện cho X và Y thì hệ số tương quan giữa X và Y được xác định là [41] means perfect negative correlation, \[+1\] means perfect positive correlation, and 0 means that the two variables do not have a linear correlation. If two random variables represent X and Y, then the correlation coefficient between X and Y is defined as [41]

    $$\begin{aligned} r [X,Y] = \frac{\sum _{i = 1}^{n} [X_i - {\bar{X}}] [Y_i - {\bar{Y}} . \end{aligned}$$

    [số 8]

  • ANOVA. Phân tích phương sai [ANOVA] là một công cụ thống kê được sử dụng để xác minh các giá trị trung bình của hai hoặc nhiều nhóm khác biệt đáng kể với nhau. ANOVA giả định mối quan hệ tuyến tính giữa các biến và mục tiêu và phân phối chuẩn của các biến. Để kiểm tra thống kê tính bình đẳng của các phương tiện, phương pháp ANOVA sử dụng các phép thử F. Để lựa chọn tính năng, kết quả 'giá trị ANOVA F' [82] của thử nghiệm này có thể được sử dụng khi có thể bỏ qua một số tính năng độc lập với biến mục tiêu

  • Chi bình phương. Thống kê chi-square \[{\chi }^2\] [82] là ước tính về sự khác biệt giữa tác động của một chuỗi sự kiện . Độ lớn của sự khác biệt giữa giá trị thực và giá trị quan sát được, bậc tự do và cỡ mẫu phụ thuộc vào \[{\chi }^2\]. The chi-square \[{\chi }^2\] thường được sử dụng để kiểm tra mối quan hệ giữa các biến phân loại. Nếu \[O_i\] đại diện cho giá trị được quan sát và \[E_i\] represents expected value, then

    $$\begin{aligned} {\chi }^2 = \sum _{i = 1}^{n} \frac{[O_i - E_i]^2}{E_i}. \end{aligned}$$

    [9]

  • Loại bỏ tính năng đệ quy [RFE]. Loại bỏ tính năng đệ quy [RFE] là một cách tiếp cận mạnh mẽ để lựa chọn tính năng. RFE [82] phù hợp với mô hình và loại bỏ tính năng yếu nhất trước khi nó đáp ứng số lượng tính năng được chỉ định. Các tính năng được xếp hạng theo các hệ số hoặc tầm quan trọng của tính năng của mô hình. RFE nhằm mục đích loại bỏ các phụ thuộc và cộng tuyến trong mô hình bằng cách loại bỏ đệ quy một số lượng nhỏ các tính năng trên mỗi lần lặp

  • Lựa chọn dựa trên mô hình. Để giảm kích thước của dữ liệu, có thể sử dụng các mô hình tuyến tính bị phạt bằng chuẩn hóa L1. Hồi quy toán tử chọn và co rút tuyệt đối nhỏ nhất [Lasso] là một loại hồi quy tuyến tính có đặc tính thu nhỏ một số hệ số về 0 [82]. Do đó, tính năng đó có thể được loại bỏ khỏi mô hình. Do đó, phương pháp hồi quy lasso bị phạt, thường được sử dụng trong học máy để chọn tập hợp con của các biến. Công cụ phân loại cây bổ sung [82] là một ví dụ về công cụ ước tính dựa trên cây có thể được sử dụng để tính toán tầm quan trọng của chức năng dựa trên tạp chất, sau đó có thể được sử dụng để loại bỏ các tính năng không liên quan

  • Phân tích thành phần chính [PCA]. Phân tích thành phần chính [PCA] là một phương pháp học tập không giám sát nổi tiếng trong lĩnh vực học máy và khoa học dữ liệu. PCA là một kỹ thuật toán học chuyển đổi một tập hợp các biến tương quan thành một tập hợp các biến không tương quan được gọi là các thành phần chính [48, 81]. Hình 8 cho thấy một ví dụ về tác động của PCA trên các không gian kích thước khác nhau, trong đó Hình. 8a hiển thị các tính năng ban đầu trong không gian 3D và Hình. 8b hiển thị các thành phần chính được tạo PC1 và PC2 trên mặt phẳng 2D và đường 1D với thành phần chính PC1 tương ứng. Do đó, PCA có thể được sử dụng như một kỹ thuật trích xuất tính năng giúp giảm kích thước của bộ dữ liệu và để xây dựng một mô hình học máy hiệu quả [98]. Về mặt kỹ thuật, PCA xác định biến đổi hoàn toàn với giá trị riêng cao nhất của ma trận hiệp phương sai và sau đó sử dụng các giá trị đó để chiếu dữ liệu vào một không gian con mới có kích thước bằng hoặc ít hơn [82]

Quả sung. số 8

Một ví dụ về phân tích thành phần chính [PCA] và tạo các thành phần chính PC1 và PC2 trong không gian kích thước khác nhau

Hình ảnh kích thước đầy đủ

Học quy tắc hiệp hội

Học quy tắc kết hợp là một phương pháp học máy dựa trên quy tắc để khám phá các mối quan hệ thú vị, các câu lệnh “NẾU-THÌ”, trong các tập dữ liệu lớn giữa các biến [7]. Một ví dụ là “nếu khách hàng mua máy tính hoặc máy tính xách tay [một mặt hàng], họ có khả năng đồng thời mua phần mềm diệt vi rút [một mặt hàng khác]”. Ngày nay, các quy tắc kết hợp được sử dụng trong nhiều lĩnh vực ứng dụng, bao gồm dịch vụ IoT, chẩn đoán y tế, phân tích hành vi sử dụng, khai thác sử dụng web, ứng dụng điện thoại thông minh, ứng dụng an ninh mạng và tin sinh học. So với khai thác chuỗi, việc học quy tắc kết hợp thường không tính đến thứ tự của mọi thứ bên trong hoặc trên các giao dịch. Một cách phổ biến để đo tính hữu dụng của các luật kết hợp là sử dụng tham số của nó, 'độ hỗ trợ' và 'độ tin cậy', được giới thiệu trong [7]

Trong tài liệu khai thác dữ liệu, nhiều phương pháp học luật kết hợp đã được đề xuất, chẳng hạn như phụ thuộc logic [34], dựa trên mẫu phổ biến [8, 49, 68] và dựa trên cây [42]. Các thuật toán học quy tắc kết hợp phổ biến nhất được tóm tắt dưới đây

  • AIS và SETM. AIS là thuật toán đầu tiên được đề xuất bởi Agrawal et al. [7] để khai phá luật kết hợp. Nhược điểm chính của thuật toán AIS là có quá nhiều tập ứng viên được tạo ra, đòi hỏi nhiều không gian hơn và lãng phí nhiều công sức. Thuật toán này yêu cầu quá nhiều lượt chuyển qua toàn bộ tập dữ liệu để tạo ra các quy tắc. Một cách tiếp cận khác SETM [49] thể hiện hiệu suất tốt và hành vi ổn định với thời gian thực hiện;

  • Apriori. Để tạo quy tắc kết hợp cho một tập dữ liệu nhất định, Agrawal et al. [8] đã đề xuất các thuật toán Apriori, Apriori-TID và Apriori-Hybrid. Các thuật toán sau này vượt trội hơn AIS và SETM đã đề cập ở trên do thuộc tính Apriori của tập phổ biến [8]. Thuật ngữ 'Apriori' thường đề cập đến việc có kiến ​​thức trước về các thuộc tính phổ biến. Apriori sử dụng cách tiếp cận “từ dưới lên”, nơi nó tạo ra các tập ứng viên. Để giảm không gian tìm kiếm, Apriori sử dụng thuộc tính “tất cả các tập con của một tập phổ biến phải phổ biến; . Một cách tiếp cận tiên đoán khác Apriori [108] cũng có thể tạo ra các quy tắc; . Apriori [8] là kỹ thuật được áp dụng rộng rãi trong khai phá luật kết hợp

  • ECLAT. Kỹ thuật này được đề xuất bởi Zaki et al. [131] và là viết tắt của Phân cụm lớp tương đương và Truyền tải mạng từ dưới lên. ECLAT sử dụng tìm kiếm theo chiều sâu để tìm các tập phổ biến. Trái ngược với thuật toán Apriori [8], đại diện cho dữ liệu theo chiều ngang, nó đại diện cho dữ liệu theo chiều dọc. Do đó, thuật toán ECLAT hiệu quả hơn và có khả năng mở rộng trong lĩnh vực học luật kết hợp. Thuật toán này phù hợp hơn với các tập dữ liệu vừa và nhỏ trong khi thuật toán Apriori được sử dụng cho các tập dữ liệu lớn

  • Tăng trưởng FP. Một kỹ thuật học luật kết hợp phổ biến khác dựa trên cây mẫu phổ biến [FP-tree] do Han et al đề xuất. [42] là Tăng trưởng mẫu thường xuyên, được gọi là Tăng trưởng FP. Điểm khác biệt cơ bản với Apriori là trong khi tạo ra các luật, thuật toán Apriori [8] tạo ra các tập ứng viên phổ biến; . Tuy nhiên, do tính phức tạp của nó, FP-Tree gặp khó khăn khi sử dụng trong môi trường khai thác tương tác [133]. Do đó, FP-Tree sẽ không phù hợp với bộ nhớ cho các tập dữ liệu lớn, khiến việc xử lý dữ liệu lớn cũng trở nên khó khăn. Một giải pháp khác là RARM [Rapid Association Rule Mining] được đề xuất bởi Das et al. [26] nhưng phải đối mặt với sự cố liên quan đến cây FP [133]

  • Công cụ khai thác quy tắc ABC. Một phương pháp học máy dựa trên quy tắc, được đề xuất gần đây trong bài báo trước của chúng tôi, bởi Sarker et al. [104], để khám phá các quy tắc không dư thừa thú vị để cung cấp các dịch vụ thông minh trong thế giới thực. Thuật toán này xác định hiệu quả sự dư thừa trong các liên kết bằng cách tính đến tác động hoặc mức độ ưu tiên của các tính năng theo ngữ cảnh có liên quan và phát hiện ra một tập hợp các quy tắc kết hợp không dư thừa. Trước tiên, thuật toán này xây dựng một cây tạo liên kết [AGT], một cách tiếp cận từ trên xuống, sau đó trích xuất các luật liên kết thông qua việc duyệt cây. Do đó, ABC-RuleMiner mạnh hơn các phương pháp dựa trên quy tắc truyền thống về cả việc tạo quy tắc không dư thừa và ra quyết định thông minh, đặc biệt là trong môi trường điện toán thông minh nhận biết ngữ cảnh, nơi có liên quan đến sở thích của con người hoặc người dùng

Trong số các kỹ thuật học luật kết hợp đã thảo luận ở trên, Apriori [8] là thuật toán được sử dụng rộng rãi nhất để khám phá các luật kết hợp từ một tập dữ liệu nhất định [133]. Điểm mạnh chính của kỹ thuật học kết hợp là tính toàn diện của nó, vì nó tạo ra tất cả các kết hợp thỏa mãn các ràng buộc do người dùng chỉ định, chẳng hạn như giá trị độ tin cậy và hỗ trợ tối thiểu. Phương pháp ABC-RuleMiner [104] đã thảo luận trước đó có thể mang lại kết quả đáng kể về mặt tạo quy tắc không dư thừa và ra quyết định thông minh cho các lĩnh vực ứng dụng có liên quan trong thế giới thực

Học tăng cường

Học tăng cường [RL] là một kỹ thuật học máy cho phép một tác nhân học bằng cách thử và sai trong môi trường tương tác bằng cách sử dụng đầu vào từ các hành động và kinh nghiệm của tác nhân đó. Không giống như học có giám sát, dựa trên dữ liệu mẫu hoặc ví dụ đã cho, phương pháp RL dựa trên tương tác với môi trường. Vấn đề cần giải quyết trong học tăng cường [RL] được định nghĩa là Quy trình Quyết định Markov [MDP] [86], i. e. , tất cả về việc đưa ra quyết định tuần tự. Một vấn đề RL thường bao gồm bốn yếu tố như Tác nhân, Môi trường, Phần thưởng và Chính sách

RL có thể được chia thành các kỹ thuật dựa trên mô hình và không có mô hình. RL dựa trên mô hình là quá trình suy luận hành vi tối ưu từ một mô hình môi trường bằng cách thực hiện các hành động và quan sát kết quả, bao gồm trạng thái tiếp theo và phần thưởng ngay lập tức [85]. AlphaZero, AlphaGo [113] là những ví dụ về cách tiếp cận dựa trên mô hình. Mặt khác, cách tiếp cận không có mô hình không sử dụng phân phối xác suất chuyển đổi và hàm phần thưởng được liên kết với MDP. Q-learning, Deep Q Network, Monte Carlo Control, SARSA [Trạng thái–Hành động–Phần thưởng–Trạng thái–Hành động], v.v. là một số ví dụ về thuật toán phi mô hình [52]. Mạng chính sách, được yêu cầu cho RL dựa trên mô hình nhưng không phải cho RL không có mô hình, là điểm khác biệt chính giữa học tập dựa trên mô hình và không có mô hình. Sau đây, chúng tôi thảo luận về các thuật toán RL phổ biến

  • Phương pháp Monte Carlo. Kỹ thuật Monte Carlo, hay thí nghiệm Monte Carlo, là một loạt các thuật toán tính toán dựa trên việc lấy mẫu ngẫu nhiên lặp đi lặp lại để thu được kết quả số [52]. Khái niệm cơ bản là sử dụng tính ngẫu nhiên để giải quyết các vấn đề về nguyên tắc xác định. Tối ưu hóa, tích phân số và vẽ hình từ phân phối xác suất là ba loại bài toán mà kỹ thuật Monte Carlo được sử dụng phổ biến nhất

  • Q-learning. Q-learning là một thuật toán học tăng cường không có mô hình để học chất lượng của các hành vi cho tác nhân biết cần thực hiện hành động nào trong những điều kiện nào [52]. Nó không cần một mô hình môi trường [do đó có thuật ngữ “không có mô hình”] và nó có thể đối phó với các chuyển đổi và phần thưởng ngẫu nhiên mà không cần điều chỉnh. 'Q' trong Q-learning thường là viết tắt của chất lượng, vì thuật toán tính toán phần thưởng tối đa được mong đợi cho một hành vi nhất định trong một trạng thái nhất định

  • Deep Q-learning. Bước làm việc cơ bản trong Deep Q-Learning [52] là trạng thái ban đầu được đưa vào mạng thần kinh, mạng này trả về giá trị Q của tất cả các hành động có thể có dưới dạng đầu ra. Tuy nhiên, khi chúng ta có một cài đặt hợp lý đơn giản để khắc phục, Q-learning vẫn hoạt động tốt. Tuy nhiên, khi số lượng trạng thái và hành động trở nên phức tạp hơn, học sâu có thể được sử dụng như một công cụ xấp xỉ hàm

Học tăng cường, cùng với học có giám sát và không giám sát, là một trong những mô hình học máy cơ bản. RL có thể được sử dụng để giải quyết nhiều vấn đề trong thế giới thực trong nhiều lĩnh vực khác nhau, chẳng hạn như lý thuyết trò chơi, lý thuyết điều khiển, phân tích hoạt động, lý thuyết thông tin, tối ưu hóa dựa trên mô phỏng, sản xuất, hậu cần chuỗi cung ứng, hệ thống đa tác nhân, trí thông minh bầy đàn, điều khiển máy bay

Mạng lưới thần kinh nhân tạo và học sâu

Học sâu là một phần của họ các phương pháp học máy dựa trên mạng thần kinh nhân tạo [ANN] rộng lớn hơn với học biểu diễn. Học sâu cung cấp kiến ​​trúc tính toán bằng cách kết hợp một số lớp xử lý, chẳng hạn như lớp đầu vào, lớp ẩn và lớp đầu ra, để học từ dữ liệu [41]. Ưu điểm chính của học sâu so với các phương pháp học máy truyền thống là hiệu suất tốt hơn trong một số trường hợp, đặc biệt là học từ các tập dữ liệu lớn [105, 129]. Hình 9 cho thấy hiệu suất chung của học sâu so với học máy khi xem xét lượng dữ liệu ngày càng tăng. Tuy nhiên, nó có thể thay đổi tùy thuộc vào đặc điểm dữ liệu và thiết lập thử nghiệm

Quả sung. 9

Hiệu suất học máy và học sâu nói chung với lượng dữ liệu

Hình ảnh kích thước đầy đủ

Các thuật toán học sâu phổ biến nhất là. Perceptron nhiều lớp [MLP], Mạng thần kinh tích chập [CNN hoặc ConvNet], Mạng thần kinh hồi quy bộ nhớ ngắn hạn dài [LSTM-RNN] [96]. Trong phần sau đây, chúng tôi thảo luận về các loại phương pháp học sâu khác nhau có thể được sử dụng để xây dựng các mô hình dựa trên dữ liệu hiệu quả cho các mục đích khác nhau

Quả sung. 10

Cấu trúc của mô hình mạng thần kinh nhân tạo với nhiều lớp xử lý

Hình ảnh kích thước đầy đủ

  • MLP. Kiến trúc cơ bản của học sâu, còn được gọi là mạng nơ ron nhân tạo chuyển tiếp, được gọi là perceptron đa lớp [MLP] [82]. Một MLP điển hình là một mạng được kết nối đầy đủ bao gồm một lớp đầu vào, một hoặc nhiều lớp ẩn và một lớp đầu ra, như trong Hình. 10. Mỗi nút trong một lớp kết nối với từng nút trong lớp tiếp theo với một trọng số nhất định. MLP sử dụng kỹ thuật “Backpropagation” [41], “khối xây dựng cơ bản” nhất trong mạng nơ-ron, để điều chỉnh các giá trị trọng số bên trong khi xây dựng mô hình. MLP nhạy cảm với các tính năng mở rộng quy mô và cho phép điều chỉnh nhiều loại siêu tham số, chẳng hạn như số lớp ẩn, nơ-ron và phép lặp, có thể dẫn đến một mô hình tốn kém về mặt tính toán

  • CNN hoặc ConvNet. Mạng thần kinh tích chập [CNN] [65] nâng cao thiết kế của ANN tiêu chuẩn, bao gồm các lớp tích chập, các lớp tổng hợp, cũng như các lớp được kết nối đầy đủ, như trong Hình. 11. Vì nó tận dụng cấu trúc hai chiều [2D] của dữ liệu đầu vào nên nó thường được sử dụng rộng rãi trong một số lĩnh vực như nhận dạng hình ảnh và video, xử lý và phân loại hình ảnh, phân tích hình ảnh y tế, xử lý ngôn ngữ tự nhiên, v.v. Mặc dù CNN có gánh nặng tính toán lớn hơn, không có bất kỳ sự can thiệp thủ công nào, nhưng nó có lợi thế là tự động phát hiện các tính năng quan trọng và do đó CNN được coi là mạnh hơn ANN thông thường. Một số mô hình học sâu nâng cao dựa trên CNN có thể được sử dụng trong lĩnh vực này, chẳng hạn như AlexNet [60], Xception [24], Inception [118], Visual Geometry Group [VGG] [44], ResNet [45], v.v.

  • LSTM-RNN. Trí nhớ ngắn hạn dài [LSTM] là kiến ​​trúc mạng thần kinh hồi quy nhân tạo [RNN] được sử dụng trong lĩnh vực học sâu [38]. LSTM có các liên kết phản hồi, không giống như các mạng thần kinh chuyển tiếp nguồn cấp dữ liệu thông thường. Các mạng LSTM rất phù hợp để phân tích và tìm hiểu dữ liệu tuần tự, chẳng hạn như phân loại, xử lý và dự đoán dữ liệu dựa trên dữ liệu chuỗi thời gian, giúp phân biệt nó với các mạng thông thường khác. Do đó, LSTM có thể được sử dụng khi dữ liệu ở định dạng tuần tự, chẳng hạn như thời gian, câu, v.v. và thường được áp dụng trong lĩnh vực phân tích chuỗi thời gian, xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói, v.v.

Quả sung. 11

Một ví dụ về mạng thần kinh tích chập [CNN hoặc ConvNet] bao gồm nhiều lớp tích chập và tổng hợp

Hình ảnh kích thước đầy đủ

Ngoài các phương pháp học sâu phổ biến nhất đã thảo luận ở trên, một số phương pháp học sâu khác [96] tồn tại trong khu vực cho các mục đích khác nhau. Chẳng hạn, bản đồ tự tổ chức [SOM] [58] sử dụng phương pháp học không giám sát để biểu diễn dữ liệu nhiều chiều bằng bản đồ lưới 2D, do đó giảm được kích thước. Bộ mã hóa tự động [AE] [15] là một kỹ thuật học tập khác cũng được sử dụng rộng rãi để giảm kích thước và trích xuất tính năng trong các nhiệm vụ học tập không giám sát. Các máy Boltzmann bị hạn chế [RBM] [46] có thể được sử dụng để giảm kích thước, phân loại, hồi quy, lọc cộng tác, học tính năng và lập mô hình chủ đề. Mạng niềm tin sâu sắc [DBN] thường bao gồm các mạng đơn giản, không được giám sát, chẳng hạn như máy Boltzmann [RBM] hoặc bộ mã hóa tự động bị hạn chế và mạng thần kinh lan truyền ngược [BPNN] [123]. Mạng đối thủ chung [GAN] [39] là một dạng mạng dành cho học sâu có thể tạo dữ liệu với các đặc điểm gần với dữ liệu đầu vào thực tế. Học chuyển giao hiện đang rất phổ biến vì nó có thể huấn luyện các mạng thần kinh sâu với dữ liệu tương đối thấp, thường là việc sử dụng lại một vấn đề mới với một mô hình được huấn luyện trước [124]. Một cuộc thảo luận ngắn gọn về các mô hình mạng thần kinh nhân tạo [ANN] và học sâu [DL] này được tóm tắt trong bài báo trước đây của chúng tôi Sarker et al. [96]

Nhìn chung, dựa trên các kỹ thuật học được thảo luận ở trên, chúng ta có thể kết luận rằng có nhiều loại kỹ thuật học máy khác nhau, chẳng hạn như phân tích phân loại, hồi quy, phân cụm dữ liệu, lựa chọn và trích xuất tính năng, giảm kích thước, học quy tắc kết hợp, học tăng cường hoặc học sâu . Trong phần sau, chúng tôi thảo luận về một số lĩnh vực ứng dụng dựa trên thuật toán học máy

Các ứng dụng của Machine Learning

Trong thời đại Cách mạng công nghiệp lần thứ tư [4IR] hiện nay, máy học trở nên phổ biến trong nhiều lĩnh vực ứng dụng, nhờ khả năng học hỏi từ quá khứ và đưa ra các quyết định thông minh. Sau đây, chúng tôi tóm tắt và thảo luận về mười lĩnh vực ứng dụng phổ biến của công nghệ máy học

  • Phân tích dự đoán và ra quyết định thông minh. Một lĩnh vực ứng dụng chính của học máy là ra quyết định thông minh bằng phân tích dự đoán dựa trên dữ liệu [21, 70]. Cơ sở của phân tích dự đoán là nắm bắt và khai thác mối quan hệ giữa các biến giải thích và biến dự đoán từ các sự kiện trước đó để dự đoán kết quả chưa biết [41]. Ví dụ: xác định nghi phạm hoặc tội phạm sau khi tội phạm đã được thực hiện hoặc phát hiện gian lận thẻ tín dụng khi nó xảy ra. Một ứng dụng khác, trong đó các thuật toán học máy có thể hỗ trợ các nhà bán lẻ hiểu rõ hơn về sở thích và hành vi của người tiêu dùng, quản lý hàng tồn kho tốt hơn, tránh tình trạng hết hàng và tối ưu hóa hậu cần và kho bãi trong thương mại điện tử. Các thuật toán học máy khác nhau như cây quyết định, máy vectơ hỗ trợ, mạng thần kinh nhân tạo, v.v. [106, 125] được sử dụng phổ biến trong khu vực. Vì các dự đoán chính xác cung cấp cái nhìn sâu sắc về những điều chưa biết nên chúng có thể cải thiện quyết định của các ngành, doanh nghiệp và hầu hết mọi tổ chức, bao gồm các cơ quan chính phủ, thương mại điện tử, viễn thông, ngân hàng và dịch vụ tài chính, chăm sóc sức khỏe, bán hàng và tiếp thị, giao thông vận tải, mạng xã hội,

  • An ninh mạng và tình báo mối đe dọa. An ninh mạng là một trong những lĩnh vực thiết yếu nhất của Công nghiệp 4. 0. [114], thường là cách bảo vệ mạng, hệ thống, phần cứng và dữ liệu khỏi các cuộc tấn công kỹ thuật số [114]. Máy học đã trở thành một công nghệ an ninh mạng quan trọng, không ngừng học hỏi bằng cách phân tích dữ liệu để xác định các mẫu, phát hiện phần mềm độc hại tốt hơn trong lưu lượng được mã hóa, tìm ra các mối đe dọa từ nội bộ, dự đoán vị trí của các khu phố xấu đang trực tuyến, giữ an toàn cho mọi người khi duyệt web hoặc bảo mật dữ liệu trên đám mây bằng cách khám phá . Chẳng hạn, các kỹ thuật phân cụm có thể được sử dụng để xác định các điểm bất thường trên mạng, vi phạm chính sách, v.v. Để phát hiện các loại tấn công mạng hoặc xâm nhập khác nhau, các mô hình phân loại học máy bằng cách tính đến tác động của các tính năng bảo mật rất hữu ích [97]. Nhiều mô hình bảo mật dựa trên học sâu khác nhau cũng có thể được sử dụng trên quy mô lớn của bộ dữ liệu bảo mật [96, 129]. Hơn nữa, các quy tắc chính sách bảo mật được tạo bởi các kỹ thuật học quy tắc kết hợp có thể đóng một vai trò quan trọng để xây dựng một hệ thống bảo mật dựa trên quy tắc [105]. Vì vậy, chúng ta có thể nói rằng các kỹ thuật học tập khác nhau được thảo luận trong Giáo phái. Nhiệm vụ và thuật toán học máy, có thể cho phép các chuyên gia an ninh mạng chủ động hơn trong việc ngăn chặn các mối đe dọa và tấn công mạng một cách hiệu quả

  • Internet vạn vật [IoT] và thành phố thông minh. Internet vạn vật [IoT] là một lĩnh vực thiết yếu khác của Công nghiệp 4. 0. [114], biến các đồ vật hàng ngày thành đồ vật thông minh bằng cách cho phép chúng truyền dữ liệu và tự động hóa các tác vụ mà không cần sự tương tác của con người. Do đó, IoT được coi là biên giới lớn có thể nâng cao hầu hết mọi hoạt động trong cuộc sống của chúng ta, chẳng hạn như quản trị thông minh, nhà thông minh, giáo dục, truyền thông, vận tải, bán lẻ, nông nghiệp, chăm sóc sức khỏe, kinh doanh, v.v. [70]. Thành phố thông minh là một trong những lĩnh vực ứng dụng cốt lõi của IoT, sử dụng các công nghệ để nâng cao dịch vụ thành phố và trải nghiệm sống của người dân [132, 135]. Khi máy học sử dụng kinh nghiệm để nhận ra xu hướng và tạo ra các mô hình giúp dự đoán hành vi và sự kiện trong tương lai, nó đã trở thành một công nghệ quan trọng cho các ứng dụng IoT [103]. Ví dụ: để dự đoán lưu lượng truy cập trong thành phố thông minh, dự đoán khả năng đỗ xe, ước tính tổng mức sử dụng năng lượng của người dân trong một khoảng thời gian cụ thể, đưa ra quyết định kịp thời và phù hợp với bối cảnh cho người dân, v.v. là một số nhiệm vụ có thể được giải quyết bằng các kỹ thuật học máy theo nhu cầu hiện tại của con người

  • Dự đoán giao thông và vận chuyển. Hệ thống giao thông vận tải đã trở thành một thành phần quan trọng trong sự phát triển kinh tế của mọi quốc gia. Tuy nhiên, một số thành phố trên thế giới đang phải đối mặt với tình trạng lưu lượng giao thông tăng quá mức, dẫn đến các vấn đề nghiêm trọng như chậm trễ, tắc nghẽn giao thông, giá nhiên liệu cao hơn, tăng CO \[_2\] pollution, accidents, emergencies, and a decline in modern society’s quality of life [40]. Thus, an intelligent transportation system through predicting future traffic is important, which is an indispensable part of a smart city. Accurate traffic prediction based on machine and deep learning modeling can help to minimize the issues [17, 30, 31]. For example, based on the travel history and trend of traveling through various routes, machine learning can assist transportation companies in predicting possible issues that may occur on specific routes and recommending their customers to take a different path. Ultimately, these learning-based data-driven models help improve traffic flow, increase the usage and efficiency of sustainable modes of transportation, and limit real-world disruption by modeling and visualizing future changes.

  • Chăm sóc sức khỏe và đại dịch COVID-19. Học máy có thể giúp giải quyết các vấn đề chẩn đoán và tiên lượng trong nhiều lĩnh vực y tế, chẳng hạn như dự đoán bệnh, khai thác kiến ​​thức y tế, phát hiện các quy luật trong dữ liệu, quản lý bệnh nhân, v.v. [33, 77, 112]. Theo Tổ chức Y tế Thế giới [WHO] [3], bệnh do vi-rút corona [COVID-19] là một bệnh truyền nhiễm gây ra bởi một loại vi-rút corona mới được phát hiện. Gần đây, các kỹ thuật học tập đã trở nên phổ biến trong cuộc chiến chống lại COVID-19 [61, 63]. Đối với đại dịch COVID-19, các kỹ thuật học được sử dụng để phân loại bệnh nhân có nguy cơ cao, tỷ lệ tử vong và các bất thường khác [61]. Nó cũng có thể được sử dụng để hiểu rõ hơn về nguồn gốc của vi rút, dự đoán đợt bùng phát COVID-19, cũng như để chẩn đoán và điều trị bệnh [14, 50]. Với sự trợ giúp của học máy, các nhà nghiên cứu có thể dự báo vị trí và thời điểm COVID-19 có khả năng lây lan và thông báo cho các khu vực đó để sắp xếp phù hợp theo yêu cầu. Học sâu cũng cung cấp các giải pháp thú vị cho các vấn đề xử lý hình ảnh y tế và được coi là một kỹ thuật quan trọng cho các ứng dụng tiềm năng, đặc biệt là đối với đại dịch COVID-19 [10, 78, 111]. Nhìn chung, các kỹ thuật học máy và học sâu có thể giúp chống lại vi rút COVID-19 và đại dịch cũng như đưa ra các quyết định lâm sàng thông minh trong lĩnh vực chăm sóc sức khỏe

  • Khuyến nghị về thương mại điện tử và sản phẩm. Đề xuất sản phẩm là một trong những ứng dụng nổi tiếng và được sử dụng rộng rãi nhất của máy học, đồng thời là một trong những tính năng nổi bật nhất của hầu hết mọi trang web thương mại điện tử hiện nay. Công nghệ máy học có thể hỗ trợ các doanh nghiệp phân tích lịch sử mua hàng của người tiêu dùng và đưa ra các đề xuất sản phẩm tùy chỉnh cho lần mua tiếp theo dựa trên hành vi và sở thích của họ. Ví dụ: các công ty thương mại điện tử có thể dễ dàng định vị các đề xuất và ưu đãi sản phẩm bằng cách phân tích xu hướng duyệt và tỷ lệ nhấp của các mặt hàng cụ thể. Sử dụng mô hình dự đoán dựa trên kỹ thuật máy học, nhiều nhà bán lẻ trực tuyến, chẳng hạn như Amazon [71], có thể quản lý hàng tồn kho tốt hơn, ngăn ngừa tình trạng hết hàng và tối ưu hóa hậu cần và kho bãi. Tương lai của bán hàng và tiếp thị là khả năng nắm bắt, đánh giá và sử dụng dữ liệu người tiêu dùng để cung cấp trải nghiệm mua sắm tùy chỉnh. Hơn nữa, các kỹ thuật máy học cho phép các công ty tạo ra các gói và nội dung phù hợp với nhu cầu của khách hàng, cho phép họ duy trì khách hàng hiện tại đồng thời thu hút những khách hàng mới

  • NLP và phân tích tình cảm. Xử lý ngôn ngữ tự nhiên [NLP] liên quan đến việc đọc và hiểu ngôn ngữ nói hoặc viết thông qua máy tính [79, 103]. Do đó, NLP giúp máy tính, chẳng hạn, đọc văn bản, nghe lời nói, diễn giải văn bản đó, phân tích tình cảm và quyết định khía cạnh nào là quan trọng, nơi có thể sử dụng các kỹ thuật học máy. Trợ lý cá nhân ảo, chatbot, nhận dạng giọng nói, mô tả tài liệu, ngôn ngữ hoặc dịch máy, v.v. là một số ví dụ về các nhiệm vụ liên quan đến NLP. Phân tích tình cảm [90] [còn được gọi là khai thác ý kiến ​​hoặc AI cảm xúc] là một trường con NLP tìm cách xác định và trích xuất tâm trạng và quan điểm của công chúng trong một văn bản nhất định thông qua blog, đánh giá, phương tiện truyền thông xã hội, diễn đàn, tin tức, v.v. Chẳng hạn, các doanh nghiệp và thương hiệu sử dụng phân tích tình cảm để hiểu tình cảm xã hội đối với thương hiệu, sản phẩm hoặc dịch vụ của họ thông qua các nền tảng truyền thông xã hội hoặc toàn bộ web. Nhìn chung, phân tích tình cảm được coi là một nhiệm vụ học máy phân tích văn bản theo tính phân cực, chẳng hạn như “tích cực”, “tiêu cực” hoặc “trung lập” cùng với những cảm xúc mãnh liệt hơn như rất vui, hạnh phúc, buồn, rất buồn, tức giận, có

  • Nhận dạng hình ảnh, giọng nói và mẫu. Nhận dạng hình ảnh [36] là một ví dụ phổ biến và nổi tiếng về học máy trong thế giới thực, có thể xác định một đối tượng dưới dạng hình ảnh kỹ thuật số. Ví dụ: để gắn nhãn tia X là có ung thư hay không, nhận dạng ký tự hoặc nhận diện khuôn mặt trong ảnh, gắn thẻ đề xuất trên phương tiện truyền thông xã hội, v.v. g. , Facebook, là những ví dụ phổ biến về nhận dạng hình ảnh. Nhận dạng giọng nói [23] cũng rất phổ biến thường sử dụng các mô hình âm thanh và ngôn ngữ, e. g. , Trợ lý Google, Cortana, Siri, Alexa, v.v. [67], nơi sử dụng các phương pháp học máy. Nhận dạng mẫu [13] được định nghĩa là nhận dạng tự động các mẫu và quy tắc trong dữ liệu, ví dụ:. g. , Phân tích hình ảnh. Một số kỹ thuật học máy như phân loại, lựa chọn tính năng, phân cụm hoặc phương pháp ghi nhãn trình tự được sử dụng trong khu vực

  • Nông nghiệp bền vững. Nông nghiệp là điều cần thiết cho sự sống còn của tất cả các hoạt động của con người [109]. Thực hành nông nghiệp bền vững giúp cải thiện năng suất nông nghiệp đồng thời giảm tác động tiêu cực đến môi trường [5, 25, 109]. Chuỗi cung ứng nông nghiệp bền vững có hàm lượng tri thức cao và dựa trên thông tin, kỹ năng, công nghệ, v.v. , nơi chuyển giao kiến ​​thức khuyến khích nông dân nâng cao quyết định áp dụng các thực hành nông nghiệp bền vững bằng cách sử dụng lượng dữ liệu ngày càng tăng do các công nghệ mới nổi thu thập, e. g. , Internet vạn vật [IoT], công nghệ và thiết bị di động, v.v. [5, 53, 54]. Học máy có thể được áp dụng trong các giai đoạn khác nhau của nông nghiệp bền vững, chẳng hạn như trong giai đoạn tiền sản xuất - để dự đoán năng suất cây trồng, tính chất của đất, yêu cầu tưới tiêu, v.v. ; . ; . và trong giai đoạn phân phối - quản lý hàng tồn kho, phân tích người tiêu dùng, v.v.

  • Phân tích hành vi người dùng và ứng dụng điện thoại thông minh nhận biết ngữ cảnh. Nhận thức bối cảnh là khả năng của hệ thống nắm bắt kiến ​​thức về môi trường xung quanh tại bất kỳ thời điểm nào và sửa đổi hành vi cho phù hợp [28, 93]. Điện toán nhận biết ngữ cảnh sử dụng phần mềm và phần cứng để tự động thu thập và giải thích dữ liệu cho các phản hồi trực tiếp. Môi trường phát triển ứng dụng di động đã được thay đổi rất nhiều với sức mạnh của AI, đặc biệt là các kỹ thuật máy học thông qua khả năng học của chúng từ dữ liệu theo ngữ cảnh [103, 136]. Do đó, các nhà phát triển ứng dụng dành cho thiết bị di động có thể dựa vào học máy để tạo ra các ứng dụng thông minh có thể hiểu được hành vi của con người, hỗ trợ và giải trí cho người dùng [107, 137, 140]. Để xây dựng các hệ thống nhận biết ngữ cảnh dựa trên dữ liệu được cá nhân hóa khác nhau, chẳng hạn như quản lý gián đoạn thông minh, đề xuất di động thông minh, tìm kiếm thông minh nhận biết ngữ cảnh, ra quyết định hỗ trợ người dùng điện thoại cuối một cách thông minh trong môi trường điện toán phổ biến, các kỹ thuật máy học được áp dụng. Ví dụ, luật kết hợp nhận biết ngữ cảnh có thể được sử dụng để xây dựng một ứng dụng gọi điện thoại thông minh [104]. Các phương pháp phân cụm rất hữu ích trong việc nắm bắt các hoạt động hành vi đa dạng của người dùng bằng cách tính đến dữ liệu theo chuỗi thời gian [102]. Để dự đoán các sự kiện trong tương lai trong các bối cảnh khác nhau, các phương pháp phân loại có thể được sử dụng [106, 139]. Vì vậy, các kỹ thuật học tập khác nhau được thảo luận trong Giáo phái. “Nhiệm vụ và thuật toán học máy” có thể giúp xây dựng các ứng dụng thông minh và thích ứng theo ngữ cảnh theo sở thích của người dùng điện thoại di động

Ngoài các lĩnh vực ứng dụng này, các mô hình dựa trên máy học cũng có thể áp dụng cho một số lĩnh vực khác như tin sinh học, hóa học, mạng máy tính, phân loại trình tự DNA, kinh tế và ngân hàng, người máy, kỹ thuật tiên tiến, v.v.

Thách thức và hướng nghiên cứu

Nghiên cứu của chúng tôi về thuật toán máy học để phân tích dữ liệu thông minh và ứng dụng mở ra một số vấn đề nghiên cứu trong lĩnh vực này. Vì vậy, trong phần này, chúng tôi tóm tắt và thảo luận về những thách thức phải đối mặt cũng như các cơ hội nghiên cứu tiềm năng và định hướng trong tương lai.

Nói chung, hiệu quả và hiệu quả của giải pháp dựa trên học máy phụ thuộc vào bản chất và đặc điểm của dữ liệu cũng như hiệu suất của các thuật toán học tập. Để thu thập dữ liệu trong lĩnh vực có liên quan, chẳng hạn như an ninh mạng, IoT, chăm sóc sức khỏe và nông nghiệp được thảo luận trong Phần. “Ứng dụng của Học máy” không đơn giản, mặc dù không gian mạng hiện tại cho phép tạo ra một lượng dữ liệu khổng lồ với tần suất rất cao. Do đó, việc thu thập dữ liệu hữu ích cho các ứng dụng dựa trên máy học mục tiêu, e. g. , các ứng dụng thành phố thông minh và việc quản lý chúng rất quan trọng để phân tích sâu hơn. Do đó, cần phải nghiên cứu sâu hơn về các phương pháp thu thập dữ liệu trong khi làm việc với dữ liệu trong thế giới thực. Hơn nữa, dữ liệu lịch sử có thể chứa nhiều giá trị mơ hồ, giá trị bị thiếu, giá trị ngoại lai và dữ liệu vô nghĩa. Các thuật toán học máy, được thảo luận trong Phần “Nhiệm vụ và thuật toán học máy” có tác động lớn đến chất lượng dữ liệu và tính khả dụng để đào tạo, và do đó đến mô hình kết quả. Do đó, để làm sạch và xử lý trước chính xác dữ liệu đa dạng được thu thập từ nhiều nguồn khác nhau là một nhiệm vụ đầy thách thức. Do đó, cần phải sửa đổi hoặc nâng cao hiệu quả các phương pháp tiền xử lý hiện có hoặc đề xuất các kỹ thuật chuẩn bị dữ liệu mới để sử dụng hiệu quả các thuật toán học tập trong miền ứng dụng liên quan

Để phân tích dữ liệu và trích xuất thông tin chi tiết, tồn tại nhiều thuật toán học máy, được tóm tắt trong Phần. “Nhiệm vụ và thuật toán học máy”. Do đó, việc lựa chọn một thuật toán học phù hợp với ứng dụng mục tiêu là một thách thức. Lý do là kết quả của các thuật toán học khác nhau có thể khác nhau tùy thuộc vào đặc điểm dữ liệu [106]. Chọn một thuật toán học sai sẽ dẫn đến việc tạo ra các kết quả không mong muốn có thể dẫn đến mất công sức, cũng như hiệu quả và độ chính xác của mô hình. Về mặt xây dựng mô hình, các kỹ thuật được thảo luận trong Phần. “Nhiệm vụ và thuật toán máy học” có thể được sử dụng trực tiếp để giải quyết nhiều vấn đề trong thế giới thực trong các lĩnh vực khác nhau, chẳng hạn như an ninh mạng, thành phố thông minh và chăm sóc sức khỏe được tóm tắt trong Phần. “Ứng dụng của học máy”. Tuy nhiên, mô hình học tập kết hợp, e. g. , tập hợp các phương pháp, sửa đổi hoặc nâng cao các kỹ thuật học tập hiện có hoặc thiết kế các phương pháp học tập mới, có thể là một công việc tiềm năng trong tương lai trong lĩnh vực này

Do đó, thành công cuối cùng của giải pháp dựa trên máy học và các ứng dụng tương ứng chủ yếu phụ thuộc vào cả dữ liệu và thuật toán học. Nếu dữ liệu không tốt để học, chẳng hạn như các tính năng không đại diện, chất lượng kém, không liên quan hoặc không đủ số lượng để đào tạo, thì các mô hình học máy có thể trở nên vô dụng hoặc sẽ tạo ra độ chính xác thấp hơn. Do đó, xử lý hiệu quả dữ liệu và xử lý các thuật toán học tập đa dạng là rất quan trọng đối với giải pháp dựa trên máy học và cuối cùng là xây dựng các ứng dụng thông minh

Sự kết luận

Trong bài báo này, chúng tôi đã tiến hành tổng quan toàn diện về các thuật toán học máy để phân tích dữ liệu thông minh và ứng dụng. Theo mục tiêu của chúng tôi, chúng tôi đã thảo luận ngắn gọn về cách sử dụng các loại phương pháp học máy khác nhau để đưa ra giải pháp cho các vấn đề khác nhau trong thế giới thực. Một mô hình học máy thành công phụ thuộc vào cả dữ liệu và hiệu suất của các thuật toán học tập. Sau đó, các thuật toán học phức tạp cần được đào tạo thông qua dữ liệu và kiến ​​thức trong thế giới thực được thu thập liên quan đến ứng dụng mục tiêu trước khi hệ thống có thể hỗ trợ việc ra quyết định thông minh. Chúng tôi cũng đã thảo luận về một số lĩnh vực ứng dụng phổ biến dựa trên các kỹ thuật học máy để làm nổi bật khả năng ứng dụng của chúng trong các vấn đề thực tế khác nhau. Cuối cùng, chúng tôi đã tóm tắt và thảo luận về những thách thức phải đối mặt cũng như các cơ hội nghiên cứu tiềm năng và định hướng tương lai trong lĩnh vực này. Do đó, những thách thức được xác định tạo ra các cơ hội nghiên cứu đầy hứa hẹn trong lĩnh vực này phải được giải quyết bằng các giải pháp hiệu quả trong các lĩnh vực ứng dụng khác nhau. Nhìn chung, chúng tôi tin rằng nghiên cứu của chúng tôi về các giải pháp dựa trên học máy mở ra một hướng đi đầy hứa hẹn và có thể được sử dụng làm hướng dẫn tham khảo cho các nghiên cứu và ứng dụng tiềm năng cho cả giới học thuật và các chuyên gia trong ngành cũng như cho những người ra quyết định, từ quan điểm kỹ thuật của

Người giới thiệu

  1. Viện an ninh mạng Canada, đại học new brunswick, bộ dữ liệu iscx, http. //www. bỏ qua. ca/cic/bộ dữ liệu/chỉ mục. html/ [Truy cập ngày 20 tháng 10 năm 2019]

  2. Cic-ddos2019 [trực tuyến]. có sẵn. https. //www. bỏ qua. ca/cic/datasets/ddos-2019. html/ [Truy cập ngày 28 tháng 3 năm 2020]

  3. Tổ chức Y tế Thế giới. AI. http. //www. ai. int/

  4. Xu hướng Google. Trong https. //xu hướng. Google. com/trends/, 2019

  5. Adnan N, Nordin Shahrina Md, Rahman I, Noor A. Tác động của chuyển giao kiến ​​thức đối với quá trình ra quyết định của nông dân đối với thực hành nông nghiệp bền vững. World J Sci Technol Sustain Dev. 2018

  6. Agrawal R, Gehrke J, Gunopulos D, Raghavan P. Tự động phân cụm không gian con của dữ liệu nhiều chiều cho các ứng dụng khai thác dữ liệu. Trong. Kỷ yếu hội nghị quốc tế ACM SIGMOD 1998 về Quản lý dữ liệu. 1998;

  7. Agrawal R, Imieliński T, Swami A. Khai thác các quy tắc kết hợp giữa các bộ mục trong cơ sở dữ liệu lớn. Trong. Bản ghi ACM SIGMOD. ACM. 1993;22. 207–216

  8. Agrawal R, Gehrke J, Gunopulos D, Raghavan P. Các thuật toán nhanh chóng cho các luật kết hợp khai thác mỏ. Trong. Kỷ yếu của Hội nghị chung quốc tế về cơ sở dữ liệu rất lớn, Santiago Chile. 1994; . 487–499

  9. Aha DW, Kibler D, Albert M. Thuật toán học tập dựa trên cá thể. mach hoc. 1991;6[1]. 37–66

    Google học giả

  10. Alakus TB, Turkoglu I. So sánh các phương pháp học sâu để dự đoán lây nhiễm covid-19. Chaos Solit Fract. 2020;140

  11. Amit Y, Geman D. Lượng tử hóa và nhận dạng hình dạng với các cây ngẫu nhiên. Điện toán thần kinh. 1997;9[7]. 1545–88

    Google học giả

  12. Ankerst M, Breunig MM, Kriegel HP, Sander J. quang học. sắp xếp các điểm để xác định cấu trúc phân cụm. Bản ghi Sigmod ACM. 1999;28[2]. 49–60

    Google học giả

  13. Anzai Y. Nhận dạng mẫu và học máy. Elsevier;

    TOÁN  Google Scholar

  14. Ardabili SF, Mosavi A, Ghamisi P, Ferdinand F, Varkonyi-Koczy AR, Reuter U, Rabczuk T, Atkinson PM. Dự báo bùng phát dịch Covid-19 bằng máy học. thuật toán. 2020;13[10]. 249

    MathSciNet  Google Scholar

  15. Hói P. Bộ mã hóa tự động, học tập không giám sát và kiến ​​trúc sâu. Trong. Kỷ yếu hội thảo ICML về học chuyển giao và học không giám sát, 2012;

  16. Balducci F, Impedovo D, Pirlo G. Ứng dụng học máy trên bộ dữ liệu nông nghiệp để cải thiện trang trại thông minh. máy móc. 2018;6[3]. 38

    Google học giả

  17. Boukerche A, Wang J. Các mô hình dự đoán giao thông dựa trên máy học cho các hệ thống giao thông thông minh. Mạng máy tính. 2020;181

  18. Breiman L. dự đoán đóng bao. mach hoc. 1996;24[2]. 123–40

    TOÁN  Google Scholar

  19. Breiman L. rừng ngẫu nhiên. mach hoc. 2001;45[1]. 5–32

    TOÁN  Google Scholar

  20. Breiman L, Friedman J, Stone CJ, Olshen RA. Cây phân loại và hồi quy. Máy ép CRC;

    TOÁN  Google Scholar

  21. Cao L. Khoa học dữ liệu. tổng quan toàn diện. Khả năng sống sót trên máy tính ACM [CSUR]. 2017;50[3]. 43

    Google học giả

  22. Thợ mộc GA, Grossberg S. Kiến trúc song song lớn cho máy nhận dạng mô hình thần kinh tự tổ chức. Xử lý hình ảnh đồ thị trên máy tính Vis. 1987;37[1]. 54–115

    TOÁN  Google Scholar

  23. Chiu C-C, Sainath TN, Wu Y, Prabhavalkar R, Nguyen P, Chen Z, Kannan A, Weiss RJ, Rao K, Gonina E, et al. Nhận dạng giọng nói tiên tiến nhất với các mô hình theo trình tự. Trong. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing [ICASSP], 2018 trang 4774–4778. IEEE

  24. Cholet F. ngoại lệ. học sâu với các cấu trúc có thể tách rời theo chiều sâu. Trong. Kỷ yếu hội nghị IEEE về thị giác máy tính và nhận dạng mẫu, trang 1251–1258, 2017

  25. Cobuloglu H, Büyüktahtakın IE. Một phân tích quyết định đa tiêu chí ngẫu nhiên để lựa chọn cây trồng sinh khối bền vững. ứng dụng hệ thống chuyên gia. 2015;42[15–16]. 6065–74

    Google học giả

  26. Das A, Ng W-K, Woon Y-K. Khai phá luật kết hợp nhanh. Trong. Kỷ yếu hội nghị quốc tế lần thứ mười về Quản lý thông tin và tri thức, trang 474–481. ĐHCĐ, 2001

  27. de Amorim RC. Phân cụm bị ràng buộc với phương tiện k có trọng số minkowski. Trong. 2012 IEEE 13th International Symposium on Computational Intelligence and Informatics [CINTI], trang 13–17. IEEE, 2012

  28. Dey AK. Hiểu và sử dụng ngữ cảnh. Người Ubiquit Comput. 2001;5[1]. 4–7

    Google học giả

  29. Đại bàng N, Pentland AS. khai thác thực tế. cảm nhận các hệ thống xã hội phức tạp. Người Ubiquit Comput. 2006;10[4]. 255–68

    Google học giả

  30. Essien A, Petrounias I, Sampaio P, Sampaio S. Cải thiện dự đoán tốc độ giao thông đô thị bằng cách sử dụng hợp nhất nguồn dữ liệu và học sâu. Trong. Hội nghị quốc tế IEEE 2019 về Dữ liệu lớn và Điện toán thông minh [BigComp]. IEEE. 2019. 1–8.

  31. Essien A, Petrounias I, Sampaio P, Sampaio S. Một mô hình học sâu để dự đoán lưu lượng giao thông đô thị với các sự kiện giao thông được khai thác từ twitter. Trong. Mạng toàn cầu, 2020. 1–24

  32. Ester M, Kriegel H-P, Sander J, Xiaowei X, và cộng sự. Thuật toán dựa trên mật độ để khám phá các cụm trong cơ sở dữ liệu không gian lớn có nhiễu. Kdd. 1996;96. 226–31

    Google học giả

  33. Fatima M, Pasha M, và cộng sự. Khảo sát các thuật toán học máy trong chẩn đoán bệnh. Ứng dụng J Intell Learn Syst. 2017;9[01]. 1

    Google học giả

  34. Flach PA, Lachiche N. Khám phá hướng dẫn xác nhận các quy tắc đặt hàng đầu tiên với tertius. mach hoc. 2001;42[1–2]. 61–95

    TOÁN  Google Scholar

  35. Freund Y, Schapire RE, v.v. Thử nghiệm với thuật toán tăng cường mới. Trong. Icml, Citeseer. 1996; . 148–156

  36. Fujiyoshi H, Hirakawa T, Yamashita T. Nhận dạng hình ảnh dựa trên học sâu để lái xe tự trị. IATSS Res. 2019;43[4]. 244–52

    Google học giả

  37. Fukunaga K, Chủ nhà trọ L. Ước tính độ dốc của hàm mật độ, với các ứng dụng trong nhận dạng mẫu. Lý thuyết thông tin chuyển đổi của IEEE. 1975;21[1]. 32–40

    MathSciNet  MATH  Google Scholar

  38. Goodfellow I, Bengio Y, Courville A, Bengio Y. Học kĩ càng. Cambridge. Báo chí MIT;

    TOÁN  Google Scholar

  39. Goodfellow I, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A, Bengio Y. Lưới đối thủ sáng tạo. Trong. Những tiến bộ trong hệ thống xử lý thông tin thần kinh. 2014. 2672–2680

  40. Guerrero-Ibáñez J, Zeadally S, Contreras-Castillo J. Công nghệ cảm biến cho hệ thống giao thông thông minh. cảm biến. 2018;18[4]. 1212

    Google học giả

  41. Han J, Pei J, Kamber M. Khai thác dữ liệu. khái niệm và kỹ thuật. Amsterdam. Elsevier;

    TOÁN  Google Scholar

  42. Han J, Pei J, Yin Y. Khai thác các mẫu phổ biến mà không cần tạo ứng viên. Trong. Bản ghi Sigmod ACM, ACM. 2000;29. 1–12

  43. Harmon SA, Sanford TH, Sheng X, Turkbey EB, Roth H, Ziyue X, Yang D, Myronenko A, Anderson V, Amalou A, và cộng sự. Trí tuệ nhân tạo để phát hiện viêm phổi covid-19 trên ct ngực bằng bộ dữ liệu đa quốc gia. xã Nat. 2020;11[1]. 1–7

    Google học giả

  44. He K, Zhang X, Ren S, Sun J. Kim tự tháp không gian tổng hợp trong các mạng tích chập sâu để nhận dạng trực quan. IEEE Trans Pattern Anal Mach Intell. 2015;37[9]. 1904–16

    Google học giả

  45. He K, Zhang X, Ren S, Sun J. Học sâu còn lại để nhận dạng hình ảnh. Trong. Kỷ yếu hội nghị IEEE về thị giác máy tính và nhận dạng mẫu, 2016. 770–778

  46. Hinton GE. Hướng dẫn thực hành để đào tạo máy boltzmann bị hạn chế. Trong. mạng lưới thần kinh. Thủ đoạn của thương mại. lò xo. 2012;

  47. Hote RC. Các quy tắc phân loại rất đơn giản hoạt động tốt trên hầu hết các bộ dữ liệu được sử dụng phổ biến. mach hoc. 1993;11[1]. 63–90

    TOÁN  Google Scholar

  48. khách sạn H. Phân tích phức hợp các biến thống kê thành các thành phần chính. Tâm lý học J Edu. 1933;24[6]. 417

    TOÁN  Google Scholar

  49. Houtsma M, Swami A. Khai thác hướng tập hợp cho các luật kết hợp trong cơ sở dữ liệu quan hệ. Trong. Kỹ thuật dữ liệu, 1995. Kỷ yếu của Hội nghị quốc tế lần thứ mười một về, IEEE. 1995. 25–33

  50. Jamshidi M, Lalbakhsh A, Talla J, Peroutka Z, Hadjilooei F, Lalbakhsh P, Jamshidi M, La Spada L, Mirmozafari M, Dehghani M, et al. Trí tuệ nhân tạo và covid-19. phương pháp học sâu để chẩn đoán và điều trị. Truy cập IEEE. 2020;8. 109581–95

    Google học giả

  51. John GH, Langley P. Ước tính phân phối liên tục trong phân loại bayesian. Trong. Kỷ yếu của hội nghị lần thứ mười một về Sự không chắc chắn trong trí tuệ nhân tạo, Morgan Kaufmann Publishers Inc. 1995;

  52. Kaelbling LP, Littman ML, Moore AW. Học tăng cường. một cuộc khảo sát. J Artif Intell Res. 1996;4. 237–85

    Google học giả

  53. Kamble SS, Gunasekaran A, Gawankar SA. Công nghiệp bền vững 4. 0 khuôn khổ. một đánh giá tài liệu có hệ thống xác định các xu hướng hiện tại và quan điểm trong tương lai. Quy trình bảo vệ môi trường an toàn. 2018;117. 408–25

  54. Kamble SS, Gunasekaran A, Gawankar SA. Đạt được hiệu suất bền vững trong chuỗi cung ứng nông nghiệp dựa trên dữ liệu. Đánh giá về nghiên cứu và ứng dụng. Int J Prod Econ. 2020;219. 179–94

    Google học giả

  55. Kaufman L, Rousseeuw PJ. Tìm nhóm trong dữ liệu. giới thiệu về phân tích cụm, tập. 344. John Wiley & Con trai;

    TOÁN  Google Scholar

  56. Keerthi SS, Shevade SK, Bhattacharyya C, Radha Krishna MK. Các cải tiến đối với thuật toán smo của platt cho thiết kế bộ phân loại svm. Điện toán thần kinh. 2001;13[3]. 637–49

    TOÁN  Google Scholar

  57. Khadse V, Mahalle PN, Biraris SV. Một so sánh thực nghiệm về các thuật toán học máy có giám sát cho dữ liệu internet vạn vật. Trong. Hội nghị quốc tế lần thứ tư năm 2018 về Điều khiển truyền thông máy tính và tự động hóa [ICCUBEA], IEEE. 2018;

  58. Kohonen T. Bản đồ tự tổ chức. Proc IEEE. 1990;78[9]. 1464–80

    Google học giả

  59. Koroniotis N, Moustafa N, Sitnikova E, Turnbull B. Hướng tới sự phát triển của bộ dữ liệu botnet thực tế trong internet vạn vật để phân tích pháp y mạng. bộ dữ liệu bot-iot. Hệ thống máy tính Fut Gen. 2019;100. 779–96

    Google học giả

  60. Krizhevsky A, Sutskever I, Hinton GE. Phân loại Imagenet với mạng lưới thần kinh tích chập sâu. Trong. Những tiến bộ trong hệ thống xử lý thông tin thần kinh, 2012. 1097–1105

  61. Kushwaha S, Bahl S, Bagha AK, Parmar KS, Javaid M, Haleem A, Singh RP. Những ứng dụng quan trọng của machine learning cho đại dịch covid-19. J Ind Integr Quản lý. 2020;5[4]

  62. Lade P, Ghosh R, Srinivasan S. Phân tích sản xuất và internet vạn vật công nghiệp. Hệ thống thông minh IEEE. 2017;32[3]. 74–9

    Google học giả

  63. Lalmuanawma S, Hussain J, Chhakchhuak L. Ứng dụng machine learning và trí tuệ nhân tạo trong đại dịch covid-19 [sars-cov-2]. đánh giá. Chao Sol Fract. 2020. 110059

  64. LeCessie S, Van Houwelingen JC. Công cụ ước tính độ dốc trong hồi quy logistic. J R Stat Soc Ser C [Trạng thái ứng dụng]. 1992;41[1]. 191–201

    TOÁN  Google Scholar

  65. LeCun Y, Bottou L, Bengio Y, Haffner P. Học tập dựa trên độ dốc được áp dụng để nhận dạng tài liệu. Proc IEEE. 1998;86[11]. 2278–324

    Google học giả

  66. Liu H, Motoda H. Trích xuất, xây dựng và lựa chọn tính năng. Một quan điểm khai thác dữ liệu, tập. 453. Truyền thông Khoa học & Kinh doanh Springer;

  67. López G, Quesada L, Guerrero LA. Alexa so với. siri vs. so với cortana. trợ lý google. so sánh các giao diện người dùng tự nhiên dựa trên lời nói. Trong. Hội nghị quốc tế về các yếu tố con người ứng dụng và công thái học, Springer. 2017;

  68. Liu B, HsuW, Ma Y. Tích hợp phân loại và khai phá luật kết hợp. Trong. Kỷ yếu hội nghị quốc tế lần thứ tư về khám phá tri thức và khai thác dữ liệu, 1998

  69. MacQueen J, và cộng sự. Một số phương pháp phân loại và phân tích quan sát đa biến. Trong. Kỷ yếu của hội nghị chuyên đề Berkeley lần thứ năm về xác suất và thống kê toán học, 1967; tập 1, trang 281–297. Oakland, CA, Hoa Kỳ

  70. Mahdavinejad MS, Rezvan M, Barekatain M, Adibi P, Barnaghi P, Sheth AP. Học máy để phân tích dữ liệu internet vạn vật. một cuộc khảo sát. Mạng xã hội số. 2018;4[3]. 161–75

    Google học giả

  71. Marchand A, Mác P. Đề xuất sản phẩm tự động với giải thích dựa trên sở thích. J bán lẻ. 2020;96[3]. 328–43

    Google học giả

  72. McCallum A. Khai thác thông tin. chắt lọc dữ liệu có cấu trúc từ văn bản phi cấu trúc. Xếp hàng. 2005;3[9]. 48–57

    Google học giả

  73. Mehrotra A, Hendley R, Musolesi M. khai thác trước. khai thác tùy chọn của người dùng để quản lý thông báo di động thông minh. Trong. Kỷ yếu của Hội nghị chung quốc tế về điện toán phổ biến và phổ biến, Heidelberg, Đức, 12–16 tháng 9 năm 2016; . 1223–1234. ACM, New York, Mỹ.

  74. Mohamadou Y, Halidou A, Kapen PT. Đánh giá về mô hình toán học, trí tuệ nhân tạo và bộ dữ liệu được sử dụng trong nghiên cứu, dự đoán và quản lý covid-19. ứng dụng Intell. 2020;50[11]. 3913–25

    Google học giả

  75. Mohammed M, Khan MB, Bashier Mohammed BE. học máy. thuật toán và ứng dụng. Máy ép CRC;

    Google học giả

  76. Moustafa N, Slay J. Unsw-nb15. bộ dữ liệu toàn diện cho các hệ thống phát hiện xâm nhập mạng [bộ dữ liệu mạng unsw-nb15]. Trong. hội nghị hệ thống thông tin và truyền thông quân sự 2015 [MilCIS], 2015;trang 1–6. IEEE

  77. Nilashi M, Ibrahim OB, Ahmadi H, Shahmoradi L. Một phương pháp phân tích để dự đoán bệnh sử dụng các kỹ thuật học máy. Máy Tính Hóa Học. 2017;106. 212–23

    Google học giả

  78. Yujin O, Park S, Ye JC. Các tính năng covid-19 học sâu trên cxr bằng cách sử dụng tập dữ liệu đào tạo hạn chế. Hình ảnh IEEE Trans Med. 2020;39[8]. 2688–700

    Google học giả

  79. Rái cá DW, Medina JR , Kalita JK. Một cuộc khảo sát về việc sử dụng học sâu để xử lý ngôn ngữ tự nhiên. Hệ thống tìm hiểu mạng lưới thần kinh xuyên IEEE. 2020

  80. Park H-S, Jun C-H. Một thuật toán đơn giản và nhanh chóng để phân cụm k-medoids. ứng dụng hệ thống chuyên gia. 2009;36[2]. 3336–41

    Google học giả

  81. Liii Pearson K. trên các đường và mặt phẳng gần nhất với các hệ điểm trong không gian. Lond Edinb Dublin Philos Mag J Sci. 1901;2[11]. 559–72

    Google học giả

  82. Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, Blondel M, Prettenhofer P, Weiss R, Dubourg V, et al. Scikit-học. máy học trong python. J Mach Tìm hiểu Res. 2011;12. 2825–30

    MathSciNet  MATH  Google Scholar

  83. Perveen S, Shahbaz M, Keshavjee K, Guergachi A. Hội chứng chuyển hóa và sự phát triển của bệnh đái tháo đường. mô hình dự đoán dựa trên kỹ thuật học máy. Truy cập IEEE. 2018;7. 1365–75

    Google học giả

  84. Santi P, Ram D, Rob C, Nathan E. Công cụ dự đoán cuộc gọi thích ứng dựa trên hành vi. Hệ thống thích ứng ACM Trans Auton. 2011;6[3]. 21. 1–21. 28

  85. Polydoros AS, Nalpantidis L. Khảo sát về học tăng cường dựa trên mô hình. ứng dụng trên robot. Hệ thống Robot J Intell. 2017;86[2]. 153–73

    Google học giả

  86. Putman ML. Quá trình ra quyết định Markov. lập trình động ngẫu nhiên rời rạc. John Wiley & Con trai;

    TOÁN  Google Scholar

  87. Quinlan JR. Quy nạp cây quyết định. mach hoc. 1986;1. 81–106

    Google học giả

  88. Quinlan JR. C4. 5. chương trình học máy. mach hoc. 1993

  89. Rasmussen C. Mô hình hỗn hợp gaussian vô hạn. Hệ thống xử lý thông tin thần kinh Adv. 1999;12. 554–60

    Google học giả

  90. Ravi K, Ravi V. Một cuộc khảo sát về khai thác quan điểm và phân tích tình cảm. nhiệm vụ, cách tiếp cận và ứng dụng. Hệ thống tri thức. 2015;89. 14–46

    Google học giả

  91. Rokach L. Khảo sát các thuật toán phân cụm. Trong. Sổ tay khám phá tri thức và khai thác dữ liệu, trang 269–298. Mùa xuân, 2010

  92. Safdar S, Zafar S, Zafar N, Khan NF. Hệ thống hỗ trợ quyết định dựa trên học máy [dss] để chẩn đoán bệnh tim. đánh giá. Artif Intell Rev. 2018;50[4]. 597–623

    Google học giả

  93. Sarker IH. Học quy tắc nhận biết ngữ cảnh từ dữ liệu điện thoại thông minh. khảo sát, thách thức và định hướng tương lai. J Dữ liệu lớn. 2019;6[1]. 1–25

    MathSciNet  Google Scholar

  94. Sarker IH. Mô hình dự đoán mạnh mẽ dựa trên máy học cho dữ liệu điện thoại di động ngoài đời thực. Internet vạn vật. 2019;5. 180–93

    Google học giả

  95. Sarker IH. An ninh mạng do ai điều khiển. tổng quan, mô hình tình báo bảo mật và hướng nghiên cứu. SN khoa học máy tính. 2021

  96. Sarker IH. An ninh mạng sâu. tổng quan toàn diện từ mạng lưới thần kinh và quan điểm học tập sâu. SN khoa học máy tính. 2021

  97. Sarker IH, Abushark YB, Alsolami F, Khan A. xâm nhập. một mô hình phát hiện xâm nhập an ninh mạng dựa trên học máy. Đối diện. 2020;12[5]. 754

    Google học giả

  98. Sarker IH, Abushark YB, Khan A. bối cảnh. dự đoán việc sử dụng ứng dụng điện thoại thông minh theo ngữ cảnh dựa trên kỹ thuật máy học. Đối diện. 2020;12[4]. 499

    Google học giả

  99. Sarker IH, Alqahtani H, Alsolami F, Khan A, Abushark YB, Siddiqui MK. Bối cảnh trước khi mô hình hóa. một phân tích thực nghiệm để phân loại dựa trên mô hình dự đoán theo ngữ cảnh lấy người dùng làm trung tâm. J Dữ liệu lớn. 2020;7[1]. 1–23

    Google học giả

  100. Sarker IH, Alan C, Jun H, Khan AI, Abushark YB, Khaled S. hành vi. học cây quyết định hành vi để xây dựng mô hình dự đoán nhận biết ngữ cảnh lấy người dùng làm trung tâm. Ứng dụng Mob Netw. 2019;

  101. Sarker IH, Colman A, Kabir MA, Han J. Nhật ký cuộc gọi điện thoại làm nguồn ngữ cảnh để lập mô hình hành vi người dùng cá nhân. Trong. Kỷ yếu của Hội nghị chung quốc tế ACM 2016 về điện toán phổ biến và phổ biến [Ubicomp]. Adjunct, Đức, trang 630–634. ACM, 2016

  102. Sarker IH, Colman A, Kabir MA, Han J. Phân đoạn chuỗi thời gian được cá nhân hóa để khai thác hành vi của người dùng điện thoại di động. Đại học Điện toán J Oxf Vương quốc Anh. 2018;61[3]. 349–68

    Google học giả

  103. Sarker IH, Hoque MM, MdK Uddin, Tawfeeq A. Khoa học dữ liệu di động và ứng dụng thông minh. khái niệm, mô hình dựa trên ai và hướng nghiên cứu. Ứng dụng Mob Netw, trang 1–19, 2020

  104. Sarker IH, Kayes ASM. thước kẻ abc. phương pháp học máy dựa trên quy tắc hành vi của người dùng cho các dịch vụ thông minh nhận biết ngữ cảnh. Ứng dụng máy tính J Netw. 2020;

  105. Sarker IH, Kayes ASM, Badsha S, Alqahtani H, Watters P, Ng A. Khoa học dữ liệu an ninh mạng. tổng quan từ quan điểm học máy. J Dữ liệu lớn. 2020;7[1]. 1–29

    Google học giả

  106. Sarker IH, Watters P, Kayes ASM. Phân tích hiệu quả của các mô hình phân loại học máy để dự đoán việc sử dụng điện thoại thông minh theo ngữ cảnh được cá nhân hóa. J Dữ liệu lớn. 2019;6[1]. 1–28

    Google học giả

  107. Sarker IH, Salah K. ứng dụng. dự đoán các ứng dụng điện thoại thông minh nhận biết ngữ cảnh bằng cách sử dụng học rừng ngẫu nhiên. Internet vạn vật. 2019;8

  108. Scheffer T. Tìm các quy tắc kết hợp hỗ trợ thương mại một cách tối ưu chống lại sự tự tin. Phân tích dữ liệu Intel. 2005;9[4]. 381–95

    Google học giả

  109. Sharma R, Kamble SS, Gunasekaran A, Kumar V, Kumar A. Tổng quan tài liệu có hệ thống về các ứng dụng máy học để thực hiện chuỗi cung ứng nông nghiệp bền vững. Máy tính hoạt động Res. 2020;119

  110. Shengli S, Ling CX. Cây quyết định nhạy cảm với chi phí kết hợp, khám phá tri thức trong cơ sở dữ liệu. Trong. PKDD 2005, Kỷ yếu của Hội nghị Châu Âu lần thứ 9 về Nguyên tắc và Thực hành Khám phá Tri thức trong Cơ sở dữ liệu. Bài giảng về Khoa học Máy tính, tập 3721, 2005

  111. Rút ngắn C, Khoshgoftaar TM, Furht B. Ứng dụng học sâu cho covid-19. J Dữ liệu lớn. 2021;8[1]. 1–54

    Google học giả

  112. Gökhan S, Nevin Y. Phân tích dữ liệu trong y tế và dữ liệu lớn. một mô hình chẩn đoán y tế học máy dựa trên khiếu nại của bệnh nhân. Phương pháp lý thuyết thống kê cộng đồng. 2019;1–10

  113. Silver D, Huang A, Maddison CJ, Guez A, Sifre L, Van Den Driessche G, Schrittwieser J, Antonoglou I, Panneershelvam V, Lanctot M, et al. Làm chủ trò chơi cờ vây với mạng lưới thần kinh sâu và tìm kiếm trên cây. thiên nhiên. 2016;529[7587]. 484–9

  114. Ślusarczyk B. Công nghiệp 4. 0. Chúng ta đã sẵn sàng chưa? . 17, 2018

  115. Peter Hà. Ứng dụng của máy tính vào phân loại học. Vi khuẩn gen J. 1957;17[1]

  116. Sorensen T. Phương pháp xác lập nhóm có biên độ bằng nhau trong xã hội học thực vật dựa trên sự giống nhau của loài. Sinh học Skr. 1948;

  117. Srinivasan V, Moghaddam S, Mukherji A. thợ mỏ di động. khai thác các mẫu thường xuyên của bạn trên điện thoại của bạn. Trong. Kỷ yếu của Hội nghị chung quốc tế về điện toán phổ biến và phổ biến, Seattle, WA, Hoa Kỳ, 13-17 tháng 9, trang. 389–400. ACM, New York, Mỹ. 2014

  118. Szegedy C, Liu W, Jia Y, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A. Đi sâu hơn với tích chập. Trong. Kỷ yếu hội nghị IEEE về thị giác máy tính và nhận dạng mẫu. 2015;

  119. Tavallaee M, Bagheri E, Lu W, Ghorbani AA. Phân tích chi tiết bộ dữ liệu kdd cup 99. Trong. Hội thảo chuyên đề của IEEE về trí thông minh điện toán cho các ứng dụng an ninh và quốc phòng. IEEE. 2009;2009. 1–6

    Google học giả

  120. Tsagkias M. Tracy HK, Surya K, Vanessa M, de Rijke M. Những thách thức và cơ hội nghiên cứu trong tìm kiếm và đề xuất thương mại điện tử. Trong. Diễn đàn ACM SIGIR. tập 54. NY, Hoa Kỳ. ACM New York; . P. 1–23

  121. Wagstaff K, Cardie C, Rogers S, Schrödl S, và cộng sự. Phân cụm k-means bị ràng buộc với kiến ​​​​thức cơ bản. Icml. 2001;1. 577–84

    Google học giả

  122. Wang W, Yang J, Muntz R, và cộng sự. chích. một cách tiếp cận lưới thông tin thống kê để khai thác dữ liệu không gian. VLĐB. 1997;97. 186–95

    Google học giả

  123. Wei P, Li Y, Zhang Z, Tao H, Li Z, Liu D. Phương pháp tối ưu hóa mô hình phân loại phát hiện xâm nhập dựa trên mạng niềm tin sâu. Truy cập IEEE. 2019;7. 87593–605

    Google học giả

  124. Weiss K, Khoshgoftaar TM, Wang DD. Khảo sát về học chuyển tiếp. J Dữ liệu lớn. 2016;3[1]. 9

    Google học giả

  125. Witten IH, Frank E. Khai thác dữ liệu. Các công cụ và kỹ thuật học máy thực tế. Morgan Kaufmann;

  126. Witten IH, Frank E, Trigg LE, Hall MA, Holmes G, Cunningham SJ. Weka. các công cụ và kỹ thuật học máy thực tế với triển khai java. 1999

  127. Wu C-C, Yen-Liang C, Yi-Hung L, Xiang-Yu Y. Cảm ứng cây quyết định với số lượng nút lá bị hạn chế. ứng dụng Intell. 2016;45[3]. 673–85

    Google học giả

  128. Wu X, Kumar V, Quinlan JR, Ghosh J, Yang Q, Motoda H, McLachlan GJ, Ng A, Liu B, Philip SY, et al. 10 thuật toán hàng đầu trong khai phá dữ liệu. Hệ thống thông tin kiến ​​thức. 2008;14[1]. 1–37

    Google học giả

  129. Xin Y, Kong L, Liu Z, Chen Y, Li Y, Zhu H, Gao M, Hou H, Wang C. Phương pháp học máy và học sâu cho an ninh mạng. Truy cập IEEE. 2018;6. 35365–81

    Google học giả

  130. Xu D, Yingjie T. Một cuộc khảo sát toàn diện về các thuật toán phân cụm. Khoa học dữ liệu Ann. 2015;2[2]. 165–93

    Google học giả

  131. Zaki MJ. Các thuật toán có thể mở rộng để khai thác liên kết. Dữ liệu IEEE Trans Knowl. 2000;12[3]. 372–90

    Google học giả

  132. Zanella A, Bui N, Castellani A, Vangelista L, Zorzi M. Internet vạn vật cho thành phố thông minh. IEEE Internet Things J. 2014;1[1]. 22–32

    Google học giả

  133. Zhao Q, Bhowmick SS. Khai phá luật kết hợp. một cuộc khảo sát. Singapore. Trường đại học công nghệ Nayang;

    Google học giả

  134. Zheng T, Xie W, Xu L, He X, Zhang Y, You M, Yang G, Chen Y. Khung dựa trên học máy để xác định bệnh tiểu đường loại 2 thông qua hồ sơ sức khỏe điện tử. Int J Med Thông báo. 2017;97. 120–7

    Google học giả

  135. Zheng Y, Rajasegarar S, Leckie C. Dự đoán khả năng đỗ xe cho các bãi đỗ xe có cảm biến ở các thành phố thông minh. Trong. Cảm biến thông minh, Mạng cảm biến và Xử lý thông tin [ISSNIP], Hội nghị quốc tế lần thứ 10 của IEEE về. IEEE, 2015;

  136. Zhu H, Cao H, Chen E, Xiong H, Tian J. Khai thác thông tin theo ngữ cảnh phong phú để phân loại ứng dụng dành cho thiết bị di động. Trong. Kỷ yếu hội nghị quốc tế ACM lần thứ 21 về Quản lý thông tin và tri thức. ACM, 2012;

  137. Zhu H, Chen E, Xiong H, Kuifei Y, Cao H, Tian J. Khai thác tùy chọn người dùng di động cho đề xuất nhận biết ngữ cảnh được cá nhân hóa. ACM Trans Intell Syst Technol [TIST]. 2014;5[4]. 58

    Google học giả

  138. Zikang H, Yong Y, Guofeng Y, Xinyu Z. Phân tích cảm tính của dữ liệu đánh giá thương mại điện tử sản phẩm nông nghiệp dựa trên học sâu. Trong. 2020 Hội nghị quốc tế về Internet vạn vật và ứng dụng thông minh [ITIA], IEEE, 2020;

  139. Zulkernain S, Madiraju P, Ahamed SI. Một hệ thống quản lý gián đoạn theo ngữ cảnh cho thiết bị di động. Trong. Phần mềm trung gian không dây di động, hệ điều hành và ứng dụng. lò xo. 2010;

  140. Zulkernain S, Madiraju P, Ahamed S, Stamm K. Một hệ thống quản lý gián đoạn thông minh di động. J UCS. 2010;16[15]. 2060–80

    Google học giả

Tải tài liệu tham khảo

thông tin tác giả

Tác giả và Chi nhánh

  1. Đại học Công nghệ Swinburne, Melbourne, VIC, 3122, Úc

    Iqbal H. Sarker

  2. Khoa Khoa học và Kỹ thuật Máy tính, Đại học Kỹ thuật & Công nghệ Chittagong, 4349, Chattogram, Bangladesh

    Iqbal H. Sarker

tác giả

  1. Iqbal H. Sarker

    Xem các ấn phẩm của tác giả

    Bạn cũng có thể tìm kiếm tác giả này trong PubMed   Google Scholar

Đồng tác giả

Liên hệ với Iqbal H. Sarker

tuyên bố đạo đức

Xung đột lợi ích

Các tác giả tuyên bố không có xung đột lợi ích

Thông tin thêm

Ghi chú của nhà xuất bản

Springer Nature vẫn giữ thái độ trung lập đối với các tuyên bố về quyền tài phán trong các bản đồ đã xuất bản và các tổ chức liên kết

Bài viết này là một phần của bộ sưu tập chuyên đề “Những tiến bộ trong phương pháp tính toán cho trí tuệ nhân tạo, xử lý hình ảnh, IoT và ứng dụng đám mây” do Bhanu Prakash KN và M biên tập. shivakumar

Quyền và quyền

In lại và Quyền

Về bài viết này

Trích dẫn bài viết này

Sarker, tôi. H. Học máy. Thuật toán, ứng dụng trong thế giới thực và hướng nghiên cứu. SN MÁY TÍNH. KHOA HỌC. 2, 160 [2021]. https. //doi. tổ chức/10. 1007/s42979-021-00592-x

Một số tài liệu nghiên cứu tốt nhất cho học máy là gì?

Trong phần này của bài viết, chúng ta sẽ khám phá bảy tài liệu nghiên cứu hữu ích và hấp dẫn nhất đã vượt qua thử thách của thời gian. .
ResNet. Bài nghiên cứu. Deep Residual Learning để nhận dạng hình ảnh. .
YOLO. .
U-Net. .
Chuẩn hóa hàng loạt. .
Máy biến áp. .
Mạng đối thủ chung [GAN]. .
Bộ mã hóa tự động

Tôi có thể tìm tài liệu nghiên cứu về học máy ở đâu?

Hàng năm, hàng nghìn tài liệu nghiên cứu liên quan đến Học máy được xuất bản trong các ấn phẩm phổ biến như NeurIPS, ICML, ICLR, ACL và MLDS . Các tiêu chí đang sử dụng số lượng trích dẫn từ ba nguồn học thuật. học giả. Google. com; . Microsoft. com; . tổ chức.

Python có thể được sử dụng trong học máy không?

Không còn nghi ngờ gì nữa, Python là ngôn ngữ lập trình phổ biến và hứa hẹn nhất dành cho máy học . Python là nền tảng phổ biến nhất được sử dụng để nghiên cứu và phát triển các hệ thống sản xuất. Nó có một số mô-đun, gói và thư viện cung cấp nhiều cách để đạt được một nhiệm vụ trong Machine Learning.

Các chủ đề quan trọng trong Python cho máy học là gì?

Giới thiệu về Máy học với Python .
k-bộ phân loại hàng xóm gần nhất
mạng lưới thần kinh. Mạng thần kinh từ đầu trong Python. Mạng thần kinh trong Python sử dụng Numpy. Mạng thần kinh bỏ học. Mạng lưới thần kinh với Scikit. .
Bộ phân loại Naive Bayes
Giới thiệu về Phân loại văn bản bằng Naive Bayes và Python

Chủ Đề