programming python

Khoa học dữ liệu ứng dụng với đề thi python 1 có đáp án

Trong blog Câu hỏi phỏng vấn về Khoa học dữ liệu này, tôi sẽ giới thiệu cho bạn các câu hỏi và câu trả lời về khoa học dữ liệu thường gặp nhất, các cuộc phỏng vấn về Phân tích và Học máy. Blog này là hướng dẫn hoàn hảo để tìm hiểu tất cả các khái niệm cần thiết để vượt qua cuộc phỏng vấn Khoa học dữ liệu. Để có kiến thức chuyên sâu về Khoa học dữ liệu, bạn có thể đăng ký Khoa học dữ liệu trực tiếp với Khóa học Python Đào tạo của Edureka với sự hỗ trợ 24/7 và quyền truy cập trọn đời

Sau đây là các chủ đề được đề cập trong các câu hỏi phỏng vấn của chúng tôi

Trước khi tiếp tục, bạn có thể xem qua bản ghi Câu hỏi và câu trả lời phỏng vấn Khoa học dữ liệu nơi người hướng dẫn của chúng tôi đã chia sẻ kinh nghiệm và kiến thức chuyên môn của anh ấy để giúp bạn phá vỡ bất kỳ Khoa học dữ liệu nào.

Câu hỏi phỏng vấn khoa học dữ liệu. Hướng dẫn về Khoa học Dữ liệu. Phỏng vấn khoa học dữ liệu. Edureka

Video Câu hỏi và trả lời phỏng vấn về Khoa học dữ liệu này sẽ giúp bạn chuẩn bị cho các cuộc phỏng vấn về Khoa học dữ liệu và Phân tích dữ liệu lớn

Câu hỏi phỏng vấn khoa học dữ liệu cơ bản dành cho người mới bắt đầu

Q1. Khoa học dữ liệu là gì?

Khoa học dữ liệu là sự pha trộn của nhiều công cụ, thuật toán và nguyên tắc học máy khác nhau với mục tiêu khám phá các mẫu ẩn từ dữ liệu thô. Điều này khác với những gì các nhà thống kê đã làm trong nhiều năm như thế nào?

Câu trả lời nằm ở sự khác biệt giữa giải thích và dự đoán

Sự khác biệt giữa học tập có giám sát và không giám sát như sau;

Học có giám sát

Học không giám sát

Dữ liệu đầu vào được dán nhãn

Dữ liệu đầu vào không được gắn nhãn

Sử dụng tập dữ liệu huấn luyện

Sử dụng tập dữ liệu đầu vào

Dùng để dự đoán

Dùng để phân tích

Cho phép phân loại và hồi quy

Cho phép phân loại, ước tính mật độ và giảm kích thước

Xu hướng lựa chọn là một loại lỗi xảy ra khi nhà nghiên cứu quyết định ai sẽ được nghiên cứu. Nó thường được kết hợp với nghiên cứu trong đó việc lựa chọn người tham gia không phải là ngẫu nhiên. Nó đôi khi được gọi là hiệu ứng lựa chọn. Đó là sự biến dạng của phân tích thống kê, xuất phát từ phương pháp thu thập mẫu. Nếu không tính đến sai lệch lựa chọn thì một số kết luận của nghiên cứu có thể không chính xác

thiên vị lấy mẫu. Đó là một lỗi hệ thống do một mẫu dân số không ngẫu nhiên khiến một số thành viên của dân số ít có khả năng được đưa vào hơn những người khác dẫn đến một mẫu sai lệch

Khoảng thời gian. Một thử nghiệm có thể bị chấm dứt sớm ở một giá trị cực đoan [thường vì lý do đạo đức], nhưng giá trị cực đoan có khả năng đạt được bởi biến có phương sai lớn nhất, ngay cả khi tất cả các biến có giá trị trung bình tương tự nhau

Dữ liệu. Khi các tập hợp con cụ thể của dữ liệu được chọn để hỗ trợ kết luận hoặc từ chối dữ liệu xấu trên cơ sở tùy ý, thay vì theo các tiêu chí đã nêu trước đó hoặc được thống nhất chung

tiêu hao. Xu hướng tiêu hao là một loại xu hướng lựa chọn do tiêu hao [mất người tham gia] làm giảm giá trị của các đối tượng/bài kiểm tra thử nghiệm không hoàn thành

Thiên kiến. Sai lệch là một lỗi xuất hiện trong mô hình của bạn do quá đơn giản hóa thuật toán máy học. Nó có thể dẫn đến mặc thiếu. Khi bạn đào tạo mô hình của mình tại thời điểm đó, mô hình sẽ đưa ra các giả định đơn giản hóa để làm cho hàm mục tiêu dễ hiểu hơn

Các thuật toán máy học có độ thiên vị thấp — Cây quyết định, k-NN và SVM Các thuật toán máy học có độ thiên vị cao — Hồi quy tuyến tính, Hồi quy logistic

phương sai. Phương sai là lỗi được đưa vào mô hình của bạn do thuật toán máy học phức tạp, mô hình của bạn cũng học nhiễu từ tập dữ liệu huấn luyện và hoạt động kém trên tập dữ liệu thử nghiệm. Nó có thể dẫn đến độ nhạy cao và quá khớp

Thông thường, khi bạn tăng độ phức tạp của mô hình, bạn sẽ thấy lỗi giảm do độ lệch trong mô hình thấp hơn. Tuy nhiên, điều này chỉ xảy ra cho đến một thời điểm cụ thể. Khi bạn tiếp tục làm cho mô hình của mình trở nên phức tạp hơn, cuối cùng bạn sẽ khớp quá mức mô hình của mình và do đó mô hình của bạn sẽ bắt đầu bị phương sai cao

Bias-Variance đánh đổi. Mục tiêu của bất kỳ thuật toán học máy được giám sát nào là có độ lệch thấp và phương sai thấp để đạt được hiệu suất dự đoán tốt

Thuật toán k-hàng xóm gần nhất có độ lệch thấp và phương sai cao, nhưng có thể thay đổi sự đánh đổi bằng cách tăng giá trị của k, làm tăng số lượng hàng xóm đóng góp vào dự đoán và do đó làm tăng độ lệch của mô hình

Thuật toán máy vectơ hỗ trợ có độ lệch thấp và phương sai cao, nhưng có thể thay đổi sự đánh đổi bằng cách tăng tham số C ảnh hưởng đến số lần vi phạm lề cho phép trong dữ liệu đào tạo làm tăng độ lệch nhưng giảm phương sai

Không thể thoát khỏi mối quan hệ giữa sai lệch và phương sai trong học máy. Tăng độ lệch sẽ làm giảm phương sai. Tăng phương sai sẽ làm giảm độ lệch

Q4. Theo lựa chọn ngôn ngữ của bạn, hãy viết chương trình in ra các số từ 1 đến 50

Mã python để in các số từ 1 đến 50 như sau-

Đầu ra của đoạn mã trên sẽ là-

Ma trận nhầm lẫn là một bảng 2X2 chứa 4 đầu ra do bộ phân loại nhị phân cung cấp. Các biện pháp khác nhau, chẳng hạn như tỷ lệ lỗi, độ chính xác, độ đặc hiệu, độ nhạy, độ chính xác và thu hồi được lấy từ nó. Ma trận hỗn loạn

Tập dữ liệu được sử dụng để đánh giá hiệu suất được gọi là tập dữ liệu thử nghiệm. Nó phải chứa các nhãn chính xác và nhãn dự đoán

Các nhãn được dự đoán sẽ hoàn toàn giống nhau nếu hiệu suất của bộ phân loại nhị phân là hoàn hảo

Các nhãn được dự đoán thường khớp với một phần của các nhãn được quan sát trong các tình huống thực tế

Bộ phân loại nhị phân dự đoán tất cả các phiên bản dữ liệu của tập dữ liệu thử nghiệm là dương hoặc âm. Điều này tạo ra bốn kết quả-

True- positive[TP] — Dự đoán dương tính chính xác

Dương tính giả [FP] — Dự đoán dương tính không chính xác

Âm tính thật [TN] — Dự đoán âm tính chính xác

Âm tính giả [FN] — Dự đoán âm tính không chính xác

Tỷ lệ lỗi = [FP+FN]/[P+N]

Độ chính xác = [TP+TN]/[P+N]

Độ nhạy [Recall hoặc True positive rate] = TP/P

Độ đặc hiệu[Tỷ lệ âm tính thực] = TN/N

Độ chính xác[Giá trị dự đoán dương] = TP/[TP+FP]

Điểm F[Trung bình điều hòa của độ chính xác và thu hồi] = [1+b][PREC. REC]/[b²PREC+REC] trong đó b thường là 0. 5, 1, 2

Q6. Mô tả chuỗi Markov?

Chuỗi Markov là một loại quy trình ngẫu nhiên. Trong chuỗi Markov, xác suất tương lai của bất kỳ trạng thái nào chỉ phụ thuộc vào trạng thái hiện tại

Hình trên biểu thị mô hình chuỗi Markov trong đó mỗi bước có đầu ra chỉ phụ thuộc vào trạng thái hiện tại

Một ví dụ có thể là khuyến nghị từ. Khi chúng tôi nhập một đoạn văn, từ tiếp theo được gợi ý bởi mô hình chỉ phụ thuộc vào từ trước đó chứ không phụ thuộc vào bất kỳ thứ gì trước nó. Mô hình chuỗi Markov được đào tạo trước đó trên một đoạn tương tự trong đó từ tiếp theo của một từ nhất định được lưu trữ cho tất cả các từ trong dữ liệu đào tạo. Dựa trên đầu ra dữ liệu đào tạo này, các từ tiếp theo được đề xuất

Q7. Bạn hiểu gì về tỷ lệ dương tính thực và tỷ lệ dương tính giả?

Tỷ lệ tích cực thực sự [TPR] là tỷ lệ giữa Tích cực thực sự so với Tích cực thực sự và Tiêu cực sai. Đó là xác suất mà một kết quả dương tính thực tế sẽ cho kết quả dương tính

TPR=TP/TP+FN

Tỷ lệ dương tính giả [FPR] là tỷ lệ của các dương tính giả trên tất cả các dương tính [Dương tính thật và dương tính giả]. Đó là xác suất báo động sai, tôi. e. , một kết quả tích cực sẽ được đưa ra khi nó thực sự tiêu cực

FPR=FP/TP+FP

Q8. Tại sao R được sử dụng trong Trực quan hóa dữ liệu?

R được sử dụng trong trực quan hóa dữ liệu vì nó có nhiều chức năng và thư viện sẵn có giúp trực quan hóa dữ liệu. Các thư viện này bao gồm ggplot2, leaflet, lattice, v.v.

R giúp phân tích dữ liệu khám phá cũng như kỹ thuật tính năng. Sử dụng R, hầu hết mọi loại biểu đồ đều có thể được tạo. Tùy chỉnh đồ họa trong R dễ dàng hơn so với sử dụng python

Q9. Đường cong ROC là gì?

Đường cong ROC là biểu đồ giữa Tỷ lệ dương tính giả trên trục x và Tỷ lệ dương tính thật trên trục y. Tỷ lệ dương tính thực là tỷ lệ số dương tính Thật trên tổng số mẫu dương tính. Tỷ lệ dương tính giả là tỷ lệ dương tính giả trên tổng số mẫu âm tính. FPR và TPR được vẽ trên một số giá trị ngưỡng để xây dựng đường cong ROC. Diện tích dưới đường cong ROC nằm trong khoảng từ 0 đến 1. Một mô hình hoàn toàn ngẫu nhiên có ROC bằng 0. 5, được biểu thị bằng một đường thẳng. Đường cong ROC càng lệch khỏi đường thẳng này thì mô hình càng tốt. Đường cong ROC được sử dụng để phân loại nhị phân. Hình ảnh dưới đây cho thấy một ví dụ về đường cong ROC

Ở đâu,

n là tổng số mục

R là số cách các mục đang được chọn

Kết hợp– Nó được sử dụng khi không được phép thay thế và thứ tự của các mục không quan trọng. Công thức của nó là-

Một số quy tắc cho xác suất là-

Quy tắc cộng

P[A hoặc B]= P[A] + P[B] – P[A và B]

xác suất có điều kiện

Đó là xác suất xảy ra sự kiện B, giả sử rằng sự kiện A đã xảy ra

P[A và B]= P[A]. P[B. MỘT]

Định lý giới hạn trung tâm

Nó nói rằng khi chúng ta lấy các mẫu ngẫu nhiên từ một quần thể lớn và lấy giá trị trung bình của các mẫu này, chúng sẽ tạo thành một phân phối chuẩn

Q16. Mô tả các phương pháp chính quy hóa khác nhau, chẳng hạn như chính quy hóa L1 và L2

Có 3 phương pháp chính quy hóa quan trọng như sau-

Chính quy hóa L2-[Hồi quy sườn núi]– Trong quy trình hóa L2, chúng tôi cộng tổng bình phương của tất cả các trọng số, nhân với một giá trị lambda, vào hàm mất mát. Công thức cho hồi quy Ridge như sau-

Q44. Vector hóa TF/IDF là gì?

TF–IDF là viết tắt của thuật ngữ tần suất tài liệu nghịch đảo tần số, là một thống kê số nhằm phản ánh mức độ quan trọng của một từ đối với tài liệu trong một bộ sưu tập hoặc kho văn bản. Nó thường được sử dụng như một yếu tố trọng số trong truy xuất thông tin và khai thác văn bản

Giá trị TF–IDF tăng tỷ lệ thuận với số lần một từ xuất hiện trong tài liệu nhưng được bù đắp bởi tần suất xuất hiện của từ đó trong ngữ liệu, điều này giúp điều chỉnh thực tế là một số từ xuất hiện thường xuyên hơn nói chung

Q45. Tại sao chúng tôi thường sử dụng hàm phi tuyến tính Softmax làm thao tác cuối cùng trong mạng?

Đó là bởi vì nó nhận vào một vectơ số thực và trả về phân phối xác suất. Định nghĩa của nó như sau. Gọi x là một vectơ số thực [dương, âm, sao cũng được, không ràng buộc]

Sau đó, thành phần thứ i của Softmax[x] là —

Rõ ràng rằng đầu ra là một phân phối xác suất. mỗi phần tử không âm và tổng trên tất cả các phần tử là 1

CÂU HỎI PHỎNG VẤN PHÂN TÍCH DỮ LIỆU

Q46. Python hoặc R – Bạn thích cái nào hơn cho phân tích văn bản?

Chúng tôi sẽ thích Python hơn vì những lý do sau

Python sẽ là lựa chọn tốt nhất vì nó có thư viện Pandas cung cấp các cấu trúc dữ liệu dễ sử dụng và các công cụ phân tích dữ liệu hiệu suất cao
R phù hợp với học máy hơn là chỉ phân tích văn bản
Python hoạt động nhanh hơn cho tất cả các loại phân tích văn bản

Q47. Làm sạch dữ liệu đóng vai trò quan trọng như thế nào trong phân tích?

Làm sạch dữ liệu có thể giúp phân tích vì

Làm sạch dữ liệu từ nhiều nguồn giúp chuyển đổi dữ liệu thành định dạng mà các nhà phân tích dữ liệu hoặc nhà khoa học dữ liệu có thể làm việc với
Data Cleaning giúp tăng độ chính xác của mô hình trong machine learning
Đây là một quy trình rườm rà vì khi số lượng nguồn dữ liệu tăng lên, thời gian cần thiết để làm sạch dữ liệu tăng theo cấp số nhân do số lượng nguồn và khối lượng dữ liệu do các nguồn này tạo ra
Có thể mất tới 80% thời gian chỉ để làm sạch dữ liệu khiến nó trở thành một phần quan trọng của nhiệm vụ phân tích

Q48. Phân biệt giữa phân tích đơn biến, hai biến và đa biến

Phân tích đơn biến là kỹ thuật phân tích thống kê mô tả có thể phân biệt dựa trên số lượng biến liên quan tại một thời điểm nhất định. Ví dụ: biểu đồ hình tròn về doanh số bán hàng dựa trên lãnh thổ chỉ liên quan đến một biến và phân tích có thể được gọi là phân tích đơn biến

Phân tích hai biến số cố gắng tìm hiểu sự khác biệt giữa hai biến tại một thời điểm như trong biểu đồ phân tán. Ví dụ: phân tích khối lượng bán và chi tiêu có thể được coi là một ví dụ về phân tích hai biến

Phân tích đa biến liên quan đến việc nghiên cứu nhiều hơn hai biến để hiểu tác động của các biến đối với câu trả lời

Q49. Giải thích giản đồ sao

Nó là một lược đồ cơ sở dữ liệu truyền thống với một bảng trung tâm. Bảng vệ tinh ánh xạ ID thành tên hoặc mô tả vật lý và có thể được kết nối với bảng dữ kiện trung tâm bằng các trường ID; . Đôi khi các lược đồ hình sao liên quan đến một số lớp tóm tắt để khôi phục thông tin nhanh hơn

Q50. Lấy mẫu cụm là gì?

Lấy mẫu theo cụm là một kỹ thuật được sử dụng khi việc nghiên cứu dân số mục tiêu trên một khu vực rộng trở nên khó khăn và không thể áp dụng lấy mẫu ngẫu nhiên đơn giản. Mẫu cụm là mẫu xác suất trong đó mỗi đơn vị lấy mẫu là một tập hợp hoặc cụm phần tử

ví dụ. , Một nhà nghiên cứu muốn khảo sát kết quả học tập của học sinh trung học ở Nhật Bản. Anh ta có thể chia toàn bộ dân số Nhật Bản thành các cụm [thành phố] khác nhau. Sau đó, nhà nghiên cứu chọn một số cụm tùy thuộc vào nghiên cứu của mình thông qua lấy mẫu ngẫu nhiên đơn giản hoặc có hệ thống

Hãy tiếp tục blog Câu hỏi phỏng vấn khoa học dữ liệu của chúng tôi với một số câu hỏi thống kê khác

Q51. Lấy mẫu có hệ thống là gì?

Lấy mẫu có hệ thống là một kỹ thuật thống kê trong đó các yếu tố được chọn từ khung lấy mẫu theo thứ tự. Trong lấy mẫu có hệ thống, danh sách được tiến hành theo cách vòng tròn, vì vậy khi bạn đến cuối danh sách, danh sách sẽ được tiến hành lại từ trên cùng. Ví dụ tốt nhất về lấy mẫu có hệ thống là phương pháp xác suất bằng nhau

Q52. Véc tơ riêng và Giá trị riêng là gì?

Các vectơ riêng được sử dụng để hiểu các phép biến đổi tuyến tính. Trong phân tích dữ liệu, chúng ta thường tính toán các hàm riêng cho ma trận tương quan hoặc hiệp phương sai. Các vectơ riêng là các hướng dọc theo đó một phép biến đổi tuyến tính cụ thể hoạt động bằng cách lật, nén hoặc kéo dài

Giá trị riêng có thể được gọi là cường độ của phép biến đổi theo hướng của véc tơ riêng hoặc hệ số theo đó quá trình nén xảy ra

Q53. Bạn có thể trích dẫn một số ví dụ trong đó dương tính giả quan trọng hơn âm tính giả không?

Trước tiên chúng ta hãy hiểu dương tính giả và âm tính giả là gì

Kết quả dương tính giả là trường hợp bạn đã phân loại sai một sự kiện không phải là sự kiện. k. lỗi loại I
Phủ định sai là trường hợp bạn phân loại sai các sự kiện là không phải sự kiện, một. k. lỗi loại II

ví dụ 1. Trong lĩnh vực y tế, giả sử bạn phải hóa trị cho bệnh nhân. Giả sử một bệnh nhân đến bệnh viện đó và anh ta được xét nghiệm dương tính với bệnh ung thư, dựa trên dự đoán của phòng thí nghiệm nhưng anh ta thực sự không bị ung thư. Đây là một trường hợp dương tính giả. Ở đây, điều cực kỳ nguy hiểm là bắt đầu hóa trị cho bệnh nhân này khi anh ta thực sự không bị ung thư. Trong trường hợp không có tế bào ung thư, hóa trị sẽ gây tổn thương nhất định cho các tế bào khỏe mạnh bình thường của anh ấy và có thể dẫn đến các bệnh nghiêm trọng, thậm chí là ung thư

ví dụ 2. Giả sử một công ty thương mại điện tử quyết định tặng Phiếu quà tặng trị giá 1000 đô la cho những khách hàng mà họ cho rằng sẽ mua các mặt hàng trị giá ít nhất 10.000 đô la. Họ gửi phiếu mua hàng miễn phí trực tiếp tới 100 khách hàng mà không có bất kỳ điều kiện mua hàng tối thiểu nào vì họ giả định kiếm được ít nhất 20% lợi nhuận cho các mặt hàng đã bán trên 10.000 đô la. Bây giờ vấn đề là nếu chúng tôi gửi phiếu quà tặng trị giá 1000 đô la cho những khách hàng chưa thực sự mua bất cứ thứ gì nhưng được đánh dấu là đã mua hàng trị giá 10.000 đô la

Q54. Bạn có thể trích dẫn một số ví dụ trong đó âm tính giả quan trọng hơn dương tính giả không?

ví dụ 1. Giả sử có một sân bay 'A' đã nhận được các mối đe dọa bảo mật cao và dựa trên một số đặc điểm nhất định, họ xác định liệu một hành khách cụ thể có thể là mối đe dọa hay không. Do thiếu nhân viên, họ quyết định quét những hành khách được mô hình dự đoán của họ dự đoán là có nguy cơ dương tính. Điều gì sẽ xảy ra nếu một khách hàng có mối đe dọa thực sự được mô hình sân bay gắn cờ là không có mối đe dọa?

ví dụ 2. Điều gì sẽ xảy ra nếu Bồi thẩm đoàn hoặc thẩm phán quyết định trả tự do cho một tên tội phạm?

ví dụ 3. Điều gì sẽ xảy ra nếu bạn từ chối kết hôn với một người rất tốt dựa trên mô hình dự đoán của bạn và bạn tình cờ gặp anh ấy/cô ấy sau vài năm và nhận ra rằng bạn đã âm tính giả?

Q55. Bạn có thể trích dẫn một số ví dụ trong đó cả dương tính giả và âm tính giả đều quan trọng như nhau không?

Trong ngành Ngân hàng cho vay là nguồn kiếm tiền chính nhưng đồng thời nếu tỷ lệ trả nợ của bạn không tốt thì bạn sẽ không kiếm được lợi nhuận mà thay vào đó, bạn sẽ có nguy cơ thua lỗ lớn

Các ngân hàng không muốn mất khách hàng tốt và đồng thời, họ không muốn có được khách hàng xấu. Trong trường hợp này, cả dương tính giả và âm tính giả đều trở nên rất quan trọng để đo lường

Q56. Bạn có thể giải thích sự khác biệt giữa Tập xác thực và Tập kiểm tra không?

Một Tập xác thực có thể được coi là một phần của tập huấn luyện vì nó được dùng để chọn tham số và để tránh mô hình được tạo quá khớp

Mặt khác, Bộ kiểm tra được dùng để kiểm tra hoặc đánh giá hiệu suất của một mô hình máy học đã qua đào tạo

Nói một cách đơn giản, sự khác biệt có thể được tóm tắt là; . e. trọng số và bộ kiểm tra là để đánh giá hiệu suất của mô hình i. e. đánh giá khả năng dự đoán và khái quát hóa

Q57. Giải thích xác thực chéo

Xác thực chéo là một kỹ thuật xác thực mô hình để đánh giá kết quả phân tích thống kê sẽ tổng quát hóa như thế nào đối với một tập dữ liệu độc lập. Chủ yếu được sử dụng trong các bối cảnh mà mục tiêu được dự báo và người ta muốn ước tính mức độ chính xác của một mô hình sẽ hoàn thành trong thực tế

Mục tiêu của xác nhận chéo là giới hạn một tập dữ liệu để kiểm tra mô hình trong giai đoạn đào tạo [i. e. bộ dữ liệu xác thực] để hạn chế các vấn đề như khớp quá mức và hiểu rõ hơn về cách mô hình sẽ khái quát hóa thành một tập dữ liệu độc lập

CÂU HỎI PHỎNG VẤN VỀ MÁY HỌC

Q58. Học máy là gì?

Machine Learning khám phá việc nghiên cứu và xây dựng các thuật toán có thể học hỏi và đưa ra dự đoán về dữ liệu. Liên quan chặt chẽ đến thống kê tính toán. Được sử dụng để tạo ra các mô hình và thuật toán phức tạp cho phép dự đoán mà trong sử dụng thương mại được gọi là phân tích dự đoán. Đưa ra bên dưới, là một hình ảnh đại diện cho các lĩnh vực khác nhau mà Machine Learning tự cho mình

Q65. Các vectơ hỗ trợ trong SVM là gì?

Trong sơ đồ, chúng ta thấy rằng các đường mảnh hơn đánh dấu khoảng cách từ bộ phân loại đến các điểm dữ liệu gần nhất được gọi là các vectơ hỗ trợ [các điểm dữ liệu được tô đậm]. Khoảng cách giữa hai nét mảnh gọi là lề

Q66. Các hạt nhân khác nhau trong SVM là gì?

Có bốn loại hạt nhân trong SVM

hạt nhân tuyến tính
nhân đa thức
hạt cơ sở xuyên tâm
nhân sigmoid

Q67. Giải thích chi tiết thuật toán Cây quyết định

Cây quyết định là một thuật toán học máy được giám sát chủ yếu được sử dụng cho Hồi quy và Phân loại. Nó chia nhỏ một tập dữ liệu thành các tập con nhỏ hơn và nhỏ hơn trong khi đồng thời một cây quyết định liên quan được phát triển dần dần. Kết quả cuối cùng là một cây với các nút quyết định và nút lá. Cây quyết định có thể xử lý cả dữ liệu phân loại và số

Q68. Entropy và đạt được thông tin trong thuật toán cây quyết định là gì?

Thuật toán cốt lõi để xây dựng cây quyết định có tên là ID3. ID3 sử dụng Entropy và Thông tin thu được để xây dựng cây quyết định

Sự hỗn loạn

Cây quyết định được xây dựng từ trên xuống từ nút gốc và liên quan đến việc phân vùng dữ liệu thành các tập hợp con đồng nhất. ID3 sử dụng enteropy để kiểm tra tính đồng nhất của mẫu. Nếu mẫu hoàn toàn đồng nhất thì entropy bằng 0 và nếu mẫu được chia đều thì nó có entropy bằng một

thu được thông tin

Mức thu được thông tin dựa trên mức giảm entropy sau khi tập dữ liệu được phân chia trên một thuộc tính. Xây dựng một cây quyết định là tìm kiếm các thuộc tính trả về mức thu được thông tin cao nhất

Q69. Cắt tỉa trong Cây quyết định là gì?

Tỉa bớt là một kỹ thuật trong thuật toán tìm kiếm và máy học giúp giảm kích thước của cây quyết định bằng cách loại bỏ các phần của cây cung cấp ít khả năng phân loại trường hợp. Vì vậy, khi chúng ta loại bỏ các nút con của một nút quyết định, quá trình này được gọi là quá trình cắt tỉa hoặc ngược lại với quá trình chia tách

Q70. Hồi quy logistic là gì?

Hồi quy logistic thường được gọi là mô hình logit là một kỹ thuật để dự đoán kết quả nhị phân từ sự kết hợp tuyến tính của các biến dự đoán.

Ví dụ: nếu bạn muốn dự đoán liệu một nhà lãnh đạo chính trị cụ thể có giành chiến thắng trong cuộc bầu cử hay không. Trong trường hợp này, kết quả của dự đoán là nhị phân i. e. 0 hoặc 1 [Thắng/Thua]. Các biến dự đoán ở đây sẽ là số tiền chi cho chiến dịch bầu cử của một ứng cử viên cụ thể, lượng thời gian dành cho chiến dịch, v.v.

Q71. Hồi quy tuyến tính là gì?

Hồi quy tuyến tính là một kỹ thuật thống kê trong đó điểm của biến Y được dự đoán từ điểm của biến thứ hai X. X được gọi là biến dự đoán và Y là biến tiêu chí

Q72. Hạn chế của mô hình tuyến tính là gì?

Một số nhược điểm của mô hình tuyến tính là

Giả định về tuyến tính của các lỗi
Nó không thể được sử dụng cho kết quả đếm hoặc kết quả nhị phân
Có những vấn đề về trang bị quá mức mà nó không thể giải quyết

Q73. Sự khác biệt giữa các kỹ thuật ML hồi quy và phân loại là gì?

Cả kỹ thuật máy học Hồi quy và phân loại đều thuộc Thuật toán máy học được giám sát. Trong thuật toán học máy được giám sát, chúng tôi phải đào tạo mô hình bằng cách sử dụng tập dữ liệu được gắn nhãn, Trong khi đào tạo, chúng tôi phải cung cấp rõ ràng các nhãn chính xác và thuật toán cố gắng tìm hiểu mẫu từ đầu vào đến đầu ra. Nếu nhãn của chúng tôi là các giá trị rời rạc thì đó sẽ là vấn đề phân loại, e. g A, B, v.v. nhưng nếu nhãn của chúng tôi là các giá trị liên tục thì đó sẽ là một vấn đề hồi quy, e. g 1. 23, 1. 333 vv

Q74. Hệ thống đề xuất là gì?

Hệ thống đề xuất là một lớp con của hệ thống lọc thông tin nhằm dự đoán các tùy chọn hoặc xếp hạng mà người dùng sẽ đưa ra cho một sản phẩm. Hệ thống đề xuất được sử dụng rộng rãi trong phim ảnh, tin tức, bài báo nghiên cứu, sản phẩm, thẻ xã hội, âm nhạc, v.v.

Ví dụ bao gồm đề xuất phim trong IMDB, Netflix & BookMyShow, đề xuất sản phẩm trong các trang thương mại điện tử như Amazon, eBay & Flipkart, đề xuất video trên YouTube và đề xuất trò chơi trong Xbox

Q75. Lọc cộng tác là gì?

Quá trình lọc được hầu hết các hệ thống đề xuất sử dụng để tìm các mẫu hoặc thông tin bằng cách hợp tác các quan điểm, các nguồn dữ liệu khác nhau và nhiều tác nhân

tăng cường

Tăng cường là một kỹ thuật lặp để điều chỉnh trọng số của một quan sát dựa trên phân loại cuối cùng. Nếu một quan sát được phân loại không chính xác, nó sẽ cố gắng tăng trọng số của quan sát này và ngược lại. Tăng cường nói chung làm giảm lỗi sai lệch và xây dựng các mô hình dự đoán mạnh mẽ. Tuy nhiên, chúng có thể quá khớp với dữ liệu huấn luyện

Q82. Rừng ngẫu nhiên là gì?

Rừng ngẫu nhiên là một phương pháp học máy linh hoạt có khả năng thực hiện cả nhiệm vụ hồi quy và phân loại. Nó cũng được sử dụng để giảm kích thước, xử lý các giá trị bị thiếu, giá trị ngoại lệ. Đây là một loại phương pháp học tập đồng bộ, trong đó một nhóm các mô hình yếu kết hợp với nhau để tạo thành một mô hình mạnh mẽ

Phép biến đổi Box-Cox là một cách để biến đổi các biến phụ thuộc không bình thường thành hình dạng bình thường. Tính quy tắc là một giả định quan trọng đối với nhiều kỹ thuật thống kê, nếu dữ liệu của bạn không bình thường, việc áp dụng Box-Cox có nghĩa là bạn có thể chạy nhiều thử nghiệm hơn. Phép biến đổi Box-Cox được đặt theo tên của các nhà thống kê George Box và Ngài David Roxbee Cox, những người đã cộng tác trong một bài báo năm 1964 và phát triển kỹ thuật này

Q86. Thuật toán phải được cập nhật thường xuyên như thế nào?

Bạn sẽ muốn cập nhật một thuật toán khi

Bạn muốn mô hình phát triển dưới dạng luồng dữ liệu thông qua cơ sở hạ tầng
Nguồn dữ liệu cơ bản đang thay đổi
Có trường hợp không cố định
Thuật toán hoạt động kém/kết quả thiếu chính xác

Q87. Nếu bạn đang có RAM 4GB trong máy và bạn muốn huấn luyện mô hình của mình trên tập dữ liệu 10GB. Làm thế nào bạn sẽ đi về vấn đề này?

Trước hết, bạn phải hỏi bạn muốn đào tạo mô hình ML nào

Đối với mạng nơ-ron. Kích thước hàng loạt với mảng Numpy sẽ hoạt động

bước

Tải toàn bộ dữ liệu trong mảng Numpy. Mảng Numpy có một thuộc tính để tạo ánh xạ của tập dữ liệu hoàn chỉnh, nó không tải tập dữ liệu hoàn chỉnh trong bộ nhớ
Bạn có thể chuyển một chỉ mục tới mảng Numpy để lấy dữ liệu cần thiết
Sử dụng dữ liệu này để chuyển đến mạng lưới thần kinh
Có kích thước lô nhỏ

cho SVM. Phù hợp một phần sẽ hoạt động

bước

Chia một tập dữ liệu lớn thành các tập dữ liệu kích thước nhỏ
Sử dụng phương pháp điều chỉnh một phần của SVM, nó yêu cầu một tập hợp con của tập dữ liệu hoàn chỉnh
Lặp lại bước 2 cho các tập hợp con khác

Tuy nhiên, bạn thực sự có thể phải đối mặt với một vấn đề như vậy trong thực tế. Vì vậy, bạn có thể kiểm tra máy tính xách tay tốt nhất cho Machine Learning để ngăn chặn điều đó. Đã nói rằng, hãy chuyển sang một số câu hỏi về học sâu

CÂU HỎI PHỎNG VẤN DEEP LEARNING

Q88. Bạn có ý nghĩa gì khi học sâu?

Deep Learning không là gì ngoài một mô hình học máy đã cho thấy nhiều hứa hẹn đáng kinh ngạc trong những năm gần đây. Điều này là do thực tế là Deep Learning cho thấy sự tương đồng tuyệt vời với hoạt động của bộ não con người

Q89. Sự khác biệt giữa học máy và học sâu là gì?

Học máy là một lĩnh vực khoa học máy tính cung cấp cho máy tính khả năng học mà không cần lập trình rõ ràng. Học máy có thể được phân loại thành ba loại sau

Học máy có giám sát,
Học máy không giám sát,
Học tăng cường

Mặt khác, các mạng hồi quy lấy đầu vào của chúng, không chỉ ví dụ đầu vào hiện tại mà chúng nhìn thấy, mà còn cả những gì chúng đã nhận thấy trước đó trong thời gian.

Quyết định mà một mạng thần kinh hồi quy đạt được tại thời điểm t-1 ảnh hưởng đến quyết định rằng nó sẽ đạt được một lúc sau tại thời điểm t. Vì vậy, các mạng lặp lại có hai nguồn đầu vào, hiện tại và quá khứ gần đây, kết hợp để xác định cách chúng phản ứng với dữ liệu mới, giống như chúng ta làm trong cuộc sống

Lỗi mà chúng tạo ra sẽ quay trở lại thông qua lan truyền ngược và được sử dụng để điều chỉnh trọng số của chúng cho đến khi lỗi không thể giảm xuống nữa. Hãy nhớ rằng, mục đích của mạng lặp lại là phân loại đầu vào tuần tự một cách chính xác. Chúng tôi dựa vào lan truyền ngược lỗi và giảm dần độ dốc để làm như vậy

Q103. Mạng LSTM hoạt động như thế nào?

là một loại mạng thần kinh tái phát đặc biệt có khả năng học các phụ thuộc dài hạn, ghi nhớ thông tin trong thời gian dài như hành vi mặc định của nó. Có ba bước trong mạng LSTM

Bước 1. Mạng quyết định cái gì nên quên và cái gì nên nhớ
Bước 2. Nó cập nhật có chọn lọc các giá trị trạng thái ô
Bước 3. Mạng quyết định phần nào của trạng thái hiện tại đưa nó đến đầu ra

Q104. Perceptron nhiều lớp [MLP] là gì?

Như trong Mạng thần kinh, MLP có lớp đầu vào, lớp ẩn và lớp đầu ra. Nó có cấu trúc giống như một perceptron một lớp với một hoặc nhiều lớp ẩn. Một perceptron một lớp chỉ có thể phân loại các lớp có thể phân tách tuyến tính với đầu ra nhị phân [0,1], nhưng MLP có thể phân loại các lớp phi tuyến

Ngoại trừ lớp đầu vào, mỗi nút trong các lớp khác sử dụng chức năng kích hoạt phi tuyến tính. Điều này có nghĩa là các lớp đầu vào, dữ liệu đi vào và chức năng kích hoạt dựa trên tất cả các nút và trọng số được cộng lại với nhau, tạo ra đầu ra. MLP sử dụng phương pháp học có giám sát được gọi là “lan truyền ngược. ” Trong lan truyền ngược, mạng thần kinh tính toán lỗi với sự trợ giúp của hàm chi phí. Nó lan truyền lỗi này ngược lại từ nơi nó xuất hiện [điều chỉnh các trọng số để đào tạo mô hình chính xác hơn]

Q105. Làm cách nào để dữ liệu chuỗi thời gian có thể được khai báo là văn phòng phẩm?

Khi các tham số chính của dữ liệu chuỗi thời gian không thay đổi theo thời gian, chuỗi thời gian được khai báo là cố định. Các tham số này có thể là giá trị trung bình hoặc phương sai. Không có xu hướng hoặc hiệu ứng theo mùa trong chuỗi thời gian cố định. Các mô hình Khoa học dữ liệu cần dữ liệu chuỗi thời gian cố định. Hình dưới đây cho thấy một chuỗi thời gian đứng yên

Q106. Giải thích Gradient Descent

Để hiểu Gradient Descent, trước tiên hãy hiểu Gradient là gì

Độ dốc đo lường mức độ thay đổi đầu ra của hàm nếu bạn thay đổi đầu vào một chút. Nó chỉ đơn giản là đo lường sự thay đổi trong tất cả các trọng số liên quan đến sự thay đổi sai số. Bạn cũng có thể coi gradient là hệ số góc của một hàm

Gradient Descent có thể được coi là leo xuống đáy thung lũng, thay vì leo lên một ngọn đồi. Điều này là do nó là một thuật toán giảm thiểu tối thiểu hóa một chức năng nhất định [Hàm kích hoạt]

Q107. Độ dốc bùng nổ là gì?

Trong khi đào tạo RNN, nếu bạn thấy độ dốc lỗi tăng theo cấp số nhân [rất lớn], độ dốc này tích lũy và dẫn đến các bản cập nhật rất lớn cho trọng số mô hình mạng thần kinh trong quá trình đào tạo, thì chúng được gọi là độ dốc bùng nổ. Ở mức cực đoan, các giá trị của trọng số có thể trở nên lớn đến mức bị tràn và dẫn đến các giá trị NaN

Điều này có tác dụng là mô hình của bạn không ổn định và không thể học từ dữ liệu đào tạo của bạn

Q108. Độ dốc biến mất là gì?

Trong khi đào tạo RNN, độ dốc của bạn có thể trở nên quá nhỏ; . Vấn đề được gọi là Vanishing Gradient khi độ dốc quá nhỏ. Nó dẫn đến thời gian đào tạo dài, hiệu suất kém và độ chính xác thấp

Q109. Tuyên truyền ngược là gì và giải thích nó hoạt động

Lan truyền ngược là một thuật toán đào tạo được sử dụng cho mạng thần kinh nhiều lớp. Trong phương pháp này, chúng tôi chuyển lỗi từ một điểm cuối của mạng sang tất cả các trọng số bên trong mạng, do đó cho phép tính toán độ dốc hiệu quả

Nó có các bước sau

Chuyển tiếp tuyên truyền dữ liệu đào tạo
Các công cụ phái sinh được tính bằng đầu ra và mục tiêu
Quay lại Tuyên truyền để tính toán dẫn xuất của lỗi kích hoạt đầu ra wrt
Sử dụng các công cụ phái sinh đã tính toán trước đó cho đầu ra
Cập nhật trọng số

Q110. Các biến thể của Tuyên truyền ngược là gì?

Độ dốc ngẫu nhiên. Chúng tôi chỉ sử dụng một ví dụ đào tạo duy nhất để tính toán độ dốc và cập nhật tham số
Giảm dần hàng loạt. Chúng tôi tính toán độ dốc cho toàn bộ tập dữ liệu và thực hiện cập nhật ở mỗi lần lặp lại
Mini-batch Gradient Descent. Đây là một trong những thuật toán tối ưu hóa phổ biến nhất. Đó là một biến thể của Stochastic Gradient Descent và ở đây thay vì một ví dụ đào tạo đơn lẻ, một loạt mẫu nhỏ được sử dụng

Q112. Vai trò của Chức năng kích hoạt là gì?

Chức năng Kích hoạt được sử dụng để đưa tính phi tuyến tính vào mạng thần kinh giúp mạng học các chức năng phức tạp hơn. Nếu không có nó, mạng thần kinh sẽ chỉ có thể học hàm tuyến tính là sự kết hợp tuyến tính của dữ liệu đầu vào của nó. Hàm kích hoạt là một hàm trong nơ-ron nhân tạo cung cấp đầu ra dựa trên đầu vào

Mục đíchThư việnTính toán khoa họcNumpyDữ liệu dạng bảngPandasMô hình hóa dữ liệu & tiền xử lýScikit LearnPhân tích chuỗi thời gianStatsmodelsxử lý văn bảnBiểu thức chính quy, NLTKDeep LearningTensorflow, Pytorch

Q114. Bộ mã hóa tự động là gì?

Bộ mã hóa tự động là mạng học tập đơn giản nhằm chuyển đổi đầu vào thành đầu ra với lỗi tối thiểu có thể. Điều này có nghĩa là chúng tôi muốn đầu ra càng gần đầu vào càng tốt. Chúng tôi thêm một vài lớp giữa đầu vào và đầu ra và kích thước của các lớp này nhỏ hơn lớp đầu vào. Bộ mã hóa tự động nhận đầu vào không ghi nhãn, sau đó được mã hóa để tái tạo lại đầu vào

Q115. Máy Boltzmann là gì?

Các máy Boltzmann có một thuật toán học đơn giản cho phép chúng khám phá các tính năng thú vị đại diện cho các quy luật phức tạp trong dữ liệu huấn luyện. Máy Boltzmann về cơ bản được sử dụng để tối ưu hóa trọng số và số lượng cho bài toán đã cho. Thuật toán học rất chậm trong các mạng có nhiều lớp bộ phát hiện tính năng. Thuật toán "Máy Boltzmann bị hạn chế" có một lớp trình phát hiện tính năng duy nhất giúp nó nhanh hơn phần còn lại

Q116. Bỏ học và Chuẩn hóa hàng loạt là gì?

Bỏ học là một kỹ thuật loại bỏ ngẫu nhiên các đơn vị ẩn và hiển thị của mạng để ngăn chặn quá mức dữ liệu [thường giảm 20% số nút]. Nó nhân đôi số lần lặp cần thiết để hội tụ mạng

Chuẩn hóa hàng loạt là kỹ thuật cải thiện hiệu suất và tính ổn định của mạng thần kinh bằng cách chuẩn hóa các đầu vào trong mọi lớp để chúng có kích hoạt đầu ra trung bình bằng 0 và độ lệch chuẩn bằng 1

Q117. Sự khác biệt giữa Giảm dần Gradient hàng loạt và Giảm dần Gradient ngẫu nhiên là gì?

Giảm dần hàng loạt

Độ dốc ngẫu nhiên

Độ dốc hàng loạt tính toán độ dốc bằng cách sử dụng toàn bộ tập dữ liệu

Độ dốc ngẫu nhiên tính toán độ dốc bằng cách sử dụng một mẫu duy nhất

Cần có thời gian để hội tụ vì khối lượng dữ liệu rất lớn và trọng số cập nhật chậm

Nó hội tụ nhanh hơn nhiều so với gradient hàng loạt vì nó cập nhật trọng số thường xuyên hơn

Q118. Tại sao Tensorflow là thư viện được ưa thích nhất trong Deep Learning?

Tensorflow cung cấp cả API C++ và Python, giúp làm việc dễ dàng hơn và có thời gian biên dịch nhanh hơn so với các thư viện Deep Learning khác như Keras và Torch. Tensorflow hỗ trợ cả thiết bị tính toán CPU và GPU

Q119. Bạn có ý nghĩa gì bởi Tensor trong Tensorflow?

Một tenxơ là một đối tượng toán học được biểu diễn dưới dạng các mảng có kích thước cao hơn. Các mảng dữ liệu có kích thước và thứ hạng khác nhau được cung cấp làm đầu vào cho mạng thần kinh được gọi là “Tensors. ”

Q120. Biểu đồ tính toán là gì?

Mọi thứ trong tensorflow đều dựa trên việc tạo ra một biểu đồ tính toán. Nó có một mạng lưới các nút trong đó mỗi nút hoạt động, Các nút đại diện cho các phép toán và các cạnh đại diện cho các tenxơ. Vì dữ liệu chảy dưới dạng biểu đồ nên nó còn được gọi là “Đồ thị DataFlow. ”

Q121. Mạng đối thủ sáng tạo là gì?

Giả sử có một cửa hàng rượu mua rượu từ các đại lý, sau đó họ bán lại. Nhưng một số đại lý bán rượu giả. Trong trường hợp này, chủ cửa hàng cần phân biệt được đâu là rượu thật đâu là rượu giả.

Kẻ giả mạo sẽ thử các kỹ thuật khác nhau để bán rượu giả và đảm bảo rằng các kỹ thuật cụ thể đó sẽ vượt qua sự kiểm tra của chủ cửa hàng. Chủ cửa hàng có thể sẽ nhận được một số phản hồi từ các chuyên gia về rượu rằng một số loại rượu không phải là rượu chính hãng. Chủ sở hữu sẽ phải cải thiện cách anh ta xác định xem rượu là giả hay thật

Mục tiêu của người làm giả là tạo ra những loại rượu không thể phân biệt được với rượu thật trong khi chủ cửa hàng có ý định phân biệt rượu thật hay không một cách chính xác

Hãy để chúng tôi hiểu ví dụ này với sự trợ giúp của một hình ảnh

Có một vectơ nhiễu đến với người giả mạo đang tạo ra rượu giả

Ở đây, người giả mạo hoạt động như một Trình tạo

Chủ cửa hàng đóng vai trò là Người phân biệt đối xử

Bộ phân biệt có hai đầu vào; . Chủ cửa hàng phải tìm hiểu xem đó là thật hay giả

Vì vậy, có hai thành phần chính của Generative Adversarial Network [GAN] có tên là

Trình tạo là một CNN giữ các khóa tạo ra hình ảnh và có hình thức gần giống với hình ảnh thực trong khi bộ phân biệt cố gắng xác định sự khác biệt giữa hình ảnh thật và giả Mục đích cuối cùng là làm cho bộ phân biệt học cách xác định hình ảnh thật và giả

Ngoài những câu hỏi rất kỹ thuật, người phỏng vấn của bạn thậm chí có thể đánh bạn bằng một vài câu hỏi đơn giản để kiểm tra sự tự tin tổng thể của bạn, chẳng hạn như sau

Q122. Các kỹ năng quan trọng cần có trong Python liên quan đến phân tích dữ liệu là gì?

Sau đây là một số kỹ năng quan trọng cần sở hữu sẽ hữu ích khi thực hiện phân tích dữ liệu bằng Python

Hiểu biết tốt về các kiểu dữ liệu tích hợp, đặc biệt là danh sách, từ điển, bộ dữ liệu và bộ
Làm chủ Mảng NumPy N-chiều
Làm chủ khung dữ liệu Pandas
Khả năng thực hiện các phép toán vectơ và ma trận theo phần tử trên các mảng NumPy
Biết rằng bạn nên sử dụng bản phân phối Anaconda và trình quản lý gói conda
Làm quen với Scikit-learning. ** Bảng cheat Scikit-Learn **
Khả năng viết hiểu danh sách hiệu quả thay vì các vòng lặp truyền thống
Khả năng viết các hàm nhỏ, rõ ràng [quan trọng đối với bất kỳ nhà phát triển nào], tốt nhất là các hàm thuần túy không làm thay đổi đối tượng
Biết cách lập cấu hình hiệu suất của tập lệnh Python và cách tối ưu hóa các nút cổ chai

Những điều sau đây sẽ giúp giải quyết mọi vấn đề trong phân tích dữ liệu và học máy

Tôi hy vọng bộ Câu hỏi và trả lời phỏng vấn về Khoa học dữ liệu này sẽ giúp ích cho bạn trong việc chuẩn bị cho các cuộc phỏng vấn của mình. Tất cả tốt nhất

Có một câu hỏi cho chúng tôi?

Edureka có một Chương trình đào tạo về Khoa học dữ liệu được tuyển chọn đặc biệt giúp bạn đạt được kiến thức chuyên môn về các Thuật toán máy học như K-Means Clustering, Cây quyết định, Rừng ngẫu nhiên, Naive Bayes. Bạn cũng sẽ tìm hiểu các khái niệm về Thống kê, Chuỗi thời gian, Khai thác văn bản và giới thiệu về Học sâu. Bạn sẽ giải quyết các nghiên cứu tình huống thực tế về Truyền thông, Chăm sóc sức khỏe, Truyền thông xã hội, Hàng không, Nhân sự. Các đợt mới cho khóa học này sắp bắt đầu

Ngoài ra, nếu bạn đang tìm kiếm khóa đào tạo có cấu trúc trực tuyến về Khoa học dữ liệu, edureka. có Khóa học về Khoa học dữ liệu được tuyển chọn đặc biệt giúp bạn có kiến thức chuyên môn về Thống kê, Sắp xếp dữ liệu, Phân tích dữ liệu khám phá và Thuật toán học máy như K-Means Clustering, Cây quyết định, Rừng ngẫu nhiên và Naive Bayes. Bạn cũng sẽ tìm hiểu các khái niệm về Chuỗi thời gian, Khai thác văn bản và giới thiệu về Học sâu. Các đợt mới cho khóa học này sắp bắt đầu.