Phân tích dữ liệu khám phá thường được sử dụng để khám phá các mẫu khác nhau có trong dữ liệu của bạn và để rút ra kết luận từ nó. EDA là phần cốt lõi khi phát triển mô hình học máy. Điều này diễn ra thông qua phân tích và trực quan hóa dữ liệu sẽ được đưa vào mô hình học máy. Trong blog này, chúng ta sẽ thấy cách bắt đầu phân tích dữ liệu khám phá để học máy với Python.Machine Learning Model. In this blog, we will see on how to get started with Exploratory Data Analysis for Machine learning with Python.
Là người mới bắt đầu, tôi đã đấu tranh rất nhiều trong khi khám phá và hiểu các mẫu khác nhau có trong bộ dữ liệu, cũng không thể bỏ qua phần phân tích dữ liệu khám phá trong khi bạn đang tạo mô hình học máy, bởi vì EDA là gốc của quy trình tạo mô hình ML của bạn. Nếu không có những hiểu biết và phân tích thích hợp về các mẫu khác nhau có trong dữ liệu của bạn, bạn không thể tiếp tục tạo mô hình học máy của mình. Trong blog này, chúng tôi sẽ thấy các công cụ và các chức năng của nó được sử dụng cho EDA. Trong các blog sắp tới, tôi sẽ thực hiện một cách tiếp cận chi tiết về EDA thông qua một ví dụ.
Đầu tiên, gói hoàn hảo để bắt đầu với EDA là một tập hợp các mô -đun Python được sử dụng đặc biệt để phân tích dữ liệu và trực quan hóa. Bao gồm các :
- Gấu trúc
import pandas as pd
Pandas giúp thao tác dữ liệu trong các bảng và chuỗi tương ứng. Khi bạn bắt đầu nhập các bộ dữ liệu và làm việc với chúng, bạn sẽ nhận thấy Pandas thực sự quan trọng như thế nào. Không cần thiết phải biết theo nghĩa đen tất cả các chức năng có trong thư viện này nhưng vâng, một số ít sẽ giúp thao tác dữ liệu rất nhiều.
- Numpy
import numpy as np
Khi nói đến việc sử dụng Numpy trong mã của mình, bạn có thể dễ dàng tự động hóa dữ liệu liên quan đến các mảng đa chiều. Numpy giúp rất nhiều trong học tập sâu, nơi hình ảnh sẽ được chuyển đổi theo cách cụ thể để thiết lập dữ liệu đào tạo và kiểm tra/đánh giá. Numpy là hữu ích trong cả khoa học dữ liệu và học tập sâu.
- Matplotlib
import matplotlib.pyplot as plt
Matplotlib giúp vẽ sơ đồ dữ liệu của bạn một cách sinh động để hiểu các mẫu có trong bộ dữ liệu của bạn. Không thể rút ra kết luận về dữ liệu của bạn mà không trực quan hóa nó. Vì vậy, bằng cách sử dụng matplotlib, hãy thử tạo các ô, biểu đồ, sơ đồ phân tán, v.v ... Điều này sẽ giúp bạn rất nhiều khi nói đến mô hình hóa dữ liệu và kỹ thuật tính năng trong học máy.
- SeaBall
import seaborn as sns
Seaborn tương tự như matplotlib, sự khác biệt duy nhất là cái trước đây có các thông số mát hơn nhiều có trong các chức năng tương ứng. Một lần nữa, ý tưởng chính đằng sau Seaborn và Matplotlib là xác định nhiều mẫu có trong dữ liệu thô của bạn và loại bỏ dữ liệu chưa được yêu cầu khỏi bộ dữ liệu của bạn và cung cấp nó cho mô hình của bạn. Điều này giúp cải thiện độ chính xác của mô hình và biết dữ liệu rõ ràng hơn.
Phân tích dữ liệu không có gì nếu không có dữ liệu. Vì vậy, để có được phong phú trong miền này, chìa khóa duy nhất là sử dụng tất cả các thư viện này cùng nhau trong mã của bạn. Điều này sẽ giúp tìm hiểu các chức năng cần thiết và cần thiết của các mô -đun này và sử dụng đúng chúng vào thời điểm cần thiết trong mã. Tôi hi vọng cái này giúp được.
Ban đầu về điều này sẽ là trước tiên làm quen với các chức năng cơ bản của các thư viện này và tự mình thử các cách tiếp cận khác nhau trên các bộ dữ liệu.
Vì vậy, như tôi đã đề cập trước đó, Pandas và Numpy, cả hai thư viện này đều được sử dụng để thao tác dữ liệu cũng như phân tích của nó, vì vậy chúng tôi nhanh chóng có một cái nhìn ngắn gọn về dữ liệu.
Example:
Nếu giả sử tôi phải tạo một bộ dữ liệu mới gồm hai tính năng - F_1 và F_2 [giả sử cả hai tính năng này đều thuộc loại dữ liệu] để trực quan hóa thì chúng tôi sử dụng phương thức Concat có trong thư viện Pandas.
import pandas as pd
pd.concat[[f_1, f_2], axis=1]
Vì vậy, về cơ bản, gấu trúc, numpy hoặc bất kỳ công cụ nào khác có thể được tích hợp để trực quan hóa bằng các thư viện matplotlib và seeborn.
Trực quan hóa dữ liệu được thực hiện bằng cách sử dụng matplotlib và seeborn. Thông qua các mô -đun này, trước tiên chúng tôi tìm ra cặp cho bộ dữ liệu của chúng tôi.
Cặp này thường giúp xác định bản chất của mối quan hệ có mặt trong các tính năng và mục tiêu của bộ dữ liệu. Ngoài ra, cặp đôi đang được theo sau -
- Heatmaps,
- Biểu đồ
- Barplots
- Piecharts
Vì vậy, để tóm tắt, EDA thực sự là một nhiệm vụ lớn thường liên quan đến nhiều chức năng của các mô -đun khác nhau được tích hợp cùng với nhau để đưa ra kết luận và mẫu có trong bộ dữ liệu của chúng tôi. Mặc dù EDA có vẻ khó khăn nhưng nó thực sự khá thú vị. Ngoài ra, tôi muốn giữ blog này ngắn gọn và giới thiệu và không bao gồm bất kỳ chức năng nào để được nhìn chằm chằm trực tiếp với phân tích và trực quan hóa. Vì vậy, trong blog sắp tới, tôi sẽ thực hiện một cách tiếp cận ngắn gọn về EDA với một ví dụ bao gồm các hình ảnh trực quan chính xác để hiểu dữ liệu.