Python được phân tách bằng tab csv

Bài viết này dành cho những người mới bắt đầu muốn tải dữ liệu của mình đúng cách vào Python. Chúng tôi sẽ giới thiệu cho bạn một số kỹ thuật khác nhau để bạn có thể bắt đầu dự án Machine Learning của mình bằng Python dễ dàng hơn

Nguồn. shanelynn. I E

Tải dữ liệu Machine Learning

Bạn cần xác định các phần quan trọng trong tệp dữ liệu của mình. Trong máy học, CSV hoặc các giá trị được phân tách bằng dấu phẩy là định dạng biến được sử dụng phổ biến nhất. Các phần và tính năng quan trọng trong tệp CSV của dữ liệu máy học bao gồm Tiêu đề tệp CSV, Nhận xét, Dấu phân cách và Dấu ngoặc kép

        • Tiêu đề tệp CSV [Tiêu đề tệp CSV]. Tiêu đề trong tệp CSV được sử dụng để tự động gán tên hoặc nhãn cho từng cột trong tệp dữ liệu của bạn. Bạn sẽ phải tự đặt tên cho các thuộc tính của mình nếu tệp của bạn không có tiêu đề
        • Nhận xét [Nhận xét]. Bạn có thể xác định bất kỳ phần nào là nhận xét trong tệp CSV khi một dòng bắt đầu bằng dấu thăng hạng [#]. Tùy thuộc vào phương pháp bạn chọn để tải dữ liệu máy học của mình, bạn sẽ phải xác định xem mình có muốn những nhận xét này hiển thị hay không và cách bạn có thể xác định chúng
        • Delimiter [Dấu phân cách]. Dấu phân cách phân tách nhiều giá trị trong một trường và được biểu thị bằng dấu phẩy [,]. Tab [\t] cũng là một dấu phân cách khác mà bạn có thể sử dụng, nhưng bạn phải chỉ định nó một cách rõ ràng
        • Quotes [Dấu ngoặc kép]. Nếu giá trị trường trong tệp của bạn bao gồm khoảng trắng, những giá trị này thường được trích dẫn và trích dẫn trích dẫn sẽ được sử dụng để biểu thị. Nếu bạn chọn sử dụng các ký tự khác nhau, bạn chỉ cần định điều này trong tệp của mình

Sau khi bạn xác định xong các phần này trong tệp dữ liệu của mình, chúng ta sẽ tiếp tục tìm hiểu các phương pháp khác nhau để tải dữ liệu machine learning vào Python

Tải dữ liệu bằng thư viện chuẩn của Python

Để tải dữ liệu của bạn bằng Thư viện chuẩn của Python, bạn sẽ sử dụng mô-đun CSV và trình đọc hàm[]. Khi tải xuống, dữ liệu CSV sẽ tự động chuyển đổi thành mảng NumPy có thể được sử dụng cho máy học

Dưới đây là một ví dụ cho bạn. Đây là một đoạn mã nhỏ mà khi bạn chạy bằng API Python sẽ tải xuống tệp dữ liệu không có tiêu đề và chứa các trường số này. Nó cũng sẽ tự động chuyển đổi thành một mảng NumPy

# Tải CSV [sử dụng python]
nhập csv
nhập numpy
filename = 'pima-indians- . dữ liệu. csv’
raw_data = open[filename, ‘rt’]
reader = csv. trình đọc [raw_data, delimiter=’,’, quoting=csv. QUOTE_NONE]
x = list[reader]
data = numpy. mảng[x]. astype[‘float’]
print[dữ liệu. hình dạng]

Hay chúng ta có thể hiểu đơn giản như sau. Đoạn mã này ra lệnh cho chương trình tải một đối tượng cho phép lặp qua từng hàng dữ liệu và có thể chuyển đổi dễ dàng thành mảng NumPy. Dạng dưới đây của mảng sẽ được tạo ra khi bạn chạy mã mẫu ở trên

1 [768, 9]

Tải tệp dữ liệu bằng NumPy

Một cách khác để tải dữ liệu máy học vào Python là sử dụng NumPy và hàm numpy. tảitxt[]

Ví dụ, bạn có thể xem mẫu mã bên dưới. Giả định rằng tệp của bạn không có hàng tiêu đề và tất cả dữ liệu sử dụng cùng một định dạng. Nó cũng giả định rằng tập tin pima-indians-diab. dữ liệu. csv đã được lưu trữ trong thư mục hiện tại của bạn

# Load CSV
nhập numpy
filename = ‘pima-indians-diabetes. dữ liệu. csv’
raw_data = open[filename, ‘rt’]
data = numpy. loadtxt[raw_data, delimiter=”,”]
print[dữ liệu. hình dạng]

Dưới đây là định dạng của dữ liệu và tệp sẽ được tải xuống dưới dạng numpy. ndarray when you running code at on

1 [768, 9]

Nếu tệp của bạn có thể được truy xuất bằng URL, thì mã trên có thể được thay đổi thành như sau, và vẫn tạo ra cùng một tệp dữ liệu

# Tải CSV từ URL bằng NumPy
từ loadtxt nhập numpy
từ urllib. yêu cầu nhập urlopen
url = ‘https. // thô. githubusercontent. com/jbrownlee/Datasets/master/pima-indiansiabetes. dữ liệu. csv’
raw_data = urlopen[url]
dataset = loadtxt[raw_data, delimiter=”,”]
print[dataset. hình dạng]

You will have a results of data format as on if you run code

1 [768, 9]

Nguồn. cơ bản về python. tổ chức

Tải tệp dữ liệu bằng Pandas

Cách thứ ba để tải dữ liệu máy học của bạn là sử dụng pandas và hàm pandas. read_csv[]

Đây là cách linh hoạt và lý tưởng nhất để tải dữ liệu machine learning của bạn. Nó trả về một con gấu trúc. DataFrame và bạn có thể bắt đầu viết tắt và thiết lập kế hoạch ngay lập tức

Mẫu bên dưới giả định rằng tệp pima-indians-diab. dữ liệu. csv đã được lưu trữ trong thư mục hiện tại của bạn

1 # Tải CSV bằng Pandas
2 nhập gấu trúc
3 tên tệp = ‘pima-indians-diabetes. dữ liệu. csv'
4 tên = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class' . read_csv[tên tệp, tên=tên]
5 data = pandas.read_csv[filename, names=names]
6 print[dữ liệu. hình dạng]

Tên của từng thuộc tính đối với DataFrame bên dưới đã được xác định rõ ràng. Khi bạn chạy mã mẫu ở trên, định dạng dữ liệu sau đó sẽ xuất hiện

1 [768, 9]

Nếu tệp của bạn có thể được truy xuất bằng URL, thì mã trên có thể được thay đổi như bên dưới và vẫn tạo ra cùng một tệp dữ liệu

1 # Tải CSV bằng Pandas từ URL
2 Nhập pandas
3 url = “https. // thô. githubusercontent. com/jbrownlee/Datasets/master/pima-indians-diabetes. dữ liệu. csv”
4 tên = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class' . read_csv[url, names=names]
5 data = pandas.read_csv[url, names=names]
6 print[dữ liệu. hình dạng]

Chạy mã mẫu ở trên sẽ cho phép tải xuống tệp CSV, phân tích cú pháp tệp đó và tạo định dạng sau của DataFrame đã tải xuống

1 [768, 9]

Kết luận

Trên đây là ba phương pháp khác nhau để nhập dữ liệu của bạn vào Python và chúng chỉ là quy trình làm việc cơ bản. Bạn có thể chọn phương pháp nào phù hợp nhất để bắt đầu dự án của mình

iRender hiện đang cung cấp GPU Cloud cho dịch vụ AI/Deep Learning để người dùng có thể đào tạo các mô hình của mình. Với cấu hình máy chủ và hiệu suất cao của iRender, bạn có thể cài đặt bất kỳ phần mềm nào bạn cần cho dự án của mình. Chỉ cần một vài cú nhấp chuột, bạn có thể truy cập vào máy chủ của chúng tôi và có toàn quyền kiểm tra nó. Việc đào tạo mô hình của bạn sẽ tăng tốc độ nhanh hơn gấp 10 lần hoặc thậm chí 50 lần

Để biết thêm thông tin, vui lòng đăng ký tại đây và thử sử dụng dịch vụ của chúng tôi. Hoặc liên hệ với chúng tôi qua Zalo 0962 868 890 để được tư vấn và hỗ trợ

Nguồn: pythonbasics.org

#irender, 2x rtx 3090, 6X Rtx 2080 Ti. , 6 X Rtx3080, 6 X Rtx3090, AI, AI Models, Cho XuCpu&Gpu, cloud computing, cloud gpu, Deep Learning, Deep Learning Model, IRender AI, Machine Learning, Machine Learning Model, Machine Learning With GPU, PyThon, Rtx 3090

Chủ Đề