Python ghi DataFrame vào tệp được phân tách bằng đường ống

Trong bài viết này, chúng tôi sẽ thảo luận về cách đọc tệp CSV với các loại dấu phân cách khác nhau đối với Khung dữ liệu

Thư viện Pandas của Python cung cấp chức năng tải tệp csv vào Dataframe i. e

pandas.read_csv[filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, ....]

Nó đọc nội dung của tệp csv theo đường dẫn nhất định, sau đó tải nội dung vào Dataframe và trả về nội dung đó. Nó sử dụng dấu phẩy [,] làm dấu phân cách hoặc dấu phân cách mặc định khi phân tích cú pháp một tệp. Nhưng chúng ta cũng có thể chỉ định dấu tách tùy chỉnh hoặc cụm từ thông dụng sẽ được sử dụng làm dấu tách tùy chỉnh

Để sử dụng gấu trúc. read_csv[] nhập mô-đun pandas i. e

import pandas as pd

Sử dụng read_csv[] với dấu phân cách tùy chỉnh

Giả sử chúng ta có tệp 'người dùng. csv' trong đó các cột được phân tách bằng chuỗi '__' như thế này.
Nội dung của người dùng tệp. csv như sau,

Name__Age__City
jack__34__Sydeny
Riti__31__Delhi
Aadi__16__New York
Suse__32__Lucknow
Mark__33__Las vegas
Suri__35__Patna

Bây giờ để tải loại tệp này vào một đối tượng khung dữ liệu bằng gấu trúc. read_csv[] chúng ta phải chuyển các đối số sep & engine cho pandas. read_csv[] tôi. e.
______3
Đầu ra.
Contents of Dataframe : 
   Name  Age       City
0  jack   34     Sydeny
1  Riti   31      Delhi
2  Aadi   16   New York
3  Suse   32    Lucknow
4  Mark   33  Las vegas
5  Suri   35      Patna

Ở đây, đối số sep sẽ được sử dụng làm dấu phân cách hoặc dấu phân cách. Nếu đối số sep không được chỉ định thì công cụ mặc định để phân tích cú pháp [ C Engine] sẽ được sử dụng sử dụng ',' làm dấu phân cách. Vì vậy, trong khi chỉ định đối số sep tùy chỉnh, chúng ta phải chỉ định đối số engine là 'python', nếu không chúng ta sẽ nhận được cảnh báo như thế này,
ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators [separators > 1 char and different from '\s+' are interpreted as regex];

Bạn có thể tránh điều này .

quảng cáo

Sử dụng read_csv[] với khoảng trắng hoặc tab làm dấu phân cách

Như chúng ta đã thấy trong ví dụ trên, chúng ta có thể chuyển các dấu phân cách tùy chỉnh. Bây giờ, giả sử chúng ta có một tệp trong đó các cột được phân tách bằng khoảng trắng hoặc tab i. e.
Nội dung của tệp users_4. csv là,

Name   Age City
jack    34  Sydeny
Riti   31  Delhi

Bây giờ, để tải loại tệp này vào khung dữ liệu bằng pandas. read_csv[] chuyển ‘\s+’ làm dấu phân cách. Ở đây \s+ có nghĩa là bất kỳ một hoặc nhiều ký tự khoảng trắng nào.
______7
Nội dung của khung dữ liệu được trả về là,
 *** Using pandas.read_csv[] with space or tab as delimiters ***
Contents of Dataframe : 
   Name  Age    City
0  jack   34  Sydeny
1  Riti   31   Delhi

Sử dụng read_csv[] với biểu thức chính quy cho dấu phân cách

Giả sử chúng ta có một tệp sử dụng nhiều ký tự phân cách thay vì một ký tự duy nhất. Giống,

Nội dung của tập tin users_5. csv là,

Name,Age|City
jack,34_Sydeny
Riti:31,Delhi
Aadi,16:New York
Suse,32:Lucknow
Mark,33,Las vegas
Suri,35:Patna

Bây giờ, để tải loại tệp này vào khung dữ liệu bằng read_csv[], hãy chuyển một biểu thức chính quy i. e. ‘[. ,. _]’ trong lập luận sep. Biểu thức chính quy này có nghĩa là sử dụng bất kỳ ký tự nào trong số này [ ,. . ] asa dấu phân cách hoặc dấu phân cách i. e.
______10
Đầu ra.
Contents of Dataframe : 
   Name  Age       City
0  jack   34     Sydeny
1  Riti   31      Delhi
2  Aadi   16   New York
3  Suse   32    Lucknow
4  Mark   33  Las vegas
5  Suri   35      Patna

Ví dụ hoàn chỉnh như sau.
______12
Đầu ra.
import pandas as pd
3
 

 

Hướng dẫn về Pandas -Tìm hiểu Phân tích dữ liệu với Python

 
  • Hướng dẫn Pandas Phần #1 - Giới thiệu về Phân tích dữ liệu với Python
  • Hướng dẫn Pandas Phần #2 - Khái niệm cơ bản về Pandas Series
  • Hướng dẫn Pandas Phần #3 - Nhận & Đặt giá trị Chuỗi
  • Pandas Tutorial Part #4 - Thuộc tính & phương thức của Pandas Series
  • Hướng dẫn về Pandas Phần #5 - Thêm hoặc xóa các thành phần của Pandas Series
  • Hướng dẫn về Pandas Phần #6 - Giới thiệu về DataFrame
  • Hướng dẫn về Pandas Phần #7 - DataFrame. loc[] - Chọn Hàng/Cột theo Lập chỉ mục
  • Hướng dẫn về Pandas Phần #8 - DataFrame. iloc[] - Chọn Hàng/Cột theo Tên nhãn
  • Hướng dẫn về gấu trúc Phần #9 - Lọc các hàng trong khung dữ liệu
  • Hướng dẫn Pandas Phần #10 - Thêm/Xóa Hàng & Cột DataFrame
  • Hướng dẫn về Pandas Phần #11 - Các thuộc tính & phương thức DataFrame
  • Hướng dẫn Pandas Phần #12 - Xử lý dữ liệu bị thiếu hoặc giá trị NaN
  • Hướng dẫn về Pandas Phần #13 - Lặp lại các Hàng & Cột của DataFrame
  • Hướng dẫn Pandas Phần #14 - Sắp xếp DataFrame theo Hàng hoặc Cột
  • Hướng dẫn về gấu trúc Phần #15 - Hợp nhất hoặc ghép các khung dữ liệu
  • Hướng dẫn về Pandas Phần #16 - DataFrame GroupBy được giải thích bằng các ví dụ
 

Bạn đang muốn tạo dựng sự nghiệp trong Khoa học dữ liệu với Python?

Khoa học dữ liệu là tương lai và tương lai là ở đây ngay bây giờ. Các nhà khoa học dữ liệu hiện là những chuyên gia được tìm kiếm nhiều nhất hiện nay. Để trở thành một Nhà khoa học dữ liệu giỏi hoặc để chuyển đổi nghề nghiệp trong Khoa học dữ liệu, người ta phải sở hữu bộ kỹ năng phù hợp. Chúng tôi đã tuyển chọn danh sách Chứng chỉ chuyên nghiệp tốt nhất về Khoa học dữ liệu với Python. Các khóa học này sẽ dạy cho bạn các công cụ lập trình cho Khoa học dữ liệu như Pandas, NumPy, Matplotlib, Seaborn và cách sử dụng các thư viện này để triển khai các mô hình Máy học

Kiểm tra Đánh giá chi tiết về Chứng chỉ chuyên nghiệp tốt nhất về Khoa học dữ liệu với Python

Hãy nhớ rằng, Khoa học dữ liệu đòi hỏi rất nhiều kiên nhẫn, bền bỉ và thực hành. Vì vậy, hãy bắt đầu học ngay hôm nay

Chủ Đề