Trong bài viết này, chúng tôi sẽ thảo luận về cách đọc tệp CSV với các loại dấu phân cách khác nhau đối với Khung dữ liệu
Thư viện Pandas của Python cung cấp chức năng tải tệp csv vào Dataframe i. e
pandas.read_csv[filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, ....]
Nó đọc nội dung của tệp csv theo đường dẫn nhất định, sau đó tải nội dung vào Dataframe và trả về nội dung đó. Nó sử dụng dấu phẩy [,] làm dấu phân cách hoặc dấu phân cách mặc định khi phân tích cú pháp một tệp. Nhưng chúng ta cũng có thể chỉ định dấu tách tùy chỉnh hoặc cụm từ thông dụng sẽ được sử dụng làm dấu tách tùy chỉnh
Để sử dụng gấu trúc. read_csv[] nhập mô-đun pandas i. e
import pandas as pd
Sử dụng read_csv[] với dấu phân cách tùy chỉnh
Giả sử chúng ta có tệp 'người dùng. csv' trong đó các cột được phân tách bằng chuỗi '__' như thế này.
Nội dung của người dùng tệp. csv như sau,
Name__Age__City jack__34__Sydeny Riti__31__Delhi Aadi__16__New York Suse__32__Lucknow Mark__33__Las vegas Suri__35__Patna
Bây giờ để tải loại tệp này vào một đối tượng khung dữ liệu bằng gấu trúc. read_csv[] chúng ta phải chuyển các đối số sep & engine cho pandas. read_csv[] tôi. e.
______3
Đầu ra.
Contents of Dataframe : Name Age City 0 jack 34 Sydeny 1 Riti 31 Delhi 2 Aadi 16 New York 3 Suse 32 Lucknow 4 Mark 33 Las vegas 5 Suri 35 Patna
Ở đây, đối số sep sẽ được sử dụng làm dấu phân cách hoặc dấu phân cách. Nếu đối số sep không được chỉ định thì công cụ mặc định để phân tích cú pháp [ C Engine] sẽ được sử dụng sử dụng ',' làm dấu phân cách. Vì vậy, trong khi chỉ định đối số sep tùy chỉnh, chúng ta phải chỉ định đối số engine là 'python', nếu không chúng ta sẽ nhận được cảnh báo như thế này,
ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators [separators > 1 char and different from '\s+' are interpreted as regex];
Bạn có thể tránh điều này .
quảng cáo
Sử dụng read_csv[] với khoảng trắng hoặc tab làm dấu phân cách
Như chúng ta đã thấy trong ví dụ trên, chúng ta có thể chuyển các dấu phân cách tùy chỉnh. Bây giờ, giả sử chúng ta có một tệp trong đó các cột được phân tách bằng khoảng trắng hoặc tab i. e.
Nội dung của tệp users_4. csv là,
Name Age City jack 34 Sydeny Riti 31 Delhi
Bây giờ, để tải loại tệp này vào khung dữ liệu bằng pandas. read_csv[] chuyển ‘\s+’ làm dấu phân cách. Ở đây \s+ có nghĩa là bất kỳ một hoặc nhiều ký tự khoảng trắng nào.
______7
Nội dung của khung dữ liệu được trả về là,
*** Using pandas.read_csv[] with space or tab as delimiters *** Contents of Dataframe : Name Age City 0 jack 34 Sydeny 1 Riti 31 Delhi
Sử dụng read_csv[] với biểu thức chính quy cho dấu phân cách
Giả sử chúng ta có một tệp sử dụng nhiều ký tự phân cách thay vì một ký tự duy nhất. Giống,
Nội dung của tập tin users_5. csv là,
Name,Age|City jack,34_Sydeny Riti:31,Delhi Aadi,16:New York Suse,32:Lucknow Mark,33,Las vegas Suri,35:Patna
Bây giờ, để tải loại tệp này vào khung dữ liệu bằng read_csv[], hãy chuyển một biểu thức chính quy i. e. ‘[. ,. _]’ trong lập luận sep. Biểu thức chính quy này có nghĩa là sử dụng bất kỳ ký tự nào trong số này [ ,. . ] asa dấu phân cách hoặc dấu phân cách i. e.
______10
Đầu ra.
Contents of Dataframe : Name Age City 0 jack 34 Sydeny 1 Riti 31 Delhi 2 Aadi 16 New York 3 Suse 32 Lucknow 4 Mark 33 Las vegas 5 Suri 35 Patna
Ví dụ hoàn chỉnh như sau.
______12
Đầu ra.
import pandas as pd3
Hướng dẫn về Pandas -Tìm hiểu Phân tích dữ liệu với Python
- Hướng dẫn Pandas Phần #1 - Giới thiệu về Phân tích dữ liệu với Python
- Hướng dẫn Pandas Phần #2 - Khái niệm cơ bản về Pandas Series
- Hướng dẫn Pandas Phần #3 - Nhận & Đặt giá trị Chuỗi
- Pandas Tutorial Part #4 - Thuộc tính & phương thức của Pandas Series
- Hướng dẫn về Pandas Phần #5 - Thêm hoặc xóa các thành phần của Pandas Series
- Hướng dẫn về Pandas Phần #6 - Giới thiệu về DataFrame
- Hướng dẫn về Pandas Phần #7 - DataFrame. loc[] - Chọn Hàng/Cột theo Lập chỉ mục
- Hướng dẫn về Pandas Phần #8 - DataFrame. iloc[] - Chọn Hàng/Cột theo Tên nhãn
- Hướng dẫn về gấu trúc Phần #9 - Lọc các hàng trong khung dữ liệu
- Hướng dẫn Pandas Phần #10 - Thêm/Xóa Hàng & Cột DataFrame
- Hướng dẫn về Pandas Phần #11 - Các thuộc tính & phương thức DataFrame
- Hướng dẫn Pandas Phần #12 - Xử lý dữ liệu bị thiếu hoặc giá trị NaN
- Hướng dẫn về Pandas Phần #13 - Lặp lại các Hàng & Cột của DataFrame
- Hướng dẫn Pandas Phần #14 - Sắp xếp DataFrame theo Hàng hoặc Cột
- Hướng dẫn về gấu trúc Phần #15 - Hợp nhất hoặc ghép các khung dữ liệu
- Hướng dẫn về Pandas Phần #16 - DataFrame GroupBy được giải thích bằng các ví dụ
Bạn đang muốn tạo dựng sự nghiệp trong Khoa học dữ liệu với Python?
Khoa học dữ liệu là tương lai và tương lai là ở đây ngay bây giờ. Các nhà khoa học dữ liệu hiện là những chuyên gia được tìm kiếm nhiều nhất hiện nay. Để trở thành một Nhà khoa học dữ liệu giỏi hoặc để chuyển đổi nghề nghiệp trong Khoa học dữ liệu, người ta phải sở hữu bộ kỹ năng phù hợp. Chúng tôi đã tuyển chọn danh sách Chứng chỉ chuyên nghiệp tốt nhất về Khoa học dữ liệu với Python. Các khóa học này sẽ dạy cho bạn các công cụ lập trình cho Khoa học dữ liệu như Pandas, NumPy, Matplotlib, Seaborn và cách sử dụng các thư viện này để triển khai các mô hình Máy học
Kiểm tra Đánh giá chi tiết về Chứng chỉ chuyên nghiệp tốt nhất về Khoa học dữ liệu với PythonHãy nhớ rằng, Khoa học dữ liệu đòi hỏi rất nhiều kiên nhẫn, bền bỉ và thực hành. Vì vậy, hãy bắt đầu học ngay hôm nay