Hoàn toàn ổn khi nhập thủ công nhiều bộ dữ liệu. Tuy nhiên, sẽ có lúc bạn muốn nhập một loạt các bộ dữ liệu mà không phải thực hiện nhiều cuộc gọi read_csv[]
. Bạn có thể sử dụng thư viện glob
được tích hợp vào Python để tìm các tệp phù hợp với một mẫu. Thư viện được gọi là "Quả cầu" vì "Globbing" là cách các mẫu được chỉ định trong vỏ bash.
Hàm glob[]
trả về một danh sách các tên tệp phù hợp với một mẫu được chỉ định. Sau đó, bạn có thể sử dụng danh sách hiểu để nhập nhiều tệp vào danh sách và sau đó bạn có thể trích xuất DataFrame quan tâm.
Trong bài viết này, chúng ta sẽ xem cách đọc nhiều tệp dữ liệu vào gấu trúc, các tệp dữ liệu có nhiều loại, đây là một vài cách để đọc nhiều tệp bằng cách sử dụng gói Pandas trong Python.
Các tệp trình diễn có thể được tải xuống từ đây
Phương pháp 1: Đọc các tệp CSV
Nếu các tệp dữ liệu của chúng tôi ở định dạng CSV thì phải sử dụng phương thức read_csv []. read_csv lấy một đường dẫn tệp làm đối số. Nó đọc nội dung của CSV. Để đọc nhiều tệp CSV, chúng tôi chỉ có thể sử dụng một vòng lặp đơn giản và lặp trên tất cả các tệp. & NBSP;
Ví dụ: Đọc nhiều tệp CSV bằng gấu trúc
Trong ví dụ này, chúng tôi lập danh sách các tệp dữ liệu hoặc đường dẫn tệp của chúng tôi và sau đó lặp qua các đường dẫn tệp bằng cách sử dụng vòng lặp, một vòng lặp được sử dụng để lặp lại thông qua các vòng lặp như danh sách, bộ dữ liệu, chuỗi, v.v. và sau đó tạo khung dữ liệu Sử dụng pd.dataFrame [], kết hợp từng dataFrame thành một khung dữ liệu chính bằng pd.concat [], sau đó chuyển đổi dữ liệu chính cuối cùng thành tệp CSV bằng phương thức một cuộc tranh cãi.
Python3
import
pandas as pd
file_list
=
[
'a.csv'
,
glob
0,
glob
2glob
3
glob
4=
glob
6glob
7glob
8
glob
9 glob[]
0glob[]
1 glob[]
2glob[]
3glob[]
4,
glob[]
6glob[]
7
glob[]
8glob[]
9=
import
1
glob[]
8import
3=
import
5
glob[]
8glob
4=
import
9=
glob[]
4pandas as pd
2
pandas as pd
3pandas as pd
4
Output:
Phương pháp 2: Sử dụng gói Glob
Mô -đun GLOB trong Python được sử dụng để truy xuất các tệp hoặc tên đường dẫn khớp với một mẫu được chỉ định. & NBSP;
Chương trình này tương tự như chương trình trên nhưng sự khác biệt duy nhất là thay vì theo dõi tên tệp bằng danh sách chúng tôi sử dụng gói Glob để truy xuất các tệp phù hợp với một mẫu được chỉ định.
Ví dụ: Đọc nhiều tệp CSV bằng Pandas và Glob.
Python3
import
pandas as pd
glob
4=
glob
6glob
7glob
8
glob
9 glob[]
0glob[]
1 glob[]
2glob[]
3glob[]
4,
glob[]
6glob[]
7
glob[]
8glob[]
9=
import
1
glob
4=
glob
6glob
7glob
8
glob
9 glob[]
0glob[]
1 glob[]
2glob[]
3glob[]
4,
glob[]
6glob[]
7
glob[]
8glob[]
9=
import
1
glob[]
8import
3=
import
5
glob[]
8glob
4=
import
9=
glob[]
4pandas as pd
2
pandas as pd
3pandas as pd
4
Output:
Phương pháp 2: Sử dụng gói Glob
Mô -đun GLOB trong Python được sử dụng để truy xuất các tệp hoặc tên đường dẫn khớp với một mẫu được chỉ định. & NBSP;
Chương trình này tương tự như chương trình trên nhưng sự khác biệt duy nhất là thay vì theo dõi tên tệp bằng danh sách chúng tôi sử dụng gói Glob để truy xuất các tệp phù hợp với một mẫu được chỉ định.
Ví dụ: Đọc nhiều tệp CSV bằng Pandas và Glob.
Python3
import
pandas as pd
glob
4=
glob
6glob
7glob
8
glob
9 glob[]
0glob[]
1 glob[]
2glob[]
3glob[]
4,
glob[]
6glob[]
7
glob[]
8glob[]
9=
import
1
glob[]
8import
3=
import
5
glob
9 glob[]
0glob[]
1 glob[]
2glob[]
3glob[]
4,
glob[]
6glob[]
7
glob[]
8glob[]
9=
import
1
glob[]
8import
3=
import
5
glob[]
8glob
4=
import
9=
glob[]
4pandas as pd
2
pandas as pd
3pandas as pd
4
glob
33glob
34pandas as pd
2
Output: