Thông thường, chúng tôi làm việc với các tệp Excel và chúng tôi chắc chắn đã bắt gặp một kịch bản mà chúng tôi cần hợp nhất nhiều tệp Excel thành một. Phương pháp truyền thống luôn luôn sử dụng mã VBA bên trong Excel thực hiện công việc nhưng là một quá trình nhiều bước và không dễ hiểu. Một phương pháp khác là sao chép thủ công các tệp excel dài thành một phương pháp không chỉ tiêu thụ thời gian, rắc rối mà còn dễ bị lỗi. & Nbsp;
Nhiệm vụ này có thể được thực hiện dễ dàng và nhanh chóng với một vài dòng mã trong Python với mô -đun Pandas. Đầu tiên, chúng ta cần cài đặt mô -đun với PIP. Vì vậy, hãy để Lừa có được cài đặt theo cách của chúng tôi. & NBSP;Python with the Pandas module. First, we need to install the module with pip. So let’s get the installation out of our way.
Sử dụng lệnh sau trong thiết bị đầu cuối:
pip install pandas
Phương pháp 1: Sử dụng DataFrame.Append []dataframe.append[]
Chức năng Pandas DataFrame.Append [] được sử dụng để nối các hàng của DataFrame khác vào cuối của DataFrame đã cho, trả về một đối tượng DataFrame mới. Các cột không có trong các khung dữ liệu gốc được thêm vào dưới dạng các cột mới và các ô mới được điền với giá trị NAN.dataframe.append[] function is used to append rows of other dataframe to the end of the given dataframe, returning a new dataframe object. Columns not in the original dataframes are added as new columns and the new cells are populated with NaN value.
Cú pháp: dataFrame.Append [khác, bỏ qua_index = false, verify_integrity = false, sort = none] DataFrame.append[other, ignore_index=False, verify_integrity=False, sort=None]
Thông số :
- Khác: DataFrame hoặc Sê-ri/đối tượng giống như Dict hoặc Danh sách các trong số này DataFrame or Series/dict-like object, or list of these
- bỏ qua_index: Nếu đúng, không sử dụng nhãn chỉ mục. Mặc định sai. If True, do not use the index labels. default False.
- Verify_Integrity: Nếu đúng, hãy nâng cao giá trị khi tạo chỉ mục với các bản sao. Mặc định sai. If True, raise ValueError on creating index with duplicates. default False.
- Sắp xếp: Sắp xếp các cột nếu các cột của bản thân và các cột khác không được căn chỉnh. Mặc định sai. Sort columns if the columns of self and other are not aligned. default False.
Trả về: DataFrame được nối thêm: appended DataFrame
Example:
Excel được sử dụng: Thực phẩm1-1, Thực phẩm2-1 & NBSP; FoodSales1-1,
FoodSales2-1
Python3
import
glob
import
pandas as pd
path
=
"C:/downloads"
file_list
=
import
0import
1 import
2import
3
import
4=
import
6
import
7 import
8 import
9 glob
0
glob
1glob
2import
8glob
4
glob
5=
glob
7
import
7 glob
9import
9 import
1
glob
1glob
5=
import
5
import
6import
7=
import
9import
3
pandas as pd
1pandas as pd
2pandas as pd
3=
pandas as pd
5import
3
Đầu ra:
Total_food_sales.xlsx
Phương pháp 2: Sử dụng pandas.concat []pandas.concat[]
Hàm pandas.concat [] thực hiện tất cả các hoạt động nặng thực hiện các hoạt động nối cùng với trục của các đối tượng gấu trúc trong khi thực hiện logic đặt tùy chọn [liên kết hoặc giao lộ] của các chỉ mục [nếu có] trên các trục khác.
Cú pháp: Concat [objs, trục, tham gia, bỏ qua_index, khóa, cấp độ, tên, verify_integrity, sắp xếp, sao chép] concat[objs, axis, join, ignore_index, keys, levels, names, verify_integrity, sort, copy]
Parameters:
- OBJS: Các đối tượng Data hoặc DataFrame Series or DataFrame objects
- Trục: trục để nối dọc theo; mặc định = 0 // dọc theo các hàng axis to concatenate along; default = 0 //along rows
- Tham gia: Cách xử lý các chỉ mục trên trục khác; mặc định = ‘bên ngoài way to handle indexes on other axis; default = ‘outer’
- bỏ qua_index: nếu đúng, không sử dụng các giá trị chỉ mục dọc theo trục nối; Mặc định = Sai if True, do not use the index values along the concatenation axis; default = False
- Khóa: Trình tự để thêm một định danh vào các chỉ mục kết quả; Mặc định = Không có sequence to add an identifier to the result indexes; default = None
- Cấp độ: Cấp độ cụ thể [giá trị duy nhất] để sử dụng để xây dựng đa dạng; Mặc định = Không có specific levels [unique values] to use for constructing a MultiIndex; default = None
- Tên: Tên cho các cấp độ trong chỉ số phân cấp kết quả; Mặc định = Không cónames for the levels in the resulting hierarchical index; default = None
- Verify_Integrity: Kiểm tra xem trục được nối mới có chứa các bản sao hay không; Mặc định = Saicheck whether the new concatenated axis contains duplicates; default = False
- Sắp xếp: Sắp xếp trục không liên kết nếu nó chưa được căn chỉnh khi tham gia là ‘bên ngoài; Mặc định = Saisort non-concatenation axis if it is not already aligned when join is ‘outer’; default = False
- Sao chép: Nếu sai, không sao chép dữ liệu một cách không cần thiết; Mặc định = trueif False, do not copy data unnecessarily; default = True
Trả về: Một dữ liệu gấu trúc với dữ liệu được nối.a pandas dataframe with concatenated data.
Example:
Trong ví dụ cuối cùng, chúng tôi chỉ làm việc trên hai tệp Excel với một vài hàng. Hãy cùng thử hợp nhất nhiều tệp hơn, mỗi tệp chứa khoảng 5000 hàng và 7 cột. Chúng tôi có 5 tệp Banke, Bankd, Bankc, Bankb, Banka có dữ liệu cổ phiếu lịch sử cho ngân hàng tương ứng. Hãy để hợp nhất chúng vào một tệp ‘Bank_stocks.xlsx duy nhất. Ở đây chúng tôi đang sử dụng phương thức pandas.concat [].
Python3
import
glob
import
pandas as pd
path
=
"C:/downloads"
file_list
=
import
0import
1 import
2import
3
import
4=
import
6
import
7 import
8 import
9 glob
0
glob
1glob
2import
8glob
4
glob
5=
glob
7
pandas as pd
1"C:/downloads"
8pandas as pd
3=
pandas as pd
5import
3
Đầu ra:
Bank_Stocks.xlsx