Hướng dẫn dùng appending dataframes python
Phương thức pandas.DataFrame.append () được sử dụng để nối một (các) hàng và (các) cột DataFrame với một (các) hàng khác, nó cũng có thể được sử dụng để nối nhiều (ba hoặc nhiều) DataFrame. Phương pháp này mất other (DataFrame bạn muốn thêm vào), ignore_index, verify_integrity, sort dưới dạng các tham số và trả về một DataFrame mới với kết quả được kết hợp. Show Nội dung chính
Trong bài viết này, tôi sẽ giải thích cách nối gấu trúc DataFrame với các ví dụ như thêm hàng, cột, bỏ qua chỉ mục trong khi nối và hơn thế nữa bằng cách sử dụng các tham số của nó.
1. Cú pháp pandas append ()Dưới đây là cú pháp của phương thức pandas.DataFrame.append (). # Syntax of append() DataFrame.append(other, ignore_index=False, verify_integrity=False, sort=False)
Ngoài ra, bạn cũng có thể sử dụng pandas.DataFrame.concat () để nối các DataFrame cũng có thể được sử dụng để nối thêm. 2. Ví dụ về append () DataFramesTheo mặc định, phương thức append () nối các hàng và cột của DataFrame gấu trúc khác vào cuối DataFrame của người gọi. Ví dụ: Trong đoạn mã dưới đây, nối các hàng của df1 về cuối df và trả về một DataFrame mới. Khi bạn có một cột bổ sung trên bất kỳ DataFrame nào, nó sẽ nối cột với NaN trên kết quả cho các hàng mà cùng một cột không tồn tại. Hãy tạo một DataFrame gấu trúc từ Dict để khám phá điều này với một ví dụ. import pandas as pd df = pd.DataFrame({'Courses': ["Spark","PySpark","Python","pandas"], 'Fee' : [20000,25000,22000,24000]}) df1 = pd.DataFrame({'Courses': ["Pandas","Hadoop","Hyperion","Java"], 'Fee': [25000,25200,24500,24900], 'Duration': ['30days','35days','40days','45days']}) # Using append() method df2 = df.append(df1) print(df2) Sản lượng thấp hơn sản lượng. Courses Fee Duration 0 Spark 20000 NaN 1 PySpark 25000 NaN 2 Python 22000 NaN 3 pandas 24000 NaN 0 Pandas 25000 30days 1 Hadoop 25200 35days 2 Hyperion 24500 40days 3 Java 24900 45days Sử dụng phương pháp này, bạn cũng có thể nối danh sách các hàng vào DataFrame. 3. Lập chỉ mục lại DataFrame trong khi NốiTrong kết quả DataFrame ở trên, chỉ mục có các giá trị trùng lặp. bạn có thể đặt chỉ mục mới trên DataFrame gấu trúc trong khi thêm vào bằng cách sử dụng ignore_index=True tham số. # Using append() with ignore_index df2 = df.append(df1, ignore_index=True) print(df2) Sản lượng thấp hơn sản lượng. Courses Fee Duration 0 Spark 20000 NaN 1 PySpark 25000 NaN 2 Python 22000 NaN 3 pandas 24000 NaN 4 Pandas 25000 30days 5 Hadoop 25200 35days 6 Hyperion 24500 40days 7 Java 24900 45days 5. Nối Dict dưới dạng Hàng vào DataFrameĐôi khi bạn sẽ được yêu cầu thêm một mệnh đề dưới dạng một hàng vào DataFrame. Ví dụ dưới đây minh họa cách làm điều này với ví dụ. Đầu tiên, tạo một Dict và thêm nó vào df. # Append Dict as row to DataFrame new_row = {'Courses':'Hyperion', 'Fee':24000} df2=df.append(new_row, ignore_index=True) print(df2) Sản lượng thấp hơn sản lượng. Courses Fee 0 Spark 20000 1 PySpark 25000 2 Python 22000 3 pandas 24000 4 Hyperion 24000 5. Nối nhiều DataFramesĐể nối nhiều gấu trúc DataFrames chuyển DataFrames bạn muốn nối dưới dạng danh sách vào phương thức append (). Sử dụng ingore_index=True tham số để đặt lại chỉ mục trên gấu trúc DataFrame để bắt đầu từ số không. # Create third DataFrame df2 = pd.DataFrame({'Courses':['PHP','GO'], 'Duration':['30day','40days'], 'Fee':[10000,23000]}) # Appending multiple DataFrame df3 = df.append([df1, df2], ignore_index=True) print(df3) Năng suất thấp hơn sản lượng Courses Fee Duration Courses Fee Duration 0 Spark 20000 NaN 1 PySpark 25000 NaN 2 Python 22000 NaN 3 pandas 24000 NaN 4 Pandas 25000 30days 5 Hadoop 25200 35days 6 Hyperion 24500 40days 7 Java 24900 45days 8 PHP 10000 30day 9 GO 23000 40days 6. Hoàn thành Ví dụ về pandas append ()import pandas as pd df = pd.DataFrame({'Courses': ["Spark","PySpark","Python","pandas"], 'Fee' : [20000,25000,22000,24000]}) df1 = pd.DataFrame({'Courses': ["Pandas","Hadoop","Hyperion","Java"], 'Fee': [25000,25200,24500,24900], 'Duration': ['30days','35days','40days','45days']}) # Using append() method df2 = df.append(df1) print(df2) # Using append() with ignore_index df2 = df.append(df1, ignore_index=True) print(df2) # Create third DataFrame df2 = pd.DataFrame({'Courses':['PHP','GO'], 'Duration':['30day','40days'], 'Fee':[10000,23000]}) # Appending multiple DataFrame df3 = df.append([df1, df2], ignore_index=True) print(df3) # Append Dict as row to DataFrame new_row = {'Courses':'Hyperion', 'Fee':24000} df2=df.append(new_row, ignore_index=True) print(df2) Sự kết luậnBằng cách sử dụng phương thức append (), bạn có thể nối một DataFrame với một DataFrame khác theo hàng và cột. Phương thức này nhận other (danh sách vượt qua cho nhiều khung dữ liệu), ignore_index, verify_integrity, sắp xếp dưới dạng tham số và trả về DataFrame mới với kết quả được kết hợp. Lưu ý rằng khi bạn có một cột bổ sung trên bất kỳ DataFrame nào, nó sẽ nối cột với NaN trên kết quả đối với các hàng mà cùng một cột không tồn tại. Người giới thiệu |