Hướng dẫn how to remove duplicate in python pandas - làm thế nào để loại bỏ trùng lặp trong trăn gấu trúc
Trả về DataFrame với các hàng trùng lặp bị xóa. Xem xét các cột nhất định là tùy chọn. Các chỉ mục, bao gồm các chỉ mục thời gian bị bỏ qua. Chỉ xem xét các cột nhất định để xác định các bản sao, theo mặc định, sử dụng tất cả các cột. Xác định những sao chép (nếu có) để giữ. - Có nên sửa đổi DataFrame thay vì tạo một cái mới. Nếu đúng, trục kết quả sẽ được dán nhãn 0, 1,,, n - 1. Mới trong phiên bản 1.0.0. DataFrame với các bản sao được xóa hoặc không có nếu Ví dụ Xem xét bộ dữ liệu chứa xếp hạng ramen. Theo mặc định, nó loại bỏ các hàng trùng lặp dựa trên tất cả các cột. >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 Để loại bỏ các bản sao trên (các) cột cụ thể, hãy sử dụng >>> df.drop_duplicates(subset=['brand']) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 Để loại bỏ các bản sao và giữ các lần xuất hiện cuối cùng, hãy sử dụng >>> df.drop_duplicates(subset=['brand', 'style'], keep='last') brand style rating 1 Yum Yum cup 4.0 2 Indomie cup 3.5 4 Indomie pack 5.0 Xem thảo luận Cải thiện bài viết Lưu bài viết Xem thảo luận Cải thiện bài viết Lưu bài viết Đọcdrop_duplicates() method helps in removing duplicates from the Pandas Dataframe In Python. Bàn luận
Example:Thay thế: Các giá trị Boolean, loại bỏ các hàng với các bản sao nếu đúng. Python3Loại trả về: DataFrame với các hàng trùng lặp bị xóa tùy thuộc vào các đối số được truyền. & NBSP; Như chúng ta có thể thấy một trong những đội và nhóm đã bị loại bỏ do giá trị trùng lặp. >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.00 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.01 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.05 >>> df.drop_duplicates(subset=['brand']) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.59 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.07 >>> df.drop_duplicates(subset=['brand', 'style'], keep='last') brand style rating 1 Yum Yum cup 4.0 2 Indomie cup 3.5 4 Indomie pack 5.01 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.09 >>> df.drop_duplicates(subset=['brand', 'style'], keep='last') brand style rating 1 Yum Yum cup 4.0 2 Indomie cup 3.5 4 Indomie pack 5.03 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.09 >>> df.drop_duplicates(subset=['brand', 'style'], keep='last') brand style rating 1 Yum Yum cup 4.0 2 Indomie cup 3.5 4 Indomie pack 5.03 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.09 >>> df.drop_duplicates(subset=['brand', 'style'], keep='last') brand style rating 1 Yum Yum cup 4.0 2 Indomie cup 3.5 4 Indomie pack 5.07 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.09 >>> df.drop_duplicates(subset=['brand', 'style'], keep='last') brand style rating 1 Yum Yum cup 4.0 2 Indomie cup 3.5 4 Indomie pack 5.01 >>> df.drop_duplicates(subset=['brand']) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.57 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.05 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False2 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.07 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False4 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.09 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False6 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.09 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False6 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.09 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False6 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.09 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False4 first 3
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.02 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.03 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.04
Output: A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False Các first5>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 3 first7Removing rows with the same First NameĐể tải xuống tệp CSV được sử dụng, bấm vào đây. & NBSP;
Python3Loại trả về: DataFrame với các hàng trùng lặp bị xóa tùy thuộc vào các đối số được truyền. & NBSP; Như chúng ta có thể thấy một trong những đội và nhóm đã bị loại bỏ do giá trị trùng lặp.
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.03 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False4 last 5
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.03 last 7inplace=True 5
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.03 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False6 last 8>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.03 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False4 last 5
Output: >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.00 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.01 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 2>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 3 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 4Removing rows with all duplicate valuesCác Python3
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.03 first 7Để tải xuống tệp CSV được sử dụng, bấm vào đây. & NBSP;
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.000 keep 5keep 6>>> df.drop_duplicates(subset=['brand']) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.57
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.006 keep 5keep 6>>> df.drop_duplicates(subset=['brand']) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.57
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.012 keep 5keep 6>>> df.drop_duplicates(subset=['brand']) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.57
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.018 keep 5keep 6>>> df.drop_duplicates(subset=['brand']) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.57
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.024 keep 5keep 6>>> df.drop_duplicates(subset=['brand']) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.57
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.030 keep 5keep 6>>> df.drop_duplicates(subset=['brand']) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.57
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.036 keep 5keep 6>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.039
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.03 first 7
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.03 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False4 last 5Để tải xuống tệp CSV được sử dụng, bấm vào đây. & NBSP; Ví dụ 1: Loại bỏ các hàng có cùng tên & nbsp; >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.061 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.062 Output: Trong ví dụ sau, các hàng có cùng tên được xóa và khung dữ liệu mới được trả về. Làm cách nào để loại bỏ các bản sao khỏi một cột trong gấu trúc?Để bỏ các cột trùng lặp từ gấu trúc DataFrame, hãy sử dụng df.t.drop_duplicates ().T, điều này loại bỏ tất cả các cột có cùng dữ liệu bất kể tên cột.df. T. drop_duplicates(). T , this removes all columns that have the same data regardless of column names.
Làm thế nào để bạn loại bỏ các dòng trùng lặp trong Python?Explanation:.. Trước hết, lưu đường dẫn của đường dẫn tệp đầu vào và đầu ra theo hai biến..... Tạo một biến bộ..... Mở tệp đầu ra ở chế độ ghi..... Bắt đầu một cho vòng lặp để đọc từ dòng tệp đầu vào từng dòng..... Tìm giá trị băm của dòng hiện tại..... Kiểm tra xem giá trị băm này đã có trong biến đã đặt hay không .. Chức năng gấu trúc nào bằng cách sử dụng để loại bỏ các hàng trùng lặp?DataFrame với các bản sao được gỡ bỏ hoặc không có nếu tại chỗ = true.Đếm các kết hợp độc đáo của các cột.Xem xét bộ dữ liệu chứa xếp hạng ramen.Theo mặc định, nó loại bỏ các hàng trùng lặp dựa trên tất cả các cột.
Làm cách nào để chọn trùng lặp trong gấu trúc?Bạn có thể sử dụng hàm trùng lặp () để tìm các giá trị trùng lặp trong khung dữ liệu gấu trúc.use the duplicated() function to find duplicate values in a pandas DataFrame. |