Hướng dẫn how do you remove duplicates from a dataframe in python? - làm cách nào để xóa các bản sao khỏi khung dữ liệu trong python?
Trả về DataFrame với các hàng trùng lặp bị xóa. Xem xét các cột nhất định là tùy chọn. Các chỉ mục, bao gồm các chỉ mục thời gian bị bỏ qua. Chỉ xem xét các cột nhất định để xác định các bản sao, theo mặc định, sử dụng tất cả các cột. Xác định những sao chép (nếu có) để giữ. - Có nên sửa đổi DataFrame thay vì tạo một cái mới. Nếu đúng, trục kết quả sẽ được dán nhãn 0, 1,,, n - 1. Mới trong phiên bản 1.0.0. DataFrame với các bản sao được xóa hoặc không có nếu Ví dụ Xem xét bộ dữ liệu chứa xếp hạng ramen. Theo mặc định, nó loại bỏ các hàng trùng lặp dựa trên tất cả các cột. >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 Để loại bỏ các bản sao trên (các) cột cụ thể, hãy sử dụng >>> df.drop_duplicates(subset=['brand']) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 Để loại bỏ các bản sao và giữ các lần xuất hiện cuối cùng, hãy sử dụng >>> df.drop_duplicates(subset=['brand', 'style'], keep='last') brand style rating 1 Yum Yum cup 4.0 2 Indomie cup 3.5 4 Indomie pack 5.0 Xem thảo luận Cải thiện bài viết Lưu bài viết Xem thảo luận Cải thiện bài viết Lưu bài viết Đọcdrop_duplicates() method helps in removing duplicates from the Pandas Dataframe In Python. Bàn luận
Example:Thay thế: Các giá trị Boolean, loại bỏ các hàng với các bản sao nếu đúng. Python3Loại trả về: DataFrame với các hàng trùng lặp bị xóa tùy thuộc vào các đối số được truyền. & NBSP; Như chúng ta có thể thấy một trong những đội và nhóm đã bị loại bỏ do giá trị trùng lặp. >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.00 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.01 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.05 >>> df.drop_duplicates(subset=['brand']) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.59 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.07 >>> df.drop_duplicates(subset=['brand', 'style'], keep='last') brand style rating 1 Yum Yum cup 4.0 2 Indomie cup 3.5 4 Indomie pack 5.01 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.09 >>> df.drop_duplicates(subset=['brand', 'style'], keep='last') brand style rating 1 Yum Yum cup 4.0 2 Indomie cup 3.5 4 Indomie pack 5.03 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.09 >>> df.drop_duplicates(subset=['brand', 'style'], keep='last') brand style rating 1 Yum Yum cup 4.0 2 Indomie cup 3.5 4 Indomie pack 5.03 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.09 >>> df.drop_duplicates(subset=['brand', 'style'], keep='last') brand style rating 1 Yum Yum cup 4.0 2 Indomie cup 3.5 4 Indomie pack 5.07 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.09 >>> df.drop_duplicates(subset=['brand', 'style'], keep='last') brand style rating 1 Yum Yum cup 4.0 2 Indomie cup 3.5 4 Indomie pack 5.01 >>> df.drop_duplicates(subset=['brand']) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.57 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.05 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False2 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.07 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False4 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.09 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False6 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.09 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False6 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.09 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False6 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.09 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False4 first 3
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.02 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.03 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.04
Output: A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False Các first5>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 3 first7Removing rows with the same First NameĐể tải xuống tệp CSV được sử dụng, bấm vào đây. & NBSP;
Python3Loại trả về: DataFrame với các hàng trùng lặp bị xóa tùy thuộc vào các đối số được truyền. & NBSP; Như chúng ta có thể thấy một trong những đội và nhóm đã bị loại bỏ do giá trị trùng lặp.
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.03 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False4 last 5
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.03 last 7inplace=True 5
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.03 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False6 last 8>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.03 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False4 last 5
Output: >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.00 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.01 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 2>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 3 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 4Removing rows with all duplicate valuesCác Python3
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.03 first 7Để tải xuống tệp CSV được sử dụng, bấm vào đây. & NBSP;
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.000 keep 5keep 6>>> df.drop_duplicates(subset=['brand']) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.57
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.006 keep 5keep 6>>> df.drop_duplicates(subset=['brand']) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.57
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.012 keep 5keep 6>>> df.drop_duplicates(subset=['brand']) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.57
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.018 keep 5keep 6>>> df.drop_duplicates(subset=['brand']) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.57
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.024 keep 5keep 6>>> df.drop_duplicates(subset=['brand']) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.57
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.030 keep 5keep 6>>> df.drop_duplicates(subset=['brand']) brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.57
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.036 keep 5keep 6>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.039
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.03 first 7
>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.03 A B C 0 TeamA 50 True 1 TeamB 40 False 3 TeamC 30 False4 last 5Để tải xuống tệp CSV được sử dụng, bấm vào đây. & NBSP; Ví dụ 1: Loại bỏ các hàng có cùng tên & nbsp; >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.061 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.062 Output: Trong ví dụ sau, các hàng có cùng tên được xóa và khung dữ liệu mới được trả về. Làm cách nào để loại bỏ các bản sao khỏi cột DataFrame?Để bỏ các cột trùng lặp từ Pandas DataFrame, hãy sử dụng df.t.drop_duplicates (). T, điều này sẽ loại bỏ tất cả các cột có cùng dữ liệu bất kể tên cột.use df. T. drop_duplicates(). T , this removes all columns that have the same data regardless of column names.
Làm thế nào để bạn loại bỏ các hàng trùng lặp trong Python?Pandas drop_duplicates () Chức năng cú pháp nếu 'đầu tiên', các hàng trùng lặp ngoại trừ hàng đầu tiên bị xóa.Nếu 'cuối cùng', các hàng trùng lặp ngoại trừ hàng cuối cùng sẽ bị xóa.Nếu sai, tất cả các hàng trùng lặp bị xóa.Thay thế: Nếu đúng, DataFrame nguồn được thay đổi và không có gì được trả về.
If 'first', duplicate rows except the first one is deleted. If 'last', duplicate rows except the last one is deleted. If False, all the duplicate rows are deleted. inplace: if True, the source DataFrame is changed and None is returned.
Làm cách nào để loại bỏ các bản sao trong loạt gandas?Hàm drop_duplicates () được sử dụng để loại bỏ các pandas với các giá trị trùng lặp được loại bỏ ... 'Đầu tiên': Drop trùng lặp ngoại trừ lần xuất hiện đầu tiên .. 'Cuối cùng': Drop trùng lặp ngoại trừ lần xuất hiện cuối cùng .. Sai: Thả tất cả các bản sao .. Làm thế nào để bạn tìm thấy các bản sao trong một python dataframe?Phương thức trùng lặp () của gấu trúc ... Cú pháp: dataFrame.duplicated (tập hợp con = none, keep = 'first'). Parameters:. Tập hợp con: Điều này lấy một cột hoặc danh sách nhãn cột.Đó là giá trị mặc định là không có..... Giữ: Điều này kiểm soát cách xem xét giá trị trùng lặp.Nó chỉ có ba giá trị riêng biệt và mặc định là 'đầu tiên' .. |