Hướng dẫn how do you remove duplicates from a dataframe in python? - làm cách nào để xóa các bản sao khỏi khung dữ liệu trong python?

DataFrame.drop_duplicates (tập hợp con = none, keep = 'first', inplace = false, ond_index = false) [nguồn]#drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)[source]#

Trả về DataFrame với các hàng trùng lặp bị xóa.

Xem xét các cột nhất định là tùy chọn. Các chỉ mục, bao gồm các chỉ mục thời gian bị bỏ qua.

Nhãn tham sốSubSetColumn hoặc trình tự của nhãn, tùy chọnsubsetcolumn label or sequence of labels, optional

Chỉ xem xét các cột nhất định để xác định các bản sao, theo mặc định, sử dụng tất cả các cột.

Giữ {’đầu tiên,’ cuối cùng, sai}, mặc định ’đầu tiên{‘first’, ‘last’, False}, default ‘first’

Xác định những sao chép (nếu có) để giữ. - first: Drop trùng lặp ngoại trừ lần xuất hiện đầu tiên. - last: Drop trùng lặp ngoại trừ lần xuất hiện cuối cùng. - Sai: Thả tất cả các bản sao.

inplaceBool, mặc định saibool, default False

Có nên sửa đổi DataFrame thay vì tạo một cái mới.

bỏ qua_indexbool, mặc định saibool, default False

Nếu đúng, trục kết quả sẽ được dán nhãn 0, 1,,, n - 1.

Mới trong phiên bản 1.0.0.

Trả về dataFrame hoặc không có

DataFrame với các bản sao được xóa hoặc không có nếu inplace=True.

Ví dụ

Xem xét bộ dữ liệu chứa xếp hạng ramen.

>>> df = pd.DataFrame({
...     'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
...     'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
...     'rating': [4, 4, 3.5, 15, 5]
... })
>>> df
    brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

Theo mặc định, nó loại bỏ các hàng trùng lặp dựa trên tất cả các cột.

>>> df.drop_duplicates()
    brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

Để loại bỏ các bản sao trên (các) cột cụ thể, hãy sử dụng subset.

>>> df.drop_duplicates(subset=['brand'])
    brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5

Để loại bỏ các bản sao và giữ các lần xuất hiện cuối cùng, hãy sử dụng keep.

>>> df.drop_duplicates(subset=['brand', 'style'], keep='last')
    brand style  rating
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
4  Indomie  pack     5.0

Xem thảo luận

Cải thiện bài viết

Lưu bài viết

  • Đọc
  • Bàn luận
  • Xem thảo luận

    Cải thiện bài viết

    Lưu bài viết

    Đọcdrop_duplicates() method helps in removing duplicates from the Pandas Dataframe In Python.

    Bàn luận

    Phương thức pandas drop_duplicates () giúp loại bỏ các bản sao khỏi khung dữ liệu gấu trúc trong Python.DataFrame.drop_duplicates(subset=None, keep=’first’, inplace=False)

    Parameters:

    • Cú pháp của df.drop_duplicates ()Subset takes a column or list of column label. It’s default value is none. After passing columns, it will consider them only for duplicates. 
    • Cú pháp: dataFrame.drop_duplicates (tập hợp con = khôngkeep is to control how to consider duplicate value. It has only three distinct value and default is ‘first’. 
      • Tập hợp con: Tập hợp con lấy một cột hoặc danh sách nhãn cột. Giá trị mặc định của nó là không có. Sau khi vượt qua các cột, nó sẽ chỉ xem xét chúng cho các bản sao. & NBSP;first‘, it considers first value as unique and rest of the same values as duplicate.
      • Giữ: Giữ là kiểm soát cách xem xét giá trị trùng lặp. Nó chỉ có ba giá trị riêng biệt và mặc định là ‘đầu tiên. & NBSP;last‘, it considers last value as unique and rest of the same values as duplicate.
      • Nếu ‘đầu tiên, nó coi giá trị đầu tiên là duy nhất và phần còn lại của các giá trị giống như trùng lặp.False, it consider all of the same values as duplicates
    • Nếu ‘cuối cùng, nó coi giá trị cuối cùng là duy nhất và phần còn lại của các giá trị giống như trùng lặp.Boolean values, removes rows with duplicates if True.

    Nếu sai, nó xem xét tất cả các giá trị giống như các bản saoDataFrame with removed duplicate rows depending on Arguments passed. 

    Example:

    Thay thế: Các giá trị Boolean, loại bỏ các hàng với các bản sao nếu đúng.

    Python3

    Loại trả về: DataFrame với các hàng trùng lặp bị xóa tùy thuộc vào các đối số được truyền. & NBSP;

    Như chúng ta có thể thấy một trong những đội và nhóm đã bị loại bỏ do giá trị trùng lặp.

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    0
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    1

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    5
    >>> df.drop_duplicates(subset=['brand'])
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    
    9
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    7
    >>> df.drop_duplicates(subset=['brand', 'style'], keep='last')
        brand style  rating
    1  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    4  Indomie  pack     5.0
    
    1
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    9
    >>> df.drop_duplicates(subset=['brand', 'style'], keep='last')
        brand style  rating
    1  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    4  Indomie  pack     5.0
    
    3
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    9
    >>> df.drop_duplicates(subset=['brand', 'style'], keep='last')
        brand style  rating
    1  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    4  Indomie  pack     5.0
    
    3
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    9
    >>> df.drop_duplicates(subset=['brand', 'style'], keep='last')
        brand style  rating
    1  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    4  Indomie  pack     5.0
    
    7
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    9
    >>> df.drop_duplicates(subset=['brand', 'style'], keep='last')
        brand style  rating
    1  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    4  Indomie  pack     5.0
    
    1
    >>> df.drop_duplicates(subset=['brand'])
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    
    7

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    5
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    2
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    7
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    4
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    9
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    6
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    9
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    6
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    9
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    6
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    9
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    4first3

    first4

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    2
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    3
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    4

    first8

    Output:  

        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False

    Các

    first5>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 3 first7Removing rows with the same First Name 

    Để tải xuống tệp CSV được sử dụng, bấm vào đây. & NBSP;

    Python3

    Loại trả về: DataFrame với các hàng trùng lặp bị xóa tùy thuộc vào các đối số được truyền. & NBSP;

    Như chúng ta có thể thấy một trong những đội và nhóm đã bị loại bỏ do giá trị trùng lặp.

    last6last7last8

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    3
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    4last5

    inplace=True2

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    3last7inplace=True5

    inplace=True6inplace=True7

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    3
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    6last8
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    3
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    4last5

    subset4

    Output:  

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    0
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    1
     

    Hướng dẫn how do you remove duplicates from a dataframe in python? - làm cách nào để xóa các bản sao khỏi khung dữ liệu trong python?

    >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 2>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 3 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 4Removing rows with all duplicate values

    Các

    Python3

    first5

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    3 first7

    Để tải xuống tệp CSV được sử dụng, bấm vào đây. & NBSP;

    keep8keep9

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    00keep5keep6
    >>> df.drop_duplicates(subset=['brand'])
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    
    7

    keep8keep9

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    06keep5keep6
    >>> df.drop_duplicates(subset=['brand'])
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    
    7

    keep8keep9

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    12keep5keep6
    >>> df.drop_duplicates(subset=['brand'])
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    
    7

    keep8keep9

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    18keep5keep6
    >>> df.drop_duplicates(subset=['brand'])
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    
    7

    keep8keep9

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    24keep5keep6
    >>> df.drop_duplicates(subset=['brand'])
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    
    7

    keep8keep9

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    30keep5keep6
    >>> df.drop_duplicates(subset=['brand'])
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    
    7

    keep8keep9

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    36keep5keep6
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    39

    first5

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    3 first7

    last6last7last8

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    3
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    4last5

    Để tải xuống tệp CSV được sử dụng, bấm vào đây. & NBSP;

    Ví dụ 1: Loại bỏ các hàng có cùng tên & nbsp;

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    61
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    62

    Output:  

    Trong ví dụ sau, các hàng có cùng tên được xóa và khung dữ liệu mới được trả về.
     

    Hướng dẫn how do you remove duplicates from a dataframe in python? - làm cách nào để xóa các bản sao khỏi khung dữ liệu trong python?


    Làm cách nào để loại bỏ các bản sao khỏi cột DataFrame?

    Để bỏ các cột trùng lặp từ Pandas DataFrame, hãy sử dụng df.t.drop_duplicates (). T, điều này sẽ loại bỏ tất cả các cột có cùng dữ liệu bất kể tên cột.use df. T. drop_duplicates(). T , this removes all columns that have the same data regardless of column names.

    Làm thế nào để bạn loại bỏ các hàng trùng lặp trong Python?

    Pandas drop_duplicates () Chức năng cú pháp nếu 'đầu tiên', các hàng trùng lặp ngoại trừ hàng đầu tiên bị xóa.Nếu 'cuối cùng', các hàng trùng lặp ngoại trừ hàng cuối cùng sẽ bị xóa.Nếu sai, tất cả các hàng trùng lặp bị xóa.Thay thế: Nếu đúng, DataFrame nguồn được thay đổi và không có gì được trả về. If 'first', duplicate rows except the first one is deleted. If 'last', duplicate rows except the last one is deleted. If False, all the duplicate rows are deleted. inplace: if True, the source DataFrame is changed and None is returned.

    Làm cách nào để loại bỏ các bản sao trong loạt gandas?

    Hàm drop_duplicates () được sử dụng để loại bỏ các pandas với các giá trị trùng lặp được loại bỏ ...
    'Đầu tiên': Drop trùng lặp ngoại trừ lần xuất hiện đầu tiên ..
    'Cuối cùng': Drop trùng lặp ngoại trừ lần xuất hiện cuối cùng ..
    Sai: Thả tất cả các bản sao ..

    Làm thế nào để bạn tìm thấy các bản sao trong một python dataframe?

    Phương thức trùng lặp () của gấu trúc ...
    Cú pháp: dataFrame.duplicated (tập hợp con = none, keep = 'first').
    Parameters:.
    Tập hợp con: Điều này lấy một cột hoặc danh sách nhãn cột.Đó là giá trị mặc định là không có.....
    Giữ: Điều này kiểm soát cách xem xét giá trị trùng lặp.Nó chỉ có ba giá trị riêng biệt và mặc định là 'đầu tiên' ..