Hướng dẫn how to remove duplicate in python pandas - làm thế nào để loại bỏ trùng lặp trong trăn gấu trúc

DataFrame.drop_duplicates (tập hợp con = none, keep = 'first', inplace = false, ond_index = false) [nguồn]#drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)[source]#

Trả về DataFrame với các hàng trùng lặp bị xóa.

Xem xét các cột nhất định là tùy chọn. Các chỉ mục, bao gồm các chỉ mục thời gian bị bỏ qua.

Nhãn tham sốSubSetColumn hoặc trình tự của nhãn, tùy chọnsubsetcolumn label or sequence of labels, optional

Chỉ xem xét các cột nhất định để xác định các bản sao, theo mặc định, sử dụng tất cả các cột.

Giữ {’đầu tiên,’ cuối cùng, sai}, mặc định ’đầu tiên{‘first’, ‘last’, False}, default ‘first’

Xác định những sao chép (nếu có) để giữ. - first: Drop trùng lặp ngoại trừ lần xuất hiện đầu tiên. - last: Drop trùng lặp ngoại trừ lần xuất hiện cuối cùng. - Sai: Thả tất cả các bản sao.

inplaceBool, mặc định saibool, default False

Có nên sửa đổi DataFrame thay vì tạo một cái mới.

bỏ qua_indexbool, mặc định saibool, default False

Nếu đúng, trục kết quả sẽ được dán nhãn 0, 1,,, n - 1.

Mới trong phiên bản 1.0.0.

Trả về dataFrame hoặc không có

DataFrame với các bản sao được xóa hoặc không có nếu inplace=True.

Ví dụ

Xem xét bộ dữ liệu chứa xếp hạng ramen.

>>> df = pd.DataFrame({
...     'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
...     'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
...     'rating': [4, 4, 3.5, 15, 5]
... })
>>> df
    brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

Theo mặc định, nó loại bỏ các hàng trùng lặp dựa trên tất cả các cột.

>>> df.drop_duplicates()
    brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

Để loại bỏ các bản sao trên (các) cột cụ thể, hãy sử dụng subset.

>>> df.drop_duplicates(subset=['brand'])
    brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5

Để loại bỏ các bản sao và giữ các lần xuất hiện cuối cùng, hãy sử dụng keep.

>>> df.drop_duplicates(subset=['brand', 'style'], keep='last')
    brand style  rating
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
4  Indomie  pack     5.0

Xem thảo luận

Cải thiện bài viết

Lưu bài viết

  • Đọc
  • Bàn luận
  • Xem thảo luận

    Cải thiện bài viết

    Lưu bài viết

    Đọcdrop_duplicates() method helps in removing duplicates from the Pandas Dataframe In Python.

    Bàn luận

    Phương thức pandas drop_duplicates () giúp loại bỏ các bản sao khỏi khung dữ liệu gấu trúc trong Python.DataFrame.drop_duplicates(subset=None, keep=’first’, inplace=False)

    Parameters:

    • Cú pháp của df.drop_duplicates ()Subset takes a column or list of column label. It’s default value is none. After passing columns, it will consider them only for duplicates. 
    • Cú pháp: dataFrame.drop_duplicates (tập hợp con = khôngkeep is to control how to consider duplicate value. It has only three distinct value and default is ‘first’. 
      • Tập hợp con: Tập hợp con lấy một cột hoặc danh sách nhãn cột. Giá trị mặc định của nó là không có. Sau khi vượt qua các cột, nó sẽ chỉ xem xét chúng cho các bản sao. & NBSP;first‘, it considers first value as unique and rest of the same values as duplicate.
      • Giữ: Giữ là kiểm soát cách xem xét giá trị trùng lặp. Nó chỉ có ba giá trị riêng biệt và mặc định là ‘đầu tiên. & NBSP;last‘, it considers last value as unique and rest of the same values as duplicate.
      • Nếu ‘đầu tiên, nó coi giá trị đầu tiên là duy nhất và phần còn lại của các giá trị giống như trùng lặp.False, it consider all of the same values as duplicates
    • Nếu ‘cuối cùng, nó coi giá trị cuối cùng là duy nhất và phần còn lại của các giá trị giống như trùng lặp.Boolean values, removes rows with duplicates if True.

    Nếu sai, nó xem xét tất cả các giá trị giống như các bản saoDataFrame with removed duplicate rows depending on Arguments passed. 

    Example:

    Thay thế: Các giá trị Boolean, loại bỏ các hàng với các bản sao nếu đúng.

    Python3

    Loại trả về: DataFrame với các hàng trùng lặp bị xóa tùy thuộc vào các đối số được truyền. & NBSP;

    Như chúng ta có thể thấy một trong những đội và nhóm đã bị loại bỏ do giá trị trùng lặp.

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    0
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    1

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    5
    >>> df.drop_duplicates(subset=['brand'])
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    
    9
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    7
    >>> df.drop_duplicates(subset=['brand', 'style'], keep='last')
        brand style  rating
    1  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    4  Indomie  pack     5.0
    
    1
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    9
    >>> df.drop_duplicates(subset=['brand', 'style'], keep='last')
        brand style  rating
    1  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    4  Indomie  pack     5.0
    
    3
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    9
    >>> df.drop_duplicates(subset=['brand', 'style'], keep='last')
        brand style  rating
    1  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    4  Indomie  pack     5.0
    
    3
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    9
    >>> df.drop_duplicates(subset=['brand', 'style'], keep='last')
        brand style  rating
    1  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    4  Indomie  pack     5.0
    
    7
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    9
    >>> df.drop_duplicates(subset=['brand', 'style'], keep='last')
        brand style  rating
    1  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    4  Indomie  pack     5.0
    
    1
    >>> df.drop_duplicates(subset=['brand'])
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    
    7

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    5
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    2
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    7
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    4
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    9
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    6
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    9
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    6
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    9
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    6
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    9
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    4first3

    first4

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    2
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    3
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    4

    first8

    Output:  

        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False

    Các

    first5>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 3 first7Removing rows with the same First Name 

    Để tải xuống tệp CSV được sử dụng, bấm vào đây. & NBSP;

    Python3

    Loại trả về: DataFrame với các hàng trùng lặp bị xóa tùy thuộc vào các đối số được truyền. & NBSP;

    Như chúng ta có thể thấy một trong những đội và nhóm đã bị loại bỏ do giá trị trùng lặp.

    last6last7last8

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    3
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    4last5

    inplace=True2

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    3last7inplace=True5

    inplace=True6inplace=True7

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    3
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    6last8
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    3
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    4last5

    subset4

    Output:  

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    0
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    1
     

    Hướng dẫn how to remove duplicate in python pandas - làm thế nào để loại bỏ trùng lặp trong trăn gấu trúc

    >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 2>>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 3 >>> df.drop_duplicates() brand style rating 0 Yum Yum cup 4.0 2 Indomie cup 3.5 3 Indomie pack 15.0 4 Indomie pack 5.0 4Removing rows with all duplicate values

    Các

    Python3

    first5

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    3 first7

    Để tải xuống tệp CSV được sử dụng, bấm vào đây. & NBSP;

    keep8keep9

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    00keep5keep6
    >>> df.drop_duplicates(subset=['brand'])
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    
    7

    keep8keep9

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    06keep5keep6
    >>> df.drop_duplicates(subset=['brand'])
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    
    7

    keep8keep9

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    12keep5keep6
    >>> df.drop_duplicates(subset=['brand'])
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    
    7

    keep8keep9

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    18keep5keep6
    >>> df.drop_duplicates(subset=['brand'])
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    
    7

    keep8keep9

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    24keep5keep6
    >>> df.drop_duplicates(subset=['brand'])
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    
    7

    keep8keep9

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    30keep5keep6
    >>> df.drop_duplicates(subset=['brand'])
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    
    7

    keep8keep9

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    36keep5keep6
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    39

    first5

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    3 first7

    last6last7last8

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    3
        A        B    C
    0    TeamA    50    True
    1    TeamB    40    False
    3    TeamC    30    False
    4last5

    Để tải xuống tệp CSV được sử dụng, bấm vào đây. & NBSP;

    Ví dụ 1: Loại bỏ các hàng có cùng tên & nbsp;

    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    61
    >>> df.drop_duplicates()
        brand style  rating
    0  Yum Yum   cup     4.0
    2  Indomie   cup     3.5
    3  Indomie  pack    15.0
    4  Indomie  pack     5.0
    
    62

    Output:  

    Trong ví dụ sau, các hàng có cùng tên được xóa và khung dữ liệu mới được trả về.
     

    Hướng dẫn how to remove duplicate in python pandas - làm thế nào để loại bỏ trùng lặp trong trăn gấu trúc


    Làm cách nào để loại bỏ các bản sao khỏi một cột trong gấu trúc?

    Để bỏ các cột trùng lặp từ gấu trúc DataFrame, hãy sử dụng df.t.drop_duplicates ().T, điều này loại bỏ tất cả các cột có cùng dữ liệu bất kể tên cột.df. T. drop_duplicates(). T , this removes all columns that have the same data regardless of column names.

    Làm thế nào để bạn loại bỏ các dòng trùng lặp trong Python?

    Explanation:..
    Trước hết, lưu đường dẫn của đường dẫn tệp đầu vào và đầu ra theo hai biến.....
    Tạo một biến bộ.....
    Mở tệp đầu ra ở chế độ ghi.....
    Bắt đầu một cho vòng lặp để đọc từ dòng tệp đầu vào từng dòng.....
    Tìm giá trị băm của dòng hiện tại.....
    Kiểm tra xem giá trị băm này đã có trong biến đã đặt hay không ..

    Chức năng gấu trúc nào bằng cách sử dụng để loại bỏ các hàng trùng lặp?

    DataFrame với các bản sao được gỡ bỏ hoặc không có nếu tại chỗ = true.Đếm các kết hợp độc đáo của các cột.Xem xét bộ dữ liệu chứa xếp hạng ramen.Theo mặc định, nó loại bỏ các hàng trùng lặp dựa trên tất cả các cột.

    Làm cách nào để chọn trùng lặp trong gấu trúc?

    Bạn có thể sử dụng hàm trùng lặp () để tìm các giá trị trùng lặp trong khung dữ liệu gấu trúc.use the duplicated() function to find duplicate values in a pandas DataFrame.