Hướng dẫn how do you find the number of duplicates in a dataframe in python? - làm thế nào để bạn tìm thấy số lượng bản sao trong khung dữ liệu trong python?

Nếu bạn tìm thấy một số tính bị thiếu hoặc bị lỗi:

  Col1  Col2 Col3 Col4  size
0  ABC   678  PQR  def     1
1  CDE   234  567  xyz     2
2  MNO   890  EFG  abc     4
6, hãy đọc ở đây:some counts missing or get error:
  Col1  Col2 Col3 Col4  size
0  ABC   678  PQR  def     1
1  CDE   234  567  xyz     2
2  MNO   890  EFG  abc     4
6
, read here:

1. Đếm các hàng trùng lặp với các mục
  Col1  Col2 Col3 Col4  size
0  ABC   678  PQR  def     1
1  CDE   234  567  xyz     2
2  MNO   890  EFG  abc     4
7:

Giải pháp được chấp nhận là tuyệt vời và được cho là hữu ích cho nhiều thành viên. Trong một nhiệm vụ gần đây, tôi thấy nó có thể được điều chỉnh thêm để hỗ trợ đếm hoàn toàn một khung dữ liệu với các mục

  Col1  Col2 Col3 Col4  size
0  ABC   678  PQR  def     1
1  CDE   234  567  xyz     2
2  MNO   890  EFG  abc     4
7. Pandas hỗ trợ các mục nhập bị thiếu hoặc giá trị null dưới dạng giá trị
  Col1  Col2 Col3 Col4  size
0  ABC   678  PQR  def     1
1  CDE   234  567  xyz     2
2  MNO   890  EFG  abc     4
7. Hãy xem đầu ra cho trường hợp sử dụng này là gì khi DataFrame của chúng tôi chứa các mục
  Col1  Col2 Col3 Col4  size
0  ABC   678  PQR  def     1
1  CDE   234  567  xyz     2
2  MNO   890  EFG  abc     4
7:

  Col1  Col2 Col3 Col4
0  ABC   123  XYZ  NaN       # group #1 of 3
1  ABC   123  XYZ  NaN       # group #1 of 3
2  ABC   678  PQR  def           # group #2 of 1
3  MNO   890  EFG  abc               # group #3 of 4 
4  MNO   890  EFG  abc               # group #3 of 4 
5  CDE   234  567  xyz                   # group #4 of 2 
6  ABC   123  XYZ  NaN       # group #1 of 3
7  CDE   234  567  xyz                   # group #4 of 2 
8  MNO   890  EFG  abc               # group #3 of 4 
9  MNO   890  EFG  abc               # group #3 of 4 

Áp dụng mã:

df.groupby[df.columns.tolist[],as_index=False].size[]

gives:

  Col1  Col2 Col3 Col4  size
0  ABC   678  PQR  def     1
1  CDE   234  567  xyz     2
2  MNO   890  EFG  abc     4

Ồ, tại sao số đếm của nhóm #1 với 3 hàng trùng lặp bị thiếu ?!

Đối với một số phiên bản gấu trúc, thay vào đó bạn có thể gặp lỗi:

  Col1  Col2 Col3 Col4  size
0  ABC   678  PQR  def     1
1  CDE   234  567  xyz     2
2  MNO   890  EFG  abc     4
6
  Col1  Col2 Col3 Col4  size
0  ABC   678  PQR  def     1
1  CDE   234  567  xyz     2
2  MNO   890  EFG  abc     4
6

Solution:

Sử dụng tham số

df.groupby[df.columns.tolist[], as_index=False, dropna=False].size[]
2 cho hàm
df.groupby[df.columns.tolist[], as_index=False, dropna=False].size[]
3, như sau:

df.groupby[df.columns.tolist[], as_index=False, dropna=False].size[]

gives:

  Col1  Col2 Col3 Col4  size
0  ABC   123  XYZ  NaN     3          # 

Bài Viết Liên Quan

Chủ Đề