Sắp xếp dữ liệu là quá trình thu thập, thu thập và chuyển đổi Dữ liệu thô sang định dạng khác để hiểu rõ hơn, ra quyết định, truy cập và phân tích trong thời gian ngắn hơn. Sắp xếp dữ liệu còn được gọi là Data Munging
Tầm quan trọng của sắp xếp dữ liệu
Sắp xếp dữ liệu là một bước rất quan trọng. Ví dụ dưới đây sẽ giải thích tầm quan trọng của nó như
Trang web bán sách muốn hiển thị những cuốn sách bán chạy nhất của các miền khác nhau, theo sở thích của người dùng. Ví dụ: một người dùng mới tìm kiếm sách tạo động lực, sau đó họ muốn hiển thị những cuốn sách tạo động lực bán chạy nhất hoặc có xếp hạng cao, v.v.
Nhưng trên trang web của họ, có rất nhiều dữ liệu thô từ những người dùng khác nhau. Ở đây khái niệm Data Munging hoặc Data Wrangling được sử dụng. Như chúng ta đã biết Dữ liệu không bị xáo trộn bởi hệ thống. Quá trình này được thực hiện bởi các nhà khoa học dữ liệu. Vì vậy, Nhà khoa học dữ liệu sẽ sắp xếp dữ liệu theo cách mà họ sẽ sắp xếp những cuốn sách tạo động lực được bán nhiều hơn hoặc có xếp hạng cao hoặc người dùng mua cuốn sách này cùng với gói Sách này, v.v. Trên cơ sở đó, người dùng mới đưa ra lựa chọn. Điều này sẽ giải thích tầm quan trọng của sắp xếp dữ liệu
Sắp xếp dữ liệu trong Python
Sắp xếp dữ liệu là một chủ đề quan trọng đối với Khoa học dữ liệu và Phân tích dữ liệu. Pandas Framework của Python được sử dụng để sắp xếp dữ liệu. Pandas là một thư viện mã nguồn mở được phát triển riêng cho Phân tích dữ liệu và Khoa học dữ liệu. Quá trình như sắp xếp hoặc lọc dữ liệu, Nhóm dữ liệu, v.v.
Sắp xếp dữ liệu trong python xử lý các chức năng bên dưới
- khám phá dữ liệu. Trong quá trình này, dữ liệu được nghiên cứu, phân tích và hiểu bằng cách trực quan hóa các biểu diễn dữ liệu
- Xử lý các giá trị còn thiếu. Hầu hết các bộ dữ liệu có một lượng lớn dữ liệu chứa các giá trị NaN bị thiếu, chúng cần được xử lý bằng cách thay thế chúng bằng giá trị trung bình, chế độ, giá trị thường xuyên nhất của cột hoặc đơn giản bằng cách loại bỏ hàng có giá trị NaN
- Định hình lại dữ liệu. Trong quá trình này, dữ liệu được thao tác theo yêu cầu, trong đó dữ liệu mới có thể được thêm vào hoặc dữ liệu có sẵn có thể được sửa đổi
- Lọc dữ liệu. Đôi khi bộ dữ liệu bao gồm các hàng hoặc cột không mong muốn được yêu cầu xóa hoặc lọc
- Khác. Sau khi xử lý tập dữ liệu thô với các chức năng trên, chúng tôi nhận được tập dữ liệu hiệu quả theo yêu cầu của chúng tôi và sau đó nó có thể được sử dụng cho mục đích bắt buộc như phân tích dữ liệu, học máy, trực quan hóa dữ liệu, đào tạo mô hình, v.v.
Dưới đây là một ví dụ triển khai các chức năng trên trên tập dữ liệu thô
- Khám phá dữ liệu, ở đây chúng tôi chỉ định dữ liệu và sau đó chúng tôi trực quan hóa dữ liệu ở định dạng bảng
Python3
# Import pandas package
import
pandas as pd
# Assign data
data
=
{
'Name'
DataFrame.duplicated[subset=None, keep='first']0_______0_______1
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']3
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']5
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']7
DataFrame.duplicated[subset=None, keep='first']8
DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
0_______0_______2# Import pandas package
2DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
4# Import pandas package
5# Import pandas package
6_______323_______7
DataFrame.duplicated[subset=None, keep='first']0
# Import pandas package
9DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
9DataFrame.duplicated[subset=None, keep='first']2
import
3DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
9DataFrame.duplicated[subset=None, keep='first']2
import
3DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
9DataFrame.duplicated[subset=None, keep='first']2_______323_______9_______323_______5
# Import pandas package
6_______325_______4
DataFrame.duplicated[subset=None, keep='first']0
pandas as pd
6DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
8DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
6DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
6DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
6DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
8DataFrame.duplicated[subset=None, keep='first']2_______325_______8_______323_______5
# Import pandas package
6_______327_______1
DataFrame.duplicated[subset=None, keep='first']0
data
3DataFrame.duplicated[subset=None, keep='first']2
data
5DataFrame.duplicated[subset=None, keep='first']2
data
7DataFrame.duplicated[subset=None, keep='first']2
data
9DataFrame.duplicated[subset=None, keep='first']2
=
1DataFrame.duplicated[subset=None, keep='first']2
data
7DataFrame.duplicated[subset=None, keep='first']2_______328_______5_______328_______6
=
7
=
8=
{
0
{
1
=
8
đầu ra
- Xử lý các giá trị bị thiếu, như chúng ta có thể thấy từ đầu ra trước đó, có các giá trị NaN có trong cột MARKS sẽ được xử lý bằng cách thay thế chúng bằng cột trung bình
Python3
{
3
{
4_______328_______ {
6=
{
8
{
9 'Name'
0'Name'
1 'Name'
2data
1'Name'
4
'Name'
5'Name'
6 'Name'
7'Name'
8
# Import pandas package
6_______329_______4
DataFrame.duplicated[subset=None, keep='first']01
=
DataFrame.duplicated[subset=None, keep='first']03
# Import pandas package
6_______329_______6
DataFrame.duplicated[subset=None, keep='first']01
=
'Name'
0{
6
DataFrame.duplicated[subset=None, keep='first']10
=
{
4
DataFrame.duplicated[subset=None, keep='first']13
=
8=
DataFrame.duplicated[subset=None, keep='first']16
=
DataFrame.duplicated[subset=None, keep='first']18
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']20_______0_______21____328_______
DataFrame.duplicated[subset=None, keep='first']23
{
1
=
8
đầu ra
- Định hình lại dữ liệu, trong cột GIỚI TÍNH, chúng ta có thể định hình lại dữ liệu bằng cách phân loại chúng thành các số khác nhau
Python3
DataFrame.duplicated[subset=None, keep='first']26
'Name'
2_______325_______4
DataFrame.duplicated[subset=None, keep='first']29
=
'Name'
2pandas as pd
4DataFrame.duplicated[subset=None, keep='first']33
DataFrame.duplicated[subset=None, keep='first']34
DataFrame.duplicated[subset=None, keep='first']35
pandas as pd
6DataFrame.duplicated[subset=None, keep='first']37
{
8DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']40_______325_______8
DataFrame.duplicated[subset=None, keep='first']37
DataFrame.duplicated[subset=None, keep='first']03
DataFrame.duplicated[subset=None, keep='first']44
DataFrame.duplicated[subset=None, keep='first']45
DataFrame.duplicated[subset=None, keep='first']46
{
1
=
8
đầu ra
- Lọc dữ liệu, giả sử có yêu cầu về thông tin chi tiết họ tên, giới tính, điểm của những sinh viên có điểm cao nhất. Ở đây chúng ta cần xóa một số dữ liệu không mong muốn
Python3
DataFrame.duplicated[subset=None, keep='first']49
=
8=
DataFrame.duplicated[subset=None, keep='first']52
data
1DataFrame.duplicated[subset=None, keep='first']54
=
DataFrame.duplicated[subset=None, keep='first']56
DataFrame.duplicated[subset=None, keep='first']29
DataFrame.duplicated[subset=None, keep='first']58
=
8=
DataFrame.duplicated[subset=None, keep='first']61
# Import pandas package
7DataFrame.duplicated[subset=None, keep='first']63
=
0_______03DataFrame.duplicated[subset=None, keep='first']46
{
1
=
8
đầu ra
Do đó, cuối cùng chúng tôi đã thu được một bộ dữ liệu hiệu quả có thể được sử dụng thêm cho các mục đích khác nhau.
Bây giờ chúng ta đã biết những điều cơ bản về sắp xếp dữ liệu. Dưới đây chúng tôi sẽ thảo luận về các hoạt động khác nhau mà chúng tôi có thể sử dụng để thực hiện sắp xếp dữ liệu
Sắp xếp dữ liệu bằng thao tác hợp nhất
Hoạt động hợp nhất được sử dụng để hợp nhất dữ liệu thô và thành định dạng mong muốn
cú pháp
pd.merge[ data_frame1,data_frame2, on="field "]
Ở đây, trường là tên của cột giống nhau trên cả hai khung dữ liệu
Ví dụ. Giả sử rằng một Giáo viên có hai loại Dữ liệu, loại Dữ liệu đầu tiên bao gồm Thông tin chi tiết về Học sinh và loại Dữ liệu thứ hai Bao gồm Trạng thái Học phí Đang chờ xử lý được lấy từ Văn phòng Tài khoản. Vì vậy, Giáo viên sẽ sử dụng thao tác hợp nhất ở đây để hợp nhất dữ liệu và cung cấp ý nghĩa cho nó. Vì vậy, giáo viên sẽ phân tích nó một cách dễ dàng và nó cũng giảm thời gian và công sức của Giáo viên từ việc Hợp nhất thủ công
LOẠI DỮ LIỆU ĐẦU TIÊN
Python3
DataFrame.duplicated[subset=None, keep='first']69
import
DataFrame.duplicated[subset=None, keep='first']71
DataFrame.duplicated[subset=None, keep='first']72
DataFrame.duplicated[subset=None, keep='first']73______328_______
DataFrame.duplicated[subset=None, keep='first']75
'Name'
5
DataFrame.duplicated[subset=None, keep='first']77
DataFrame.duplicated[subset=None, keep='first']0
DataFrame.duplicated[subset=None, keep='first']79
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']81
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']83
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']85
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']87
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']89
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']91_______0_______92
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']94
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']96
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']98
# Import pandas package
5'Name'
5# Import pandas package
01
DataFrame.duplicated[subset=None, keep='first']0_______323_______03
DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
05DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
07DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
09_______323_______10
DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
12DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
14DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
09_______323_______17_______0_______2# Import pandas package
19
DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
21DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
23# Import pandas package
5'Name'
5# Import pandas package
26
DataFrame.duplicated[subset=None, keep='first']0
# Import pandas package
28DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
28DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
28DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
28DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
28DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
38_______323_______28
DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
28DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
28DataFrame.duplicated[subset=None, keep='first']2_______323_______28
DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
28# Import pandas package
48
# Import pandas package
49
# Import pandas package
50_______323_______51
đầu ra
LOẠI DỮ LIỆU THỨ HAI
Python3
# Import pandas package
52
import
pandas as pd
# Import pandas package
55
# Import pandas package
56____328_______ # Import pandas package
58
'Name'
5{
0_______77
DataFrame.duplicated[subset=None, keep='first']0_______0_______79
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']81
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']83
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']85
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']87
DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
73_______0_______89
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']92
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']94
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']96
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']98
# Import pandas package
5# Import pandas package
84_______323_______85_______0_______0# Import pandas package
87
DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
89DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
91DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']7
# Import pandas package
94DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
96DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
91DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']7
import
01DataFrame.duplicated[subset=None, keep='first']2
import
03DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
89DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
91# Import pandas package
48
import
09
# Import pandas package
50____324_______11
đầu ra
SẮP XẾP DỮ LIỆU SỬ DỤNG HOẠT ĐỘNG HỢP NHẤT
Python3
# Import pandas package
52
import
pandas as pd
import
15
DataFrame.duplicated[subset=None, keep='first']73______328_______
DataFrame.duplicated[subset=None, keep='first']75
'Name'
5
DataFrame.duplicated[subset=None, keep='first']77
DataFrame.duplicated[subset=None, keep='first']0
DataFrame.duplicated[subset=None, keep='first']79
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']81
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']83
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']85
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']87
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']91_______0_______89
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']92
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']94
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']96
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']98
# Import pandas package
5'Name'
5# Import pandas package
01
DataFrame.duplicated[subset=None, keep='first']0_______323_______03
DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
05DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
07DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
09_______323_______10
DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
12DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
14DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
09_______323_______17_______0_______2# Import pandas package
19
DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
21DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
23# Import pandas package
5'Name'
5# Import pandas package
26
DataFrame.duplicated[subset=None, keep='first']0
# Import pandas package
28DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
28DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
28DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
28DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
28DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
38_______323_______28
DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
28DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
28DataFrame.duplicated[subset=None, keep='first']2_______323_______28
DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
28# Import pandas package
48
import
15
# Import pandas package
56____328_______ # Import pandas package
58
'Name'
5{
0_______77
DataFrame.duplicated[subset=None, keep='first']0_______0_______79
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']81
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']83
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']85
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']87
DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
73_______0_______89
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']92
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']94
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']96
DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']98
# Import pandas package
5# Import pandas package
84_______323_______85_______0_______0# Import pandas package
87
DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
89DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
91DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']7
# Import pandas package
94DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
96DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
91DataFrame.duplicated[subset=None, keep='first']2
DataFrame.duplicated[subset=None, keep='first']7
import
01DataFrame.duplicated[subset=None, keep='first']2
import
03DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
89DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
91# Import pandas package
48
pandas as pd
46
# Import pandas package
50_______325_______48____328_______
DataFrame.duplicated[subset=None, keep='first']77
pandas as pd
51đầu ra
Sắp xếp dữ liệu bằng phương pháp nhóm
Phương pháp nhóm trong Phân tích dữ liệu được sử dụng để cung cấp kết quả theo các nhóm khác nhau được lấy ra từ Dữ liệu lớn. Phương pháp gấu trúc này được sử dụng để nhóm dữ liệu đầu tiên từ tập dữ liệu lớn
Thí dụ. Có một công ty bán ô tô và công ty này có các Thương hiệu khác nhau của nhiều Công ty sản xuất ô tô khác nhau như Maruti, Toyota, Mahindra, Ford, v.v. và có dữ liệu nơi những chiếc xe khác nhau được bán trong những năm khác nhau. Vì vậy, Công ty chỉ muốn tranh luận về dữ liệu nơi ô tô được bán trong năm 2010. Đối với bài toán này, chúng ta sử dụng một kỹ thuật Sắp xếp khác đó là phương thức groupby[]
XE BÁN DỮ LIỆU
Python3
# Import pandas package
52
import
pandas as pd
pandas as pd
55
pandas as pd
56_______328_______ {
325_______59
DataFrame.duplicated[subset=None, keep='first']0
pandas as pd
61DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
61DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
61DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
67pandas as pd
61_______0_______2pandas as pd
70
DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
70DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
67pandas as pd
75
DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
77DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
77DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
67pandas as pd
82
DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
75DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
82# Import pandas package
5pandas as pd
88_______325_______89pandas as pd
90_______325_______91
DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
93DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
95DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
97DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
67pandas as pd
91
DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
93DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
93DataFrame.duplicated[subset=None, keep='first']2_______325_______91
DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
67pandas as pd
97
DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
91DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
91DataFrame.duplicated[subset=None, keep='first']2_______325_______93
# Import pandas package
5pandas as pd
88_______326_______18_______0_______0# Assign data
20
DataFrame.duplicated[subset=None, keep='first']2
# Assign data
22DataFrame.duplicated[subset=None, keep='first']2
# Assign data
24DataFrame.duplicated[subset=None, keep='first']2
# Assign data
26DataFrame.duplicated[subset=None, keep='first']2
# Assign data
28DataFrame.duplicated[subset=None, keep='first']2
# Assign data
30_______0_______2# Assign data
32_______326_______33_______0_______2# Assign data
26
DataFrame.duplicated[subset=None, keep='first']2
# Assign data
22DataFrame.duplicated[subset=None, keep='first']2
# Assign data
33DataFrame.duplicated[subset=None, keep='first']2
# Assign data
41DataFrame.duplicated[subset=None, keep='first']2
# Assign data
33=
6
# Assign data
45
=
8=
# Assign data
48
# Assign data
49
# Import pandas package
50_______326_______51
đầu ra
SỐ LIỆU NĂM 2010
Python3
# Import pandas package
52
import
pandas as pd
pandas as pd
55
pandas as pd
56_______328_______ {
325_______59
DataFrame.duplicated[subset=None, keep='first']0
pandas as pd
61DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
61DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
61DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
67pandas as pd
61_______0_______2pandas as pd
70
DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
70DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
67pandas as pd
75
DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
77DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
77DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
67pandas as pd
82
DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
75DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
82# Import pandas package
5pandas as pd
88_______325_______89pandas as pd
90_______325_______91
DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
93DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
95DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
97DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
67pandas as pd
91
DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
93DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
93DataFrame.duplicated[subset=None, keep='first']2_______325_______91
DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
67pandas as pd
97
DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
91DataFrame.duplicated[subset=None, keep='first']2
pandas as pd
91DataFrame.duplicated[subset=None, keep='first']2_______325_______93
# Import pandas package
5pandas as pd
88_______326_______18_______0_______0# Assign data
20
DataFrame.duplicated[subset=None, keep='first']2
# Assign data
22DataFrame.duplicated[subset=None, keep='first']2
# Assign data
24DataFrame.duplicated[subset=None, keep='first']2
# Assign data
26DataFrame.duplicated[subset=None, keep='first']2
# Assign data
28DataFrame.duplicated[subset=None, keep='first']2
# Assign data
30_______0_______2# Assign data
32_______326_______33_______0_______2# Assign data
26
DataFrame.duplicated[subset=None, keep='first']2
# Assign data
22DataFrame.duplicated[subset=None, keep='first']2
# Assign data
33DataFrame.duplicated[subset=None, keep='first']2
# Assign data
41DataFrame.duplicated[subset=None, keep='first']2
# Assign data
33=
6
data
45
=
8=
# Assign data
48
data
49
data
50_______328_______ data
52____325_______89
DataFrame.duplicated[subset=None, keep='first']46
# Import pandas package
50_______327_______56____325_______91pandas as pd
51
đầu ra
Sắp xếp dữ liệu bằng cách loại bỏ Sao chép
Phương thức pandas Duplices[] giúp chúng ta xóa các giá trị trùng lặp khỏi Dữ liệu lớn. Một phần quan trọng của Sắp xếp dữ liệu là xóa các giá trị trùng lặp khỏi tập dữ liệu lớn
cú pháp
DataFrame.duplicated[subset=None, keep='first']
Ở đây tập hợp con là giá trị cột mà chúng tôi muốn xóa Giá trị trùng lặp
Để giữ, chúng tôi có 3 lựa chọn
- nếu keep ='first' thì giá trị đầu tiên được đánh dấu là giá trị gốc còn lại, tất cả các giá trị nếu xảy ra sẽ bị xóa vì giá trị này được coi là trùng lặp
- nếu keep=’last’ thì giá trị cuối cùng được đánh dấu là phần còn lại ban đầu, tất cả các giá trị giống nhau ở trên sẽ bị xóa vì nó được coi là giá trị trùng lặp
- nếu keep =’false’ thì tất cả các giá trị xuất hiện nhiều lần sẽ bị xóa vì tất cả được coi là giá trị trùng lặp
Ví dụ, trường đại học A sẽ tổ chức sự kiện. Để tham gia Sinh viên phải điền thông tin chi tiết vào biểu mẫu trực tuyến để họ sẽ liên hệ với họ. Có thể một sinh viên sẽ điền vào biểu mẫu nhiều lần. Nó có thể gây khó khăn cho người tổ chức sự kiện nếu một sinh viên sẽ điền vào nhiều mục. Dữ liệu mà ban tổ chức sẽ nhận được có thể được sắp xếp dễ dàng bằng cách loại bỏ các giá trị trùng lặp
CHI TIẾT DỮ LIỆU SINH VIÊN MUỐN THAM GIA SỰ KIỆN
Python3
# Import pandas package
52
import
pandas as pd
data
62
data
63_______328_______ {
'Name'
DataFrame.duplicated[subset=None, keep='first']0
data
68DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
05DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
03DataFrame.duplicated[subset=None, keep='first']2
data
74# Import pandas package
12
DataFrame.duplicated[subset=None, keep='first']2
data
77DataFrame.duplicated[subset=None, keep='first']2
data
79DataFrame.duplicated[subset=None, keep='first']2
data
74data
82
DataFrame.duplicated[subset=None, keep='first']2
data
84DataFrame.duplicated[subset=None, keep='first']2
data
68DataFrame.duplicated[subset=None, keep='first']2
data
74# Import pandas package
12
DataFrame.duplicated[subset=None, keep='first']2
# Import pandas package
05DataFrame.duplicated[subset=None, keep='first']2
data
68# Import pandas package
5
DataFrame.duplicated[subset=None, keep='first']20_______327_______96
DataFrame.duplicated[subset=None, keep='first']0
data
98DataFrame.duplicated[subset=None, keep='first']2
=
00DataFrame.duplicated[subset=None, keep='first']2
=
02DataFrame.duplicated[subset=None, keep='first']2
=
04DataFrame.duplicated[subset=None, keep='first']2
=
06DataFrame.duplicated[subset=None, keep='first']2
=
08DataFrame.duplicated[subset=None, keep='first']2
=
10_______328_______11
DataFrame.duplicated[subset=None, keep='first']2
=
13DataFrame.duplicated[subset=None, keep='first']2
=
15DataFrame.duplicated[subset=None, keep='first']2
=
04DataFrame.duplicated[subset=None, keep='first']2
=
00DataFrame.duplicated[subset=None, keep='first']2
data
98# Import pandas package
5