Python để phân tích dữ liệu dữ liệu lộn xộn với

Sắp xếp dữ liệu là quá trình thu thập, thu thập và chuyển đổi Dữ liệu thô sang định dạng khác để hiểu rõ hơn, ra quyết định, truy cập và phân tích trong thời gian ngắn hơn. Sắp xếp dữ liệu còn được gọi là Data Munging

Tầm quan trọng của sắp xếp dữ liệu

Sắp xếp dữ liệu là một bước rất quan trọng. Ví dụ dưới đây sẽ giải thích tầm quan trọng của nó như

Trang web bán sách muốn hiển thị những cuốn sách bán chạy nhất của các miền khác nhau, theo sở thích của người dùng. Ví dụ: một người dùng mới tìm kiếm sách tạo động lực, sau đó họ muốn hiển thị những cuốn sách tạo động lực bán chạy nhất hoặc có xếp hạng cao, v.v.  

Nhưng trên trang web của họ, có rất nhiều dữ liệu thô từ những người dùng khác nhau. Ở đây khái niệm Data Munging hoặc Data Wrangling được sử dụng. Như chúng ta đã biết Dữ liệu không bị xáo trộn bởi hệ thống. Quá trình này được thực hiện bởi các nhà khoa học dữ liệu. Vì vậy, Nhà khoa học dữ liệu sẽ sắp xếp dữ liệu theo cách mà họ sẽ sắp xếp những cuốn sách tạo động lực được bán nhiều hơn hoặc có xếp hạng cao hoặc người dùng mua cuốn sách này cùng với gói Sách này, v.v. Trên cơ sở đó, người dùng mới đưa ra lựa chọn. Điều này sẽ giải thích tầm quan trọng của sắp xếp dữ liệu

Sắp xếp dữ liệu trong Python

Sắp xếp dữ liệu là một chủ đề quan trọng đối với Khoa học dữ liệu và Phân tích dữ liệu. Pandas Framework của Python được sử dụng để sắp xếp dữ liệu. Pandas là một thư viện mã nguồn mở được phát triển riêng cho Phân tích dữ liệu và Khoa học dữ liệu. Quá trình như sắp xếp hoặc lọc dữ liệu, Nhóm dữ liệu, v.v.

Sắp xếp dữ liệu trong python xử lý các chức năng bên dưới

  1. khám phá dữ liệu. Trong quá trình này, dữ liệu được nghiên cứu, phân tích và hiểu bằng cách trực quan hóa các biểu diễn dữ liệu
  2. Xử lý các giá trị còn thiếu. Hầu hết các bộ dữ liệu có một lượng lớn dữ liệu chứa các giá trị NaN bị thiếu, chúng cần được xử lý bằng cách thay thế chúng bằng giá trị trung bình, chế độ, giá trị thường xuyên nhất của cột hoặc đơn giản bằng cách loại bỏ hàng có giá trị NaN
  3. Định hình lại dữ liệu. Trong quá trình này, dữ liệu được thao tác theo yêu cầu, trong đó dữ liệu mới có thể được thêm vào hoặc dữ liệu có sẵn có thể được sửa đổi
  4. Lọc dữ liệu. Đôi khi bộ dữ liệu bao gồm các hàng hoặc cột không mong muốn được yêu cầu xóa hoặc lọc
  5. Khác. Sau khi xử lý tập dữ liệu thô với các chức năng trên, chúng tôi nhận được tập dữ liệu hiệu quả theo yêu cầu của chúng tôi và sau đó nó có thể được sử dụng cho mục đích bắt buộc như phân tích dữ liệu, học máy, trực quan hóa dữ liệu, đào tạo mô hình, v.v.

Dưới đây là một ví dụ triển khai các chức năng trên trên tập dữ liệu thô

  • Khám phá dữ liệu, ở đây chúng tôi chỉ định dữ liệu và sau đó chúng tôi trực quan hóa dữ liệu ở định dạng bảng

Python3




# Import pandas package

import pandas as pd

 

# Assign data

data= {'Name'

DataFrame.duplicated[subset=None, keep='first']
0_______0_______1
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
3
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
5
DataFrame.duplicated[subset=None, keep='first']
2

DataFrame.duplicated[subset=None, keep='first']
7
DataFrame.duplicated[subset=None, keep='first']
8
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package0_______0_______2# Import pandas package2
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package4# Import pandas package5

# Import pandas package6_______323_______7

DataFrame.duplicated[subset=None, keep='first']
0# Import pandas package9
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package9
DataFrame.duplicated[subset=None, keep='first']
2import3
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package9
DataFrame.duplicated[subset=None, keep='first']
2import3
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package9
DataFrame.duplicated[subset=None, keep='first']
2_______323_______9_______323_______5

# Import pandas package6_______325_______4

DataFrame.duplicated[subset=None, keep='first']
0pandas as pd6
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd8
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd6
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd6
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd6
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd8
DataFrame.duplicated[subset=None, keep='first']
2_______325_______8_______323_______5

# Import pandas package6_______327_______1

DataFrame.duplicated[subset=None, keep='first']
0data3
DataFrame.duplicated[subset=None, keep='first']
2data5
DataFrame.duplicated[subset=None, keep='first']
2data7
DataFrame.duplicated[subset=None, keep='first']
2data9
DataFrame.duplicated[subset=None, keep='first']
2=1
DataFrame.duplicated[subset=None, keep='first']
2data7
DataFrame.duplicated[subset=None, keep='first']
2_______328_______5_______328_______6

 

=7

=8= {0

 

{1

=8

đầu ra

  • Xử lý các giá trị bị thiếu, như chúng ta có thể thấy từ đầu ra trước đó, có các giá trị NaN có trong cột MARKS sẽ được xử lý bằng cách thay thế chúng bằng cột trung bình

Python3




{3

{4_______328_______ {6= {8

{9 'Name'0'Name'1 'Name'2data1'Name'4

'Name'5'Name'6 'Name'7'Name'8

# Import pandas package6_______329_______4

DataFrame.duplicated[subset=None, keep='first']
01=
DataFrame.duplicated[subset=None, keep='first']
03

# Import pandas package6_______329_______6

DataFrame.duplicated[subset=None, keep='first']
01= 'Name'0

{6

DataFrame.duplicated[subset=None, keep='first']
10= {4

 

DataFrame.duplicated[subset=None, keep='first']
13

=8=

DataFrame.duplicated[subset=None, keep='first']
16=
DataFrame.duplicated[subset=None, keep='first']
18
DataFrame.duplicated[subset=None, keep='first']
2

DataFrame.duplicated[subset=None, keep='first']
20_______0_______21____328_______
DataFrame.duplicated[subset=None, keep='first']
23

 

{1

=8

đầu ra

  • Định hình lại dữ liệu, trong cột GIỚI TÍNH, chúng ta có thể định hình lại dữ liệu bằng cách phân loại chúng thành các số khác nhau

Python3




DataFrame.duplicated[subset=None, keep='first']
26

'Name'2_______325_______4

DataFrame.duplicated[subset=None, keep='first']
29= 'Name'2pandas as pd4
DataFrame.duplicated[subset=None, keep='first']
33
DataFrame.duplicated[subset=None, keep='first']
34
DataFrame.duplicated[subset=None, keep='first']
35pandas as pd6
DataFrame.duplicated[subset=None, keep='first']
37{8
DataFrame.duplicated[subset=None, keep='first']
2

DataFrame.duplicated[subset=None, keep='first']
40_______325_______8
DataFrame.duplicated[subset=None, keep='first']
37
DataFrame.duplicated[subset=None, keep='first']
03
DataFrame.duplicated[subset=None, keep='first']
44
DataFrame.duplicated[subset=None, keep='first']
45
DataFrame.duplicated[subset=None, keep='first']
46

 

{1

=8

đầu ra

  • Lọc dữ liệu, giả sử có yêu cầu về thông tin chi tiết họ tên, giới tính, điểm của những sinh viên có điểm cao nhất. Ở đây chúng ta cần xóa một số dữ liệu không mong muốn

Python3




DataFrame.duplicated[subset=None, keep='first']
49

=8=

DataFrame.duplicated[subset=None, keep='first']
52data1
DataFrame.duplicated[subset=None, keep='first']
54=
DataFrame.duplicated[subset=None, keep='first']
56
DataFrame.duplicated[subset=None, keep='first']
29

 

DataFrame.duplicated[subset=None, keep='first']
58

=8=

DataFrame.duplicated[subset=None, keep='first']
61# Import pandas package7
DataFrame.duplicated[subset=None, keep='first']
63=0_______03
DataFrame.duplicated[subset=None, keep='first']
46

 

{1

=8

đầu ra

Do đó, cuối cùng chúng tôi đã thu được một bộ dữ liệu hiệu quả có thể được sử dụng thêm cho các mục đích khác nhau.  

Bây giờ chúng ta đã biết những điều cơ bản về sắp xếp dữ liệu. Dưới đây chúng tôi sẽ thảo luận về các hoạt động khác nhau mà chúng tôi có thể sử dụng để thực hiện sắp xếp dữ liệu

Sắp xếp dữ liệu bằng thao tác hợp nhất

Hoạt động hợp nhất được sử dụng để hợp nhất dữ liệu thô và thành định dạng mong muốn

cú pháp

pd.merge[ data_frame1,data_frame2, on="field "] 

Ở đây, trường là tên của cột giống nhau trên cả hai khung dữ liệu

Ví dụ. Giả sử rằng một Giáo viên có hai loại Dữ liệu, loại Dữ liệu đầu tiên bao gồm Thông tin chi tiết về Học sinh và loại Dữ liệu thứ hai Bao gồm Trạng thái Học phí Đang chờ xử lý được lấy từ Văn phòng Tài khoản. Vì vậy, Giáo viên sẽ sử dụng thao tác hợp nhất ở đây để hợp nhất dữ liệu và cung cấp ý nghĩa cho nó. Vì vậy, giáo viên sẽ phân tích nó một cách dễ dàng và nó cũng giảm thời gian và công sức của Giáo viên từ việc Hợp nhất thủ công

LOẠI DỮ LIỆU ĐẦU TIÊN

Python3




DataFrame.duplicated[subset=None, keep='first']
69

import

DataFrame.duplicated[subset=None, keep='first']
71

 

DataFrame.duplicated[subset=None, keep='first']
72

DataFrame.duplicated[subset=None, keep='first']
73______328_______
DataFrame.duplicated[subset=None, keep='first']
75

'Name'5

DataFrame.duplicated[subset=None, keep='first']
77
DataFrame.duplicated[subset=None, keep='first']
0
DataFrame.duplicated[subset=None, keep='first']
79
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
81
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
83
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
85
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
87
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
89
DataFrame.duplicated[subset=None, keep='first']
2

DataFrame.duplicated[subset=None, keep='first']
91_______0_______92
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
94
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
96
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
98# Import pandas package5

'Name'5# Import pandas package01

DataFrame.duplicated[subset=None, keep='first']
0_______323_______03
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package05
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package07
DataFrame.duplicated[subset=None, keep='first']
2

# Import pandas package09_______323_______10

DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package12
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package14
DataFrame.duplicated[subset=None, keep='first']
2

# Import pandas package09_______323_______17_______0_______2# Import pandas package19

DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package21
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package23# Import pandas package5

'Name'5# Import pandas package26

DataFrame.duplicated[subset=None, keep='first']
0# Import pandas package28
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package28
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package28
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package28
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package28
DataFrame.duplicated[subset=None, keep='first']
2

# Import pandas package38_______323_______28

DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package28
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package28
DataFrame.duplicated[subset=None, keep='first']
2_______323_______28
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package28# Import pandas package48

 

# Import pandas package49

# Import pandas package50_______323_______51

đầu ra

LOẠI DỮ LIỆU THỨ HAI

Python3




# Import pandas package52

import pandas as pd

 

# Import pandas package55

# Import pandas package56____328_______ # Import pandas package58

'Name'5{0_______77

DataFrame.duplicated[subset=None, keep='first']
0_______0_______79
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
81
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
83
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
85
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
87
DataFrame.duplicated[subset=None, keep='first']
2

# Import pandas package73_______0_______89

DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
92
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
94
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
96
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
98# Import pandas package5

# Import pandas package84_______323_______85_______0_______0# Import pandas package87

DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package89
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package91
DataFrame.duplicated[subset=None, keep='first']
2

DataFrame.duplicated[subset=None, keep='first']
7# Import pandas package94
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package96
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package91
DataFrame.duplicated[subset=None, keep='first']
2

DataFrame.duplicated[subset=None, keep='first']
7import01
DataFrame.duplicated[subset=None, keep='first']
2import03
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package89
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package91# Import pandas package48

 

import09

# Import pandas package50____324_______11

đầu ra

SẮP XẾP DỮ LIỆU SỬ DỤNG HOẠT ĐỘNG HỢP NHẤT

Python3




# Import pandas package52

import pandas as pd

 

import15

DataFrame.duplicated[subset=None, keep='first']
73______328_______
DataFrame.duplicated[subset=None, keep='first']
75

'Name'5

DataFrame.duplicated[subset=None, keep='first']
77
DataFrame.duplicated[subset=None, keep='first']
0
DataFrame.duplicated[subset=None, keep='first']
79
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
81
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
83
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
85
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
87
DataFrame.duplicated[subset=None, keep='first']
2

DataFrame.duplicated[subset=None, keep='first']
91_______0_______89
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
92
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
94
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
96
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
98# Import pandas package5

'Name'5# Import pandas package01

DataFrame.duplicated[subset=None, keep='first']
0_______323_______03
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package05
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package07
DataFrame.duplicated[subset=None, keep='first']
2

# Import pandas package09_______323_______10

DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package12
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package14
DataFrame.duplicated[subset=None, keep='first']
2

# Import pandas package09_______323_______17_______0_______2# Import pandas package19

DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package21
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package23# Import pandas package5

'Name'5# Import pandas package26

DataFrame.duplicated[subset=None, keep='first']
0# Import pandas package28
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package28
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package28
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package28
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package28
DataFrame.duplicated[subset=None, keep='first']
2

# Import pandas package38_______323_______28

DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package28
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package28
DataFrame.duplicated[subset=None, keep='first']
2_______323_______28
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package28# Import pandas package48

 

import15

# Import pandas package56____328_______ # Import pandas package58

'Name'5{0_______77

DataFrame.duplicated[subset=None, keep='first']
0_______0_______79
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
81
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
83
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
85
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
87
DataFrame.duplicated[subset=None, keep='first']
2

# Import pandas package73_______0_______89

DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
92
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
94
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
96
DataFrame.duplicated[subset=None, keep='first']
2
DataFrame.duplicated[subset=None, keep='first']
98# Import pandas package5

# Import pandas package84_______323_______85_______0_______0# Import pandas package87

DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package89
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package91
DataFrame.duplicated[subset=None, keep='first']
2

DataFrame.duplicated[subset=None, keep='first']
7# Import pandas package94
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package96
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package91
DataFrame.duplicated[subset=None, keep='first']
2

DataFrame.duplicated[subset=None, keep='first']
7import01
DataFrame.duplicated[subset=None, keep='first']
2import03
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package89
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package91# Import pandas package48

 

pandas as pd46

# Import pandas package50_______325_______48____328_______

DataFrame.duplicated[subset=None, keep='first']
77pandas as pd51

đầu ra

Sắp xếp dữ liệu bằng phương pháp nhóm

Phương pháp nhóm trong Phân tích dữ liệu được sử dụng để cung cấp kết quả theo các nhóm khác nhau được lấy ra từ Dữ liệu lớn. Phương pháp gấu trúc này được sử dụng để nhóm dữ liệu đầu tiên từ tập dữ liệu lớn

Thí dụ. Có một công ty bán ô tô và công ty này có các Thương hiệu khác nhau của nhiều Công ty sản xuất ô tô khác nhau như Maruti, Toyota, Mahindra, Ford, v.v. và có dữ liệu nơi những chiếc xe khác nhau được bán trong những năm khác nhau. Vì vậy, Công ty chỉ muốn tranh luận về dữ liệu nơi ô tô được bán trong năm 2010. Đối với bài toán này, chúng ta sử dụng một kỹ thuật Sắp xếp khác đó là phương thức groupby[]

XE BÁN DỮ LIỆU

Python3




# Import pandas package52

import pandas as pd

 

pandas as pd55

pandas as pd56_______328_______ {325_______59

DataFrame.duplicated[subset=None, keep='first']
0pandas as pd61
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd61
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd61
DataFrame.duplicated[subset=None, keep='first']
2

pandas as pd67pandas as pd61_______0_______2pandas as pd70

DataFrame.duplicated[subset=None, keep='first']
2pandas as pd70
DataFrame.duplicated[subset=None, keep='first']
2

pandas as pd67pandas as pd75

DataFrame.duplicated[subset=None, keep='first']
2pandas as pd77
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd77
DataFrame.duplicated[subset=None, keep='first']
2

pandas as pd67pandas as pd82

DataFrame.duplicated[subset=None, keep='first']
2pandas as pd75
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd82# Import pandas package5

pandas as pd88_______325_______89pandas as pd90_______325_______91

DataFrame.duplicated[subset=None, keep='first']
2pandas as pd93
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd95
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd97
DataFrame.duplicated[subset=None, keep='first']
2

pandas as pd67pandas as pd91

DataFrame.duplicated[subset=None, keep='first']
2pandas as pd93
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd93
DataFrame.duplicated[subset=None, keep='first']
2_______325_______91
DataFrame.duplicated[subset=None, keep='first']
2

pandas as pd67pandas as pd97

DataFrame.duplicated[subset=None, keep='first']
2pandas as pd91
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd91
DataFrame.duplicated[subset=None, keep='first']
2_______325_______93# Import pandas package5

pandas as pd88_______326_______18_______0_______0# Assign data20

DataFrame.duplicated[subset=None, keep='first']
2# Assign data22
DataFrame.duplicated[subset=None, keep='first']
2# Assign data24
DataFrame.duplicated[subset=None, keep='first']
2# Assign data26
DataFrame.duplicated[subset=None, keep='first']
2# Assign data28
DataFrame.duplicated[subset=None, keep='first']
2# Assign data30_______0_______2

# Assign data32_______326_______33_______0_______2# Assign data26

DataFrame.duplicated[subset=None, keep='first']
2# Assign data22
DataFrame.duplicated[subset=None, keep='first']
2# Assign data33
DataFrame.duplicated[subset=None, keep='first']
2# Assign data41
DataFrame.duplicated[subset=None, keep='first']
2# Assign data33=6

 

# Assign data45

=8= # Assign data48

 

# Assign data49

# Import pandas package50_______326_______51

đầu ra

SỐ LIỆU NĂM 2010

Python3




# Import pandas package52

import pandas as pd

 

pandas as pd55

pandas as pd56_______328_______ {325_______59

DataFrame.duplicated[subset=None, keep='first']
0pandas as pd61
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd61
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd61
DataFrame.duplicated[subset=None, keep='first']
2

pandas as pd67pandas as pd61_______0_______2pandas as pd70

DataFrame.duplicated[subset=None, keep='first']
2pandas as pd70
DataFrame.duplicated[subset=None, keep='first']
2

pandas as pd67pandas as pd75

DataFrame.duplicated[subset=None, keep='first']
2pandas as pd77
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd77
DataFrame.duplicated[subset=None, keep='first']
2

pandas as pd67pandas as pd82

DataFrame.duplicated[subset=None, keep='first']
2pandas as pd75
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd82# Import pandas package5

pandas as pd88_______325_______89pandas as pd90_______325_______91

DataFrame.duplicated[subset=None, keep='first']
2pandas as pd93
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd95
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd97
DataFrame.duplicated[subset=None, keep='first']
2

pandas as pd67pandas as pd91

DataFrame.duplicated[subset=None, keep='first']
2pandas as pd93
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd93
DataFrame.duplicated[subset=None, keep='first']
2_______325_______91
DataFrame.duplicated[subset=None, keep='first']
2

pandas as pd67pandas as pd97

DataFrame.duplicated[subset=None, keep='first']
2pandas as pd91
DataFrame.duplicated[subset=None, keep='first']
2pandas as pd91
DataFrame.duplicated[subset=None, keep='first']
2_______325_______93# Import pandas package5

pandas as pd88_______326_______18_______0_______0# Assign data20

DataFrame.duplicated[subset=None, keep='first']
2# Assign data22
DataFrame.duplicated[subset=None, keep='first']
2# Assign data24
DataFrame.duplicated[subset=None, keep='first']
2# Assign data26
DataFrame.duplicated[subset=None, keep='first']
2# Assign data28
DataFrame.duplicated[subset=None, keep='first']
2# Assign data30_______0_______2

# Assign data32_______326_______33_______0_______2# Assign data26

DataFrame.duplicated[subset=None, keep='first']
2# Assign data22
DataFrame.duplicated[subset=None, keep='first']
2# Assign data33
DataFrame.duplicated[subset=None, keep='first']
2# Assign data41
DataFrame.duplicated[subset=None, keep='first']
2# Assign data33=6

 

data45

=8= # Assign data48

 

data49

data50_______328_______ data52____325_______89

DataFrame.duplicated[subset=None, keep='first']
46

# Import pandas package50_______327_______56____325_______91pandas as pd51

đầu ra

Sắp xếp dữ liệu bằng cách loại bỏ Sao chép

Phương thức pandas Duplices[] giúp chúng ta xóa các giá trị trùng lặp khỏi Dữ liệu lớn. Một phần quan trọng của Sắp xếp dữ liệu là xóa các giá trị trùng lặp khỏi tập dữ liệu lớn

cú pháp

DataFrame.duplicated[subset=None, keep='first']

Ở đây tập hợp con là giá trị cột mà chúng tôi muốn xóa Giá trị trùng lặp

Để giữ, chúng tôi có 3 lựa chọn

  • nếu  keep ='first' thì giá trị đầu tiên được đánh dấu là giá trị gốc còn lại, tất cả các giá trị nếu xảy ra sẽ bị xóa vì giá trị này được coi là trùng lặp
  • nếu keep=’last’ thì giá trị cuối cùng được đánh dấu là phần còn lại ban đầu, tất cả các giá trị giống nhau ở trên sẽ bị xóa vì nó được coi là giá trị trùng lặp
  • nếu keep =’false’ thì tất cả các giá trị xuất hiện nhiều lần sẽ bị xóa vì tất cả được coi là giá trị trùng lặp

Ví dụ, trường đại học A sẽ tổ chức sự kiện. Để tham gia Sinh viên phải điền thông tin chi tiết vào biểu mẫu trực tuyến để họ sẽ liên hệ với họ. Có thể một sinh viên sẽ điền vào biểu mẫu nhiều lần. Nó có thể gây khó khăn cho người tổ chức sự kiện nếu một sinh viên sẽ điền vào nhiều mục. Dữ liệu mà ban tổ chức sẽ nhận được có thể được sắp xếp dễ dàng bằng cách loại bỏ các giá trị trùng lặp

CHI TIẾT DỮ LIỆU SINH VIÊN MUỐN THAM GIA SỰ KIỆN

Python3




# Import pandas package52

import pandas as pd

 

data62

data63_______328_______ {'Name'

DataFrame.duplicated[subset=None, keep='first']
0data68
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package05
DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package03
DataFrame.duplicated[subset=None, keep='first']
2

data74# Import pandas package12

DataFrame.duplicated[subset=None, keep='first']
2data77
DataFrame.duplicated[subset=None, keep='first']
2data79
DataFrame.duplicated[subset=None, keep='first']
2

data74data82

DataFrame.duplicated[subset=None, keep='first']
2data84
DataFrame.duplicated[subset=None, keep='first']
2data68
DataFrame.duplicated[subset=None, keep='first']
2

data74# Import pandas package12

DataFrame.duplicated[subset=None, keep='first']
2# Import pandas package05
DataFrame.duplicated[subset=None, keep='first']
2data68# Import pandas package5

 

DataFrame.duplicated[subset=None, keep='first']
20_______327_______96
DataFrame.duplicated[subset=None, keep='first']
0data98
DataFrame.duplicated[subset=None, keep='first']
2=00
DataFrame.duplicated[subset=None, keep='first']
2=02
DataFrame.duplicated[subset=None, keep='first']
2=04
DataFrame.duplicated[subset=None, keep='first']
2=06
DataFrame.duplicated[subset=None, keep='first']
2=08
DataFrame.duplicated[subset=None, keep='first']
2

=10_______328_______11

DataFrame.duplicated[subset=None, keep='first']
2=13
DataFrame.duplicated[subset=None, keep='first']
2=15
DataFrame.duplicated[subset=None, keep='first']
2=04
DataFrame.duplicated[subset=None, keep='first']
2=00
DataFrame.duplicated[subset=None, keep='first']
2data98# Import pandas package5

Làm cách nào để sử dụng Python để sắp xếp dữ liệu?

Các bước chính của việc sắp xếp dữ liệu .
Thu thập dữ liệu. Bước đầu tiên là nhập dữ liệu bạn muốn phân tích. .
Làm sạch dữ liệu. Đây là một trong những bước quan trọng nhất, vì đó là khi bạn khắc phục những thứ có thể gây ra sự cố cho bạn sau này. .
Chuyển đổi dữ liệu. .
khám phá dữ liệu

Python có tốt cho việc sắp xếp dữ liệu không?

Ngoài ra, Python có cú pháp đơn giản, dễ hiểu. Python có thể thực hiện phân tích dữ liệu, phát triển web, tự động hóa, viết kịch bản, kiểm tra phần mềm, tạo nguyên mẫu, cấu trúc dữ liệu cấp cao, sắp xếp dữ liệu và quét dữ liệu, trong số các nhiệm vụ khác

Thư viện Python nào được sử dụng để sắp xếp dữ liệu?

Gấu trúc. Pandas [Phân tích dữ liệu Python] là điều bắt buộc trong vòng đời của khoa học dữ liệu. Đây là thư viện Python phổ biến và được sử dụng rộng rãi nhất cho khoa học dữ liệu, cùng với NumPy trong matplotlib.

Python được sử dụng như thế nào để phân tích dữ liệu?

Một trong những ứng dụng phổ biến nhất của Python là ở khả năng tạo và quản lý cấu trúc dữ liệu một cách nhanh chóng — Chẳng hạn, Pandas cung cấp một .

Chủ Đề