Thay thế các ký tự đặc biệt trong gấu trúc Python

Trong hướng dẫn này, chúng tôi sẽ chỉ cho bạn giải pháp xóa các ký tự đặc biệt khỏi dataframe python, khi làm việc với dữ liệu, có thể cần phải sửa đổi dữ liệu theo một cách nào đó để tổ chức dữ liệu đó

Bạn có thể phải xóa một số dữ liệu hoặc nhập một số thông tin bổ sung để sắp xếp dữ liệu. Có thể cần phải duy trì một trạng thái nhất định của dữ liệu

Ví dụ: dữ liệu không được chứa bất kỳ ký tự đặc biệt nào trong đó hoặc dữ liệu không được chứa bất kỳ khoảng trắng nào, vì vậy hãy tìm hiểu về nó

Hướng dẫn từng bước về cách xóa các ký tự đặc biệt khỏi Dataframe Python. -

Pandas DataFrame là một cấu trúc chứa dữ liệu hai chiều và các nhãn tương ứng của nó

DataFrames được sử dụng rộng rãi trong khoa học dữ liệu, học máy, tính toán khoa học và nhiều lĩnh vực sử dụng nhiều dữ liệu khác

Bạn có thể sử dụng hàm thay thế () để xóa bất kỳ ký tự đặc biệt nào trong khung dữ liệu trong chương trình Python

import pandas as pd
data = pd.DataFrame(
    {
        'EmpID1@': [ 'EMP001', 'EMP002', 'EMP003', 'EMP004', 'EMP005' ],
        'EmpName#': [ 'Mukul', 'Rohan', 'Mayank', 'Raj', 'Aakash' ],
        'EmpLocation$': [ 'Saharanpur', 'Meerut', 'Agra', 'Saharanpur', 'Meerut' ],
        'EmpPay^': [ 25000, 30000, 35000, 40000, 45000 ]
    }
)
data.columns = data.columns.str.replace('[^a-zA-Z]', '')
data.EmpID = data.EmpID.str.replace('[^a-zA-Z0-9]', '')
print(data)
  1. Trong dòng đầu tiên có một câu lệnh nhập nhập mô-đun pandas dưới dạng pd
  2. Mô-đun gấu trúc sẽ giúp bạn tạo một khung dữ liệu từ dữ liệu hai chiều
  3. Trong dòng tiếp theo, có một biến sẽ trở thành một khung dữ liệu với việc sử dụng hàm tạo DataFrame()
  4. Trong dòng tiếp theo, có dữ liệu hai chiều có tên cột và giá trị hàng
  5. Tên của danh sách được biểu thị bằng tên cột và các giá trị trong danh sách là dữ liệu cho cột cụ thể đó. Tất cả dữ liệu ở định dạng chuỗi ký tự đặc biệt
  6. Có bốn cột và năm hàng trong khung dữ liệu này có tên là dữ liệu. Tên cột là “EmpID1@”, “EmpName#”, “EmpLocation$” và “EmpPay^”
  7. Mỗi cột trong số bốn cột này chứa năm hàng dữ liệu trong đó. Nhưng có một vấn đề. Tất cả dữ liệu có các ký tự đặc biệt trong đó
  8. Sau khung dữ liệu, có một biến gọi là “data. cột” trỏ đến tất cả các giá trị cột trong khung dữ liệu
  9. Bây giờ, mặt khác, có một chức năng được gọi là thay thế () được áp dụng cho “dữ liệu. cột” biến. Có một biểu thức chính quy được chuyển vào làm đối số đầu tiên và một khoảng trống được chuyển vào làm đối số thứ hai
  10. Cụm từ thông dụng “[^a-zA-Z]” chỉ ra rằng chỉ các ký tự chữ cái mới được phép trong trường này. Vì vậy, dòng này sẽ xóa tất cả các ký tự đặc biệt khỏi tên của các cột trong khung dữ liệu
  11. Trong dòng tiếp theo, có một biến khác gọi là “data. EmpID” thể hiện rằng những thay đổi sắp được thực hiện là dành cho các giá trị trong danh sách hoặc cột có tên “EmpID” chứ không phải chính tên cột đó
  12. Bây giờ trong dòng này, biểu thức chính quy hơi khác so với biểu thức chính quy ở trên. Nó ghi “[^a-zA-Z0-9]”, có nghĩa là cho phép các ký tự chữ cái và cả các giá trị số
  13. Ở dòng cuối cùng, có một câu lệnh in sẽ in toàn bộ khung dữ liệu dưới dạng đầu ra mà không có các ký tự đặc biệt trong đó

Sự kết luận. -

Vì vậy, cuối cùng, để kết luận, chúng ta có thể nói rằng với sự trợ giúp của bài viết này, giờ đây bạn có thể xóa tất cả các ký tự đặc biệt khỏi khung dữ liệu trong chương trình Python

Bạn có thể sử dụng phương pháp được đề cập ở trên để xóa các ký tự đặc biệt. Đây là cách đơn giản nhất để bạn có thể xóa các ký tự đặc biệt khỏi khung dữ liệu

Tôi hy vọng hướng dẫn này về cách xóa các ký tự đặc biệt khỏi dataframe python sẽ giúp bạn và các bước và phương pháp được đề cập ở trên rất dễ thực hiện và thực hiện

Tôi đang cố xóa các ký tự đặc biệt khỏi một chuỗi, nhưng khi tôi xuất khung dữ liệu Pandas dưới dạng CSV, tôi vẫn có thể thấy các ký tự đặc biệt

Có ai biết tại sao lại như vậy?

Mã hiện tại

document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)

Đầu ra (ký tự đặc biệt vẫn được tìm thấy trong tệp CSV)

Đây (có khả năng) không phải là chuỗi mà là số, - có nghĩa là số âm. Cho rằng đây là những số âm, có lẽ không nên loại bỏ dấu trừ, vì tất nhiên, -5 khác với 5

Trong trường hợp bạn muốn ánh xạ các số âm trên số dương của chúng, bạn có thể sử dụng pandas.DataFrame.abs(..) [pandas-doc] để tính giá trị tuyệt đối

Hãy để chúng tôi xem cách xóa các ký tự đặc biệt như #, @, &, v.v. từ tên cột trong khung dữ liệu pandas. Ở đây chúng tôi sẽ sử dụng chức năng thay thế để loại bỏ ký tự đặc biệt

ví dụ 1. xóa một ký tự đặc biệt khỏi tên cột

con trăn




# import pandas

import pandas as pd

 

document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
0

document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
1
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
2
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
3_______14
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
5import0import1import2import1import4import1

import6import7______71import9pandas as pd0

pandas as pd1

pandas as pd2pandas as pd3

document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
5pandas as pd5import1pandas as pd7import1pandas as pd9import1

 1pandas as pd5import1______87pandas as pd0

pandas as pd1

pandas as pd2 8

document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
5_______100import1
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
02import1
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
04import1
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
06import1
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
08
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
09

 

document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
11
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
2
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
13

 

document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
15

document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
16____117

 

document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
19

document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
20
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
2
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
22
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
23
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
24
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
25
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
26

 

document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
28

document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
16____130
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
31
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
32

đầu ra

Thay thế các ký tự đặc biệt trong gấu trúc Python

Ở đây, chúng tôi đã xóa thành công một ký tự đặc biệt khỏi tên cột. Bây giờ chúng tôi sẽ sử dụng một danh sách có chức năng thay thế để xóa nhiều ký tự đặc biệt khỏi tên cột của chúng tôi

ví dụ 2. xóa nhiều ký tự đặc biệt khỏi khung dữ liệu gấu trúc

con trăn




# import pandas

import pandas as pd

 

document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
0

document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
1
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
2
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
3_______14
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
5import0import1import2import1import4
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
48

document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
49import7____71import9
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
53

pandas as pd1

pandas as pd2

document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
56
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
5pandas as pd5import1pandas as pd7import1______89
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
48

import04pandas as pd5import1pandas as pd7pandas as pd0

pandas as pd1

pandas as pd2import11

document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
5_______100import1
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
02import1______104import1
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
06import1
document = json.dumps(jfile,default=str)
document2 = re.sub("[“â£$€™]", '', document)
document2  = json.loads(document2)
document2.to_csv("test.csv", index = False)
08import22