Trong hướng dẫn này, chúng tôi sẽ chỉ cho bạn giải pháp xóa các ký tự đặc biệt khỏi dataframe python, khi làm việc với dữ liệu, có thể cần phải sửa đổi dữ liệu theo một cách nào đó để tổ chức dữ liệu đó
Bạn có thể phải xóa một số dữ liệu hoặc nhập một số thông tin bổ sung để sắp xếp dữ liệu. Có thể cần phải duy trì một trạng thái nhất định của dữ liệu
Ví dụ: dữ liệu không được chứa bất kỳ ký tự đặc biệt nào trong đó hoặc dữ liệu không được chứa bất kỳ khoảng trắng nào, vì vậy hãy tìm hiểu về nó
Hướng dẫn từng bước về cách xóa các ký tự đặc biệt khỏi Dataframe Python. -
Pandas DataFrame là một cấu trúc chứa dữ liệu hai chiều và các nhãn tương ứng của nó
DataFrames được sử dụng rộng rãi trong khoa học dữ liệu, học máy, tính toán khoa học và nhiều lĩnh vực sử dụng nhiều dữ liệu khác
Bạn có thể sử dụng hàm thay thế [] để xóa bất kỳ ký tự đặc biệt nào trong khung dữ liệu trong chương trình Python
import pandas as pd data = pd.DataFrame[ { 'EmpID1@': [ 'EMP001', 'EMP002', 'EMP003', 'EMP004', 'EMP005' ], 'EmpName#': [ 'Mukul', 'Rohan', 'Mayank', 'Raj', 'Aakash' ], 'EmpLocation$': [ 'Saharanpur', 'Meerut', 'Agra', 'Saharanpur', 'Meerut' ], 'EmpPay^': [ 25000, 30000, 35000, 40000, 45000 ] } ] data.columns = data.columns.str.replace['[^a-zA-Z]', ''] data.EmpID = data.EmpID.str.replace['[^a-zA-Z0-9]', ''] print[data]
- Trong dòng đầu tiên có một câu lệnh nhập nhập mô-đun pandas dưới dạng pd
- Mô-đun gấu trúc sẽ giúp bạn tạo một khung dữ liệu từ dữ liệu hai chiều
- Trong dòng tiếp theo, có một biến sẽ trở thành một khung dữ liệu với việc sử dụng hàm tạo DataFrame[]
- Trong dòng tiếp theo, có dữ liệu hai chiều có tên cột và giá trị hàng
- Tên của danh sách được biểu thị bằng tên cột và các giá trị trong danh sách là dữ liệu cho cột cụ thể đó. Tất cả dữ liệu ở định dạng chuỗi ký tự đặc biệt
- Có bốn cột và năm hàng trong khung dữ liệu này có tên là dữ liệu. Tên cột là “EmpID1@”, “EmpName#”, “EmpLocation$” và “EmpPay^”
- Mỗi cột trong số bốn cột này chứa năm hàng dữ liệu trong đó. Nhưng có một vấn đề. Tất cả dữ liệu có các ký tự đặc biệt trong đó
- Sau khung dữ liệu, có một biến gọi là “data. cột” trỏ đến tất cả các giá trị cột trong khung dữ liệu
- Bây giờ, mặt khác, có một chức năng được gọi là thay thế [] được áp dụng cho “dữ liệu. cột” biến. Có một biểu thức chính quy được chuyển vào làm đối số đầu tiên và một khoảng trống được chuyển vào làm đối số thứ hai
- Cụm từ thông dụng “[^a-zA-Z]” chỉ ra rằng chỉ các ký tự chữ cái mới được phép trong trường này. Vì vậy, dòng này sẽ xóa tất cả các ký tự đặc biệt khỏi tên của các cột trong khung dữ liệu
- Trong dòng tiếp theo, có một biến khác gọi là “data. EmpID” thể hiện rằng những thay đổi sắp được thực hiện là dành cho các giá trị trong danh sách hoặc cột có tên “EmpID” chứ không phải chính tên cột đó
- Bây giờ trong dòng này, biểu thức chính quy hơi khác so với biểu thức chính quy ở trên. Nó ghi “[^a-zA-Z0-9]”, có nghĩa là cho phép các ký tự chữ cái và cả các giá trị số
- Ở dòng cuối cùng, có một câu lệnh in sẽ in toàn bộ khung dữ liệu dưới dạng đầu ra mà không có các ký tự đặc biệt trong đó
Sự kết luận. -
Vì vậy, cuối cùng, để kết luận, chúng ta có thể nói rằng với sự trợ giúp của bài viết này, giờ đây bạn có thể xóa tất cả các ký tự đặc biệt khỏi khung dữ liệu trong chương trình Python
Bạn có thể sử dụng phương pháp được đề cập ở trên để xóa các ký tự đặc biệt. Đây là cách đơn giản nhất để bạn có thể xóa các ký tự đặc biệt khỏi khung dữ liệu
Tôi hy vọng hướng dẫn này về cách xóa các ký tự đặc biệt khỏi dataframe python sẽ giúp bạn và các bước và phương pháp được đề cập ở trên rất dễ thực hiện và thực hiện
Tôi đang cố xóa các ký tự đặc biệt khỏi một chuỗi, nhưng khi tôi xuất khung dữ liệu Pandas dưới dạng CSV, tôi vẫn có thể thấy các ký tự đặc biệt
Có ai biết tại sao lại như vậy?
Mã hiện tại
document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
Đầu ra [ký tự đặc biệt vẫn được tìm thấy trong tệp CSV]
Đây [có khả năng] không phải là chuỗi mà là số, -
có nghĩa là số âm. Cho rằng đây là những số âm, có lẽ không nên loại bỏ dấu trừ, vì tất nhiên, -5
khác với 5
Trong trường hợp bạn muốn ánh xạ các số âm trên số dương của chúng, bạn có thể sử dụng pandas.DataFrame.abs[..]
[pandas-doc] để tính giá trị tuyệt đối
Hãy để chúng tôi xem cách xóa các ký tự đặc biệt như #, @, &, v.v. từ tên cột trong khung dữ liệu pandas. Ở đây chúng tôi sẽ sử dụng chức năng thay thế để loại bỏ ký tự đặc biệt
ví dụ 1. xóa một ký tự đặc biệt khỏi tên cột
con trăn
# import pandas
import
pandas as pd
document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
0document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
1document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
2 document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
3_______14document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
5import
0import
1import
2import
1import
4import
1import
6import
7______71import
9pandas as pd
0
pandas as pd
1
pandas as pd
2pandas as pd
3
document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
5pandas as pd
5import
1pandas as pd
7import
1pandas as pd
9import
1
1pandas as pd
5import
1______87pandas as pd
0
pandas as pd
1
pandas as pd
2
8
document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
5_______100import
1document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
02import
1document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
04import
1document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
06import
1document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
08document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
09
document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
11document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
2 document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
13
document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
15document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
16____117
document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
19document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
20document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
2 document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
22document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
23document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
24document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
25document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
26
document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
28document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
16____130document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
31document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
32đầu ra
Ở đây, chúng tôi đã xóa thành công một ký tự đặc biệt khỏi tên cột. Bây giờ chúng tôi sẽ sử dụng một danh sách có chức năng thay thế để xóa nhiều ký tự đặc biệt khỏi tên cột của chúng tôi
ví dụ 2. xóa nhiều ký tự đặc biệt khỏi khung dữ liệu gấu trúc
con trăn
# import pandas
import
pandas as pd
document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
0document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
1document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
2 document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
3_______14document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
5import
0import
1import
2import
1import
4document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
48document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
49import
7____71import
9document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
53pandas as pd
1
pandas as pd
2
document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
56 document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
5pandas as pd
5import
1pandas as pd
7import
1______89document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
48import
04pandas as pd
5import
1pandas as pd
7pandas as pd
0
pandas as pd
1
pandas as pd
2import
11
document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
5_______100import
1document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
02import
1______104import
1document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
06import
1document = json.dumps[jfile,default=str]
document2 = re.sub["[“â£$€™]", '', document]
document2 = json.loads[document2]
document2.to_csv["test.csv", index = False]
08import
22