Python tokenize chuỗi regex

Trong bài viết này, sẽ tìm hiểu cách tách chuỗi dựa trên mẫu biểu thức chính quy trong Python. Phương thức

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
0 của mô-đun Pythons chia chuỗi theo số lần xuất hiện của mẫu biểu thức chính quy, trả về một danh sách chứa các chuỗi con kết quả

Sau khi đọc bài viết này, bạn sẽ có thể thực hiện các thao tác phân tách sau bằng cách sử dụng regex trong Python

OperationDescription
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
1Chia chuỗi theo mỗi lần xuất hiện của
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
2.
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
3Chia chuỗi theo số lần xuất hiện của
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
2. Giới hạn số lần phân tách ở mức 2
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
5Tách chuỗi bằng nhiều mẫu dấu phân cách [
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
6 và
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
7]. Hoạt động phân tách regex Python

Mục lục

  • Làm thế nào để sử dụng lại. tách [] chức năng
    • cú pháp
    • Giá trị trả về
    • Ví dụ về Regex để tách một chuỗi thành các từ
  • Giới hạn số lần chia
  • Regex để Tách chuỗi có nhiều dấu phân cách
    • Regex để tách chuỗi trên năm dấu phân cách
    • Regex để chia Chuỗi thành các từ có nhiều dấu phân cách ranh giới từ
    • Tách chuỗi bằng dấu phân cách và từ cụ thể
  • Regex tách một chuỗi và giữ các dấu phân cách
  • Chuỗi tách Regex bằng cách bỏ qua trường hợp
  • Phương thức split[] của chuỗi so với. tách regex[]
  • Tách chuỗi bằng các từ viết hoa

Cách sử dụng hàm
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
0

Trước khi tiếp tục, hãy xem cú pháp của phương thức

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
0 của Python

cú pháp

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
0

Mẫu biểu thức chính quy và chuỗi đích là các đối số bắt buộc.

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
10 và cờ là tùy chọn

  • import re
    
    target_string = "My name is maximums and my luck numbers are 12 45 78"
    # split on white-space 
    word_list = re.split[r"\s+", target_string]
    print[word_list]
    
    # Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
    2. mẫu biểu thức chính quy được sử dụng để tách chuỗi mục tiêu
  • import re
    
    target_string = "My name is maximums and my luck numbers are 12 45 78"
    # split on white-space 
    word_list = re.split[r"\s+", target_string]
    print[word_list]
    
    # Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
    12. Biến trỏ đến chuỗi đích [i. e. , chuỗi chúng tôi muốn tách]
  • import re
    
    target_string = "My name is maximums and my luck numbers are 12 45 78"
    # split on white-space 
    word_list = re.split[r"\s+", target_string]
    print[word_list]
    
    # Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
    10. Số lần phân tách bạn muốn thực hiện. Nếu
    import re
    
    target_string = "My name is maximums and my luck numbers are 12 45 78"
    # split on white-space 
    word_list = re.split[r"\s+", target_string]
    print[word_list]
    
    # Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
    10 là 2, thì có nhiều nhất hai lần tách xảy ra và phần còn lại của chuỗi được trả về dưới dạng phần tử cuối cùng của danh sách
  • ____115. Theo mặc định, không có cờ nào được áp dụng.
    Có nhiều cờ biểu thức chính quy chúng ta có thể sử dụng. Ví dụ:
    import re
    
    target_string = "My name is maximums and my luck numbers are 12 45 78"
    # split on white-space 
    word_list = re.split[r"\s+", target_string]
    print[word_list]
    
    # Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
    16 được sử dụng để thực hiện tìm kiếm không phân biệt chữ hoa chữ thường.

Ghi chú. Nếu sử dụng dấu ngoặc đơn trong mẫu, thì văn bản của tất cả các nhóm trong mẫu cũng được trả về như một phần của danh sách kết quả

Giá trị trả về

Nó phân tách chuỗi mục tiêu theo mẫu biểu thức chính quy và các kết quả khớp được trả về dưới dạng danh sách

Nếu không tìm thấy mẫu đã chỉ định bên trong chuỗi đích, thì chuỗi đó sẽ không được phân tách theo bất kỳ cách nào, nhưng phương thức phân tách vẫn tạo ra một danh sách vì đây là cách nó được thiết kế. Tuy nhiên, danh sách chỉ chứa một phần tử, chính chuỗi đích

Ví dụ về Regex để tách một chuỗi thành các từ

Bây giờ, hãy xem cách sử dụng

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
0 với sự trợ giúp của một ví dụ đơn giản. Trong ví dụ này, chúng tôi sẽ tách chuỗi mục tiêu ở mỗi ký tự khoảng trắng bằng chuỗi đặc biệt
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
18

Hãy thêm ký tự phụ

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
19 vào cuối
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
18. Bây giờ, Mẫu biểu thức chính quy
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
21 sẽ phân tách chuỗi mục tiêu khi xuất hiện một hoặc nhiều ký tự khoảng trắng. Hãy xem bản demo

Thí dụ

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']

Như bạn có thể thấy ở đầu ra, chúng ta có danh sách các từ được phân tách bằng khoảng trắng

Giới hạn số lần chia

Tham số

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
10 của
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
0 được sử dụng để xác định số lần phân tách mà bạn muốn thực hiện

Nói một cách đơn giản, nếu

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
10 là 2, thì hai lần tách sẽ được thực hiện và phần còn lại của chuỗi được trả về làm phần tử cuối cùng của danh sách

Vì vậy, hãy lấy một ví dụ đơn giản để tách một chuỗi khi xuất hiện bất kỳ chữ số nào. Ở đây chúng tôi sẽ sử dụng chuỗi đặc biệt

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
25 khớp với bất kỳ ký tự không phải chữ số nào

Thí dụ

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
1

Regex để Tách chuỗi có nhiều dấu phân cách

Trong phần này, chúng ta sẽ tìm hiểu cách sử dụng regex để tách một chuỗi trên nhiều dấu phân cách trong Python

Ví dụ: sử dụng phương thức biểu thức chính quy

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
0, chúng ta có thể tách chuỗi bằng dấu phẩy hoặc dấu cách

Với phương pháp regex

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
27, bạn sẽ linh hoạt hơn. Bạn có thể chỉ định một mẫu cho các dấu phân cách trong đó bạn có thể chỉ định nhiều dấu phân cách, trong khi với phương thức
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
27 của chuỗi, bạn có thể chỉ sử dụng một ký tự cố định hoặc một bộ ký tự để tách một chuỗi

Hãy lấy một ví dụ đơn giản để tách chuỗi bằng dấu gạch nối hoặc dấu phẩy

Ví dụ để tách chuỗi bằng hai dấu phân cách

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
2

Regex để tách chuỗi trên năm dấu phân cách

Ở đây, chúng tôi sẽ sử dụng regex để phân tách một chuỗi có năm dấu phân cách Bao gồm dấu chấm, dấu phẩy, dấu chấm phẩy, dấu gạch nối và khoảng trắng, theo sau là bất kỳ khoảng trắng thừa nào

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
3

Ghi chú. chúng tôi đã sử dụng ký tự meta

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
29 để chỉ ra danh sách các ký tự phân cách.
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
29 khớp với bất kỳ ký tự đơn nào trong ngoặc. Ví dụ:
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
31 sẽ khớp với dấu gạch nối, dấu phẩy, dấu chấm phẩy, dấu chấm và ký tự khoảng trắng

Regex để chia Chuỗi thành các từ có nhiều dấu phân cách ranh giới từ

Trong ví dụ này, chúng tôi sẽ sử dụng mẫu biểu thức chính quy the

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
32 để phục vụ cho bất kỳ dấu phân cách không phải chữ và số nào. Sử dụng mẫu này, chúng tôi có thể phân tách chuỗi bằng nhiều dấu phân cách ranh giới từ sẽ dẫn đến danh sách mã thông báo chữ và số/từ

Ghi chú.

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
33 là một chuỗi đặc biệt của biểu thức chính quy khớp với bất kỳ ký tự không phải chữ và số nào. Không phải chữ và số có nghĩa là không có chữ cái, chữ số và dấu gạch dưới

Thí dụ

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
9

Tách chuỗi bằng dấu phân cách và từ cụ thể

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
0

Regex tách một chuỗi và giữ các dấu phân cách

Như tôi đã nói với bạn ở phần đầu của bài viết nếu các dấu ngoặc đơn được sử dụng trong mẫu, thì văn bản của tất cả các nhóm trong mẫu cũng được trả về như một phần của danh sách kết quả

Ghi chú. Bạn đang nắm bắt nhóm bằng cách viết mẫu bên trong

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
34,
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
35

Nói một cách đơn giản, hãy cẩn thận khi sử dụng phương thức

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
0 khi mẫu biểu thức chính quy được đặt trong dấu ngoặc đơn để chụp các nhóm. Nếu các nhóm chụp được sử dụng, thì văn bản phù hợp cũng được đưa vào danh sách kết quả

Sẽ hữu ích khi bạn muốn giữ dấu phân cách/dấu phân cách trong danh sách kết quả

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
4

Chuỗi tách Regex bằng cách bỏ qua trường hợp

Có khả năng chuỗi chứa chữ thường và chữ in hoa

Ví dụ: bạn muốn tách một chuỗi trên các ký tự hoặc phạm vi ký tự cụ thể, nhưng bạn không biết ký tự/từ đó là chữ hoa hay chữ thường hay kết hợp cả hai. Tại đây, bạn có thể sử dụng cờ

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
37 hoặc
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
16 bên trong phương thức
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
0 để thực hiện phân tách không phân biệt chữ hoa chữ thường

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
8

Phương thức split[] của chuỗi so với. tách regex[]

Bây giờ, hãy nghĩ về phương thức mặc định

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
27 trong Python, dành riêng cho chuỗi. Như bạn có thể đã biết, phương thức mặc định
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
27 phân tách một chuỗi bằng một dấu phân cách cụ thể. Tuy nhiên, xin lưu ý rằng dấu phân cách này là một chuỗi cố định mà bạn xác định bên trong dấu ngoặc đơn của phương thức

Sự khác biệt giữa các phương thức

import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
27 mặc định và các biểu thức chính quy
import re

target_string = "My name is maximums and my luck numbers are 12 45 78"
# split on white-space 
word_list = re.split[r"\s+", target_string]
print[word_list]

# Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
27 là rất lớn. Có nhiều cách linh hoạt hơn khi sử dụng phân tách biểu thức chính quy, điều này có thể rất hữu ích trong một số trường hợp và cho các tác vụ cụ thể

  1. Với phương thức
    import re
    
    target_string = "My name is maximums and my luck numbers are 12 45 78"
    # split on white-space 
    word_list = re.split[r"\s+", target_string]
    print[word_list]
    
    # Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
    0, bạn có thể chỉ định một mẫu cho dấu phân cách, trong khi với phương thức mặc định là
    import re
    
    target_string = "My name is maximums and my luck numbers are 12 45 78"
    # split on white-space 
    word_list = re.split[r"\s+", target_string]
    print[word_list]
    
    # Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
    27, bạn có thể chỉ sử dụng một ký tự cố định hoặc một bộ ký tự
  2. Ngoài ra, sử dụng
    import re
    
    target_string = "My name is maximums and my luck numbers are 12 45 78"
    # split on white-space 
    word_list = re.split[r"\s+", target_string]
    print[word_list]
    
    # Output ['My', 'name', 'is', 'maximums', 'and', 'my', 'luck', 'numbers', 'are', '12', '45', '78']
    0, chúng ta có thể tách một chuỗi bằng nhiều dấu phân cách

Tách chuỗi bằng các từ viết hoa

Ví dụ: bạn có một chuỗi như “EMMA yêu PYTHON và ML”, và bạn muốn chia chuỗi đó bằng các từ viết hoa để nhận kết quả như [‘HELLO there’, ‘HOW are’, ‘YOU’]

Tokenizing trong regex là gì?

Mã thông báo biểu thức chính quy. RegexpTokenizer tách một chuỗi thành các chuỗi con bằng biểu thức chính quy . Ví dụ: mã thông báo sau tạo mã thông báo từ các chuỗi chữ cái, biểu thức tiền và bất kỳ chuỗi không phải khoảng trắng nào khác. >>> từ nltk.

Regextokenizer trong Python là gì?

Trình mã thông báo dựa trên biểu thức chính quy trích xuất mã thông báo bằng cách sử dụng mẫu biểu thức chính quy được cung cấp [bằng phương ngữ Java] để phân tách văn bản [mặc định] hoặc liên tục đối sánh biểu thức chính quy [nếu khoảng trống là sai]. Optional parameters also allow filtering tokens using a minimal length. It returns an array of strings that can be empty.

W+ regex là gì?

\w+ khớp với 1 hoặc nhiều ký tự từ [giống như [a-zA-Z0-9_]+ ]. [. -]? . hoặc -. Mặc dù dấu chấm [. ] có ý nghĩa đặc biệt trong biểu thức chính quy, trong một lớp ký tự [dấu ngoặc vuông] bất kỳ ký tự nào ngoại trừ ^ , - , ] hoặc \ là ký tự và không yêu cầu chuỗi thoát.

Phương pháp nào sau đây được sử dụng để mã hóa văn bản dựa trên biểu thức chính quy?

Với sự trợ giúp của mã thông báo NLTK. regexp[], chúng tôi có thể trích xuất mã thông báo từ chuỗi bằng cách sử dụng biểu thức chính quy với phương thức RegexpTokenizer[] . Ví dụ 1. Trong ví dụ này, chúng tôi đang sử dụng phương thức RegexpTokenizer[] để trích xuất luồng mã thông báo với sự trợ giúp của biểu thức chính quy.

Chủ Đề