XML DOM [Mô hình đối tượng tài liệu] định nghĩa các thuộc tính và phương thức để truy cập và chỉnh sửa XML
Tuy nhiên, trước khi một tài liệu XML có thể được truy cập, nó phải được nạp vào một đối tượng XML DOM
Tất cả các trình duyệt hiện đại đều có trình phân tích cú pháp XML tích hợp có thể chuyển đổi văn bản thành đối tượng XML DOM
Phân tích chuỗi văn bản
Ví dụ này phân tích cú pháp một chuỗi văn bản thành một đối tượng XML DOM và trích xuất thông tin từ chuỗi đó bằng JavaScript
đoạn trích
Bài đăng. 6,554
Chủ đề. 116
Đã tham gia. Tháng 9 năm 2016
Danh tiếng. 487
24-Aug-2018, 02. 48 PM [Bài đăng này đã được sửa đổi lần cuối. 24-Aug-2018, 02. 48 giờ tối bởi snippsat. ][24-Aug-2018, 05. 06 giờ sáng] Madhuri đã viết. có thể phân tích cú pháp tệp XML và tạo trang html trong python 3. 6Có thể, nó phụ thuộc vào HTML đã được tạo và có một máy chủ đang chạy
tôi muốn trích xuất dữ liệu từ XML và đưa thông tin cần thiết vào trang html
Đây là một ví dụ phân tích cú pháp XML và tạo HTML bằng jinja2
Tôi sử dụng jinja2 với Flask [jinja2 được tích hợp sẵn] để gửi nội dung từ máy chủ tới HTML
jinja2 cũng có thể hoạt động một mình như được hiển thị ở đây
from bs4 import BeautifulSoup from jinja2 import Environment, FileSystemLoader xml ='''\ Tove Jani Reminder Don't forget me this weekend! ''' # parse soup = BeautifulSoup[xml, 'xml'] mes_from = soup.find['from'].text # Generate html # test.html #{{ message }}
env = Environment[loader=FileSystemLoader['templates']] template = env.get_template['test.html'] output = template.render[message=mes_from] print[output]
Output:
Jani
# If remove .text from parsing
Jani
Hồi đáp
Tìm thấy
Hồi đáp
Trong bài viết này, chúng ta sẽ xem cách phân tích cú pháp và chuyển đổi tài liệu HTML sang định dạng XML bằng Python
Nó có thể được thực hiện theo những cách này
- Sử dụng mô-đun Ixml
- Sử dụng mô-đun Beautifulsoup
Phương pháp 1. Sử dụng thư viện Python lxml
Theo cách tiếp cận này, chúng tôi sẽ sử dụng thư viện lxml của Python để phân tích cú pháp tài liệu HTML và ghi nó vào một biểu diễn chuỗi được mã hóa của cây XML. Bộ công cụ XML lxml là một ràng buộc Pythonic cho các thư viện C libxml2 và libxslt. Nó độc đáo ở chỗ nó kết hợp giữa tốc độ và tính năng XML đầy đủ của các thư viện này với sự đơn giản của API Python gốc, gần như tương thích nhưng vượt trội hơn API ElementTree nổi tiếng
Cài đặt
pip install lxml
We need to provide the path to open the HTML document to read and parse it using the html.fromstring[str] function, returning a single element/document tree. This function parses a document from the given string. This always creates a correct HTML document, which means the parent node is , and there is a body and possibly a head.
htmldoc = html. từ chuỗi [inp. đọc[]]
Và viết cây tài liệu/phần tử HTML được phân tích cú pháp thành một biểu diễn chuỗi được mã hóa của cây XML của nó bằng cách sử dụng etree. hàm tostring[]
ngoài. viết [etree. tostring[htmldoc]]
Tệp Html được sử dụng. đầu vào
Mã số
Python3
# Import the required library
from
lxml
import
html, etree
________số 8_______
# Main Function
if
__name__
3_______0# Import the required library
0 # Import the required library
2# Import the required library
3
________số 8_______
# Import the required library
5# Import the required library
6
# Import the required library
5# Import the required library
8 # Import the required library
0 from
0
________số 8_______
# Import the required library
5from
3
# Import the required library
5from
5
# Import the required library
5from
7from
8_______4_______9_______7_______2lxml
1# Import the required library
27lxml
3_______3_______0lxml
5html, etree
5