Hướng dẫn dùng python xml python
XML là gì? XML là viết tắt của eXtensible Markup Language. Nó được thiết kế để lưu trữ và vận chuyển lượng dữ liệu từ nhỏ đến trung bình và được sử dụng rộng rãi trong việc chia sẻ thông tin có cấu trúc. Python cho phép bạn phân tích cú pháp và sửa đổi tài liệu định dạng XML. Để phân tích các tệp có định dạng XML, bạn cần một tệp XML trọn vẹn trong bộ nhớ. Trong bài học này, chúng ta sẽ tìm hiểu cách sử dụng lớp XML minidom trong Python để nạp và phân tích tệp XML. Trong bài này, chúng ta sẽ tìm hiểu về:
Cách phân tích cú pháp XML bằng minidom Chúng ta tạo trước một tệp XML mẫu để phân tích. Bước 1) Bên trong tệp, chúng ta có thể thấy thẻ tên(fname), họ(lname), quê quán(home) và chuyên môn (SQL, Python,Testing, Business). Bước 2) Khi chúng ta phân tích xong tài liệu, chúng ta sẽ in ra “tên node (node name)” gốc của tài liệu đó cùng với “tên thẻ con đầu tiên (firstchild tagname)”. Tên thẻ (tagname) và tên node (node name) là các thuộc tính chuẩn của tệp XML.
Lưu ý: Trong trường hợp bạn không quen thuộc với các loại quy ước đặt tên, nodeName (tên node) và child tagName (tên thẻ con) là tên hay thuộc tính chuẩn của một dom XML. Bước 3) Chúng ta cũng có thể gọi danh sách các thẻ XML và in chúng ra. Ở đây chúng ta in ra một tập các kỹ năng như SQL, Python, Kiểm thử, Kinh tế.
Cách tạo node XML Chúng ta có thể tạo một thuộc tính mới bằng cách sử dụng hàm "createElement" rồi sau đó nối thuộc tính hay thẻ mới này vào các thẻ hiện có trong XML. Chúng ta sẽ thêm một thẻ “BigData” trong tệp XML của mình.
Ví dụ phân tích cú pháp XML Ví dụ sử dụng Python 2
Ví dụ sử dụng Python 3
ElementTree là một API để thao tác với XML. ElementTree là cách dễ dàng để xử lý các tệp XML. Chúng ta sử dụng tài liệu XML sau đây làm dữ liệu mẫu:
Đọc XML bằng ElementTree: Trước tiên chúng ta phải thêm mô-đun xml.etree.EuityTree.
Bây giờ chúng ta sẽ đọc ra phần tử gốc của tệp XML
Sau đây là mã nguồn hoàn chỉnh để đọc dữ liệu xml ở trên
Kết quả
Tổng kết Python cho phép bạn phân tích toàn bộ tài liệu XML cùng một lúc chứ không chỉ là từng dòng một. Để phân tích tài liệu XML, bạn cần có toàn bộ tài liệu trong bộ nhớ.
|