Hướng dẫn extract text from html java - trích xuất văn bản từ html java
Tôi đang làm việc trên một chương trình tải xuống các trang HTML và sau đó chọn một số thông tin và ghi nó vào một tệp khác. Tôi muốn trích xuất thông tin giữa các thẻ đoạn văn, nhưng tôi chỉ có thể nhận được một dòng của đoạn văn. Mã của tôi như sau;
Tôi đã cố gắng thêm một vòng lặp khác, điều này sẽ cho chương trình tiếp tục viết để nộp cho đến khi dòng chứa thẻ
Nhưng điều này không hoạt động. Ai đó có thể vui lòng giúp đỡ.
Bác sĩ Jones 20.8K12 Huy hiệu vàng75 Huy hiệu bạc98 Huy hiệu đồng12 gold badges75 silver badges98 bronze badges Đã hỏi ngày 6 tháng 9 năm 2009 lúc 16:52Sep 6, 2009 at 16:52 3 JSOUPMột trình phân tích cú pháp HTML khác mà tôi thực sự thích sử dụng là JSOUP. Bạn có thể nhận được tất cả các yếu tố
Sau đó viết nó ra một tệp trong một dòng nữa
Hoặc nếu bạn muốn chúng trên các dòng riêng biệt, bạn có thể lặp lại thông qua các yếu tố và viết chúng ra riêng.
Basil Bourque Phim thương hiệu vàng 278K9292 gold badges786 silver badges1068 bronze badges Đã trả lời ngày 23 tháng 4 năm 2012 lúc 14:04Apr 23, 2012 at 14:04
DannydannyDanny 7.2298 Huy hiệu vàng43 Huy hiệu bạc70 Huy hiệu đồng8 gold badges43 silver badges70 bronze badges 3 Jericho là một trong một số trình phân tích cú pháp HTML có thể làm cho nhiệm vụ này vừa dễ dàng vừa an toàn. Đã trả lời ngày 6 tháng 9 năm 2009 lúc 17:02Sep 6, 2009 at 17:02
Gareth Davisgareth DavisGareth Davis Phù vàng 27.4K12 Huy hiệu vàng73 Huy hiệu bạc105 Huy hiệu đồng12 gold badges73 silver badges105 bronze badges JTIDY có thể đại diện cho một tài liệu HTML (thậm chí là một tài liệu bị dị dạng) dưới dạng mô hình tài liệu, làm cho quá trình trích xuất nội dung của thẻ Đã trả lời ngày 6 tháng 9 năm 2009 lúc 17:08Sep 6, 2009 at 17:08
Skaffmanskaffmanskaffman 394K96 Huy hiệu vàng808 Huy hiệu bạc765 Huy hiệu Đồng96 gold badges808 silver badges765 bronze badges 0 Hãy thử (nếu bạn không muốn sử dụng thư viện trình phân tích cú pháp HTML):
Đã trả lời ngày 6 tháng 9 năm 2009 lúc 17:02Sep 6, 2009 at 17:02
Gareth Davisgareth DavisNiall Phù vàng 27.4K12 Huy hiệu vàng73 Huy hiệu bạc105 Huy hiệu đồng3 gold badges9 silver badges17 bronze badges 2 JTIDY có thể đại diện cho một tài liệu HTML (thậm chí là một tài liệu bị dị dạng) dưới dạng mô hình tài liệu, làm cho quá trình trích xuất nội dung của thẻ
Đã trả lời ngày 6 tháng 9 năm 2009 lúc 17:08 SkaffmanskaffmanSep 6, 2009 at 22:04
394K96 Huy hiệu vàng808 Huy hiệu bạc765 Huy hiệu Đồngcamickr Hãy thử (nếu bạn không muốn sử dụng thư viện trình phân tích cú pháp HTML):19 gold badges160 silver badges283 bronze badges Niallniall
7473 Huy hiệu vàng9 Huy hiệu bạc17 Huy hiệu đồngJun 20, 2013 at 5:33
1 Sử dụng parsercallback. Đó là một lớp đơn giản bao gồm với JDK. Nó thông báo cho bạn mỗi khi tìm thấy một thẻ mới và sau đó bạn có thể trích xuất văn bản của thẻ. Ví dụ đơn giản:
Vì vậy, tất cả những gì bạn cần làm là đặt cờ Boolean khi tìm thấy thẻ đoạn văn. Sau đó, trong phương thức handletext () bạn trích xuất văn bản.Sep 6, 2009 at 17:14
Đã trả lời ngày 6 tháng 9 năm 2009 lúc 22:04brianary Camickrcamickr2 gold badges34 silver badges29 bronze badges 1 |