Công cụ trực tuyến này sẽ lấy mã HTML [cả một trang web hoặc một đoạn mã HTML] và chuyển đổi nó thành văn bản thuần túy. Công cụ này sẽ tự động xóa tất cả các thẻ HTML. Nó cũng hiển thị thông tin thẻ meta tiêu đề và mô tả nếu có
Nó sẽ hoạt động hoàn toàn tốt trừ khi bạn có ký hiệu nhỏ hơn hoặc lớn hơn trong nội dung văn bản của mình thì mọi thứ có thể trở nên rắc rối. Bởi vì các thẻ HTML cũng sử dụng các ký hiệu này, nếu có trong nội dung, chúng có thể gây ra sự cố chuyển đổi không mong muốn
Nếu bạn gặp sự cố thì khuyến nghị của tôi là xóa bất kỳ ký hiệu nhỏ hơn hoặc lớn hơn nào xuất hiện trong nội dung văn bản của bạn trước khi chuyển đổi thành văn bản thuần túy
Nếu bạn chỉ muốn lấy nội dung văn bản từ một trang để chỉnh sửa và sửa lại nội dung thì đây có thể là một công cụ rất hữu ích cho bạn
Trình chuyển đổi HTML sang văn bản
Dán mã HTML của bạn vào ô bên dưới rồi nhấp vào nút chuyển đổi
Văn bản mới không có thẻ HTML
Tải xuống văn bản mới
Sửa đổi công cụ HTML sang văn bản
Tôi vừa thực hiện một sửa đổi nhỏ về chức năng của công cụ chuyển đổi này. Bây giờ, khi nó loại bỏ các thẻ HTML khỏi trang của bạn, nội dung không có HTML còn lại có thể được lưu vào khay nhớ tạm của bạn hoặc tải xuống dưới dạng tệp văn bản
Tôi đã làm việc với một trình soạn thảo văn bản phong phú vào một ngày khác và cần tách các thẻ HTML khỏi chuỗi và lưu trữ nó trong cơ sở dữ liệu. Và đây là một số cách tôi học được có thể hữu ích cho bất kỳ ai đang cố gắng làm điều tương tự
Những gì chúng tôi đang cố gắng làm là xóa các thẻ khỏi chuỗi và làm cho chuỗi có thể in được dưới dạng văn bản thuần túy. Hãy đi sâu vào và xem nó hoạt động như thế nào
1] Using .replace[/]*>/g, ‘’]
Phương pháp này là một cách đơn giản và hiệu quả để xóa các thẻ khỏi văn bản. Phương thức này sử dụng phương thức chuỗi .replace[old value,new value]
để thay thế các giá trị thẻ HTML bằng chuỗi trống. /g
được sử dụng để nó xảy ra trên toàn cầu [mọi giá trị được tìm thấy trong chuỗi được thay thế bằng giá trị được chỉ định nếu sử dụng ____6_______]
Hạn chế của phương pháp này là chúng tôi không thể xóa một số thực thể HTML. Nó vẫn hoạt động tốt mặc dù
var myHTML= "Jimbo.
\nThat's what she said
";
var strippedHtml = myHTML.replace[/]+>/g, ''];
// Jimbo.
// That's what she said
console.log[stripedHtml];
Vào chế độ toàn màn hình Thoát chế độ toàn màn hình
2] Tạo phần tử DOM tạm thời và truy xuất văn bản
Đây là cách hiệu quả nhất để thực hiện nhiệm vụ. Tạo một phần tử giả và gán nó cho một biến. Chúng ta có thể trích xuất sau bằng cách sử dụng các đối tượng phần tử. Gán văn bản HTML vào bên trongHTML của phần tử giả và chúng ta sẽ nhận được văn bản thuần túy từ các đối tượng phần tử văn bản
function convertToPlain[html]{
// Create a new div element
var tempDivElement = document.createElement["div"];
// Set the HTML content with the given value
tempDivElement.innerHTML = html;
// Retrieve the text property of the element
return tempDivElement.textContent || tempDivElement.innerText || "";
}
var htmlString= "Bears Beets Battlestar Galactica
\nQuote by Dwight Schrute
";
console.log[convertToPlain[htmlString]];
// Expected Result:
// Bears Beets Battlestar Galactica
// Quote by Dwight Schrute
Vào chế độ toàn màn hình Thoát chế độ toàn màn hình
3] gói npm chuyển html thành văn bản
Đây là gói tôi phát hiện ra gần đây. Đây là trình chuyển đổi phân tích cú pháp HTML và trả về văn bản đẹp. Nó đi kèm với nhiều tùy chọn để chuyển đổi nó thành văn bản thuần túy như wordwrap
, tags
, whitespaceCharacters
,
function convertToPlain[html]{
// Create a new div element
var tempDivElement = document.createElement["div"];
// Set the HTML content with the given value
tempDivElement.innerHTML = html;
// Retrieve the text property of the element
return tempDivElement.textContent || tempDivElement.innerText || "";
}
var htmlString= "Bears Beets Battlestar Galactica
\nQuote by Dwight Schrute
";
console.log[convertToPlain[htmlString]];
// Expected Result:
// Bears Beets Battlestar Galactica
// Quote by Dwight Schrute
0Bưu kiện. json là cần thiết để sử dụng gói. Chúng tôi cần cài đặt gói trước rồi sử dụng gói đó trong tệp của mình
Bạn có thể tìm tài liệu chính thức của gói tại đây
Cài đặt
npm install html-to-text
Vào chế độ toàn màn hình Thoát chế độ toàn màn hình
Cách sử dụng
const { htmlToText } = require['html-to-text'];
const text = htmlToText['Nope Its not Ashton Kutcher. It is Kevin Malone. Equally Smart and equally handsome
', {
wordwrap: 130
}];
console.log[text]; // expected result:
// Nope Its not Ashton Kutcher. It is Kevin Malone.
// Equally Smart and equally handsome
Vào chế độ toàn màn hình Thoát chế độ toàn màn hình
Tìm ví dụ về dự án tại đây
Và đó tổng hợp nó lên. Cảm ơn bạn