Tôi muốn trích xuất tất cả các văn bản trong một trang web cụ thể.
Trong JavaScript, mã trông như thế này:
var webPage = require['webpage'];
var page = webPage.create[];
page.open['//phantomjs.org', function [status] {
console.log['Stripped down page text:\n' + page.plainText];
phantom.exit[];
}];
Làm thế nào tôi có thể chạy page.plaintext in python?
Thanks.
Đã hỏi ngày 1 tháng 11 năm 2017 lúc 11:54Nov 1, 2017 at 11:54
1
Nếu bạn muốn làm điều đó với Selenium, bạn phải chọn phần tử "TOP" và sau cuộc gọi đến getText[]
.
Ví dụ, trong Python:
driver = webdriver.PhantomJS[executable_path='pathTo/phantomjs']
driver.get['//en.wikipedia.org/wiki/Selenium_[software]']
el = driver.find_element_by_tag_name['body']
print[el.text]
driver.close[]
Đã trả lời ngày 1 tháng 11 năm 2017 lúc 12:13Nov 1, 2017 at 12:13
Davide Pattidavide PattiDavide Patti
3.2512 Huy hiệu vàng16 Huy hiệu bạc20 Huy hiệu Đồng2 gold badges16 silver badges20 bronze badges
Thử mã này:
text = driver.find_element_by_tag_name["body"].get_attribute["innerText"]
Đã trả lời ngày 1 tháng 11 năm 2017 lúc 13:21Nov 1, 2017 at 13:21
Ratmir Asanovratmir AsanovRatmir Asanov
5.9995 Huy hiệu vàng25 Huy hiệu bạc39 Huy hiệu Đồng5 gold badges25 silver badges39 bronze badges
Chúng tôi có thể trích xuất văn bản từ một trang web bằng Selenium WebDriver và lưu nó dưới dạng tệp văn bản bằng phương thức GetText. Nó có thể trích xuất văn bản cho một phần tử được hiển thị [và không bị ẩn bởi CSS].
Chúng tôi phải xác định vị trí phần tử trên trang bằng bất kỳ trình định vị nào như ID, lớp, tên, XPath, CSS, tên thẻ, văn bản liên kết hoặc văn bản liên kết một phần. Khi văn bản được lấy, chúng tôi sẽ viết nội dung của nó vào một tệp với sự trợ giúp của lớp tệp.
Hãy để chúng tôi có được văn bản - bạn đang duyệt tài nguyên tốt nhất cho giáo dục trực tuyến từ trang dưới đây -
Thí dụ
import org.openqa.selenium.By; import org.openqa.selenium.WebDriver; import org.openqa.selenium.WebElement; import org.openqa.selenium.firefox.FirefoxDriver; import java.util.concurrent.TimeUnit; import java.io.File; import java.io.IOException; import org.apache.commons.io.FileUtils; import java.nio.charset.Charset; public class GetTxtSaveFile{ public static void main[String[] args] { System.setProperty["webdriver.gecko.driver", "C:\Users\ghs6kor\Desktop\Java\geckodriver.exe"]; WebDriver driver = new FirefoxDriver[]; //implicit wait driver.manage[].timeouts[].implicitlyWait[5, TimeUnit.SECONDS]; //URL launch driver.get["//www.tutorialspoint.com/index.htm"]; // identify element WebElement e = driver.findElement[By.tagName["h4"]]; //obtain text String s = e.getText[]; //write text to file File f = new File["savetxt.txt"]; try{ FileUtils.writeStringToFile[f, s, Charset.defaultCharset[]]; }catch[IOException exc]{ exc.printStackTrace[]; } driver.quit[]; } }
Đầu ra
Tệp savetxt.txt được tạo trong dự án ghi lại văn bản từ trang.
Cập nhật vào ngày 06 tháng 4 năm 2021 10:52:47
- Câu hỏi và câu trả lời liên quan
- Làm thế nào để viết văn bản và xuất nó dưới dạng tệp văn bản bằng r?
- Lưu một trang web với Python Selenium
- Làm thế nào để trích xuất văn bản từ cảnh báo JavaScript trong selenium với Python?
- Làm thế nào để trích xuất văn bản của một webelement trong selenium?
- Xóa văn bản từ khu vực văn bản bằng selenium webdriver.
- Làm thế nào để lấy văn bản từ một trang web bằng selenium?
- Những cách thông minh để lưu một trang web mãi mãi !!
- Nhận văn bản bằng trình điều khiển web Selenium trong Python?
- Đọc dữ liệu từ tệp văn bản bằng C ++
- Làm thế nào để đọc một tệp văn bản trong selen với python?
- Làm thế nào để viết một tệp văn bản trong selen với python?
- Chương trình Python để trích xuất email-id từ tệp văn bản url
- Làm thế nào để lưu một ma trận dưới dạng tệp CSV bằng R?
- Làm thế nào để tải xuống bất kỳ tệp nào và lưu nó vào vị trí mong muốn bằng Selenium WebDriver?
- Làm thế nào để nối văn bản vào một tệp văn bản trong C ++?