Hướng dẫn how do i extract text from a website using selenium python? - làm cách nào để trích xuất văn bản từ một trang web bằng cách sử dụng selen python?

Tôi muốn trích xuất tất cả các văn bản trong một trang web cụ thể.

Trong JavaScript, mã trông như thế này:

var webPage = require['webpage'];
var page = webPage.create[];

page.open['//phantomjs.org', function [status] {
    console.log['Stripped down page text:\n' + page.plainText];
    phantom.exit[];
}];

Làm thế nào tôi có thể chạy page.plaintext in python?

Thanks.

Đã hỏi ngày 1 tháng 11 năm 2017 lúc 11:54Nov 1, 2017 at 11:54

1

Nếu bạn muốn làm điều đó với Selenium, bạn phải chọn phần tử "TOP" và sau cuộc gọi đến getText[].

Ví dụ, trong Python:

driver = webdriver.PhantomJS[executable_path='pathTo/phantomjs']
driver.get['//en.wikipedia.org/wiki/Selenium_[software]']
el = driver.find_element_by_tag_name['body']
print[el.text]
driver.close[]

Đã trả lời ngày 1 tháng 11 năm 2017 lúc 12:13Nov 1, 2017 at 12:13

Davide Pattidavide PattiDavide Patti

3.2512 Huy hiệu vàng16 Huy hiệu bạc20 Huy hiệu Đồng2 gold badges16 silver badges20 bronze badges

Thử mã này:

text = driver.find_element_by_tag_name["body"].get_attribute["innerText"]

Đã trả lời ngày 1 tháng 11 năm 2017 lúc 13:21Nov 1, 2017 at 13:21

Ratmir Asanovratmir AsanovRatmir Asanov

5.9995 Huy hiệu vàng25 Huy hiệu bạc39 Huy hiệu Đồng5 gold badges25 silver badges39 bronze badges

Chúng tôi có thể trích xuất văn bản từ một trang web bằng Selenium WebDriver và lưu nó dưới dạng tệp văn bản bằng phương thức GetText. Nó có thể trích xuất văn bản cho một phần tử được hiển thị [và không bị ẩn bởi CSS].

Chúng tôi phải xác định vị trí phần tử trên trang bằng bất kỳ trình định vị nào như ID, lớp, tên, XPath, CSS, tên thẻ, văn bản liên kết hoặc văn bản liên kết một phần. Khi văn bản được lấy, chúng tôi sẽ viết nội dung của nó vào một tệp với sự trợ giúp của lớp tệp.

Hãy để chúng tôi có được văn bản - bạn đang duyệt tài nguyên tốt nhất cho giáo dục trực tuyến từ trang dưới đây -

Thí dụ

import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.firefox.FirefoxDriver;
import java.util.concurrent.TimeUnit;
import java.io.File;
import java.io.IOException;
import org.apache.commons.io.FileUtils;
import java.nio.charset.Charset;
public class GetTxtSaveFile{
   public static void main[String[] args] {
      System.setProperty["webdriver.gecko.driver",
         "C:\Users\ghs6kor\Desktop\Java\geckodriver.exe"];
      WebDriver driver = new FirefoxDriver[];
      //implicit wait
      driver.manage[].timeouts[].implicitlyWait[5, TimeUnit.SECONDS];
      //URL launch
      driver.get["//www.tutorialspoint.com/index.htm"];
      // identify element
      WebElement e = driver.findElement[By.tagName["h4"]];
      //obtain text
      String s = e.getText[];
      //write text to file

      File f = new File["savetxt.txt"];
      try{
         FileUtils.writeStringToFile[f, s, Charset.defaultCharset[]];
      }catch[IOException exc]{
         exc.printStackTrace[];
      }
      driver.quit[];
   }
}

Đầu ra

Tệp savetxt.txt được tạo trong dự án ghi lại văn bản từ trang.

Cập nhật vào ngày 06 tháng 4 năm 2021 10:52:47

  • Câu hỏi và câu trả lời liên quan
  • Làm thế nào để viết văn bản và xuất nó dưới dạng tệp văn bản bằng r?
  • Lưu một trang web với Python Selenium
  • Làm thế nào để trích xuất văn bản từ cảnh báo JavaScript trong selenium với Python?
  • Làm thế nào để trích xuất văn bản của một webelement trong selenium?
  • Xóa văn bản từ khu vực văn bản bằng selenium webdriver.
  • Làm thế nào để lấy văn bản từ một trang web bằng selenium?
  • Những cách thông minh để lưu một trang web mãi mãi !!
  • Nhận văn bản bằng trình điều khiển web Selenium trong Python?
  • Đọc dữ liệu từ tệp văn bản bằng C ++
  • Làm thế nào để đọc một tệp văn bản trong selen với python?
  • Làm thế nào để viết một tệp văn bản trong selen với python?
  • Chương trình Python để trích xuất email-id từ tệp văn bản url
  • Làm thế nào để lưu một ma trận dưới dạng tệp CSV bằng R?
  • Làm thế nào để tải xuống bất kỳ tệp nào và lưu nó vào vị trí mong muốn bằng Selenium WebDriver?
  • Làm thế nào để nối văn bản vào một tệp văn bản trong C ++?

Làm thế nào để bạn nhận được từ một trang web trong Python?

Để trích xuất dữ liệu bằng cách sử dụng máy quét web với Python, bạn cần làm theo các bước cơ bản sau:..
Tìm URL mà bạn muốn cạo ..
Kiểm tra trang ..
Tìm dữ liệu bạn muốn trích xuất ..
Viết mã ..
Chạy mã và trích xuất dữ liệu ..
Lưu trữ dữ liệu theo định dạng cần thiết ..

Làm cách nào để nhận được văn bản web trong selen?

Chúng ta có thể lấy văn bản từ một trang web bằng selenium webdriver bằng phương thức getText.Nó giúp có được văn bản cho một phần tử cụ thể có thể nhìn thấy hoặc văn bản bên trong [không được che giấu từ trang].USING the getText method. It helps to obtain the text for a particular element which is visible or the inner text [which is not concealed from the page].

Làm cách nào để sao chép văn bản từ một trang web bằng selenium?

Làm thế nào để sao chép văn bản từ mã HTML của trang web bằng cách sử dụng câu trả lời mã Selenium..
Hệ thống.setProperty ["webdriver.chrom.driver", "c: \\ users \\ priyj_kumar \\ tải xuống \\ cromedriver.exe"] ;.
Trình điều khiển webdriver = new crômedriver [] ;.
người lái xe.Nhận ["//en.wikipedia.org/wiki/main_page"] ;.
Chuỗi str = trình điều khiển.Findelement [bởi. ....
Hệ thống.ngoài..

Làm thế nào để bạn tìm kiếm văn bản trên trang web bằng Selenium Python?

Chúng ta có thể tìm thấy một yếu tố chứa văn bản cụ thể với selenium webdriver trong Python bằng cách sử dụng XPath.Trình định vị này có các chức năng giúp xác minh một văn bản cụ thể có trong một phần tử.Text Function [] trong XPath được sử dụng để xác định vị trí WebEuity tùy thuộc vào văn bản có thể nhìn thấy trên trang.using the xpath. This locator has functions that help to verify a specific text contained within an element. The function text[] in xpath is used to locate a webelement depending on the text visible on the page.

Chủ Đề