Python mở pdf dưới dạng văn bản

Với bài viết này, chúng tôi sẽ kiểm tra một số trường hợp khác nhau về cách giải quyết vấn đề Trích xuất văn bản từ Pdf Python

# pip3 install pdfplumber
import pdfplumber

# a single page
with pdfplumber.open(r'test.pdf') as pdf:
    first_page = pdf.pages[-0]
    print(first_page.extract_text())

# for every page
# with pdfplumber.open(r'test.pdf') as pdf:
#     for pages in pdf.pages:
#         print(pages.extract_text())

Đoạn mã sau đây cung cấp một bản tóm tắt ngắn gọn về nhiều phương pháp có thể được sử dụng để giải quyết vấn đề Trích xuất văn bản từ Pdf Python

# using PyMuPDF
import sys, fitz
fname = sys.argv[1]  # get document filename
doc = fitz.open(fname)  # open document
out = open(fname + ".txt", "wb")  # open text output
for page in doc:  # iterate the document pages
    text = page.get_text().encode("utf8")  # get plain text (is in UTF-8)
    out.write(text)  # write text of page
    out.write(bytes((12,)))  # write page delimiter (form feed 0x0C)
out.close()

Thông qua nhiều ví dụ, chúng tôi đã học được cách giải quyết vấn đề Trích xuất văn bản từ Pdf Python

Làm cách nào để trích xuất văn bản cụ thể từ PDF bằng Python?

Bước 1. Nhập tất cả các thư viện. Bước 2. Chuyển đổi tệp PDF sang định dạng txt và đọc dữ liệu. Bước 3. Sử dụng ". hàm findall()” của các biểu thức chính quy để trích xuất từ ​​khóa

Làm cách nào để trích xuất dữ liệu từ PDF bằng Python?

Có một vài thư viện Python mà bạn có thể trích xuất dữ liệu từ các tệp PDF. Ví dụ: bạn có thể sử dụng thư viện PyPDF2 để trích xuất văn bản từ các tệp PDF trong đó văn bản ở dạng tuần tự hoặc được định dạng. e. in lines or forms. Bạn cũng có thể trích xuất các bảng trong tệp PDF thông qua thư viện Camelot. 21-Jun-2021

Bạn có thể trích xuất văn bản từ PDF không?

Dễ dàng chỉnh sửa tài liệu PDF được quét của bạn bằng OCR. Với tính năng nhận dạng ký tự quang học (OCR) trong Adobe Acrobat, bạn có thể trích xuất văn bản và chuyển đổi tài liệu được quét thành các tệp PDF có thể chỉnh sửa, có thể tìm kiếm ngay lập tức

Làm cách nào để trích xuất văn bản từ một dòng PDF?

Following is a step by step process to extract text line by line from PDF

  • Mở rộng PDFTextStripper. Tạo một Lớp Java và mở rộng nó bằng PDFTextStripper
  • Gọi phương thức writeText. Đặt ranh giới trang (từ trang đầu tiên đến trang cuối cùng) để tách văn bản và gọi phương thức writeText
  • Ghi đè writeString

Làm cách nào để chọn một văn bản cụ thể trong PDF?

Để trích xuất thông tin từ PDF trong Acrobat DC, hãy chọn Công cụ > Xuất PDF và chọn một tùy chọn. Để trích xuất văn bản, hãy xuất tệp PDF sang định dạng Word hoặc định dạng văn bản có định dạng và chọn từ một số tùy chọn nâng cao bao gồm. Giữ lại chữ chạy. 10-Feb-2021

Làm cách nào để tìm kiếm một từ trong PDF bằng Python?

“tìm kiếm một từ trong pdf bằng python” Đáp án Mã

  • nhập PyPDF2
  • nhập lại
  • # Mở tệp pdf
  • đối tượng = PyPDF2. PdfFileReader(r"C. \KIỂM TRA. pdf")
  • # Lấy số trang
  • NumPages = đối tượng. getNumPages()

Làm cách nào để trích xuất dữ liệu cụ thể từ PDF?

Bạn có thể trích xuất dữ liệu từ tệp PDF trực tiếp vào Excel. Trước tiên, bạn sẽ cần nhập tệp PDF của mình. Sau khi bạn nhập tệp, hãy sử dụng nút trích xuất dữ liệu để bắt đầu quá trình trích xuất. Bạn sẽ thấy một số cửa sổ hướng dẫn sẽ giúp bạn trích xuất dữ liệu đã chọn

Làm cách nào để chuyển đổi PDF thành văn bản bằng Python?

Các bước để chuyển đổi PDF sang TXT trong Python

  • Mở một tài liệu Word mới
  • Nhập một số nội dung bạn chọn trong tài liệu từ
  • Bây giờ đến Tệp> In> Lưu
  • Hãy nhớ lưu tệp pdf của bạn ở cùng một vị trí nơi bạn lưu tệp tập lệnh python của mình
  • bây giờ của bạn. pdf được tạo và lưu mà sau này bạn sẽ chuyển đổi thành tệp

Làm cách nào để đọc dữ liệu từ PDF?

Bạn có thể nhập tệp PDF trực tiếp vào Excel và trích xuất dữ liệu dạng bảng từ tệp đó

  • Mở một trang tính Excel
  • Tab Dữ liệu > Nhận dữ liệu thả xuống > Từ tệp > Từ PDF
  • Chọn tệp PDF của bạn và nhấp vào Nhập
  • Giờ đây, bạn sẽ thấy ngăn Điều hướng hiển thị các bảng và trang trong tệp PDF của mình cùng với bản xem trước
  • Chọn một bảng và nhấp vào Tải

Làm cách nào để trích xuất văn bản từ PDF và hình ảnh?

Bạn có thể chụp văn bản từ hình ảnh được quét, tải tệp hình ảnh lên từ máy tính hoặc chụp ảnh màn hình trên màn hình của bạn. Sau đó, chỉ cần nhấp chuột phải vào hình ảnh và chọn Lấy văn bản. Sau đó, văn bản từ tệp PDF được quét của bạn có thể được sao chép và dán vào các chương trình và ứng dụng khác

Như tôi đã đề cập trong bài viết trước của mình, tôi đã làm việc với một khách hàng để giúp họ phân tích hàng trăm tệp PDF để trích xuất từ ​​khóa nhằm giúp chúng có thể tìm kiếm được

Một phần của việc giải quyết vấn đề là tìm ra cách trích xuất dữ liệu văn bản từ tất cả các tệp PDF này. Bạn có thể ngạc nhiên khi biết rằng nó không đơn giản. Bạn thấy đấy, PDF là một định dạng độc quyền của Adobe đi kèm với những điều kỳ quặc nhỏ của riêng họ khi tự động hóa quá trình trích xuất thông tin từ mỗi tệp

May mắn thay, chúng tôi có ngôn ngữ phù hợp cho công việc. con trăn. Bây giờ, tôi đã thể hiện rõ tình yêu của mình với Python. It’s easily readable and has a ton of awesome libraries that allow you to do basically anything. Đó là công cụ hoàn hảo trong vành đai tiện ích của bạn. Như tôi đã đề cập trước đây, nó khiến bạn trở thành Người Dơi

Phần tiếp theo là hướng dẫn về cách bạn có thể phân tích cú pháp một tệp PDF và chuyển đổi nó thành một danh sách các từ khóa

Thành lập

Đối với hướng dẫn này, tôi sẽ sử dụng Python 3. 6. 3. Bạn có thể sử dụng bất kỳ phiên bản nào bạn thích (miễn là nó hỗ trợ các thư viện liên quan)

Bạn sẽ cần các thư viện Python sau để làm theo hướng dẫn này

  • PyPDF2 (để chuyển đổi các tệp PDF dựa trên văn bản, đơn giản thành văn bản mà Python có thể đọc được)
  • textract (để chuyển đổi các tệp PDF được quét, không tầm thường thành văn bản mà Python có thể đọc được)
  • NLTK (để làm sạch và chuyển đổi cụm từ thành từ khóa)

Mỗi thư viện này có thể được cài đặt bằng các lệnh sau bên trong thiết bị đầu cuối (trên macOS)

pip install PyPDF2pip install textractpip install nltk

Thao tác này sẽ tải xuống các thư viện bạn cần để phân tích tài liệu PDF và trích xuất từ ​​khóa. Để thực hiện việc này, hãy đảm bảo rằng tệp PDF của bạn được lưu trữ trong thư mục mà bạn đang viết tập lệnh của mình

Khởi động trình soạn thảo yêu thích của bạn và gõ

Note: All lines starting with # are comments.

Bước 1. Nhập tất cả các thư viện

import PyPDF2 
import textract
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

Bước 2. Đọc tệp PDF

#Write a for-loop to open many files (leave a comment if you'd like to learn how).filename = 'enter the name of the file here' #open allows you to read the file.pdfFileObj = open(filename,'rb')#The pdfReader variable is a readable object that will be parsed.pdfReader = PyPDF2.PdfFileReader(pdfFileObj)#Discerning the number of pages will allow us to parse through all the pages.num_pages = pdfReader.numPages
count = 0
text = ""
#The while loop will read each page.
while count < num_pages:
pageObj = pdfReader.getPage(count)
count +=1
text += pageObj.extractText()
#This if statement exists to check if the above library returned words. It's done because PyPDF2 cannot read scanned files.if text != "":
text = text
#If the above returns as False, we run the OCR library textract to #convert scanned/image based PDF files into text.else:
text = textract.process(fileurl, method='tesseract', language='eng')
#Now we have a text variable that contains all the text derived from our PDF file. Type print(text) to see what it contains. It likely contains a lot of spaces, possibly junk such as '\n,' etc.#Now, we will clean our text variable and return it as a list of keywords.

Bước 3. Chuyển văn bản thành từ khóa

#The word_tokenize() function will break our text phrases into individual words.tokens = word_tokenize(text)#We'll create a new list that contains punctuation we wish to clean.
punctuations = ['(',')',';',':','[',']',',']
#We initialize the stopwords variable, which is a list of words like "The," "I," "and," etc. that don't hold much value as keywords.stop_words = stopwords.words('english')#We create a list comprehension that only returns a list of words that are NOT IN stop_words and NOT IN punctuations.keywords = [word for word in tokens if not word in stop_words and not word in punctuations]

Bây giờ bạn có các từ khóa cho tệp của mình được lưu dưới dạng danh sách. Bạn có thể làm bất cứ điều gì bạn muốn với nó. Lưu trữ nó trong bảng tính nếu bạn muốn làm cho tệp PDF có thể tìm kiếm được hoặc phân tích cú pháp nhiều tệp và tiến hành phân tích cụm. Bạn cũng có thể sử dụng nó để tạo hệ thống giới thiệu hồ sơ xin việc

Tôi hy vọng bạn tìm thấy hướng dẫn này có giá trị. Nếu bạn có bất kỳ yêu cầu nào, muốn làm rõ hoặc tìm thấy lỗi, vui lòng cho tôi biết