Với bài viết này, chúng tôi sẽ kiểm tra một số trường hợp khác nhau về cách giải quyết vấn đề Trích xuất văn bản từ Pdf Python
# pip3 install pdfplumber import pdfplumber # a single page with pdfplumber.open[r'test.pdf'] as pdf: first_page = pdf.pages[-0] print[first_page.extract_text[]] # for every page # with pdfplumber.open[r'test.pdf'] as pdf: # for pages in pdf.pages: # print[pages.extract_text[]]
Đoạn mã sau đây cung cấp một bản tóm tắt ngắn gọn về nhiều phương pháp có thể được sử dụng để giải quyết vấn đề Trích xuất văn bản từ Pdf Python
# using PyMuPDF import sys, fitz fname = sys.argv[1] # get document filename doc = fitz.open[fname] # open document out = open[fname + ".txt", "wb"] # open text output for page in doc: # iterate the document pages text = page.get_text[].encode["utf8"] # get plain text [is in UTF-8] out.write[text] # write text of page out.write[bytes[[12,]]] # write page delimiter [form feed 0x0C] out.close[]
Thông qua nhiều ví dụ, chúng tôi đã học được cách giải quyết vấn đề Trích xuất văn bản từ Pdf Python
Làm cách nào để trích xuất văn bản cụ thể từ PDF bằng Python?
Bước 1. Nhập tất cả các thư viện. Bước 2. Chuyển đổi tệp PDF sang định dạng txt và đọc dữ liệu. Bước 3. Sử dụng ". hàm findall[]” của các biểu thức chính quy để trích xuất từ khóa
Làm cách nào để trích xuất dữ liệu từ PDF bằng Python?
Có một vài thư viện Python mà bạn có thể trích xuất dữ liệu từ các tệp PDF. Ví dụ: bạn có thể sử dụng thư viện PyPDF2 để trích xuất văn bản từ các tệp PDF trong đó văn bản ở dạng tuần tự hoặc được định dạng. e. in lines or forms. Bạn cũng có thể trích xuất các bảng trong tệp PDF thông qua thư viện Camelot. 21-Jun-2021
Bạn có thể trích xuất văn bản từ PDF không?
Dễ dàng chỉnh sửa tài liệu PDF được quét của bạn bằng OCR. Với tính năng nhận dạng ký tự quang học [OCR] trong Adobe Acrobat, bạn có thể trích xuất văn bản và chuyển đổi tài liệu được quét thành các tệp PDF có thể chỉnh sửa, có thể tìm kiếm ngay lập tức
Làm cách nào để trích xuất văn bản từ một dòng PDF?
Following is a step by step process to extract text line by line from PDF
- Mở rộng PDFTextStripper. Tạo một Lớp Java và mở rộng nó bằng PDFTextStripper
- Gọi phương thức writeText. Đặt ranh giới trang [từ trang đầu tiên đến trang cuối cùng] để tách văn bản và gọi phương thức writeText
- Ghi đè writeString
Làm cách nào để chọn một văn bản cụ thể trong PDF?
Để trích xuất thông tin từ PDF trong Acrobat DC, hãy chọn Công cụ > Xuất PDF và chọn một tùy chọn. Để trích xuất văn bản, hãy xuất tệp PDF sang định dạng Word hoặc định dạng văn bản có định dạng và chọn từ một số tùy chọn nâng cao bao gồm. Giữ lại chữ chạy. 10-Feb-2021
Làm cách nào để tìm kiếm một từ trong PDF bằng Python?
“tìm kiếm một từ trong pdf bằng python” Đáp án Mã
- nhập PyPDF2
- nhập lại
-
- # Mở tệp pdf
- đối tượng = PyPDF2. PdfFileReader[r"C. \KIỂM TRA. pdf"]
-
- # Lấy số trang
- NumPages = đối tượng. getNumPages[]
Làm cách nào để trích xuất dữ liệu cụ thể từ PDF?
Bạn có thể trích xuất dữ liệu từ tệp PDF trực tiếp vào Excel. Trước tiên, bạn sẽ cần nhập tệp PDF của mình. Sau khi bạn nhập tệp, hãy sử dụng nút trích xuất dữ liệu để bắt đầu quá trình trích xuất. Bạn sẽ thấy một số cửa sổ hướng dẫn sẽ giúp bạn trích xuất dữ liệu đã chọn
Làm cách nào để chuyển đổi PDF thành văn bản bằng Python?
Các bước để chuyển đổi PDF sang TXT trong Python
- Mở một tài liệu Word mới
- Nhập một số nội dung bạn chọn trong tài liệu từ
- Bây giờ đến Tệp> In> Lưu
- Hãy nhớ lưu tệp pdf của bạn ở cùng một vị trí nơi bạn lưu tệp tập lệnh python của mình
- bây giờ của bạn. pdf được tạo và lưu mà sau này bạn sẽ chuyển đổi thành tệp
Làm cách nào để đọc dữ liệu từ PDF?
Bạn có thể nhập tệp PDF trực tiếp vào Excel và trích xuất dữ liệu dạng bảng từ tệp đó
- Mở một trang tính Excel
- Tab Dữ liệu > Nhận dữ liệu thả xuống > Từ tệp > Từ PDF
- Chọn tệp PDF của bạn và nhấp vào Nhập
- Giờ đây, bạn sẽ thấy ngăn Điều hướng hiển thị các bảng và trang trong tệp PDF của mình cùng với bản xem trước
- Chọn một bảng và nhấp vào Tải
Làm cách nào để trích xuất văn bản từ PDF và hình ảnh?
Bạn có thể chụp văn bản từ hình ảnh được quét, tải tệp hình ảnh lên từ máy tính hoặc chụp ảnh màn hình trên màn hình của bạn. Sau đó, chỉ cần nhấp chuột phải vào hình ảnh và chọn Lấy văn bản. Sau đó, văn bản từ tệp PDF được quét của bạn có thể được sao chép và dán vào các chương trình và ứng dụng khác
Như tôi đã đề cập trong bài viết trước của mình, tôi đã làm việc với một khách hàng để giúp họ phân tích hàng trăm tệp PDF để trích xuất từ khóa nhằm giúp chúng có thể tìm kiếm được
Một phần của việc giải quyết vấn đề là tìm ra cách trích xuất dữ liệu văn bản từ tất cả các tệp PDF này. Bạn có thể ngạc nhiên khi biết rằng nó không đơn giản. Bạn thấy đấy, PDF là một định dạng độc quyền của Adobe đi kèm với những điều kỳ quặc nhỏ của riêng họ khi tự động hóa quá trình trích xuất thông tin từ mỗi tệp
May mắn thay, chúng tôi có ngôn ngữ phù hợp cho công việc. con trăn. Bây giờ, tôi đã thể hiện rõ tình yêu của mình với Python. It’s easily readable and has a ton of awesome libraries that allow you to do basically anything. Đó là công cụ hoàn hảo trong vành đai tiện ích của bạn. Như tôi đã đề cập trước đây, nó khiến bạn trở thành Người Dơi
Phần tiếp theo là hướng dẫn về cách bạn có thể phân tích cú pháp một tệp PDF và chuyển đổi nó thành một danh sách các từ khóa
Thành lập
Đối với hướng dẫn này, tôi sẽ sử dụng Python 3. 6. 3. Bạn có thể sử dụng bất kỳ phiên bản nào bạn thích [miễn là nó hỗ trợ các thư viện liên quan]
Bạn sẽ cần các thư viện Python sau để làm theo hướng dẫn này
- PyPDF2 [để chuyển đổi các tệp PDF dựa trên văn bản, đơn giản thành văn bản mà Python có thể đọc được]
- textract [để chuyển đổi các tệp PDF được quét, không tầm thường thành văn bản mà Python có thể đọc được]
- NLTK [để làm sạch và chuyển đổi cụm từ thành từ khóa]
Mỗi thư viện này có thể được cài đặt bằng các lệnh sau bên trong thiết bị đầu cuối [trên macOS]
pip install PyPDF2pip install textractpip install nltk
Thao tác này sẽ tải xuống các thư viện bạn cần để phân tích tài liệu PDF và trích xuất từ khóa. Để thực hiện việc này, hãy đảm bảo rằng tệp PDF của bạn được lưu trữ trong thư mục mà bạn đang viết tập lệnh của mình
Khởi động trình soạn thảo yêu thích của bạn và gõ
Note: All lines starting with # are comments.
Bước 1. Nhập tất cả các thư viện
import PyPDF2
import textractfrom nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
Bước 2. Đọc tệp PDF
#Write a for-loop to open many files [leave a comment if you'd like to learn how].filename = 'enter the name of the file here' #open allows you to read the file.pdfFileObj = open[filename,'rb']#The pdfReader variable is a readable object that will be parsed.pdfReader = PyPDF2.PdfFileReader[pdfFileObj]#Discerning the number of pages will allow us to parse through all the pages.num_pages = pdfReader.numPages
count = 0
text = ""#The while loop will read each page.
while count < num_pages:
pageObj = pdfReader.getPage[count]
count +=1
text += pageObj.extractText[]#This if statement exists to check if the above library returned words. It's done because PyPDF2 cannot read scanned files.if text != "":
text = text#If the above returns as False, we run the OCR library textract to #convert scanned/image based PDF files into text.else:
text = textract.process[fileurl, method='tesseract', language='eng']#Now we have a text variable that contains all the text derived from our PDF file. Type print[text] to see what it contains. It likely contains a lot of spaces, possibly junk such as '\n,' etc.#Now, we will clean our text variable and return it as a list of keywords.
Bước 3. Chuyển văn bản thành từ khóa
#The word_tokenize[] function will break our text phrases into individual words.tokens = word_tokenize[text]#We'll create a new list that contains punctuation we wish to clean.
punctuations = ['[',']',';',':','[',']',',']#We initialize the stopwords variable, which is a list of words like "The," "I," "and," etc. that don't hold much value as keywords.stop_words = stopwords.words['english']#We create a list comprehension that only returns a list of words that are NOT IN stop_words and NOT IN punctuations.keywords = [word for word in tokens if not word in stop_words and not word in punctuations]
Bây giờ bạn có các từ khóa cho tệp của mình được lưu dưới dạng danh sách. Bạn có thể làm bất cứ điều gì bạn muốn với nó. Lưu trữ nó trong bảng tính nếu bạn muốn làm cho tệp PDF có thể tìm kiếm được hoặc phân tích cú pháp nhiều tệp và tiến hành phân tích cụm. Bạn cũng có thể sử dụng nó để tạo hệ thống giới thiệu hồ sơ xin việc
Tôi hy vọng bạn tìm thấy hướng dẫn này có giá trị. Nếu bạn có bất kỳ yêu cầu nào, muốn làm rõ hoặc tìm thấy lỗi, vui lòng cho tôi biết