Cách dễ nhất để trích xuất văn bản từ PDF bằng Python là gì?

Đôi khi, nhà phát triển Python cần thu thập một số thông tin văn bản từ tệp PDF. Vì vậy, trích xuất văn bản từ PDF là một vấn đề bạn nên biết cách giải quyết với tư cách là nhà phát triển Python. Nếu bạn muốn tìm hiểu cách trích xuất văn bản từ tệp pdf, bài viết này là dành cho bạn. Trong bài viết này, tôi sẽ hướng dẫn bạn cách trích xuất văn bản từ pdf bằng Python

Trích xuất văn bản từ PDF bằng Python

Bạn phải biết cách thu thập văn bản từ pdf với tư cách là nhà phát triển Python. Kỹ năng này rất hữu ích khi làm việc với sơ yếu lý lịch. Trích xuất văn bản từ tệp pdf không phải là một nhiệm vụ khó khăn. Đối với tác vụ này, bạn cần cài đặt thư viện Python có tên là PyPDF2

Bạn có thể dễ dàng cài đặt thư viện Python này bằng cách sử dụng lệnh pip trong thiết bị đầu cuối hoặc dấu nhắc lệnh như được đề cập bên dưới

  • cài đặt pip pypdf2

Sau khi cài đặt thư viện Python này, tất cả chúng ta đã sẵn sàng để trích xuất văn bản từ bất kỳ tệp pdf nào. Dưới đây là cách bạn có thể trích xuất văn bản từ bất kỳ tệp PDF nào bằng ngôn ngữ lập trình Python

import PyPDF2
pdf = open["Aman.pdf", "rb"]
reader = PyPDF2.PdfFileReader[pdf]
page = reader.getPage[0]
print[page.extractText[]]

Ở dòng thứ tư của đoạn mã trên, phương thức getPage[] sẽ giúp bạn chỉ định số trang mà bạn muốn trích xuất văn bản từ đó

Tóm lược

Vì vậy, đây là cách bạn có thể thu thập văn bản từ tệp PDF bằng ngôn ngữ lập trình Python. Trích xuất văn bản từ PDF là một vấn đề bạn nên biết cách giải quyết với tư cách là nhà phát triển Python. Tôi hy vọng bạn thích bài viết này về trích xuất văn bản từ tệp PDF bằng Python. Vui lòng đặt câu hỏi có giá trị trong phần bình luận bên dưới

Các nhà khoa học dữ liệu thường phải xử lý thông tin có trong PDF, mặc dù một số người trong số họ sẽ chỉ sao chép và dán dữ liệu họ cần, đây là một cách làm tồi tệ, chưa kể là cách làm việc chậm nhất và kém hiệu quả nhất về lâu dài và tùy thuộc vào

Trước khi chúng ta bắt đầu, xin cảm ơn Carlos Melo — Sigmoidal đã cho phép tôi sử dụng các báo cáo PDF giả được tạo cho khóa học Khoa học dữ liệu của anh ấy, khóa học mà tôi là sinh viên và tôi rất yêu thích khóa học này. Nếu bạn không biết anh ấy, tôi rất khuyến khích bạn theo dõi anh ấy trên Instagram, Blog và YouTube, đó là nguồn kiến ​​thức Khoa học dữ liệu yêu thích của tôi

Nếu bạn muốn theo dõi dự án này chứ không chỉ các chức năng từ PDF Plumber, hãy đảm bảo xem qua phần của tôi, trong đó tôi đề cập đến mọi thứ mà tôi nói trong bài đăng này và bạn cũng có thể xem toàn bộ dự án mà tôi đang đề cập đến

Công cụ chúng tôi đang sử dụng trong hướng dẫn này là PDF Plumber, một gói python mã nguồn mở, rất tuyệt vời, đơn giản và mạnh mẽ

Nhấp vào đây nếu bạn muốn xem bản PDF mà tôi đang sử dụng trong ví dụ này

1. Nhập mô-đun của bạn.
pip install pdfplumber -qimport pdfplumber

Bây giờ chúng ta hãy xem các chức năng chính mà PDF Plumber có

2. open['đường dẫn/đến/thư mục']

Hàm này sẽ mở tệp mà bạn đã chuyển thư mục làm đối số, hãy tưởng tượng bạn có một biến tên là ''pdf'' và nó chứa thư mục vào một tệp

pdf = pdfplumber.open['/content/file.pdf']
3. trang[ ]

Sau khi bạn mở tệp của mình, bạn muốn chọn trang bạn muốn trích xuất thông tin bạn đang tìm kiếm, giả sử thông tin bạn muốn nằm ở trang đầu tiên, chỉ mục sẽ là 0 vì Python bắt đầu đếm từ 0

page = pdf.pages[0]

Hãy tưởng tượng bạn đang đọc một cuốn sách, bước đầu tiên là mở sách ra, sau đó bạn tìm trang muốn đọc rồi đọc [i. e trích xuất thông tin từ nó], Python hoạt động theo cách tương tự

4. trích_văn[]

Bây giờ bạn đã mở một trang, bạn cần trích xuất văn bản từ trang đó

text = page.extract_text[]

Nếu bạn gọi biến text trong câu lệnh print[], bạn sẽ có kết quả như thế này

However, if you use the print function your text will be formatted like this:print[text]SIGMOIDAL 

Relatório Diário

Data: 10/08/2020

RECEITA: R$ 1.397,00
DADOS ATUALIZADOS POR CARLOS MELO


Visitantes: 1367
A quantidade de visitantes diz respeito a visitantes únicos visitando qualquer
página do domínio ou subdomínio sigmoidal.ai. Compreende, então, cursos,
blogs e landing pages.
Inscritos: 33
É considerado aqui o número de leads gerados por meio de cadastro
voluntário nos formulários do cabeçalho, rodapé ou materiais ricos [como
eBook, infográficos, entre outros].
Assinantes: 6
Clientes assinantes da Escola de Data Science, considerando-se o plano
renovável de assinatura mensal.

Hàm print[] nhận ra ‘\n’ là dấu ngắt dòng và ‘\t’ là tab, vì vậy văn bản của bạn được định dạng. Nhân tiện, đó là văn bản được trích xuất mà tôi đang sử dụng để viết bài đăng này, đầu ra của bạn sẽ khác với đầu ra của tôi

Tuy nhiên, nếu bạn chỉ gọi biến thì đầu ra của bạn sẽ là

SIGMOIDAL \n \nRelatório Diário \n \nData: 10/08/2020 \n \nRECEITA: R$ 1.397,00 \nDADOS ATUALIZADOS POR CARLOS MELO\n \n \n Visitantes: 1367 \nA quantidade de visitantes diz respeito a visitantes únicos visitando qualquer \npágina do domínio ou subdomínio sigmoidal.ai. Compreende, então, cursos, \nblogs e landing pages. \n Inscritos: 33 \nÉ considerado aqui o número de leads gerados por meio de cadastro \nvoluntário nos formulários do cabeçalho, rodapé ou materiais ricos [como \neBook, infográficos, entre outros]. \n Assinantes: 6 \nClientes assinantes da Escola de Data Science, considerando-se o plano \nrenovável de assinatura mensal. \n \n \n

Và đó là cách bạn muốn bắt đầu làm việc với văn bản của mình. Hãy tưởng tượng chúng tôi muốn giá trị lợi nhuận mà tệp này chứa, đó là '1397,00', chúng tôi sẽ phải xóa đầu ra này cho đến khi đạt được '1397. 00' dưới dạng một chuỗi và sau đó chúng tôi phải chuyển nó thành một số float. Nếu bạn muốn xem quy trình này từng bước, bạn có thể xem sổ ghi chép tôi đã tạo cho dự án này. Dù sao, mã sẽ là

float[text.split["\n"][6].replace["\t", ""].split["R$"][1]]
1397.00

Hãy tưởng tượng bạn có nhiều tệp theo cùng một mẫu văn bản, bạn có thể tạo một ``vòng lặp for`` và sau đó Python sẽ lặp lại tất cả chúng và trả về giá trị lợi nhuận của từng tệp

________số 8

Nếu bạn thích hướng dẫn này, vui lòng chia sẻ nó với bạn bè của bạn và để lại nhận xét về những gì bạn thích nhất và những gì tôi có thể làm tốt hơn, đừng quên thêm tôi trên LinkedIn và GitHub và đừng ngần ngại liên hệ nếu bạn

Làm cách nào để trích xuất văn bản từ PDF bằng Python?

Đối tượng trang có chức năng extractText[] để trích xuất văn bản từ trang pdf.

Làm cách nào tôi có thể trích xuất tất cả văn bản từ PDF?

Sao chép nội dung cụ thể từ PDF .
Mở tài liệu PDF trong Reader. Nhấp chuột phải vào tài liệu và chọn Select Tool từ menu bật lên
Kéo để chọn văn bản hoặc nhấp để chọn hình ảnh. Nhấp chuột phải vào mục đã chọn và chọn Sao chép
Nội dung được sao chép vào clipboard

Làm cách nào để chuyển đổi PDF thành văn bản trong Python?

Cách chuyển đổi PDF sang TXT .
Cài đặt 'Aspose. Từ cho Python thông qua. BỌC LƯỚI'
Thêm tham chiếu thư viện [nhập thư viện] vào dự án Python của bạn
Mở tệp PDF nguồn bằng Python
Gọi phương thức 'save[]', chuyển tên tệp đầu ra có phần mở rộng TXT
Nhận kết quả chuyển đổi PDF dưới dạng TXT

Chủ Đề