Hướng dẫn how do i convert a pdf to text in python? - làm cách nào để chuyển đổi pdf sang văn bản trong python?

Trong bài viết này, chúng tôi sẽ tạo ra một tập lệnh Python dễ dàng sẽ giúp chúng tôi chuyển đổi tệp PDF thành TXT. Bạn có các ứng dụng khác nhau mà bạn có thể tải xuống và sử dụng cho chuyển đổi tệp PDF sang TXT. Có rất nhiều ứng dụng trực tuyến quá có sẵn cho mục đích này nhưng nó sẽ tuyệt vời như thế nào, nếu bạn có thể tạo bộ chuyển đổi tệp PDF sang TXT của riêng mình bằng cách sử dụng tập lệnh Python đơn giản.pdf to txt file conversion. There are a lot of online applications too available for this purpose but how cool would it be, if you could create your own pdf to txt file converter using a simple python script.

Bắt đầu nào!


Không cần phải quảng cáo thêm nữa, hãy để bắt đầu với các bước để chuyển đổi PDF thành TXT.

Bước 01 - Tạo tệp PDF (hoặc tìm một tệp hiện có)

  • Mở một tài liệu Word mới.
  • Nhập một số nội dung bạn chọn trong tài liệu từ.
  • Bây giờ để tập tin> In> Lưu.
  • Hãy nhớ lưu tệp PDF của bạn ở cùng một vị trí nơi bạn lưu tệp tập lệnh Python của mình.
  • Bây giờ tệp .pdf của bạn đã được tạo và lưu mà sau này bạn sẽ chuyển đổi thành tệp .txt.

Bước 02 - Cài đặt PYPDF2

  • Đầu tiên, chúng tôi sẽ cài đặt một mô -đun bên ngoài có tên PYPDF2.PyPDF2.
  • Gói PYPDF2 là thư viện PDF PPYTHON thuần túy mà bạn có thể sử dụng để phân tách, hợp nhất, cắt xén và chuyển đổi các tệp PDF. Theo trang web PYPDF2, bạn cũng có thể sử dụng PYPDF2 để thêm dữ liệu, xem tùy chọn và mật khẩu vào PDFS.pure-python pdf library that you can use for splitting, merging, cropping, and transforming pdfs. According to the PyPDF2 website, you can also use PyPDF2 to add data, viewing options, and passwords to the pdfs, too.
  • Để cài đặt gói PYPDF2, hãy mở dấu nhắc lệnh Windows của bạn và sử dụng lệnh PIP để cài đặt PYPDF2:

C:\Users\Admin>pip install PyPDF2

Collecting PyPDF2
  Downloading PyPDF2-1.26.0.tar.gz (77 kB)
     |████████████████████████████████| 77 kB 1.9 MB/s
Using legacy 'setup.py install' for PyPDF2, since package 'wheel' is not installed.
Installing collected packages: PyPDF2
    Running setup.py install for PyPDF2 ... done
Successfully installed PyPDF2-1.26.0

Điều này sẽ cài đặt thành công gói PYPDF2 của bạn trên hệ thống của bạn. Khi nó được cài đặt, bạn rất tốt để đi với tập lệnh của mình.

Bước 03 - Mở tệp Python mới cho tập lệnh

  • Mở Python Idle của bạn và nhấn phím Ctrl + N. Điều này sẽ mở trình chỉnh sửa văn bản của bạn.
  • Bạn có thể sử dụng bất kỳ trình soạn thảo văn bản nào khác của sự lựa chọn ưa thích của bạn.
  • Lưu tệp dưới dạng your_pdf_file_name.py.
  • Lưu tệp .py này trong cùng một vị trí với tệp pdf của bạn.

Hãy bắt đầu với mã tập lệnh

import PyPDF2

#create file object variable
#opening method will be rb
pdffileobj=open('1.pdf','rb')

#create reader variable that will read the pdffileobj
pdfreader=PyPDF2.PdfFileReader(pdffileobj)

#This will store the number of pages of this pdf file
x=pdfreader.numPages

#create a variable that will select the selected number of pages
pageobj=pdfreader.getPage(x+1)

#(x+1) because python indentation starts with 0.
#create text variable which will store all text datafrom pdf file
text=pageobj.extractText()

#save the extracted data from pdf to a txt file
#we will use file handling here
#dont forget to put r before you put the file path
#go to the file location copy the path by right clicking on the file
#click properties and copy the location path and paste it here.
#put "\\your_txtfilename"
file1=open(r"C:\Users\SIDDHI\AppData\Local\Programs\Python\Python38\\1.txt","a")
file1.writelines(text)

Ở đây, một lời giải thích nhanh về mã:

  • Trước tiên chúng tôi tạo một đối tượng tệp python và mở tệp pdf trong chế độ đọc nhị phân đọc (rb)
  • Sau đó, chúng tôi tạo đối tượng pdffileReader sẽ đọc tệp được mở từ bước trước đó
  • Một biến được sử dụng để lưu trữ số lượng trang trong tệp
  • Phần cuối cùng sẽ viết các dòng đã xác định từ PDF vào tệp văn bản mà bạn chỉ định

Output:

Hướng dẫn how do i convert a pdf to text in python? - làm cách nào để chuyển đổi pdf sang văn bản trong python?

Hình ảnh tệp PDF:

Hướng dẫn how do i convert a pdf to text in python? - làm cách nào để chuyển đổi pdf sang văn bản trong python?

Hình ảnh tệp TXT đã chuyển đổi:

Hướng dẫn how do i convert a pdf to text in python? - làm cách nào để chuyển đổi pdf sang văn bản trong python?

Điều này ngắn gọn về cách chuyển đổi tệp PDF thành tệp TXT bằng cách viết tập lệnh Python của riêng bạn. Hãy thử nó ra!

Chuyển đổi PDF thành văn bản bằng Python

Hướng dẫn how do i convert a pdf to text in python? - làm cách nào để chuyển đổi pdf sang văn bản trong python?

Vì vậy, bạn đang ở đây vì bạn đang tìm cách chuyển đổi PDF thành văn bản bằng Python. Chà, bạn đang ở đúng nơi vì chúng tôi sẽ cho bạn thấy hai phương pháp tiện dụng để chuyển đổi PDF thành văn bản Python. Nếu bạn chưa biết, Python là ngôn ngữ lập trình hướng đối tượng được sử dụng để phát triển các nguyên mẫu phần mềm ứng dụng web và khoa học dữ liệu. Bây giờ chúng ta hãy tìm hiểu làm thế nào bạn có thể chuyển đổi PDF thành văn bản bằng Python.convert PDF to text using Python. Well, you are in the right place because we are going to show you two handy methods to convert PDF to text Python. If you don't already know, Python is an object-oriented programming language that is used to develop web applications software prototypes, and data science. Let's now find out how you can convert PDF to text using Python.

Chuyển đổi PDF thành văn bản với Python không đơn giản, đặc biệt là đối với người mới. Ngoài ra, thật khó để chuyển đổi các tệp PDF được quét thành văn bản với Python. Nếu bạn đang tìm kiếm một cách đơn giản hơn để chuyển đổi PDF, bao gồm cả PDF được quét thành văn bản, bạn có thể sử dụng PDFelement của Wondershare - trình soạn thảo PDF. Đây là một trình soạn thảo PDF dễ sử dụng có thể chuyển đổi PDF thành TXT, Word, Excel, PPT, v.v., và ngược lại. Với công nghệ OCR, nó có thể trích xuất văn bản và dữ liệu từ hình ảnh PDF. Chuyển đổi lô được hỗ trợ.

Chuyển đổi PDF thành văn bản với Python qua mô -đun PDFTOTEXT

Để chuyển đổi PDF thành văn bản bằng Python, bạn cần các công cụ sau.

1: Poppler cho Windows

Đây là một thư viện kết xuất PDF cũng bao gồm tiện ích PDFTOPPM.

2: Mô -đun PDFTOTEXT

Đó là một mô -đun Python kết thúc tiện ích để chuyển đổi PDF thành văn bản.

Cách cài đặt PDF yêu cầu để nhắn tin cho các công cụ Python

Để cài đặt Poppler trên Windows, hãy thêm đường dẫn XXX/ BIN/ TO ENV sẽ cài đặt Poppler ở vị trí cần thiết. Sau đó, PIP cài đặt mô -đun PDFTOTEXT chuyển đổi PDF thành văn bản trong khi bạn chạy truy vấn của mình tại Python.

Sau khi mô -đun poppler và pdftotex được cài đặt trên windows, hãy viết và biên dịch mã sau để làm cho nó hoạt động.

1 Nhập PDFTOTEXT2 3 # Tải PDF4 của bạn với Mở ("Target.pdf", "RB") dưới dạng F: 5 PDF = PDFTOTEXT.pdf (f) 67 # Lưu tất cả văn bản vào tệp TXT.8 với Open ('đầu ra. txt ',' w ') as f: 9 f.write ("\ n \ n" .join (pdf))
2
3 # Load your PDF
4 with open("Target.pdf", "rb") as f:
5 pdf = pdftotext.PDF(f)
6
7 # Save all text to a txt file.
8 with open('output.txt', 'w') as f:
9 f.write("\n\n".join(pdf))

Mã này hoạt động như thế nào?

Nhập PDFTOTEXT: Với truy vấn này, nó sẽ gọi mô -đun PDFTOTEXT để bắt đầu quy trình chuyển đổi.

# Tải PDF của bạn: Phần mã này sẽ tải tệp PDF của bạn trong trình biên dịch.

Mã trên các dòng 4 đến 9 sẽ chọn và chuyển đổi tệp PDF thành văn bản và đầu ra sẽ được lưu ở đích đã chọn. Vì vậy, đây là cách bạn chuyển đổi PDF thành văn bản bằng Python.


Chuyển đổi PDF thành văn bản với Python qua PYPDF2

Phương pháp này sẽ sử dụng một mô -đun bên ngoài có tên PYPDF2 để chuyển PDF thành văn bản. Gói PYPDF2 này có thể cho phép bạn chuyển đổi, chia, hợp nhất, cắt pdfs. Để cài đặt PYPDF2, hãy sử dụng dòng lệnh bên dưới:

C: \ user \ admin> pip cài đặt pypdf2

Khi mô -đun được cài đặt, bạn có thể chuyển đổi PDF thành văn bản bằng Python bằng cách sử dụng mã sau.

# Nhập ModulesImport PYPDF2 yêu cầu
import PyPDF2

# Tạo tệp PDF ObjectPdffiLeobj = Open ('example.pdf', 'rb'))
pdfFileObj = open('example.pdf', 'rb')

# Tạo trình đọc pdf objectpdfreader = pypdf2.pdffileReader (pdffiLeobj)
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

# in số trang trong pdf fileprint (pdfreader.numpages)
print(pdfReader.numPages)

# Tạo một trang objectPageobj = pdfreader.getPage (0)
pageObj = pdfReader.getPage(0)

# Trích xuất văn bản từ PagePrint (pageObj.extracttext ())
print(pageObj.extractText())

# Đóng tệp PDF ObjectPdffileObj.close ()
pdfFileObj.close()


Ưu điểm và nhược điểm của việc chuyển đổi PDF thành văn bản với Python

Trước tiên chúng ta hãy tìm hiểu những lợi thế của việc chuyển đổi PDF thành văn bản với Python.

Python là một ngôn ngữ lập trình có thể được sử dụng để làm bất cứ điều gì bạn có thể tưởng tượng. Và khi nói đến chuyển đổi định dạng tệp, Python là một công cụ tuyệt vời để làm điều đó bởi vì có một số mô-đun có sẵn cho mục đích đó. Với các mô -đun này, rất dễ dàng chuyển đổi PDF thành văn bản, hình ảnh và các định dạng khác.

Khi nói về những bất lợi, nhược điểm lớn nhất của việc sử dụng Python là bạn cần học Python trước tiên sẽ mất nhiều thời gian. Ngoài ra, nó có các tùy chọn và chức năng rất hạn chế để chuyển đổi tệp PDF được quét thành văn bản và có thể dẫn đến văn bản bị thao túng.

Bây giờ, nếu bạn cảm thấy rằng việc chuyển đổi tệp sử dụng Python sẽ là một vấn đề đau đầu, chúng tôi đã có một phương pháp thay thế cho bạn, tức là, chuyển đổi PDF thành văn bản mà không cần Python. Chúng ta hãy học cách làm điều đó mà không có Python.


Cách chuyển PDF thành văn bản mà không cần Python

Để chuyển đổi PDF thành văn bản, tất cả những gì bạn cần là WonderShare pdfelement - trình soạn thảo pdf. Đây là một trong những công cụ tốt nhất tại thời điểm được sử dụng để tạo và chỉnh sửa các tệp PDF. Với nó, bạn có thể thực hiện rất nhiều các tác vụ khác nhau bao gồm chuyển đổi định dạng tệp, tạo mẫu và ký kỹ thuật số. Hãy khám phá một số tính năng tốt nhất dưới đây.

  • Tệp PDF - Tệp PDF có thể được tạo dễ dàng như tạo tệp MS Word bình thường. Bạn có thể thêm hình ảnh, màu sắc và nhiều hơn nữa trong các tệp PDF của bạn. - PDF file can be created as easily as creating a normal MS word file. You can add images, colors, and much more in your PDF files.
  • Chỉnh sửa PDF - Có tệp PDF từ ai đó và cần chỉnh sửa nó trước khi chuyển tiếp nó cho người khác? Sử dụng công cụ này, bạn có thể chỉnh sửa bất kỳ tệp nào với sự dễ dàng và kiểm soát đầy đủ. - Got a PDF file from someone and need to edit it before forwarding it to someone else? Using this tool, you can literally edit any file with full ease and control.
  • Chuyển đổi định dạng tệp - Không chỉ PDF sang văn bản và ngược lại mà bạn còn có thể chuyển đổi từ PDF sang khoảng 300 định dạng khác và ngược lại chỉ với một số nhấp chuột. - Not only PDF to text and vice versa but you can also convert from PDF to about 300 other formats and vice versa just with some clicks.
  • Tạo hình thức - Bạn có thể tạo các hình thức nâng cao và phức tạp chỉ bằng một cú nhấp chuột. Với tính năng này, bạn cũng có thể chỉnh sửa các biểu mẫu hiện có, cũng như điền vào các biểu mẫu ngay từ PC của bạn mà không tải xuống và in chúng. - You can create advanced and complex forms with just one click. With this feature, you can also edit the existing forms, as well as, fill the forms right from your PC without downloading and printing them.
  • OCR - với OCR (nhận dạng ký tự quang học), bạn có thể dễ dàng chuyển đổi các tệp PDF được quét thành định dạng có thể chỉnh sửa và thêm có thể chuyển đổi chúng thành bất kỳ định dạng nào khác. Nghe có vẻ thú vị? - With OCR (Optical Character Recognition), you can easily convert the scanned PDF files into an editable format and further can convert them into any other format. Sounds interesting?

Có nhiều tính năng khác trong pdfelement không thể bỏ qua một cách dễ dàng. Nó có thể dễ dàng vượt qua các phần mềm tương tự khác vì không có phần mềm nào khác có nhiều tính năng kết hợp. Bây giờ chúng ta hãy kiểm tra hướng dẫn từng bước để chuyển đổi PDF thành văn bản.

Bước 1: Mở tệp PDF

Đầu tiên, khởi chạy PDFEuity và mở tệp PDF để chuyển đổi nó. Để mở tệp, nhấp vào nút "Mở tệp" ", định vị tệp trong PC của bạn, chọn nó và nhấp vào nút" Mở ".

Hướng dẫn how do i convert a pdf to text in python? - làm cách nào để chuyển đổi pdf sang văn bản trong python?

Bước 2: Chuyển đổi PDF thành văn bản

Bây giờ, nhấp vào "Chuyển đổi" trong thanh menu và sau đó nhấp vào "vào văn bản" trong thanh phụ.

Hướng dẫn how do i convert a pdf to text in python? - làm cách nào để chuyển đổi pdf sang văn bản trong python?

Bước 3: Chọn thư mục đầu ra

Trong bước cuối cùng, chọn thư mục đầu ra hoặc đích nơi tệp được chuyển đổi sẽ được lưu và nhấp vào nút "Lưu". Ngay khi bạn nhấp vào nút "Lưu", tệp PDF sẽ được chuyển đổi thành định dạng văn bản trong một khoảnh khắc và sẽ được lưu tại đích đã chọn. Vì vậy, đây là cách bạn chuyển đổi PDF thành văn bản mà không cần sử dụng Python hoặc bất kỳ ngôn ngữ phức tạp nào khác.

Hướng dẫn how do i convert a pdf to text in python? - làm cách nào để chuyển đổi pdf sang văn bản trong python?

Tải xuống miễn phí hoặc mua pdfelement ngay bây giờ!

Tải xuống miễn phí hoặc mua pdfelement ngay bây giờ!

Mua pdfelement ngay bây giờ!

Mua pdfelement ngay bây giờ!


Các bài viết phổ biến khác từ Wonderhare

Làm thế nào để bạn chuyển đổi một tệp PDF thành một tệp văn bản trong Python?

Cách chuyển đổi PDF thành TXT..
Cài đặt 'Aspose. Từ cho Python qua. MẠNG LƯỚI'..
Thêm một tham chiếu thư viện (nhập thư viện) vào dự án Python của bạn ..
Mở tệp PDF nguồn trong Python ..
Gọi phương thức 'Lưu ()', chuyển tên tệp đầu ra với phần mở rộng TXT ..
Nhận kết quả chuyển đổi PDF là TXT ..

Làm cách nào để chuyển đổi tệp PDF thành TXT?

PDF sang văn bản - Chuyển đổi PDF thành văn bản trực tuyến miễn phí..
Kéo tệp của bạn vào PDF để chuyển đổi văn bản ..
Chọn sử dụng OCR nếu cần, nếu không thì chọn Chuyển đổi sang Word.
Đợi công cụ chuyển đổi tệp của bạn trong vài giây ..
Tải xuống tệp của bạn dưới dạng tài liệu Word có thể chỉnh sửa đầy đủ !.

Làm cách nào để trích xuất một đoạn văn từ PDF trong Python?

Đầu tiên, chúng tôi đã thực hiện trình phân tích cú pháp của mình bằng cách sử dụng armursParSer và thêm các tham số sau: Tệp: Tài liệu PDF đầu vào để trích xuất văn bản từ.-P hoặc -PAGES: Các chỉ số trang để trích xuất, bắt đầu từ 0, nếu bạn không chỉ định, mặc định sẽ là tất cả các trang.-O hoặc --Output-file: Tệp văn bản đầu ra để viết văn bản được trích xuất.

Làm thế nào tôi có thể trích xuất văn bản từ PDF?

Khi bạn đã mở tệp, nhấp vào tab "Chỉnh sửa", sau đó nhấp vào biểu tượng "Chỉnh sửa".Bây giờ bạn có thể nhấp chuột phải vào văn bản và chọn "Sao chép" để trích xuất văn bản bạn cần.right-click on the text and select "Copy" to extract the text you need.