Hướng dẫn how do i convert a pdf to text in python? - làm cách nào để chuyển đổi pdf sang văn bản trong python?
Trong bài viết này, chúng tôi sẽ tạo ra một tập lệnh Python dễ dàng sẽ giúp chúng tôi chuyển đổi tệp PDF thành TXT. Bạn có các ứng dụng khác nhau mà bạn có thể tải xuống và sử dụng cho chuyển đổi tệp PDF sang TXT. Có rất nhiều ứng dụng trực tuyến quá có sẵn cho mục đích này nhưng nó sẽ tuyệt vời như thế nào, nếu bạn có thể tạo bộ chuyển đổi tệp PDF sang TXT của riêng mình bằng cách sử dụng tập lệnh Python đơn giản.pdf to txt file conversion. There are a lot of online applications too available for this purpose but how cool would it be, if you could create your own pdf to txt
file converter using a simple python script. Bắt đầu nào! Không cần phải quảng cáo thêm nữa, hãy để bắt đầu với các bước để chuyển đổi PDF thành TXT. Collecting PyPDF2 Downloading PyPDF2-1.26.0.tar.gz (77 kB) |████████████████████████████████| 77 kB 1.9 MB/s Using legacy 'setup.py install' for PyPDF2, since package 'wheel' is not installed. Installing collected packages: PyPDF2 Running setup.py install for PyPDF2 ... done Successfully installed PyPDF2-1.26.0 Điều này sẽ cài đặt thành công gói PYPDF2 của bạn trên hệ thống của bạn. Khi nó được cài đặt, bạn rất tốt để đi với tập lệnh của mình. Bước 03 - Mở tệp Python mới cho tập lệnh
Hãy bắt đầu với mã tập lệnhimport PyPDF2 #create file object variable #opening method will be rb pdffileobj=open('1.pdf','rb') #create reader variable that will read the pdffileobj pdfreader=PyPDF2.PdfFileReader(pdffileobj) #This will store the number of pages of this pdf file x=pdfreader.numPages #create a variable that will select the selected number of pages pageobj=pdfreader.getPage(x+1) #(x+1) because python indentation starts with 0. #create text variable which will store all text datafrom pdf file text=pageobj.extractText() #save the extracted data from pdf to a txt file #we will use file handling here #dont forget to put r before you put the file path #go to the file location copy the path by right clicking on the file #click properties and copy the location path and paste it here. #put "\\your_txtfilename" file1=open(r"C:\Users\SIDDHI\AppData\Local\Programs\Python\Python38\\1.txt","a") file1.writelines(text) Ở đây, một lời giải thích nhanh về mã:
Output: Hình ảnh tệp PDF: Hình ảnh tệp TXT đã chuyển đổi: Điều này ngắn gọn về cách chuyển đổi tệp PDF thành tệp TXT bằng cách viết tập lệnh Python của riêng bạn. Hãy thử nó ra! Chuyển đổi PDF thành văn bản bằng PythonVì vậy, bạn đang ở đây vì bạn đang tìm cách chuyển đổi PDF thành văn bản bằng Python. Chà, bạn đang ở đúng nơi vì chúng tôi sẽ cho bạn thấy hai phương pháp tiện dụng để chuyển đổi PDF thành văn bản Python. Nếu bạn chưa biết, Python là ngôn ngữ lập trình hướng đối tượng được sử dụng để phát triển các nguyên mẫu phần mềm ứng dụng web và khoa học dữ liệu. Bây giờ chúng ta hãy tìm hiểu làm thế nào bạn có thể chuyển đổi PDF thành văn bản bằng Python.convert PDF to text using Python. Well, you are in the right place because we are going to show you two handy methods to convert PDF to text Python. If you don't already know, Python is an object-oriented programming language that is used to develop web applications software prototypes, and data science. Let's now find out how you can convert PDF to text using Python. Chuyển đổi PDF thành văn bản với Python không đơn giản, đặc biệt là đối với người mới. Ngoài ra, thật khó để chuyển đổi các tệp PDF được quét thành văn bản với Python. Nếu bạn đang tìm kiếm một cách đơn giản hơn để chuyển đổi PDF, bao gồm cả PDF được quét thành văn bản, bạn có thể sử dụng PDFelement của Wondershare - trình soạn thảo PDF. Đây là một trình soạn thảo PDF dễ sử dụng có thể chuyển đổi PDF thành TXT, Word, Excel, PPT, v.v., và ngược lại. Với công nghệ OCR, nó có thể trích xuất văn bản và dữ liệu từ hình ảnh PDF. Chuyển đổi lô được hỗ trợ. Chuyển đổi PDF thành văn bản với Python qua mô -đun PDFTOTEXTĐể chuyển đổi PDF thành văn bản bằng Python, bạn cần các công cụ sau. 1: Poppler cho Windows Đây là một thư viện kết xuất PDF cũng bao gồm tiện ích PDFTOPPM. 2: Mô -đun PDFTOTEXT Đó là một mô -đun Python kết thúc tiện ích để chuyển đổi PDF thành văn bản. Cách cài đặt PDF yêu cầu để nhắn tin cho các công cụ PythonĐể cài đặt Poppler trên Windows, hãy thêm đường dẫn XXX/ BIN/ TO ENV sẽ cài đặt Poppler ở vị trí cần thiết. Sau đó, PIP cài đặt mô -đun PDFTOTEXT chuyển đổi PDF thành văn bản trong khi bạn chạy truy vấn của mình tại Python. Sau khi mô -đun poppler và pdftotex được cài đặt trên windows, hãy viết và biên dịch mã sau để làm cho nó hoạt động. 1 Nhập PDFTOTEXT2 3 # Tải PDF4 của bạn với Mở ("Target.pdf", "RB") dưới dạng F: 5 PDF = PDFTOTEXT.pdf (f) 67 # Lưu tất cả văn bản vào tệp TXT.8 với Open ('đầu ra. txt ',' w ') as f: 9 f.write ("\ n \ n" .join (pdf)) Mã này hoạt động như thế nào?Nhập PDFTOTEXT: Với truy vấn này, nó sẽ gọi mô -đun PDFTOTEXT để bắt đầu quy trình chuyển đổi. # Tải PDF của bạn: Phần mã này sẽ tải tệp PDF của bạn trong trình biên dịch. Mã trên các dòng 4 đến 9 sẽ chọn và chuyển đổi tệp PDF thành văn bản và đầu ra sẽ được lưu ở đích đã chọn. Vì vậy, đây là cách bạn chuyển đổi PDF thành văn bản bằng Python. Chuyển đổi PDF thành văn bản với Python qua PYPDF2Phương pháp này sẽ sử dụng một mô -đun bên ngoài có tên PYPDF2 để chuyển PDF thành văn bản. Gói PYPDF2 này có thể cho phép bạn chuyển đổi, chia, hợp nhất, cắt pdfs. Để cài đặt PYPDF2, hãy sử dụng dòng lệnh bên dưới: C: \ user \ admin> pip cài đặt pypdf2 Khi mô -đun được cài đặt, bạn có thể chuyển đổi PDF thành văn bản bằng Python bằng cách sử dụng mã sau. # Nhập ModulesImport PYPDF2 yêu cầu # Tạo tệp PDF ObjectPdffiLeobj = Open ('example.pdf', 'rb')) # Tạo trình đọc pdf objectpdfreader = pypdf2.pdffileReader (pdffiLeobj) # in số trang trong pdf fileprint (pdfreader.numpages) # Tạo một trang objectPageobj = pdfreader.getPage (0) # Trích xuất văn bản từ PagePrint (pageObj.extracttext ()) # Đóng tệp PDF ObjectPdffileObj.close () Ưu điểm và nhược điểm của việc chuyển đổi PDF thành văn bản với PythonTrước tiên chúng ta hãy tìm hiểu những lợi thế của việc chuyển đổi PDF thành văn bản với Python. Python là một ngôn ngữ lập trình có thể được sử dụng để làm bất cứ điều gì bạn có thể tưởng tượng. Và khi nói đến chuyển đổi định dạng tệp, Python là một công cụ tuyệt vời để làm điều đó bởi vì có một số mô-đun có sẵn cho mục đích đó. Với các mô -đun này, rất dễ dàng chuyển đổi PDF thành văn bản, hình ảnh và các định dạng khác. Khi nói về những bất lợi, nhược điểm lớn nhất của việc sử dụng Python là bạn cần học Python trước tiên sẽ mất nhiều thời gian. Ngoài ra, nó có các tùy chọn và chức năng rất hạn chế để chuyển đổi tệp PDF được quét thành văn bản và có thể dẫn đến văn bản bị thao túng. Bây giờ, nếu bạn cảm thấy rằng việc chuyển đổi tệp sử dụng Python sẽ là một vấn đề đau đầu, chúng tôi đã có một phương pháp thay thế cho bạn, tức là, chuyển đổi PDF thành văn bản mà không cần Python. Chúng ta hãy học cách làm điều đó mà không có Python. Cách chuyển PDF thành văn bản mà không cần PythonĐể chuyển đổi PDF thành văn bản, tất cả những gì bạn cần là WonderShare pdfelement - trình soạn thảo pdf. Đây là một trong những công cụ tốt nhất tại thời điểm được sử dụng để tạo và chỉnh sửa các tệp PDF. Với nó, bạn có thể thực hiện rất nhiều các tác vụ khác nhau bao gồm chuyển đổi định dạng tệp, tạo mẫu và ký kỹ thuật số. Hãy khám phá một số tính năng tốt nhất dưới đây.
Có nhiều tính năng khác trong pdfelement không thể bỏ qua một cách dễ dàng. Nó có thể dễ dàng vượt qua các phần mềm tương tự khác vì không có phần mềm nào khác có nhiều tính năng kết hợp. Bây giờ chúng ta hãy kiểm tra hướng dẫn từng bước để chuyển đổi PDF thành văn bản. Bước 1: Mở tệp PDFĐầu tiên, khởi chạy PDFEuity và mở tệp PDF để chuyển đổi nó. Để mở tệp, nhấp vào nút "Mở tệp" ", định vị tệp trong PC của bạn, chọn nó và nhấp vào nút" Mở ". Bước 2: Chuyển đổi PDF thành văn bảnBây giờ, nhấp vào "Chuyển đổi" trong thanh menu và sau đó nhấp vào "vào văn bản" trong thanh phụ. Bước 3: Chọn thư mục đầu raTrong bước cuối cùng, chọn thư mục đầu ra hoặc đích nơi tệp được chuyển đổi sẽ được lưu và nhấp vào nút "Lưu". Ngay khi bạn nhấp vào nút "Lưu", tệp PDF sẽ được chuyển đổi thành định dạng văn bản trong một khoảnh khắc và sẽ được lưu tại đích đã chọn. Vì vậy, đây là cách bạn chuyển đổi PDF thành văn bản mà không cần sử dụng Python hoặc bất kỳ ngôn ngữ phức tạp nào khác. Tải xuống miễn phí hoặc mua pdfelement ngay bây giờ! Tải xuống miễn phí hoặc mua pdfelement ngay bây giờ! Mua pdfelement ngay bây giờ! Mua pdfelement ngay bây giờ! Các bài viết phổ biến khác từ WonderhareLàm thế nào để bạn chuyển đổi một tệp PDF thành một tệp văn bản trong Python?Cách chuyển đổi PDF thành TXT.. Cài đặt 'Aspose. Từ cho Python qua. MẠNG LƯỚI'.. Thêm một tham chiếu thư viện (nhập thư viện) vào dự án Python của bạn .. Mở tệp PDF nguồn trong Python .. Gọi phương thức 'Lưu ()', chuyển tên tệp đầu ra với phần mở rộng TXT .. Nhận kết quả chuyển đổi PDF là TXT .. Làm cách nào để chuyển đổi tệp PDF thành TXT?PDF sang văn bản - Chuyển đổi PDF thành văn bản trực tuyến miễn phí.. Kéo tệp của bạn vào PDF để chuyển đổi văn bản .. Chọn sử dụng OCR nếu cần, nếu không thì chọn Chuyển đổi sang Word. Đợi công cụ chuyển đổi tệp của bạn trong vài giây .. Tải xuống tệp của bạn dưới dạng tài liệu Word có thể chỉnh sửa đầy đủ !. Làm cách nào để trích xuất một đoạn văn từ PDF trong Python?Đầu tiên, chúng tôi đã thực hiện trình phân tích cú pháp của mình bằng cách sử dụng armursParSer và thêm các tham số sau: Tệp: Tài liệu PDF đầu vào để trích xuất văn bản từ.-P hoặc -PAGES: Các chỉ số trang để trích xuất, bắt đầu từ 0, nếu bạn không chỉ định, mặc định sẽ là tất cả các trang.-O hoặc --Output-file: Tệp văn bản đầu ra để viết văn bản được trích xuất.
Làm thế nào tôi có thể trích xuất văn bản từ PDF?Khi bạn đã mở tệp, nhấp vào tab "Chỉnh sửa", sau đó nhấp vào biểu tượng "Chỉnh sửa".Bây giờ bạn có thể nhấp chuột phải vào văn bản và chọn "Sao chép" để trích xuất văn bản bạn cần.right-click on the text and select "Copy" to extract the text you need. |