Hướng dẫn how to read data from pdf file in python - cách đọc dữ liệu từ tệp pdf trong python
Tất cả các bạn phải quen thuộc với PDFS là gì. Trên thực tế, chúng là một trong những phương tiện kỹ thuật số quan trọng và được sử dụng rộng rãi nhất. & NBSP; PDF là viết tắt của định dạng tài liệu di động. Nó sử dụng tiện ích mở rộng .pdf. Nó được sử dụng để trình bày và trao đổi tài liệu một cách đáng tin cậy, độc lập với phần mềm, phần cứng hoặc hệ điều hành. Được Adobe, PDF hiện là một tiêu chuẩn mở được duy trì bởi Tổ chức Tiêu chuẩn hóa Quốc tế (ISO). PDF có thể chứa các liên kết và nút, trường mẫu, âm thanh, video và logic kinh doanh. Trong bài viết này, chúng ta sẽ tìm hiểu, làm thế nào chúng ta có thể thực hiện các hoạt động khác nhau như: & nbsp; & nbsp;Portable Document Format. It uses .pdf extension. It is used to present and exchange documents reliably, independent of software, hardware, or operating system. Show
Sử dụng các tập lệnh Python đơn giản! Cài đặt & nbsp; Chúng tôi sẽ sử dụng mô-đun của bên thứ ba, PYPDF2.PYPDF2 là một thư viện Python được xây dựng dưới dạng bộ công cụ PDF. Nó có khả năng: & nbsp; & nbsp;
Để cài đặt PYPDF2, hãy chạy lệnh sau từ dòng lệnh: & nbsp; & nbsp; pip3 install PyPDF2 Tên mô-đun này nhạy cảm với trường hợp, vì vậy hãy đảm bảo Y là chữ thường và mọi thứ khác là chữ hoa. Tất cả các tệp mã và PDF được sử dụng trong hướng dẫn/bài viết này đều có sẵn tại đây.1. Trích xuất văn bản từ tệp pdf & nbsp; & nbsp;y is lowercase and everything else is uppercase. All the code and PDF files used in this tutorial/article are available here. Python20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]6 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]7 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]8 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 pdfFileObj = open('example.pdf', 'rb')0 pdfFileObj = open('example.pdf', 'rb')1 pdfFileObj = open('example.pdf', 'rb')2223 pdfFileObj = open('example.pdf', 'rb')4 pdfFileObj = open('example.pdf', 'rb')5 pdfFileObj = open('example.pdf', 'rb')6 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 pdfFileObj = open('example.pdf', 'rb')8 pdfFileObj = open('example.pdf', 'rb')9 pdfReader = PyPDF2.PdfFileReader(pdfFileObj)0 pdfReader = PyPDF2.PdfFileReader(pdfFileObj)1 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 pdfReader = PyPDF2.PdfFileReader(pdfFileObj)3 pdfReader = PyPDF2.PdfFileReader(pdfFileObj)4 pdfFileObj = open('example.pdf', 'rb')5 pdfFileObj = open('example.pdf', 'rb')9 pdfReader = PyPDF2.PdfFileReader(pdfFileObj)7 pdfReader = PyPDF2.PdfFileReader(pdfFileObj)8 Đầu ra của chương trình trên trông như thế này: & nbsp; & nbsp; 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...] Hãy để chúng tôi cố gắng hiểu mã trên trong các khối: & nbsp; & nbsp; pdfFileObj = open('example.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())
pdfFileObj.close()
Lưu ý: Mặc dù các tệp PDF rất tuyệt vời để đưa ra văn bản theo cách mà mọi người dễ in và đọc, nhưng chúng không đơn giản đối với phần mềm để phân tích thành bản rõ. Như vậy, PYPDF2 có thể mắc lỗi khi trích xuất văn bản từ PDF và thậm chí có thể không thể mở một số tệp PDF. Thật không may, đó là rất nhiều bạn có thể làm về điều này, thật không may. PYPDF2 có thể chỉ đơn giản là không thể làm việc với một số tệp PDF cụ thể của bạn. While PDF files are great for laying out text in a way that’s easy for people to print and read, they’re not straightforward for software to parse into plaintext. As such, PyPDF2 might make mistakes when extracting text from a PDF and may even be unable to open some PDFs at all. It isn’t much you can do about this, unfortunately. PyPDF2 may simply be unable to work with some of your particular PDF files. 2. Xoay PDF Trang & NBSP; Python20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]6 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]7 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]8 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 pdfFileObj = open('example.pdf', 'rb')0 pdfFileObj = open('example.pdf', 'rb')1 pdfFileObj = open('example.pdf', 'rb')2223 pdfFileObj = open('example.pdf', 'rb')4 pdfFileObj = open('example.pdf', 'rb')5 pdfFileObj = open('example.pdf', 'rb')6 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 pdfFileObj = open('example.pdf', 'rb')8 pdfReader = PyPDF2.PdfFileReader(pdfFileObj)1 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 pdfReader = PyPDF2.PdfFileReader(pdfFileObj)3 pdfReader = PyPDF2.PdfFileReader(pdfFileObj)4 pdfFileObj = open('example.pdf', 'rb')5 Đầu ra của chương trình trên trông như thế này: & nbsp; & nbsp; Hãy để chúng tôi cố gắng hiểu mã trên trong các khối: & nbsp; & nbsp; Chúng tôi đã mở ví dụ.pdf ở chế độ nhị phân. & Nbsp; và lưu đối tượng tệp dưới dạng pdffiLeobj. & Nbsp; print(pageObj.extractText())4 print(pageObj.extractText())9 print(pageObj.extractText())4 pdfFileObj.close()1 Ở đây, chúng tôi tạo một đối tượng của lớp PDFFileReader của mô -đun PYPDF2 và vượt qua đối tượng tệp PDF và nhận đối tượng đầu đọc PDF. & NBSP; print(pdfReader.numPages)3 pdfWriter = PyPDF2.PdfFileWriter()0 print(pdfReader.numPages)3 pdfReader = PyPDF2.PdfFileReader(pdfFileObj)8 print(pdfReader.numPages)3 pdfWriter = PyPDF2.PdfFileWriter()4 Thuộc tính Numpages cung cấp số lượng trang trong tệp PDF. Ví dụ: trong trường hợp của chúng tôi, nó là 20 (xem dòng đầu ra đầu tiên). & Nbsp; Bây giờ, chúng tôi tạo một đối tượng của lớp trang PYPDF2. Đối tượng đầu đọc pdf có chức năng getPage () lấy số trang (bắt đầu từ chỉ mục 0) làm đối số và trả về đối tượng trang. & Nbsp; Đối tượng trang có chức năng trích xuất () để trích xuất văn bản từ trang PDF. & Nbsp; Cuối cùng, chúng tôi đóng đối tượng tệp PDF. print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]00 Lưu ý: Mặc dù các tệp PDF rất tuyệt vời để đưa ra văn bản theo cách mà mọi người dễ in và đọc, nhưng chúng không đơn giản đối với phần mềm để phân tích thành bản rõ. Như vậy, PYPDF2 có thể mắc lỗi khi trích xuất văn bản từ PDF và thậm chí có thể không thể mở một số tệp PDF. Thật không may, đó là rất nhiều bạn có thể làm về điều này, thật không may. PYPDF2 có thể chỉ đơn giản là không thể làm việc với một số tệp PDF cụ thể của bạn. print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]08 2. Xoay PDF Trang & NBSP;rotated_example.pdf looks like ( right image) after rotation: print(pdfReader.numPages)1 print(pdfReader.numPages)2
pdfWriter = PyPDF2.PdfFileWriter()
for page in range(pdfReader.numPages): pageObj = pdfReader.getPage(page) pageObj.rotateClockwise(rotation) pdfWriter.addPage(pageObj)
20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]0
3. Hợp nhất các tệp PDF & NBSP; Python20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]6 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]7 print(pdfReader.numPages)1 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]12 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]14 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]16 print(pdfReader.numPages)3 pageObj = pdfReader.getPage(0)9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]19 print(pageObj.extractText())1 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]21 print(pageObj.extractText())4 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]23 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]25 pdfFileObj = open('example.pdf', 'rb')0 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]27 pdfFileObj.close()7 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]29 print(pageObj.extractText())4 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]31 print(pdfReader.numPages)1 pdfWriter = PyPDF2.PdfFileWriter()6 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]35 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]37 pdfFileObj = open('example.pdf', 'rb')2223 for page in range(pdfReader.numPages): pageObj = pdfReader.getPage(page) pageObj.rotateClockwise(rotation) pdfWriter.addPage(pageObj)4 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]41 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]43 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]45 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]47 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]49 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]51 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]01 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]02 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]05 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]06 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]08 Đầu ra của chương trình trên là PDF kết hợp, kết hợp_example.pdf, thu được bằng cách hợp nhất ví dụ.pdf và rotated_example.pdf. & Nbsp;combined_example.pdf,obtained by merging example.pdf and rotated_example.pdf.
20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]1
20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]2
20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]3
4. Tách tệp PDF & NBSP; Python20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]6 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]7 print(pdfReader.numPages)1 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]12 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]14 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]16 print(pdfReader.numPages)3 pageObj = pdfReader.getPage(0)9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]19 print(pageObj.extractText())1 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]21 print(pdfReader.numPages)1 pdfWriter = PyPDF2.PdfFileWriter()6 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]35 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]37 pdfFileObj = open('example.pdf', 'rb')2223 for page in range(pdfReader.numPages): pageObj = pdfReader.getPage(page) pageObj.rotateClockwise(rotation) pdfWriter.addPage(pageObj)4 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]41 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]43 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]45 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]01 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]02 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]05 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]06 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]08 Đầu ra của chương trình trên là PDF kết hợp, kết hợp_example.pdf, thu được bằng cách hợp nhất ví dụ.pdf và rotated_example.pdf. & Nbsp; pdfFileObj = open('example.pdf', 'rb')19 pdfFileObj = open('example.pdf', 'rb')20 Chúng ta hãy xem xét các khía cạnh quan trọng của chương trình này: & nbsp; & nbsp; & nbsp; pdfFileObj = open('example.pdf', 'rb')19 pdfFileObj = open('example.pdf', 'rb')28 Để hợp nhất, chúng tôi sử dụng lớp được xây dựng sẵn, pdffilemerger của mô-đun pypdf2. print(pageObj.extractText())4 pdfFileObj = open('example.pdf', 'rb')34 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]06 Bây giờ, chúng tôi nối thêm đối tượng tệp của mỗi đối tượng PDF vào PDF bằng phương thức append (). Cuối cùng, chúng tôi viết các trang PDF vào tệp PDF đầu ra bằng phương thức ghi của đối tượng sáp nhập PDF. 4. Tách tệp PDF & NBSP; print(pdfReader.numPages)3 pdfReader = PyPDF2.PdfFileReader(pdfFileObj)8 print(pdfReader.numPages)1 pdfWriter = PyPDF2.PdfFileWriter()6 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]35 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]37 pdfFileObj = open('example.pdf', 'rb')2223 for page in range(pdfReader.numPages): pageObj = pdfReader.getPage(page) pageObj.rotateClockwise(rotation) pdfWriter.addPage(pageObj)4 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]41 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]43 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]45 print(pdfReader.numPages)3 pdfFileObj = open('example.pdf', 'rb')67 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]01 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]02 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]05 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]06 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]08 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]08split 1 (page 0,1), split 2(page 2,3), split 3(page 4-end). No new function or class has been used in the above python program. Using simple logic and iterations, we created the splits of passed PDF according to the passed list splits. 5. Adding watermark to PDF pages Python20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]6 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]7 Đầu ra của chương trình trên là PDF kết hợp, kết hợp_example.pdf, thu được bằng cách hợp nhất ví dụ.pdf và rotated_example.pdf. & Nbsp; Chúng ta hãy xem xét các khía cạnh quan trọng của chương trình này: & nbsp; & nbsp; & nbsp; Để hợp nhất, chúng tôi sử dụng lớp được xây dựng sẵn, pdffilemerger của mô-đun pypdf2. print(pdfReader.numPages)3 pdfFileObj = open('example.pdf', 'rb')92 pdfReader = PyPDF2.PdfFileReader(pdfFileObj)4 pdfFileObj = open('example.pdf', 'rb')94 print(pdfReader.numPages)3 pdfFileObj = open('example.pdf', 'rb')96 Bây giờ, chúng tôi nối thêm đối tượng tệp của mỗi đối tượng PDF vào PDF bằng phương thức append (). print(pdfReader.numPages)1 pdfWriter = PyPDF2.PdfFileWriter()6 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]35 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]37 pdfFileObj = open('example.pdf', 'rb')2223 for page in range(pdfReader.numPages): pageObj = pdfReader.getPage(page) pageObj.rotateClockwise(rotation) pdfWriter.addPage(pageObj)4 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]41 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]43 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]45 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]01 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]02 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]05 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]06 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]08 print(pdfReader.numPages)3 pageObj = pdfReader.getPage(0)9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]19 print(pageObj.extractText())1 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]21 print(pdfReader.numPages)1 pdfWriter = PyPDF2.PdfFileWriter()6 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]35 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]37 pdfFileObj = open('example.pdf', 'rb')2223 for page in range(pdfReader.numPages): pageObj = pdfReader.getPage(page) pageObj.rotateClockwise(rotation) pdfWriter.addPage(pageObj)4 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]41 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]43 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]45 print(pageObj.extractText())4 pdfReader = PyPDF2.PdfFileReader(pdfFileObj)40 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]01 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]02 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]05 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]06 print(pdfReader.numPages)3 pdfWriter = PyPDF2.PdfFileWriter()0 print(pdfReader.numPages)3 pdfReader = PyPDF2.PdfFileReader(pdfFileObj)8 print(pdfReader.numPages)3 pdfWriter = PyPDF2.PdfFileWriter()4 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]01 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]02 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]9 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]05 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]06 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]08 print(pdfReader.numPages)3 20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]08
20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]4
20 PythonBasics S.R.Doty August27,2008 Contents 1Preliminaries 4 1.1WhatisPython?................................... ..4 1.2Installationanddocumentation.................... .........4 [and some more lines...]5
Cuối cùng, chúng tôi viết các trang PDF vào tệp PDF đầu ra bằng phương thức ghi của đối tượng sáp nhập PDF.
4. Tách tệp PDF & NBSP;Nikhil Kumar. If you like GeeksforGeeks and would like to contribute, you can also write an article using write.geeksforgeeks.org or mail your
article to . See your article appearing on the GeeksforGeeks main page and help other Geeks. Làm cách nào để lấy dữ liệu từ PDF trong Python?Có một vài thư viện Python sử dụng mà bạn có thể trích xuất dữ liệu từ PDFS. Ví dụ: bạn có thể sử dụng thư viện PYPDF2 để trích xuất văn bản từ các tệp PDF trong đó văn bản theo cách tuần tự hoặc được định dạng, tức là trong các dòng hoặc biểu mẫu. Bạn cũng có thể trích xuất các bảng trong các tệp PDF thông qua thư viện Camelot.use the PyPDF2 library for extracting text from PDFs where text is in a sequential or formatted manner i.e. in lines or forms. You can also extract tables in PDFs through the Camelot library.
Làm cách nào để đọc nội dung của PDF trong Python?Hãy để chúng tôi cố gắng hiểu mã trên trong các khối:.. pdffileObj = open ('example.pdf', 'rb') Chúng tôi đã mở ví dụ..... pdfreader = pypdf2.pdffilereader (pdffileObj) .... In (pdfreader.numpages) .... pageObj = pdfreader.getPage (0) .... In (pageObj.exTractText ()) .... pdfFileObj.close(). Làm cách nào để đọc dữ liệu từ PDF?Trích xuất dữ liệu từ PDF đến Excel.. Mở một tờ Excel .. Tab dữ liệu> Nhận thả xuống Dữ liệu> Từ Tệp> Từ PDF .. Chọn tệp PDF của bạn và nhấp vào Nhập .. Bây giờ bạn sẽ thấy một ngăn Navigator hiển thị các bảng & trang trong tệp PDF của bạn cùng với bản xem trước .. Chọn một bảng và nhấp vào Tải .. Làm cách nào để trích xuất văn bản cụ thể từ PDF trong Python?Bước 1: Nhập tất cả các thư viện.Bước 2: Chuyển đổi tệp PDF thành định dạng TXT và đọc dữ liệu.Bước 3: Sử dụng chức năng .Findall () của các biểu thức thông thường để trích xuất các từ khóa.Use “. findall()” function of regular expressions to extract keywords. |