Hướng dẫn dùng pdf python python

Hướng dẫn dùng pdf python python

Sep 21 2022

Trên thực tế, File PDF là một trong những phương tiện truyền thông kỹ thuật số quan trọng nhất và được sử dụng rộng rãi. PDF là viết tắt của Portable Document Format… Trong bài viết này, hãy cùng UniTrain thực hiện 2 chức năng tách PDF và thêm hình nền mờ vào trang PDF bằng cách sử dụng Python đơn giản!

1. Tách tệp PDF

Hướng dẫn dùng pdf python python

Output sẽ  là ba tệp PDF mới với split 1 (page 0,1), split 2(page 2,3), split 3(page 4-end).

Không có chức năng hoặc lớp mới nào được sử dụng trong chương trình python trên. Sử dụng logic đơn giản và lặp đi lặp lại để tạo ra các phân tách pdf theo phân chia danh sách được thông qua.

2. Thêm hình nền mờ vào trang PDF

Hướng dẫn dùng pdf python python

Dưới đây là trang đầu tiên của file pdf gốc (trái) và mờ (phải) trông như thế nào:

Hướng dẫn dùng pdf python python

  • Đối tượng trang được chuyển đổi thành đối tượng trang mờ bằng hàm add_watermark().
  • Chức năng add_watermark():

wmFileObj = open(wmFile, ‘rb’)

pdfReader = PyPDF2.PdfFileReader(wmFileObj) 

pageObj.mergePage(pdfReader.getPage(0))

wmFileObj.close() return pageObj

  • Trước hết, tạo ra một pdf của watermark.pdf. Sử dụng hàm mergePage() . Điều này sẽ phủ lên hình mờ trên đối tượng trang đã qua.

UniTrain lược dịch

Xem thêm

Cách khai báo và sử dụng một biến trong PYTHON

Cách tạo tệp Zip bằng Python

Giới thiệu về ngôn ngữ lập trình Python

Related Post

  • Có gì mới trong bản cập nhật Microsoft Excel?

    21/09/2022 0
  • Hướng dẫn tính năng xoay bảng bằng Transpose trong Power Query

    21/09/2022 0
  • Cách chuyển cột thành hàng trong Excel bằng Power Query

    21/09/2022 0
  • 24 phông chữ cho bài thuyết trình PowerPoint hiện đại

    21/09/2022 0
  • Cách tạo bản đồ nhiệt trên Power BI

    21/09/2022 0

Công việc của mình thường xuyên phải gộp nhiều trang PDF nhỏ thành 1 file PDF, bình thường thì việc gộp file PDF này có thể được thực hiện bằng một số công cụ online như smallpdf, hoặc 1 số phần mềm xử lý pdf của Adobe. Tuy nhiên, mình không muốn file pdf của mình bị upload lên các dịch vụ online, mà cài cả 1 phần mềm Adobe cần phải trả phí vào chỉ để gộp PDF thì mình cũng không muốn, vậy nên trong bài này mình sẽ chia sẻ với các bạn cách chúng ta có thể tự tạo ra một công cụ dòng lệnh (CLI – tool) để có thể gộp nhiều trang PDF thành 1 tài liệu PDF bằng Python. Các hướng dẫn trong bài này mình thực hiện trên hệ điều hành MacOS, với hệ điều hành Windows, hoặc các hệ điều hành khác, thì cũng tương tự.

  • Cài đặt thư viện xử lý PDF trong Python
  • Sử dụng Python để gộp các files PDF
  • Cách sử dụng code Python để gộp file PDF

Cài đặt thư viện xử lý PDF trong Python

Có rất nhiều thư viện để xử lý PDF trong Python, trong bài này, mình dùng PyPDF2, để cài đặt, chúng ta sử dụng dòng lệnh sau trong ứng dụng Terminal của MacOS:

pip install PyPDF2

Sau khi cài đặt thành công thì chúng ta có thể chuyển qua bước tiếp theo

Sử dụng Python để gộp các files PDF

Chúng ta có thể lưu đoạn code sau đây trong một file Python, mình lưu ở file join.py tại đường dẫn

/Users/user_name/Documents/PythonScripts

Các bạn có thể lưu code ở một đường dẫn khác tuỳ ý các bạn. Đoạn code như sau:

import argparse
from PyPDF2 import PdfFileMerger

parser = argparse.ArgumentParser(description="Merge multiple pdfs into one pdf")

parser.add_argument('-o','--output')

parser.add_argument('-i','--input', nargs="+")

args = parser.parse_args()
pdfs = args.input

merger = PdfFileMerger()

for pdf in pdfs:
    merger.append(pdf)

merger.write(args.output)
merger.close()

Cách sử dụng code Python để gộp file PDF

Cách sử dụng công cụ này như sau, trong cửa sổ Terminal, bạn có thể gõ theo cú pháp sau đây

python /Users/user_name/Documents/PythonScripts -o duong_dan_toi_file_ket_qua.pdf -i file1.pdf file2.pdf file3.pdf

Trong cú pháp trên, sau “-o” bạn để tên của file đã được gộp, sau “-i” bạn để danh sách các file con sẽ gộp.

Vì nếu viết hết đường dẫn tới các files cần gộp sẽ rất dài, vậy nên khi sử dụng, mình thường chuyển thư mục hiện tại tới thư mục chứa các file pdf cần gộp, sau đó có thể tham chiếu tới các file bởi tên file mà không cần đường dẫn đầy đủ.

Như vậy, trong bài viết này, chúng ta đã có thể tạo ra được một công cụ đơn giản phục vụ cho công việc gộp file PDF thành 1 file. Chúc các bạn ứng dụng tốt vào công việc.

Các bạn có thể học thêm nhiều kỹ thuật sử dụng Python để tương tác với Excel, tạo ra nhiều công cụ điều khiển Excel, tương tác với các phần mềm trên Web trong khoá học Lập trình tương tác python Excel – chìa khoá tối ưu công việc của Thanh.

Tác giả: dtnguyen (Nguyễn Đức Thanh)

@ Học Excel Online | DTNguyen.business