Đọc file pdf bằng python
Tất cả các bạn phải quen thuộc với PDF là gì. Trên thực tế, chúng là một trong những phương tiện kỹ thuật số quan trọng nhất và được sử dụng rộng rãi. PDF là viết tắt của Định dạng Tài liệu Di động . Nó sử dụng phần mở rộng .pdf . Nó được sử dụng để trình bày và trao đổi tài liệu một cách đáng tin cậy, không phụ thuộc vào phần mềm, phần cứng hoặc hệ điều hành. Được phát minh bởi Adobe , PDF hiện là một tiêu chuẩn mở được duy trì bởi Tổ chức Tiêu chuẩn hoá Quốc tế (ISO). Các tệp PDF có thể chứa các liên kết và nút, trường biểu mẫu, âm thanh, video và logic nghiệp vụ. Trong bài viết này, chúng ta sẽ tìm hiểu, cách chúng ta có thể thực hiện các thao tác khác nhau như:
bằng cách sử dụng các tập lệnh python đơn giản! Cài đặt Chúng tôi sẽ sử dụng mô-đun của bên thứ ba, PyPDF2. PyPDF2 là một thư viện python được xây dựng dưới dạng bộ công cụ PDF. Nó có khả năng:
Để cài đặt PyPDF2, hãy chạy lệnh sau từ dòng lệnh:
1. Trích xuất văn bản từ tệp PDF
Kết quả của chương trình trên có dạng như sau: 20 Hãy để chúng tôi cố gắng hiểu đoạn mã trên theo từng phần:
Lưu ý: Mặc dù các tệp PDF rất tuyệt vời để sắp xếp văn bản theo cách dễ dàng cho mọi người in và đọc, chúng không đơn giản để phần mềm phân tích cú pháp thành văn bản rõ. Do đó, PyPDF2 có thể mắc lỗi khi trích xuất văn bản từ PDF và thậm chí có thể không mở được một số tệp PDF. Thật không may, bạn không thể làm gì nhiều về điều này. PyPDF2 có thể đơn giản là không thể hoạt động với một số tệp PDF cụ thể của bạn. tuyển sinh cao đẳng dược 2. Xoay các trang PDF
Tại đây, bạn có thể thấy trang đầu tiên của rotated_example.pdf trông như thế nào (hình ảnh bên phải) sau khi xoay: Một số điểm quan trọng liên quan đến mã trên:
Một số điểm quan trọng liên quan đến mã trên:
3. Hợp nhất các tệp PDF
Đầu ra của chương trình trên là một pdf kết hợp , merge_example.pdf thu được bằng cách hợp nhất example.pdf và rotated_example.pdf . Hãy để chúng tôi xem xét các khía cạnh quan trọng của chương trình này:
4. Tách tệp PDF
Đầu ra sẽ là ba tệp PDF mới với phần chia 1 (trang 0,1), phần chia 2 (trang 2,3), phần chia 3 (trang 4-cuối) . Không có hàm hoặc lớp mới nào được sử dụng trong chương trình python ở trên. Sử dụng logic và lặp lại đơn giản, chúng tôi đã tạo các phần tách của pdf đã chuyển theo các phần tách danh sách đã chuyển . 5. Thêm hình mờ vào các trang PDF
Khóa học PYTHON (IPD2020) cho người mới bắt đầu |