Làm cách nào để đọc văn bản hình ảnh trong Python?

OCR [Nhận dạng ký tự quang học] ngày nay rất nổi tiếng. Khái niệm này rất đơn giản và nó sẽ quét một hình ảnh và đọc văn bản bên trong nó. Bạn có biết OCR có thể được thực hiện dễ dàng bằng Python không?

Nhưng, trong trường hợp của tôi, tôi cần một chút thời gian vì bối rối về cách bắt đầu OCR từ Tesseract. Được rồi, trong câu chuyện này, tôi muốn làm cho bước cài đặt Tesseract trở nên đơn giản và rõ ràng. Tôi sẽ viết từng bước cài đặt Tesseract vào thiết bị của bạn. Hãy làm nó

quy trình làm việc

Quy trình làm việc của chương trình sẽ được giải thích bằng các hình ảnh bên dưới

Vì OCR sẽ đọc 'văn bản' từ 'hình ảnh', nên bạn cần có hai thư viện để bắt đầu với nó. Để đọc hình ảnh, thư viện mà chúng tôi sẽ sử dụng là pillow [PIL] và đối với quy trình trích xuất văn bản, bạn cần có thư viện pytesseract. pytesseract là một thư viện có thể tương tác với Tesseract engine

Nếu bạn cảm thấy bối rối, hãy nghĩ như thế này. Bất cứ khi nào bạn muốn dọn dẹp sân vườn [Target/OCR], bạn sẽ cần một cái liềm [Tesseract Engine], nhưng nếu bạn dùng liềm bằng tay không [chỉ dành cho Python] thì rất có thể tay bạn sẽ bị đau. Để dễ dàng hơn, bạn sẽ sử dụng găng tay [pytesseract thư viện]. Vâng, cuối cùng, sân của bạn sẽ sạch sẽ

Mục đích của bài viết này sẽ giải thích cách trích xuất văn bản từ hình ảnh, vì vậy nếu bạn muốn đọc văn bản từ hình ảnh mà không có bất kỳ thư viện nào, bạn có thể bỏ qua bài viết này và thử tìm một bài viết mới. Được rồi, tôi hy vọng bạn hiểu. Hãy chuyển sang phần tiếp theo

Yêu cầu

Vì dự án này sẽ sử dụng công nghệ OCR với Python, tôi khuyên bạn nên cài đặt Anaconda để môi trường Python chính của bạn không gặp sự cố, nhưng nếu bạn không muốn, hãy tải xuống Python 3. 8. x ở trên. Nếu bạn hỏi tại sao 3. 8, tôi nghĩ phiên bản 3. 8 là ổn định nhất cho đến khi tôi viết bài này. Bạn có thể bắt đầu Arima bằng phiên bản Python này. Tất nhiên, cứ thoải mái nếu bạn vẫn muốn sử dụng Python 3. 10 trở lên

Tiếp theo, hệ điều hành mà tôi sẽ sử dụng là Windows 11; . Bạn vẫn có thể theo dõi bất kỳ hệ điều hành nào bạn sử dụng vì chúng tôi không chơi ở cấp độ hệ điều hành mà ở cấp độ ứng dụng. Trong trường hợp này, chúng tôi đang tạo một chương trình bằng Python. Vì vậy, miễn là hệ điều hành của bạn có Python, bạn có thể dễ dàng làm theo hướng dẫn này

Đối với Windows, bạn có thể tải xuống Python 3. 8. 10 bằng cách nhấp vào liên kết này, nhưng nếu bạn muốn làm theo, tôi sẽ sử dụng Anaconda. Để cài đặt Anaconda, tải chương trình tại đây

Sự chuẩn bị

Tôi sẽ bỏ qua phần cài đặt Anaconda vì nó quá dễ và tôi tin rằng bạn sẽ không truy cập bài viết này nếu bạn muốn biết cách cài đặt Anaconda. Sau khi cài đặt, chúng ta nên tạo một môi trường mới để đảm bảo nó không ảnh hưởng đến bất kỳ môi trường Python nào đã tồn tại trong hệ thống của bạn

1. Tạo môi trường Conda mới trong cmd của bạn bằng lệnh này. Tôi sẽ đặt tên nó là ocr để tạo môi trường này cho OCR

C:\Users\asus>conda create -n ocr python=3.8.10

Tin nhắn hoàn thành sẽ như thế này

2. Sau khi môi trường ocr được tạo, hãy kích hoạt nó bằng lệnh này và bạn cũng có thể kiểm tra phiên bản Python trong môi trường này

conda activate ocr

3. Cài đặt các thư viện cần thiết cho OCR

Cài đặt pytesseractpillow bằng lệnh này

pip install pytesseractpip install pillow
Nhận Công cụ Tesseract

Được rồi, trước khi tôi nói, để đọc hình ảnh, bạn cần có Công cụ Tesseract, phải không? . Nếu bạn kiên nhẫn và có thời gian để đọc tài liệu, bạn sẽ hiểu trang web này được viết rất tốt về tài liệu tesseract và cách cài đặt nó trong các hệ điều hành khác nhau

Sau khi cuộn xuống trang, tôi thấy rằng đối với Windows, Tesseract mới nhất không có trên trang web này nhưng trên Trang GitHub của UB Mannheim

Bạn có thể truy cập trang tại đây và nhấp vào trình cài đặt tại đó

Chỉ dành cho bạn, nhấp vào liên kết này để tải xuống trực tiếp tesseract-ocr-w64-setup-v. 5. 2. 0. 20220712. exe [64 bit]. Lưu chương trình ở nơi bạn muốn

Sau khi tải về chạy chương trình setup và thực hiện các bước cài đặt như bình thường

Tôi muốn tất cả người dùng trên máy tính của mình có thể truy cập chương trình này, vì vậy tôi chọn lựa chọn này

Chà, nếu bạn muốn sử dụng ứng dụng này, hãy liệt kê đầy đủ tất cả các lựa chọn bên dưới; . Vì tôi muốn làm điều này đơn giản và rõ ràng, hãy cài đặt phiên bản tiêu chuẩn

Tiếp theo, câu hỏi sẽ hỏi bạn nơi cài đặt chương trình. Theo mặc định, nó sẽ cài đặt trong thư mục này 'C. \Tệp chương trình\Tesseract-OCR'. Nhưng tôi sẽ cài đặt nó trên đĩa E của mình. Bởi vì nó vẫn có dung lượng lưu trữ lớn

Bắt đầu cài đặt bằng cách nhấp vào cài đặt trên trang tiếp theo

Vì chúng tôi không cài đặt thêm dữ liệu, quá trình cài đặt sẽ nhanh chóng

Xin chúc mừng, chúng tôi có thể tương tác với công cụ OCR bằng cách sử dụng thư viện pytesseract

Sau khi chương trình được cài đặt, bạn có thể lấy đường dẫn

conda activate ocr
3 bằng cách sao chép chương trình trong đường dẫn thám hiểm như thế này. Chúng tôi sẽ sử dụng đường dẫn trong bước tiếp theo

Trong trường hợp của tôi, đường dẫn là "E. \Program Files\Tesseract-OCR\tesseract. exe"

Thu thập hình ảnh

Trong bước này, bạn sẽ tải xuống một số hình ảnh để kiểm tra chương trình của chúng tôi. Tôi đã tải xuống một số hình ảnh trích dẫn có chứa văn bản trên đó

Ngoài ra, đừng quên di chuyển thư mục của bạn từ cmd sang không gian làm việc bạn đang sử dụng

Tích hợp các dịch vụ

Chuẩn bị, động cơ và hình ảnh đã sẵn sàng. Hãy viết một số mã để làm cho chương trình này hoạt động. Mã sẽ như thế này

Đầu ra sẽ như thế này

Được rồi, như bạn thấy, chương trình sẽ đọc các hình ảnh và sau đó trích xuất tất cả văn bản bên trong chúng. Hãy thay đổi đường dẫn hình ảnh để làm cho nó linh hoạt hơn và yêu cầu người dùng nhập vị trí hình ảnh

Tài liệu

Tôi đã tạo tài liệu về cách chạy mã này bên dưới

Không phải là nó rất dễ dàng?

Phần kết luận

Rốt cuộc, chúng tôi đã trải qua, tôi hy vọng bạn hiểu khái niệm rất rõ ràng. Trong câu chuyện này, tôi chỉ đang tạo một hướng dẫn cài đặt và sử dụng Tesseract, và tôi đang cố gắng hết sức để làm cho bài viết thật đơn giản và rõ ràng. Cảm ơn đã quan tâm

Có mã đẹp

Thẩm quyền giải quyết

Bài viết gốc mà tôi tham khảo là dưới đây. Tôi đã viết lại nó với phiên bản của mình vì tôi đã mất một thời gian để làm cho chương trình hoạt động khi tôi đọc bài báo đó

Làm cách nào để trích xuất văn bản từ hình ảnh bằng Python?

OCR [Nhận dạng ký tự quang học] là quá trình chuyển đổi điện tử hình ảnh Kỹ thuật số thành…

www. chuyên viên máy tính. tổ chức

Đọc thêm

Tại sao bạn nên sử dụng TAGGUN thay vì mục đích chung OCR

Textract của Amazon, tesseract mã nguồn mở hoặc OCR trong các trình đọc PDF có sẵn rất phù hợp để số hóa…

tiếng Anh đơn giản. io

Tự động hóa các khoản phải trả. Mẫu OCR so với. OCR do AI hỗ trợ với TAGGUN

Cái chết, thuế và hóa đơn xử lý. Ba sự thật tuyệt đối của Tài khoản phải trả. Trong một thời gian dài, các khoản phải trả…

tiếng Anh đơn giản. io

Thêm nội dung tại PlainEnglish. io. Đăng ký nhận bản tin hàng tuần miễn phí của chúng tôi. Theo dõi chúng tôi trên Twitter, LinkedIn, YouTube và Discord. Quan tâm đến hacking tăng trưởng?

Làm cách nào để đọc văn bản từ một hình ảnh?

Phương pháp đơn giản nhất là sử dụng ứng dụng chỉnh sửa PDF . Nhiều ứng dụng hiện đại có các tính năng OCR và có thể đọc qua các tệp hình ảnh trong vài giây. Một tùy chọn khả thi khác là chuyển đổi hình ảnh thành PDF. Một số trình chuyển đổi PDF có chức năng OCR và cũng có thể đọc và chuyển đổi văn bản.

Làm cách nào để nhận dạng văn bản viết tay từ hình ảnh trong Python?

Sử dụng Mạng nơ-ron hồi quy tích chập để nhận dạng hình ảnh văn bản Word viết tay mà không cần phân đoạn trước thành các từ hoặc ký tự. Sử dụng Chức năng mất CTC để huấn luyện.

Chúng tôi có thể trích xuất dữ liệu từ hình ảnh bằng Python không?

Trong python, chúng tôi sử dụng thư viện có tên là PIL [Thư viện hình ảnh trăn] . Các mô-đun trong thư viện này được sử dụng để xử lý ảnh và hỗ trợ nhiều định dạng tệp như png, jpg, bmp, gif, v.v. Nó đi kèm với một số lượng lớn các chức năng có thể được sử dụng để mở, trích xuất dữ liệu, thay đổi thuộc tính, tạo hình ảnh mới và hơn thế nữa…

Chủ Đề