Xử lý ngôn ngữ tự nhiên với python pdf

Cuốn sách này cung cấp phần giới thiệu rất dễ tiếp cận về xử lý ngôn ngữ tự nhiên, lĩnh vực hỗ trợ nhiều công nghệ ngôn ngữ khác nhau, từ văn bản tiên đoán và lọc email đến tóm tắt và dịch thuật tự động. Với nó, bạn sẽ học cách viết chương trình Python hoạt động với bộ sưu tập lớn văn bản phi cấu trúc. Bạn sẽ truy cập các bộ dữ liệu được chú thích phong phú bằng cách sử dụng một loạt các cấu trúc dữ liệu ngôn ngữ và bạn sẽ hiểu các thuật toán chính để phân tích nội dung và cấu trúc của giao tiếp bằng văn bản

Được đóng gói với các ví dụ và bài tập, Xử lý ngôn ngữ tự nhiên với Python sẽ giúp bạn

Trích xuất thông tin từ văn bản phi cấu trúc, để đoán chủ đề hoặc xác định "thực thể được đặt tên"
Phân tích cấu trúc ngôn ngữ trong văn bản, bao gồm phân tích cú pháp và phân tích ngữ nghĩa
Access popular linguistic databases, including WordNet and treebanks
Integrate techniques drawn from fields as diverse as linguistics and artificial intelligence

Cuốn sách này sẽ giúp bạn đạt được các kỹ năng thực tế trong xử lý ngôn ngữ tự nhiên bằng cách sử dụng ngôn ngữ lập trình Python và thư viện mã nguồn mở Natural Language Toolkit (NLTK). Nếu bạn quan tâm đến việc phát triển các ứng dụng web, phân tích các nguồn tin tức đa ngôn ngữ hoặc ghi lại các ngôn ngữ có nguy cơ tuyệt chủng -- hoặc nếu bạn chỉ đơn giản là tò mò muốn có quan điểm của một lập trình viên về cách thức hoạt động của ngôn ngữ con người -- thì bạn sẽ tìm thấy cả Xử lý ngôn ngữ tự nhiên với Python

Nhiều tài liệu được sử dụng cho Xử lý ngôn ngữ tự nhiên (NLP) ngày nay nằm trong. định dạng pdf. Đọc các tệp pdf sang Python, mặc dù không quá khó, nhưng không đơn giản như gõ pd. read_pdf(‘file_name. pdf'). Hôm nay tôi sẽ cung cấp cho bạn đoạn mã cho phép bạn không chỉ đọc một. pdf sang Python mà còn là một chức năng bạn có thể tạo sử dụng các biểu thức thông thường để tìm siêu dữ liệu của tài liệu của bạn

Ảnh của Dmitry Ratushny trên Thư viện BaptPython. PyPDF2

Thư viện Python chính sẽ được thảo luận hôm nay là PyPDF2. Bạn có thể tìm tài liệu cho PyPDF2 tại đây. PyPDF2 là một thư viện Python cho phép phân tích và thao tác. tệp định dạng pdf thông qua Python. Thư viện không chỉ có thể trích xuất văn bản từ PDF mà còn có thể trích xuất siêu dữ liệu của PDF, một khả năng chúng ta sẽ khám phá hôm nay

Cài đặt

Trước tiên, bạn sẽ cần cài đặt PyPDF2

pip install PyPDF2

Khi PyPDF2 được cài đặt, hãy nhập thư viện. Các thư viện khác cũng cần nhập là Pandas và re

import PyPDF2
import pandas as pd
import re

Tiếp theo, đoạn mã sau sẽ lấy PDF từ đường dẫn tệp của nó làm đầu vào và chuyển đổi nó thành dạng có thể đọc được trong Python. * Sẽ rất dễ dàng để đặt tất cả mã này vào một chức năng (mà tôi đã làm) nhưng tôi quyết định gõ nó ra để giải thích từng dòng mã. Đối với tất cả các đoạn mã sau, tôi đã sử dụng bài báo “Phân loại hình ảnh với mạng thần kinh chuyển đổi sâu” của Alex Krizhevsky, Ilya Sutskever và Geoffrey E. Hinton (Tìm báo ở đây)

#First, create an opener which accepts a PDF file path
opener = open(pdf_file_path,'rb')
#Second, read the opened file
pdf_file_reader = PyPDF2.PdfFileReader(opener)

Hai dòng mã trên sẽ cho phép bạn mở và đọc tệp pdf bằng Python, tiếp theo hãy tạo hàm giải nén

Chức năng trích xuất thông tin PDF

Đầu vào của hàm này sẽ là đối tượng reader đã tạo trước đó. Hàm chấp nhận tệp PDF đã chuyển đổi, tìm siêu dữ liệu và xuất ra một từ điển, trong đó mỗi khóa được liên kết với một thuộc tính siêu dữ liệu nhất định và giá trị của nó, được tìm thấy bởi. phương thức documentInfo() từ PyPDF2/

def pdf_info(read_pdf):"""Takes a formated PyPDF2 PDF and returns the pertinent information of said PDFArgumentsLread_pdf: A .pdf previously formatted by PyPDF2returns:List of all of the attributes"""    pdf_info_dict = {}    pdf_info = {}    for key,value in read_pdf.documentInfo.items():    pdf_info_dict[re.sub('/',"",key)] = valuereturn pdf_info_dict

Các biểu thức chính quy được sử dụng để loại bỏ “/” được liên kết với từng thuộc tính siêu dữ liệu (Ví dụ: “/Tác giả” → “Tác giả”). Tiếp theo, hãy chuyển đổi danh sách thành chuỗi và khung dữ liệu. Hàm pdf_to_list_series_and_df() chấp nhận một từ điển và sẽ trả về một chuỗi và khung dữ liệu của từ điển đó

def pdf_list_to_series_and_df(pdf_info_dict):    pdf_series = pd.Series(pdf_info_dict)

key_list = []
val_list = [] for key, val in pdf_info_dict.items(): key_list.append(key) val_list.append(val) pdf_df = pd.Series.to_frame(pdf_series) pdf_df = pd.DataFrame({"Attribute" : key_list, "Informaton" : val_list}, index=key_list)return pdf_series, pdf_df

Chạy đoạn mã trên với pdf AlexNet đã tạo ra các khung dữ liệu và chuỗi sau

Hình ảnh. Loạt PDF (Hình ảnh từ Tác giả)

Hình ảnh. Khung dữ liệu của PDf (Hình ảnh từ Tác giả)

Ngoài ra, hãy lưu ý cách chúng tôi không thể nhìn thấy đầy đủ tiêu đề. Chúng ta chỉ cần gọi thuộc tính “Tiêu đề” cho cả chuỗi và khung dữ liệu và tiêu đề đầy đủ sẽ được liệt kê

Hình ảnh. Truy cập Tiêu đề của PDF (Hình ảnh từ Tác giả)

Và đó là nó. Hôm nay đã cung cấp một cách nhanh chóng để lấy siêu dữ liệu của PDF và chuyển đổi nó thành từ điển, chuỗi và khung dữ liệu. Điều này có thể cực kỳ hữu ích khi bạn đang nghiên cứu và sử dụng tài liệu PDF. Ngoài ra, nếu bạn muốn cung cấp cho ai đó một số thông tin cơ bản nhanh về tài liệu quan tâm mà không phải mất thời gian tự tìm kiếm chi tiết, chức năng này sẽ cho phép bạn tối ưu hóa hiệu quả nhiệm vụ đó. Cảm ơn vì đã đọc

Nếu bạn thích bài đọc hôm nay, vui lòng theo dõi tôi và cho tôi biết nếu có chủ đề nào khác mà bạn muốn tôi khám phá. Ngoài ra, hãy thêm tôi trên LinkedIn hoặc vui lòng liên hệ. Cảm ơn vì đã đọc

Xử lý ngôn ngữ tự nhiên với Python là gì?

Xử lý ngôn ngữ tự nhiên (NLP) là lĩnh vực tập trung vào việc làm cho ngôn ngữ tự nhiên của con người có thể sử dụng được bằng các chương trình máy tính . NLTK, hoặc Bộ công cụ ngôn ngữ tự nhiên, là gói Python mà bạn có thể sử dụng cho NLP. Rất nhiều dữ liệu mà bạn có thể đang phân tích là dữ liệu phi cấu trúc và chứa văn bản mà con người có thể đọc được.

Xử lý ngôn ngữ tự nhiên PDF là gì?

Xử lý ngôn ngữ tự nhiên là phân tích dữ liệu ngôn ngữ, phổ biến nhất trong . dạng dữ liệu văn bản như tài liệu hoặc ấn phẩm, sử dụng phương pháp tính toán- ods .

5 bước trong NLP là gì?

5 Giai đoạn của NLP .
Phân tích từ vựng hoặc hình thái. Phân tích từ vựng hoặc hình thái là bước đầu tiên trong NLP. .
Phân tích cú pháp hoặc phân tích cú pháp. .
Phân tích ngữ nghĩa. .
Tích hợp diễn ngôn. .
Phân tích thực dụng

Python có tốt cho NLP không?

Có nhiều điều về Python khiến nó là một lựa chọn ngôn ngữ lập trình thực sự tốt cho dự án NLP . Cú pháp đơn giản và ngữ nghĩa minh bạch của ngôn ngữ này khiến nó trở thành lựa chọn tuyệt vời cho các dự án bao gồm các tác vụ Xử lý ngôn ngữ tự nhiên.