Cuốn sách này cung cấp phần giới thiệu rất dễ tiếp cận về xử lý ngôn ngữ tự nhiên, lĩnh vực hỗ trợ nhiều công nghệ ngôn ngữ khác nhau, từ văn bản tiên đoán và lọc email đến tóm tắt và dịch thuật tự động. Với nó, bạn sẽ học cách viết chương trình Python hoạt động với bộ sưu tập lớn văn bản phi cấu trúc. Bạn sẽ truy cập các bộ dữ liệu được chú thích phong phú bằng cách sử dụng một loạt các cấu trúc dữ liệu ngôn ngữ và bạn sẽ hiểu các thuật toán chính để phân tích nội dung và cấu trúc của giao tiếp bằng văn bản
Được đóng gói với các ví dụ và bài tập, Xử lý ngôn ngữ tự nhiên với Python sẽ giúp bạn
Trích xuất thông tin từ văn bản phi cấu trúc, để đoán chủ đề hoặc xác định "thực thể được đặt tên"
Phân tích cấu trúc ngôn ngữ trong văn bản, bao gồm phân tích cú pháp và phân tích ngữ nghĩa
Access popular linguistic databases, including WordNet and treebanks
Integrate techniques drawn from fields as diverse as linguistics and artificial intelligence
Cuốn sách này sẽ giúp bạn đạt được các kỹ năng thực tế trong xử lý ngôn ngữ tự nhiên bằng cách sử dụng ngôn ngữ lập trình Python và thư viện mã nguồn mở Natural Language Toolkit [NLTK]. Nếu bạn quan tâm đến việc phát triển các ứng dụng web, phân tích các nguồn tin tức đa ngôn ngữ hoặc ghi lại các ngôn ngữ có nguy cơ tuyệt chủng -- hoặc nếu bạn chỉ đơn giản là tò mò muốn có quan điểm của một lập trình viên về cách thức hoạt động của ngôn ngữ con người -- thì bạn sẽ tìm thấy cả Xử lý ngôn ngữ tự nhiên với Python
Nhiều tài liệu được sử dụng cho Xử lý ngôn ngữ tự nhiên [NLP] ngày nay nằm trong. định dạng pdf. Đọc các tệp pdf sang Python, mặc dù không quá khó, nhưng không đơn giản như gõ pd. read_pdf[‘file_name. pdf']. Hôm nay tôi sẽ cung cấp cho bạn đoạn mã cho phép bạn không chỉ đọc một. pdf sang Python mà còn là một chức năng bạn có thể tạo sử dụng các biểu thức thông thường để tìm siêu dữ liệu của tài liệu của bạn
Ảnh của Dmitry Ratushny trên Thư viện BaptPython. PyPDF2
Thư viện Python chính sẽ được thảo luận hôm nay là PyPDF2. Bạn có thể tìm tài liệu cho PyPDF2 tại đây. PyPDF2 là một thư viện Python cho phép phân tích và thao tác. tệp định dạng pdf thông qua Python. Thư viện không chỉ có thể trích xuất văn bản từ PDF mà còn có thể trích xuất siêu dữ liệu của PDF, một khả năng chúng ta sẽ khám phá hôm nay
Cài đặtTrước tiên, bạn sẽ cần cài đặt PyPDF2
pip install PyPDF2
Khi PyPDF2 được cài đặt, hãy nhập thư viện. Các thư viện khác cũng cần nhập là Pandas và re
import PyPDF2
import pandas as pd
import re
Tiếp theo, đoạn mã sau sẽ lấy PDF từ đường dẫn tệp của nó làm đầu vào và chuyển đổi nó thành dạng có thể đọc được trong Python. * Sẽ rất dễ dàng để đặt tất cả mã này vào một chức năng [mà tôi đã làm] nhưng tôi quyết định gõ nó ra để giải thích từng dòng mã. Đối với tất cả các đoạn mã sau, tôi đã sử dụng bài báo “Phân loại hình ảnh với mạng thần kinh chuyển đổi sâu” của Alex Krizhevsky, Ilya Sutskever và Geoffrey E. Hinton [Tìm báo ở đây]
#First, create an opener which accepts a PDF file path
opener = open[pdf_file_path,'rb']#Second, read the opened file
pdf_file_reader = PyPDF2.PdfFileReader[opener]
Hai dòng mã trên sẽ cho phép bạn mở và đọc tệp pdf bằng Python, tiếp theo hãy tạo hàm giải nén
Chức năng trích xuất thông tin PDF
Đầu vào của hàm này sẽ là đối tượng reader đã tạo trước đó. Hàm chấp nhận tệp PDF đã chuyển đổi, tìm siêu dữ liệu và xuất ra một từ điển, trong đó mỗi khóa được liên kết với một thuộc tính siêu dữ liệu nhất định và giá trị của nó, được tìm thấy bởi. phương thức documentInfo[] từ PyPDF2/
def pdf_info[read_pdf]:"""Takes a formated PyPDF2 PDF and returns the pertinent information of said PDFArgumentsLread_pdf: A .pdf previously formatted by PyPDF2returns:List of all of the attributes""" pdf_info_dict = {} pdf_info = {} for key,value in read_pdf.documentInfo.items[]: pdf_info_dict[re.sub['/',"",key]] = valuereturn pdf_info_dict
Các biểu thức chính quy được sử dụng để loại bỏ “/” được liên kết với từng thuộc tính siêu dữ liệu [Ví dụ: “/Tác giả” → “Tác giả”]. Tiếp theo, hãy chuyển đổi danh sách thành chuỗi và khung dữ liệu. Hàm pdf_to_list_series_and_df[] chấp nhận một từ điển và sẽ trả về một chuỗi và khung dữ liệu của từ điển đó
def pdf_list_to_series_and_df[pdf_info_dict]: pdf_series = pd.Series[pdf_info_dict]
key_list = [] val_list = [] for key, val in pdf_info_dict.items[]: key_list.append[key] val_list.append[val] pdf_df = pd.Series.to_frame[pdf_series] pdf_df = pd.DataFrame[{"Attribute" : key_list, "Informaton" : val_list}, index=key_list]return pdf_series, pdf_df
Chạy đoạn mã trên với pdf AlexNet đã tạo ra các khung dữ liệu và chuỗi sau
Hình ảnh. Loạt PDF [Hình ảnh từ Tác giả]
Hình ảnh. Khung dữ liệu của PDf [Hình ảnh từ Tác giả]
Ngoài ra, hãy lưu ý cách chúng tôi không thể nhìn thấy đầy đủ tiêu đề. Chúng ta chỉ cần gọi thuộc tính “Tiêu đề” cho cả chuỗi và khung dữ liệu và tiêu đề đầy đủ sẽ được liệt kê
Hình ảnh. Truy cập Tiêu đề của PDF [Hình ảnh từ Tác giả]
Và đó là nó. Hôm nay đã cung cấp một cách nhanh chóng để lấy siêu dữ liệu của PDF và chuyển đổi nó thành từ điển, chuỗi và khung dữ liệu. Điều này có thể cực kỳ hữu ích khi bạn đang nghiên cứu và sử dụng tài liệu PDF. Ngoài ra, nếu bạn muốn cung cấp cho ai đó một số thông tin cơ bản nhanh về tài liệu quan tâm mà không phải mất thời gian tự tìm kiếm chi tiết, chức năng này sẽ cho phép bạn tối ưu hóa hiệu quả nhiệm vụ đó. Cảm ơn vì đã đọc
Nếu bạn thích bài đọc hôm nay, vui lòng theo dõi tôi và cho tôi biết nếu có chủ đề nào khác mà bạn muốn tôi khám phá. Ngoài ra, hãy thêm tôi trên LinkedIn hoặc vui lòng liên hệ. Cảm ơn vì đã đọc