programming python

Nlp github trăn

Nếu bạn đang làm việc và nghiên cứu trên ngôn ngữ tiếng Anh thì ta có thể sử dụng các thư viện/mô-đun NLP của Python được liệt kê bên dưới. Mục đích của bài viết này được sử dụng để liệt kê các thư viện/mô-đun và các chức năng hữu ích trong NLP. Các bạn có thể tham khảo danh sách các thuật ngữ liên quan đến các chức năng trong bài viết này

NLTK

phân loại
mã thông báo
nhét đầy
gắn thẻ
phân tích cú pháp
suy luận ngữ nghĩa

Họa tiết

trình gắn thẻ một phần của bài phát biểu
tìm kiếm n-gram
phân tích tình cảm
Mạng từ
mô hình không gian véc tơ
phân cụm
phân loại [KNN, SVM, Perceptron]

văn bảnBlob

chiết xuất cụm danh từ
Gắn thẻ một phần của bài phát biểu
phân tích tình cảm
Phân loại [Naive Bayes, Cây quyết định]
Dịch và phát hiện ngôn ngữ do Google Dịch cung cấp
Tokenization [tách văn bản thành các từ và câu]
Tần số từ và cụm từ
phân tích cú pháp
n gam
Từ biến dạng [số nhiều và số ít] và từ vựng
sửa lỗi chính tả
Thêm mô hình hoặc ngôn ngữ mới thông qua tiện ích mở rộng
Tích hợp WordNet

GenSim

Tất cả các thuật toán đều độc lập với bộ nhớ w. r. t. kích thước kho dữ liệu [có thể xử lý đầu vào lớn hơn RAM, được phát trực tuyến, ngoài lõi],
giao diện trực quan
- dễ dàng cắm kho dữ liệu/luồng dữ liệu đầu vào của riêng bạn [API phát trực tuyến tầm thường]
- dễ dàng mở rộng với các thuật toán Vector Space khác [API biến đổi tầm thường]
Triển khai đa lõi hiệu quả các thuật toán phổ biến, chẳng hạn như Phân tích ngữ nghĩa tiềm ẩn trực tuyến [LSA/LSI/SVD], Phân bổ Dirichlet tiềm ẩn [LDA], Dự đoán ngẫu nhiên [RP], Quy trình Dirichlet phân cấp [HDP] hoặc học sâu word2vec
Phân phối máy tính. có thể chạy Phân tích ngữ nghĩa tiềm ẩn và Phân bổ Dirichlet tiềm ẩn trên một cụm máy tính
Tài liệu và hướng dẫn HTML mở rộng

PyNLPl

trích xuất n-gram và danh sách tần số, đồng thời xây dựng mô hình ngôn ngữ đơn giản
các loại dữ liệu phức tạp, chẳng hạn như Hàng đợi ưu tiên
các thuật toán tìm kiếm, chẳng hạn như Beam Search

spaCy

Phân tích cú pháp phụ thuộc được gắn nhãn [91. Độ chính xác 8% trên OntoNotes 5]
Nhận dạng thực thể được đặt tên [82. Độ chính xác 6% trên OntoNotes 5]
Gắn thẻ một phần của lời nói [97. Độ chính xác 1% trên OntoNotes 5]
Vector từ dễ sử dụng
Tất cả các chuỗi được ánh xạ tới ID số nguyên
Xuất sang mảng dữ liệu có nhiều mảng
Căn chỉnh được duy trì theo chuỗi gốc, đảm bảo tính toán đánh dấu dễ dàng
Phạm vi của các tính năng chính tả dễ sử dụng
Không cần xử lý trước. spaCy lấy văn bản thô làm đầu vào, mụn cóc và dòng mới và tất cả

MontyLingua

truy xuất và khai thác thông tin
xử lý yêu cầu
trả lời câu hỏi
MontyTokenizer – Mã hóa văn bản tiếng Anh thô [nhạy cảm với chữ viết tắt] và giải quyết các cơn co thắt, e. g. “bạn là” ==> “bạn là”
MontyTagger – Gắn thẻ một phần của bài phát biểu dựa trên Brill94, được bổ sung thêm ý nghĩa thông thường
MontyChunker – chunker biểu thức chính quy nhanh như chớp
MontyExtractor – Trích xuất các cụm từ và bộ ba chủ ngữ/động từ/tân ngữ từ các câu
MontyLemmatiser – Dải hình thái biến dạng, tôi. e. chuyển động từ sang dạng nguyên mẫu và danh từ ở dạng số ít
MontyNLGenerator – Sử dụng biểu diễn vị ngữ-đối số ngắn gọn của MontyLingua để tạo các câu tiếng Anh tự nhiên và tóm tắt văn bản

Khác

công cụ thu thập thông tin
- Trình thu thập thông tin 4j. http. //mã số. Google. com/p/crawler4j/
- httpClient. http. //hc. apache. org/httpclient-3. x/
công cụ phân tích cú pháp
- htmlTrình phân tích cú pháp. http. //htmltrình phân tích cú pháp. nguồn. mạng lưới/
- Trình phân tích cú pháp html Jsoup. http. //jsoup. tổ chức/
- Trình phân tích cú pháp Neko html. http. //nekohtml. nguồn. mạng lưới/
JVnTextPro. http. //nguồnforge. net/dự án/jvntextpro/
- Phân đoạn câu, mã thông báo câu, phân đoạn từ, gắn thẻ POS
VnToolkit. http. //www. loria. fr/~lehong/software. php
- Trình gắn thẻ tự động cho các văn bản tiếng Việt
- Mã thông báo để phân đoạn từ tự động của văn bản tiếng Việt
- Bộ dò câu tự động dò câu của văn bản tiếng Việt
Công cụ VLSP. http. // vlsp. vietlp. tổ chức. 8080/demo/?page=resources
- Tiếng Việt
LingPipe. http. // bí danh-i. com/lingpipe/
- Tìm tên người, tổ chức hoặc địa điểm trong tin tức
- Tự động phân loại kết quả tìm kiếm trên Twitter thành các danh mục
- Đề xuất cách viết đúng của truy vấn
Mallet – Bộ công cụ học máy cho ngôn ngữ. http. // cái vồ. cs. khối lượng. edu/
- Thống kê, phân loại tài liệu, phân cụm, mô hình hóa chủ đề, khai thác thông tin
Phần mềm NLP Stanford. http. //www-nlp. standford. edu/phần mềm/
- Phân đoạn từ, gắn thẻ một phần lời nói, nhận dạng thực thể được đặt tên, phân đoạn, phân tích cú pháp, phân loại và giải quyết tham chiếu
OpenNLP. http. //opennlp. apache. tổ chức/
- Mã thông báo, phân đoạn câu, gắn thẻ một phần lời nói, trích xuất thực thể được đặt tên, phân đoạn, phân tích cú pháp và phân giải tham chiếu cốt lõi
Trường ngẫu nhiên có điều kiện [CRF]
- CRF. http. //crf. nguồn. mạng lưới/
Entropy tối đa [Maxent]
- OpenNLP, Vồ
Máy vectơ hỗ trợ [SVM]
- libSVM. http. //www. csie. ntu. giáo dục. tw/~cjlin/libsvm/
- svmLight. http. //svmlight. joachims. tổ chức/