Nlp github trăn

Nếu bạn đang làm việc và nghiên cứu trên ngôn ngữ tiếng Anh thì ta có thể sử dụng các thư viện/mô-đun NLP của Python được liệt kê bên dưới. Mục đích của bài viết này được sử dụng để liệt kê các thư viện/mô-đun và các chức năng hữu ích trong NLP. Các bạn có thể tham khảo danh sách các thuật ngữ liên quan đến các chức năng trong bài viết này

NLTK

  • phân loại
  • mã thông báo
  • nhét đầy
  • gắn thẻ
  • phân tích cú pháp
  • suy luận ngữ nghĩa

Họa tiết

  • trình gắn thẻ một phần của bài phát biểu
  • tìm kiếm n-gram
  • phân tích tình cảm
  • Mạng từ
  • mô hình không gian véc tơ
  • phân cụm
  • phân loại [KNN, SVM, Perceptron]

văn bảnBlob

  • chiết xuất cụm danh từ
  • Gắn thẻ một phần của bài phát biểu
  • phân tích tình cảm
  • Phân loại [Naive Bayes, Cây quyết định]
  • Dịch và phát hiện ngôn ngữ do Google Dịch cung cấp
  • Tokenization [tách văn bản thành các từ và câu]
  • Tần số từ và cụm từ
  • phân tích cú pháp
  • n gam
  • Từ biến dạng [số nhiều và số ít] và từ vựng
  • sửa lỗi chính tả
  • Thêm mô hình hoặc ngôn ngữ mới thông qua tiện ích mở rộng
  • Tích hợp WordNet

GenSim

  • Tất cả các thuật toán đều độc lập với bộ nhớ w. r. t. kích thước kho dữ liệu [có thể xử lý đầu vào lớn hơn RAM, được phát trực tuyến, ngoài lõi],
  • giao diện trực quan
    • dễ dàng cắm kho dữ liệu/luồng dữ liệu đầu vào của riêng bạn [API phát trực tuyến tầm thường]
    • dễ dàng mở rộng với các thuật toán Vector Space khác [API biến đổi tầm thường]
  • Triển khai đa lõi hiệu quả các thuật toán phổ biến, chẳng hạn như Phân tích ngữ nghĩa tiềm ẩn trực tuyến [LSA/LSI/SVD], Phân bổ Dirichlet tiềm ẩn [LDA], Dự đoán ngẫu nhiên [RP], Quy trình Dirichlet phân cấp [HDP] hoặc học sâu word2vec
  • Phân phối máy tính. có thể chạy Phân tích ngữ nghĩa tiềm ẩn và Phân bổ Dirichlet tiềm ẩn trên một cụm máy tính
  • Tài liệu và hướng dẫn HTML mở rộng

PyNLPl

  • trích xuất n-gram và danh sách tần số, đồng thời xây dựng mô hình ngôn ngữ đơn giản
  • các loại dữ liệu phức tạp, chẳng hạn như Hàng đợi ưu tiên
  • các thuật toán tìm kiếm, chẳng hạn như Beam Search

spaCy

  • Phân tích cú pháp phụ thuộc được gắn nhãn [91. Độ chính xác 8% trên OntoNotes 5]
  • Nhận dạng thực thể được đặt tên [82. Độ chính xác 6% trên OntoNotes 5]
  • Gắn thẻ một phần của lời nói [97. Độ chính xác 1% trên OntoNotes 5]
  • Vector từ dễ sử dụng
  • Tất cả các chuỗi được ánh xạ tới ID số nguyên
  • Xuất sang mảng dữ liệu có nhiều mảng
  • Căn chỉnh được duy trì theo chuỗi gốc, đảm bảo tính toán đánh dấu dễ dàng
  • Phạm vi của các tính năng chính tả dễ sử dụng
  • Không cần xử lý trước. spaCy lấy văn bản thô làm đầu vào, mụn cóc và dòng mới và tất cả

MontyLingua

  • truy xuất và khai thác thông tin
  • xử lý yêu cầu
  • trả lời câu hỏi
  • MontyTokenizer – Mã hóa văn bản tiếng Anh thô [nhạy cảm với chữ viết tắt] và giải quyết các cơn co thắt, e. g. “bạn là” ==> “bạn là”
  • MontyTagger – Gắn thẻ một phần của bài phát biểu dựa trên Brill94, được bổ sung thêm ý nghĩa thông thường
  • MontyChunker – chunker biểu thức chính quy nhanh như chớp
  • MontyExtractor – Trích xuất các cụm từ và bộ ba chủ ngữ/động từ/tân ngữ từ các câu
  • MontyLemmatiser – Dải hình thái biến dạng, tôi. e. chuyển động từ sang dạng nguyên mẫu và danh từ ở dạng số ít
  • MontyNLGenerator – Sử dụng biểu diễn vị ngữ-đối số ngắn gọn của MontyLingua để tạo các câu tiếng Anh tự nhiên và tóm tắt văn bản

Khác

  • công cụ thu thập thông tin
    • Trình thu thập thông tin 4j. http. //mã số. Google. com/p/crawler4j/
    • httpClient. http. //hc. apache. org/httpclient-3. x/
  • công cụ phân tích cú pháp
    • htmlTrình phân tích cú pháp. http. //htmltrình phân tích cú pháp. nguồn. mạng lưới/
    • Trình phân tích cú pháp html Jsoup. http. //jsoup. tổ chức/
    • Trình phân tích cú pháp Neko html. http. //nekohtml. nguồn. mạng lưới/
  • JVnTextPro. http. //nguồnforge. net/dự án/jvntextpro/
    • Phân đoạn câu, mã thông báo câu, phân đoạn từ, gắn thẻ POS
  • VnToolkit. http. //www. loria. fr/~lehong/software. php
    • Trình gắn thẻ tự động cho các văn bản tiếng Việt
    • Mã thông báo để phân đoạn từ tự động của văn bản tiếng Việt
    • Bộ dò câu tự động dò câu của văn bản tiếng Việt
  • Công cụ VLSP. http. // vlsp. vietlp. tổ chức. 8080/demo/?page=resources
    • Tiếng Việt
  • LingPipe. http. // bí danh-i. com/lingpipe/
    • Tìm tên người, tổ chức hoặc địa điểm trong tin tức
    • Tự động phân loại kết quả tìm kiếm trên Twitter thành các danh mục
    • Đề xuất cách viết đúng của truy vấn
  • Mallet – Bộ công cụ học máy cho ngôn ngữ. http. // cái vồ. cs. khối lượng. edu/
    • Thống kê, phân loại tài liệu, phân cụm, mô hình hóa chủ đề, khai thác thông tin
  • Phần mềm NLP Stanford. http. //www-nlp. standford. edu/phần mềm/
    • Phân đoạn từ, gắn thẻ một phần lời nói, nhận dạng thực thể được đặt tên, phân đoạn, phân tích cú pháp, phân loại và giải quyết tham chiếu
  • OpenNLP. http. //opennlp. apache. tổ chức/
    • Mã thông báo, phân đoạn câu, gắn thẻ một phần lời nói, trích xuất thực thể được đặt tên, phân đoạn, phân tích cú pháp và phân giải tham chiếu cốt lõi
  • Trường ngẫu nhiên có điều kiện [CRF]
    • CRF. http. //crf. nguồn. mạng lưới/
  • Entropy tối đa [Maxent]
    • OpenNLP, Vồ
  • Máy vectơ hỗ trợ [SVM]
    • libSVM. http. //www. csie. ntu. giáo dục. tw/~cjlin/libsvm/
    • svmLight. http. //svmlight. joachims. tổ chức/

Tham khảo thêm các module khác của Python

  • 10 dự án học máy Python trên GitHub
  • Thư viện Python Analytics
  • 10 mô-đun Python thú vị để học trong năm 2016
  • https. //github. com/magizbox/underthesea
  • https. //github. com/phuonglh/vn. vitk

Quảng cáo

  • Facebook
  • LinkedIn

Thích bài này

Thích Đang tải.

Có liên quan

Chủ Đề