Hướng dẫn how do i use voice input in python? - làm cách nào để sử dụng tính năng nhập liệu bằng giọng nói trong python?
Xem bây giờ hướng dẫn này có một khóa học video liên quan được tạo bởi nhóm Python thực sự. Xem cùng với hướng dẫn bằng văn bản để hiểu sâu hơn về sự hiểu biết của bạn: Nhận dạng giọng nói với Python This tutorial has a related video course created by the Real Python team. Watch it together with the written tutorial to deepen your understanding: Speech Recognition With Python Show
Bạn đã bao giờ tự hỏi làm thế nào để thêm nhận dạng giọng nói vào dự án Python của bạn? Nếu vậy, sau đó tiếp tục đọc! Nó dễ dàng hơn bạn nghĩ. Khác xa với việc trở thành một mốt nhất thời, thành công lớn của các sản phẩm hỗ trợ lời nói như Amazon Alexa đã chứng minh rằng một mức độ hỗ trợ lời nói nào đó sẽ là một khía cạnh thiết yếu của công nghệ gia đình trong tương lai gần. Nếu bạn nghĩ về nó, lý do tại sao khá rõ ràng. Kết hợp nhận dạng giọng nói vào ứng dụng Python của bạn cung cấp một mức độ tương tác và khả năng tiếp cận mà một số công nghệ có thể phù hợp. Các cải tiến khả năng tiếp cận một mình là đáng để xem xét. Nhận dạng giọng nói cho phép người già và người khiếm thị và thị giác tương tác với các sản phẩm và dịch vụ hiện đại một cách nhanh chóng và tự nhiên, không cần GUI! Trên hết, bao gồm cả nhận dạng giọng nói trong một dự án Python thực sự đơn giản. Trong hướng dẫn này, bạn sẽ tìm ra cách. Bạn sẽ học:
Cuối cùng, bạn sẽ áp dụng những gì bạn đã học được với một trò chơi đơn giản của Word và xem tất cả kết hợp với nhau như thế nào. Cách thức nhận dạng giọng nói hoạt động - Tổng quanTrước khi chúng ta đến với sự nhận biết giọng nói trong Python, hãy để Lôi dành một chút thời gian để nói về cách thức nhận dạng giọng nói hoạt động. Một cuộc thảo luận đầy đủ sẽ lấp đầy một cuốn sách, vì vậy tôi đã giành được cho bạn tất cả các chi tiết kỹ thuật ở đây. Trên thực tế, phần này không phải là điều kiện tiên quyết cho phần còn lại của hướng dẫn. Nếu bạn muốn đi thẳng vào vấn đề, thì hãy thoải mái bỏ qua phía trước. Nhận dạng giọng nói có nguồn gốc từ nghiên cứu được thực hiện tại Bell Labs vào đầu những năm 1950. Các hệ thống ban đầu được giới hạn trong một loa duy nhất và có giới hạn từ vựng khoảng một chục từ. Các hệ thống nhận dạng giọng nói hiện đại đã đi một chặng đường dài kể từ các đối tác cổ xưa của họ. Họ có thể nhận ra lời nói từ nhiều người nói và có từ vựng khổng lồ bằng nhiều ngôn ngữ. Thành phần đầu tiên của nhận dạng giọng nói là, tất nhiên, là bài phát biểu. Lời nói phải được chuyển đổi từ âm thanh vật lý sang tín hiệu điện bằng micrô, và sau đó sang dữ liệu kỹ thuật số với bộ chuyển đổi tương tự sang số. Sau khi được số hóa, một số mô hình có thể được sử dụng để phiên âm âm thanh thành văn bản. Hầu hết các hệ thống nhận dạng giọng nói hiện đại đều dựa vào những gì được gọi là mô hình Markov ẩn (HMM). Cách tiếp cận này hoạt động dựa trên giả định rằng tín hiệu giọng nói, khi được xem trong một khoảng thời gian đủ ngắn (giả sử, mười mili giây), có thể được xấp xỉ một cách hợp lý như một quá trình đứng yên, đó là một quá trình trong đó các thuộc tính thống kê không thay đổi theo thời gian. Trong một HMM điển hình, tín hiệu giọng nói được chia thành các mảnh 10 phần giây. Phổ công suất của mỗi đoạn, về cơ bản là một biểu đồ của công suất tín hiệu là một hàm của tần số, được ánh xạ tới một vectơ có số thực được gọi là các hệ số cepstral. Kích thước của vectơ này thường là nhỏ đôi khi thấp tới 10, mặc dù các hệ thống chính xác hơn có thể có kích thước 32 trở lên. Đầu ra cuối cùng của HMM là một chuỗi của các vectơ này. Để giải mã lời nói thành văn bản, các nhóm vectơ được khớp với một hoặc nhiều âm vị của một đơn vị bài phát biểu cơ bản. Tính toán này đòi hỏi phải đào tạo, vì âm thanh của âm vị thay đổi từ loa này sang loa khác, và thậm chí thay đổi từ cách nói này sang cách khác bởi cùng một người nói. Một thuật toán đặc biệt sau đó được áp dụng để xác định từ (hoặc từ) có khả năng nhất tạo ra chuỗi âm vị đã cho. Người ta có thể tưởng tượng rằng toàn bộ quá trình này có thể tốn kém về mặt tính toán. Trong nhiều hệ thống nhận dạng giọng nói hiện đại, các mạng thần kinh được sử dụng để đơn giản hóa tín hiệu giọng nói bằng cách sử dụng các kỹ thuật để chuyển đổi tính năng và giảm kích thước trước khi nhận dạng HMM. Máy dò hoạt động bằng giọng nói (VAD) cũng được sử dụng để giảm tín hiệu âm thanh chỉ còn các phần có khả năng chứa lời nói. Điều này ngăn chặn bộ nhận dạng lãng phí thời gian phân tích các phần không cần thiết của tín hiệu. May mắn thay, với tư cách là một lập trình viên Python, bạn không phải lo lắng về điều này. Một số dịch vụ nhận dạng giọng nói có sẵn để sử dụng trực tuyến thông qua API và nhiều dịch vụ này cung cấp SDK Python. Chọn gói nhận dạng giọng nói PythonMột số gói để nhận dạng giọng nói tồn tại trên PYPI. Một vài trong số chúng bao gồm:
Một số trong các gói này, ví dụ như Wit và Apiai, cung cấp các tính năng tích hợp, như xử lý ngôn ngữ tự nhiên để xác định ý định của người nói, vượt ra ngoài nhận dạng giọng nói cơ bản. Những người khác, như Google-Cloud-Speech, chỉ tập trung vào chuyển đổi lời nói sang văn bản. Có một gói nổi bật về mặt dễ sử dụng: nhận thức lời nói. Nhận biết lời nói đòi hỏi đầu vào âm thanh và nhận thức lời nói giúp việc truy xuất đầu vào này thực sự dễ dàng. Thay vì phải xây dựng các tập lệnh để truy cập micrô và xử lý các tệp âm thanh từ đầu, nhận thức về lời nói sẽ giúp bạn đứng dậy và chạy chỉ trong vài phút. Thư viện bài phát biểu hoạt động như một trình bao bọc cho một số API phát biểu phổ biến và do đó cực kỳ linh hoạt. Một trong những điều này, API bài phát biểu trên web của Google đã hỗ trợ khóa API mặc định được mã hóa cứng vào thư viện nhận thức. Điều đó có nghĩa là bạn có thể tắt chân mà không cần phải đăng ký dịch vụ. Tính linh hoạt và dễ sử dụng của gói nhận thức bài phát biểu làm cho nó trở thành một lựa chọn tuyệt vời cho bất kỳ dự án Python nào. Tuy nhiên, hỗ trợ cho mọi tính năng của mỗi API mà nó kết thúc không được đảm bảo. Bạn sẽ cần dành một chút thời gian để nghiên cứu các tùy chọn có sẵn để tìm hiểu xem việc nhận thức lời nói có hoạt động trong trường hợp cụ thể của bạn không. Vì vậy, bây giờ bạn đã thuyết phục rằng bạn nên thử nhận thức phát biểu, bước tiếp theo là cài đặt nó trong môi trường của bạn. Cài đặt nhận thức lời nóiTIẾNG VIỆT TUYỆT VỜI Tương thích với Python 2.6, 2.7 và 3.3+, nhưng yêu cầu một số bước cài đặt bổ sung cho Python 2. Đối với hướng dẫn này, tôi sẽ giả sử rằng bạn đang sử dụng Python 3.3+. Bạn có thể cài đặt trình diễn nhận thức từ một thiết bị đầu cuối với PIP:
Sau khi cài đặt, bạn nên xác minh cài đặt bằng cách mở phiên phiên dịch và gõ: >>>
Hãy tiếp tục và giữ cho phiên này mở. Bạn sẽ bắt đầu làm việc với nó chỉ một chút. Bài phát biểu sẽ hoạt động ra khỏi hộp nếu tất cả những gì bạn cần làm là làm việc với các tệp âm thanh hiện có. Các trường hợp sử dụng cụ thể, tuy nhiên, đòi hỏi một vài phụ thuộc. Đáng chú ý, gói Pyaudio là cần thiết để thu thập đầu vào micrô. Bạn sẽ thấy những phụ thuộc nào bạn cần khi bạn đọc thêm. Hiện tại, hãy để Lặn lặn và khám phá những điều cơ bản của gói. Lớp Traceback (most recent call last):
File " |