Hướng dẫn python real time audio - âm thanh thời gian thực python
Mục lục bài viết:
Show
Bạn đã bao giờ tự hỏi làm thế nào để thêm nhận dạng giọng nói vào dự án Python của mình? Nếu vậy, sau đó tiếp tục đọc! Nó dễ dàng hơn bạn nghĩ. Không còn là một thứ lỗi mốt, sự thành công vượt bậc của các sản phẩm hỗ trợ giọng nói như Amazon Alexa đã chứng minh rằng hỗ trợ giọng nói ở một mức độ nào đó sẽ là một khía cạnh thiết yếu của công nghệ gia dụng trong tương lai gần. Nếu bạn nghĩ về nó, lý do tại sao là khá rõ ràng. Việc kết hợp tính năng nhận dạng giọng nói vào ứng dụng Python của bạn mang lại mức độ tương tác và khả năng truy cập mà ít công nghệ nào có thể sánh kịp. Chỉ riêng các cải tiến về khả năng tiếp cận cũng đáng được xem xét Nhận dạng giọng nói cho phép người già và người khiếm thị tương tác với các sản phẩm và dịch vụ hiện đại một cách nhanh chóng và tự nhiên — không cần GUI! Hơn hết, bao gồm cả nhận dạng giọng nói trong một dự án Python thực sự đơn giản. Trong hướng dẫn này, bạn sẽ tìm hiểu cách thực hiện. Bạn sẽ học:
Cuối cùng, bạn sẽ áp dụng những gì bạn đã học được vào trò chơi “Đoán từ” đơn giản và xem tất cả kết hợp với nhau như thế nào. Cách hoạt động của tính năng Nhận dạng giọng nói - Tổng quanChọn gói nhận dạng giọng nói Python Cài đặt SpeechRecognition Lớp nhận dạng Làm việc với tệp âm thanh Các loại tệp được hỗ trợ Sử dụng record () để chụp dữ liệu từ tệp Người ta có thể tưởng tượng rằng toàn bộ quá trình này có thể tốn kém về mặt tính toán. Trong nhiều hệ thống nhận dạng giọng nói hiện đại, mạng nơ-ron được sử dụng để đơn giản hóa tín hiệu giọng nói bằng cách sử dụng các kỹ thuật chuyển đổi đặc trưng và giảm kích thước trước khi nhận dạng HMM. Bộ phát hiện hoạt động giọng nói (VAD) cũng được sử dụng để giảm tín hiệu âm thanh xuống chỉ những phần có khả năng chứa giọng nói. Điều này ngăn bộ nhận dạng mất thời gian phân tích các phần không cần thiết của tín hiệu. May mắn thay, là một lập trình viên Python, bạn không phải lo lắng về bất kỳ điều gì trong số này. Một số dịch vụ nhận dạng giọng nói có sẵn để sử dụng trực tuyến thông qua API và nhiều dịch vụ trong số này cung cấp các SDK Python . Chọn gói nhận dạng giọng nói PythonCó một số ít các gói để nhận dạng giọng nói trên PyPI. Một vài trong số chúng bao gồm:
Một số gói này — chẳng hạn như wit và apiai — cung cấp các tính năng tích hợp sẵn, như xử lý ngôn ngữ tự nhiên để xác định ý định của người nói, vượt ra ngoài nhận dạng giọng nói cơ bản. Những người khác, như google-cloud-speech, chỉ tập trung vào chuyển đổi giọng nói thành văn bản. Có một gói nổi bật về tính dễ sử dụng: SpeechRecognition. Nhận dạng giọng nói yêu cầu đầu vào âm thanh và SpeechRecognition giúp việc truy xuất đầu vào này thực sự dễ dàng. Thay vì phải xây dựng các tập lệnh để truy cập micrô và xử lý các tệp âm thanh từ đầu, SpeechRecognition sẽ giúp bạn thiết lập và chạy chỉ trong vài phút. Thư viện SpeechRecognition hoạt động như một trình bao bọc cho một số API giọng nói phổ biến và do đó cực kỳ linh hoạt. Một trong số này — API Web Speech của Google — hỗ trợ khóa API mặc định được mã hóa cứng vào thư viện SpeechRecognition. Điều đó có nghĩa là bạn có thể xuống chân mà không cần phải đăng ký dịch vụ. Tính linh hoạt và dễ sử dụng của gói SpeechRecognition khiến nó trở thành lựa chọn tuyệt vời cho bất kỳ dự án Python nào. Tuy nhiên, không đảm bảo hỗ trợ cho mọi tính năng của mỗi API mà nó kết thúc. Bạn sẽ cần dành một chút thời gian nghiên cứu các tùy chọn có sẵn để tìm hiểu xem liệu SpeechRecognition có hoạt động trong trường hợp cụ thể của bạn hay không. Vì vậy, bây giờ bạn đã được thuyết phục rằng bạn nên thử SpeechRecognition, bước tiếp theo là cài đặt nó trong môi trường của bạn. Cài đặt SpeechRecognitionSpeechRecognition tương thích với Python 2.6, 2.7 và 3.3+, nhưng yêu cầu một số bước cài đặt bổ sung cho Python 2 . Đối với hướng dẫn này, tôi sẽ giả sử bạn đang sử dụng Python 3.3+. Bạn có thể cài đặt SpeechRecognition từ một thiết bị đầu cuối bằng pip:
Sau khi cài đặt, bạn nên xác minh cài đặt bằng cách mở phiên thông dịch và nhập: >>>
Lưu ý: Số phiên bản bạn nhận được có thể khác nhau. Phiên bản 3.8.1 là phiên bản mới nhất tại thời điểm viết bài. Hãy tiếp tục và giữ cho phiên này mở. Bạn sẽ bắt đầu làm việc với nó chỉ trong giây lát. SpeechRecognition sẽ hoạt động hiệu quả nếu tất cả những gì bạn cần làm là hoạt động với các tệp âm thanh hiện có. Tuy nhiên, các trường hợp sử dụng cụ thể yêu cầu một số phụ thuộc. Đáng chú ý, gói PyAudio là cần thiết để thu đầu vào micrô. Bạn sẽ thấy những phụ thuộc nào bạn cần khi đọc thêm. Bây giờ, hãy đi sâu vào và khám phá những điều cơ bản của gói. các Traceback (most recent call last):
File " |