Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, còn được gọi là nhận dạng giọng nói tự động (ASR), nhận dạng giọng nói máy tính hoặc chuyển đổi giọng nói thành văn bản (STT). Với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được học trước đó và lưu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị. Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã được học và lưu trữ trong bộ nhớ. Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau. Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng. Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói.

Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản:

  • Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói.
  • Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký hiệu ngữ âm. Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm phát âm thành dãy các ký hiệu ngữ âm.
  • Nhận dạng tiếng nói là một quá trình nhận thức. Thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói, nhất là khi thông tin về âm học là không rõ ràng.

Cách tiếp cận nhận dạng tiếng nói bằng thống kê bao gồm: sử dụng mô hình Markov ẩn, mạng nơ-ron, sử dụng cơ sở tri thức, v.v..

Các hệ thống nhận dạng tiếng nói có thể được phân thành hai loại: "phụ thuộc vào người nói" (speaker-dependent) và "không phụ thuộc vào người nói" (speaker-independent)[1]. Các ứng dụng của nhận dạng tiếng nói bao gồm giao diện người dùng bằng giọng nói, quay số bằng giọng nói, điều khiển thiết bị gia đình, tìm kiếm từ khóa, nhập dữ liệu đơn giản, chuẩn bị tài liệu có cấu trúc, xác định đặc điểm của người nói[2], xử lý văn bản từ giọng nói và nhập liệu giọng nói trực tiếp trong máy bay.

Khác với nhận dạng tiếng nói, thuật ngữ nhận dạng giọng nói[3][4][5] hoặc xác định người nói[6][7][8] chỉ việc xác định ai đang nói, chứ không phải nội dung của lời nói. Nhận dạng giọng nói có thể đơn giản hóa việc dịch nội dung tiếng nói trong các hệ thống được đào tạo trên giọng nói của một người cụ thể hoặc có thể được sử dụng để chứng thực hoặc xác minh danh tính của người nói trong quá trình bảo mật.

Lịch sử của nhận dạng tiếng nói có nhiều giai đoạn và đột phá quan trọng. Gần đây, lĩnh vực này đã được hưởng lợi từ các tiến bộ trong lĩnh vực học sâudữ liệu lớn. Sự tiến bộ được chứng minh không chỉ qua sự gia tăng các bài báo học thuật được xuất bản trong lĩnh vực này, mà quan trọng hơn là việc ngành công nghiệp trên toàn thế giới áp dụng nhiều phương pháp học sâu trong việc thiết kế và triển khai các hệ thống nhận dạng tiếng nói.

Tham khảo

sửa
  1. ^ “Speaker Independent Connected Speech Recognition- Fifth Generation Computer Corporation”. Fifthgen.com. Lưu trữ bản gốc 11 Tháng mười một năm 2013. Truy cập 15 Tháng sáu năm 2013.
  2. ^ P. Nguyen (2010). “Automatic classification of speaker characteristics”. International Conference on Communications and Electronics 2010. tr. 147–152. doi:10.1109/ICCE.2010.5670700. ISBN 978-1-4244-7055-6. S2CID 13482115.
  3. ^ “British English definition of voice recognition”. Macmillan Publishers Limited. Lưu trữ bản gốc 16 tháng Chín năm 2011. Truy cập 21 Tháng hai năm 2012.
  4. ^ “voice recognition, definition of”. WebFinance, Inc. Lưu trữ bản gốc 3 Tháng mười hai năm 2011. Truy cập 21 Tháng hai năm 2012.
  5. ^ “The Mailbag LG #114”. Linuxgazette.net. Lưu trữ bản gốc 19 Tháng hai năm 2013. Truy cập 15 Tháng sáu năm 2013.
  6. ^ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (tháng 9 năm 2020). “Optimization of data-driven filterbank for automatic speaker verification”. Digital Signal Processing. 104: 102795. arXiv:2007.10729. doi:10.1016/j.dsp.2020.102795. S2CID 220665533.
  7. ^ Reynolds, Douglas; Rose, Richard (tháng 1 năm 1995). “Robust text-independent speaker identification using Gaussian mixture speaker models” (PDF). IEEE Transactions on Speech and Audio Processing. 3 (1): 72–83. doi:10.1109/89.365379. ISSN 1063-6676. OCLC 26108901. Lưu trữ (PDF) bản gốc 8 Tháng Ba năm 2014. Truy cập 21 Tháng hai năm 2014.
  8. ^ “Speaker Identification (WhisperID)”. Microsoft Research. Microsoft. Lưu trữ bản gốc 25 Tháng hai năm 2014. Truy cập 21 Tháng hai năm 2014. When you speak to someone, they don't just recognize what you say: they recognize who you are. WhisperID will let computers do that, too, figuring out who you are by the way you sound.