Ngữ liệu tiếng nói

Ngữ liệu tiếng nói (hay còn gọi là ngữ liệu lời nói) là một cơ sở dữ liệu các tệp âm thanh giọng nói và văn bản phiên âm.

Trong công nghệ tiếng nói (speech technology), ngữ liệu tiếng nói được sử dụng, trong số nhiều thứ khác, để tạo mô hình âm thanh (acoustic model) (sau đó có thể dùng để nhận dạng tiếng nói hay cơ chế nhận dạng người nói).^[1] Trong ngôn ngữ học, ngữ liệu tiếng nói được dùng để làm nghiên cứu ngữ âm học, phân tích hội thoại, phương ngữ học (dialectology) và các lĩnh vực khác.

Tham khảo

^ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (tháng 9 năm 2020). “Optimization of data-driven filterbank for automatic speaker verification”. Digital Signal Processing. 104: 102795. arXiv:2007.10729. doi:10.1016/j.dsp.2020.102795.

Edwards, Jane / Lampert, Martin (eds.) (1992): Talking Data – Transcription and Coding in Discourse Research. Hillsdale: Erlbaum.
Leech, Geoffrey / Myers, Greg / Thomas, Jenny (eds.) (1995): Spoken English on Computer: Transcription, Markup and Application. Harlow: Longman.

Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.