Giao diện giọng nói người dùng

Trước đây, việc điều khiển một cỗ máy bằng cách nói chuyện với chúng chỉ là những câu chuyện trong khoa học viễn tưởng. Nhưng viễn tưởng này đang dần trở thành hiện thực với sự phát triển vượt bậc về công nghệ, đặc biệt là sự phát triển của Trí tuệ nhân tạo (AI) và những nền tảng khác để tạo ra một giao diện người dùng cho phép sử dụng giọng nói để điều khiển các thiết bị công nghệ: Giao diện giọng nói người dùng (Voice user interface).

Giao diện giọng nói người dùng (Voice user interface - VUI) ngày nay xuất hiện ở khắp mọi nơi. Gần như tất cả các gã khổng lồ về công nghệ đều chi một nguồn ngân sách lớn để phát triển công nghệ này và hầu hết các Điện thoại thông minh đều đang được trang bị ngày càng nhiều hơn. VUI còn xuất hiện trong nhiều sản phẩm tiêu dùng khác và các thiết bị trong nhà của các hộ gia đình. Song song với sự phát triển vượt bậc của công nghệ trí tuệ nhân tạo, kỳ vọng của người dùng đối với VUI cũng ngày càng cao với những lợi ích mà nó đem lại.^[1]

VUI cần được thiết kế phù hợp với từng mục đích sử dụng và đối tượng kinh doanh khác nhau. Một VUI hướng đến việc cung cấp các tính năng phục vụ cho khách hàng đại chúng cần thiết kế dựa trên sự dễ sử dụng và cần cung cấp nhiều hướng dẫn cho người dùng. Ngược lại, một VUI được thiết kế cho một nhóm nhỏ người như ở mô hình các doanh nghiệp (người dùng bao gồm quản lý và các nhân viên), nên tập trung nhiều hơn vào việc tối đa hóa năng suất. Nói tóm lại, các ứng dụng sử dụng VUI cần được thiết kế cẩn thận phù hợp với từng mục đích và đối tượng kinh doanh khác nhau.

Các yêu cầu và giao dịch càng phức tạp thì sẽ càng khó khăn hơn trong việc triển khai VUI, và càng có nhiều khả năng chúng sẽ thất bại với công chúng. Như với đường dây nóng tư vấn pháp lý sẽ rất khó tư vấn tự động bằng VUI, vì vậy người hỗ trợ trực tiếp từ nhân viên là lựa chọn duy nhất.^[2]

Không thể phủ nhận những lợi ích mà công nghệ VUI này mang lại cho doanh nghiệp và những ứng dụng tiềm năng của chúng trong tương lai khiến không ít công ty đã chi nguồn ngân sách rất lớn để có thể triển khai VUI. Tuy nhiên, cũng đã có nhiều doanh nghiệp gặp thất bại bởi gặp khó khăn trong quá trình thiết kế, chưa hiểu rõ công nghệ, không nắm được quy trình hoạt động,... và làm lãng phí ngân sách. Chính vì thế, doanh nghiệp trước khi triển khai thì nên có những kiến thức và kinh nghiệm nhất định đối với công nghệ VUI này để có thể phát triển nó một cách hiệu quả nhất.

Định nghĩa

Giao diện giọng nói người dùng (Tiếng anh: Voice user interface, viết tắt: VUI) là công nghệ nhận dạng giọng nói, cho phép người dùng tương tác với hệ thống và các thiết bị như máy tính, điện thoại thông minh và các thiết bị khác thông qua các lệnh thoại hoặc giọng nói. Điều làm nên sự độc đáo của VUI là nó sử dụng giọng nói làm tương tác chính, không dùng tay hay mắt và trái ngược với sự tương tác giữa bàn phím - chuột - màn hình hoặc màn hình cảm ứng. Cách tiếp cận bằng giọng nói này có thể cho phép người dùng bắt đầu các thao tác dịch vụ tự động và thực hiện các tác vụ hàng ngày của họ theo cách nhanh hơn hơn trong khi vẫn có thể tập trung làm việc khác.

Hiện nay VUI đã được thêm vào hệ điều hành máy tính, các ứng dụng thương mại, ô tô, các hệ thống tự động hóa trong các doanh nghiệp, gia đình, máy móc công nghiệp và các thiết bị gia dụng. Những trợ lý ảo như Siri, Trợ lý Google và Amazon Alexa là những ví dụ phổ biến nhất về VUI.

VUI giúp người dùng thực hiện các tác vụ như:

Mua sắm
Chơi nhạc
Đặt báo thức, hẹn giờ và nhắc nhở
Nhận cập nhật thời tiết và tình hình giao thông
Cập nhật tin tức
Đặt đồ ăn
Tìm các cửa hàng, địa điểm trong khu vực lân cận

Đối với môi trường doanh nghiệp, VUI giúp nhân viên có thể:

Tham gia cuộc gọi hội nghị
Đặt phòng hội nghị
Tìm kiếm thông tin
Đào tạo và hướng dẫn nhân viên

VUI cho phép các tương tác rảnh tay và nó mang nhiều tính chất giao tiếp con người hơn bất kỳ hình thức giao diện người dùng nào khác. Để các hệ thống VUI hoạt động hiệu quả, các nhà thiết kế giao diện cần phải có sự hiểu biết đầy đủ về sự phức tạp trong giao tiếp của con người. Vì người tiêu dùng luôn luôn mong đợi một mức độ trôi chảy nhất định trong giao tiếp, muốn có một cuộc trò chuyện chân thật hơn, có cá tính hơn, thể hiện rõ được các đặc điểm cá nhân, tính cách riêng của đối tượng giao tiếp nhiều hơn là từ các bot tự động và trợ lý ảo thông thường mà họ đã tương tác hàng ngày.

Vì vậy, để cải thiện chất lượng trải nghiệm người dùng, nhà thiết kế VUI cần phát triển các hệ thống có khả năng hiểu ngữ cảnh, giọng nói và thái độ, với sự hiểu biết tốt hơn về ý định của người dùng dựa trên dữ liệu lịch sử và quan sát các hành vi trước đó của họ, vì mỗi người sẽ có mỗi cách sử dụng ngôn ngữ khác nhau, VUI cần vượt xa khỏi một kịch bản được lập trình sẵn để đạt đến sự linh hoạt và chính xác trong giao tiếp với con người.

Bên cạnh đó vì VUI không có các tương tác trực quan, người dùng không thể nhìn thấy những tính năng mà VUI có thể thực hiện hoặc những tùy chọn mà họ có thể có. Vì vậy khi thiết kế những hành động cho VUI, hệ thống cần phải nêu rõ những tính năng mà nó có thể thực hiện, cho họ biết các chức năng mà họ đang sử dụng.

Sự kết hợp của các công nghệ trí tuệ nhân tạo được sử dụng để xây dựng các hệ thống VUI, bao gồm nhận dạng giọng nói tự động (Automatic speech recognition - ASR), nhận dạng thực thể tên (Named-entity recognition - NER) và tổng hợp giọng nói (Speech synthesis - SS). Cơ sở công nghệ hỗ trợ tạo ra VUI bao gồm các công nghệ thuộc trí tuệ nhân tạo được sử dụng để tạo thành phần trong giọng nói của VUI, thường được lưu trữ trên hệ thống điện toán đám mây nơi những lời nói của người dùng được xử lý. Tại đây, các thành phần của AI xác định ý định của người dùng và trả lại phản hồi đã cho trở lại thiết bị hoặc ứng dụng nơi người dùng đang tương tác với VUI.

Những ứng dụng của VUI

Sản phẩm phần mềm ra lệnh bằng giọng nói vận hành trên máy tính

Cả 2 dòng MacBook và máy tính chạy bằng hệ điều hành Microsoft Windows đều được cung cấp tính năng nhận dạng giọng nói, tích hợp cho các hệ điều hành mới nhất của họ:

Microsoft Windows: Kể từ các phiên bản Windows 7 và Vista, phần mềm nhận diện giọng nói đã được Microsoft tích hợp vào để đáp ứng nhu cầu của những người không muốn sử dụng chuột và bàn phím quá nhiều nhưng vẫn muốn duy trì hoặc tăng năng suất công việc của họ.
Mac OS: Phiên bản sản phẩm của Apple dòng Mac OS đã được cài đặt thêm phần mềm nhận diện giọng nói. VUI cho phép người dùng điều hướng menu bằng cách thiết lập các phím tắt, đọc tên các hộp kiểm mà không cần đánh máy, điều khiển việc đóng, mở và chuyển đổi giữa các ứng dụng...
Phần mềm thương mại: Hiện nay trên thị trường, bên cạnh phần mềm nhận diện giọng nói được tích hợp sẵn khi mua sản phẩm còn có các phần mềm thương mại khác để người dùng có thể mua trải nghiệm nếu không vừa ý với phần mềm hiện có như Braina Pro, Dragon Natural Speaking dành cho các máy tính xài Windows; Dictate dành cho các dòng máy của Apple.

Sản phẩm phần mềm ra lệnh bằng giọng nói vận hành trên smartphone

Tương tự như trên máy tính xách tay, các thiết bị smartphone hiện nay cũng có thể được cài đặt thêm phần mềm nhận diện giọng nói khác bên cạnh phần mềm có sẵn trong máy bằng cách mua trên App Store, Google Play, Blackberry App World...

Android: Là một hệ điều hành nguồn mở được phát triển dựa trên Google Linux, được vận hành chủ yếu trên các thiết bị di động. Qua đó, Google đã tích hợp phần mềm nhận diện giọng nói cho phép người dùng thực hiện được nhiều lệnh thoại như: gửi tin nhắn văn bản, chỉ đường, lướt web… Phần mềm này chỉ khả dụng từ phiên bản Android Froyo, nhưng ngôn ngữ sử dụng phải là tiếng Anh.
IOS: Apple đã tích hợp phần mềm nhận diện giọng nói cho các sản phẩm của mình kể từ đời iPhone 3. Các đời sản phẩm sau đó đã có trợ lý ảo cao cấp hơn gọi là Siri.
Amazon Alexa: Alexa được ra đời từ năm 2014 với mục tiêu ban đầu là một chiếc loa thông minh, có thể được điều khiển bằng giọng nói. Sau khi được nâng cấp, nó dần trở thành một thiết bị mới điều khiển được các thiết bị trong gia đình như khóa cửa nhà, kiểm soát nhiệt độ và kích hoạt nhiều thiết bị khác nhau. Hình thức AI này cho phép ai đó chỉ cần hỏi nó một câu hỏi và đáp lại sẽ là việc Alexa tìm kiếm thông tin và đọc được câu trả lời.

Những ưu điểm - nhược điểm của VUI

Ưu Điểm

Người dùng có thể nói chuyện điện thoại mà không cần cầm điện thoại lên: VUI tạo điều kiện cho người dùng nói chuyện điện thoại mà không cần cầm và kê điện thoại lên sát lỗ tai. Nếu điện thoại reng trong các tình huống bất tiện như khi đang tắm, đang lái xe, VUI sẽ giúp họ nhận cuộc gọi mà không cần thực hiện thao tác bằng tay. Việc nói chuyện điện thoại mà không cần đưa điện thoại lên sát lỗ tai cũng an toàn hơn vì lượng năng lượng bức xạ cao phát ra từ điện thoại có thể phá hủy DNA và gây ung thư.
Giúp tiết kiệm thời gian: Nếu hiểu rõ cách hoạt động của VUI, nó có thể trở thành một cánh tay đắc lực giúp người dùng tiết kiệm rất nhiều thời gian. Khi đang lái xe, tài xế có thể tương tác với các ứng dụng bản đồ và hỏi đường đến nơi họ muốn đi. Nhờ vậy sẽ làm giảm khả năng đi lạc đường. VUI giúp người dùng khỏi việc phải lấy điện thoại ra và điều hướng theo bản đồ để tìm đường.
Hỗ trợ các tác vụ vận hành điện thoại: VUI có thể quản lý các công việc tẻ nhạt, đơn giản và lặp đi lặp lại của con người người liên quan đến vận hành điện thoại và các cuộc gọi, để giúp cho đội ngũ nhân viên được đặt vào các vị trí công việc có trải nghiệm tốt hơn. Nó có thể xử lý các cuộc gọi và các tin nhắn SMS. Nó còn có thể chuyển các cuộc gọi đến một số điện thoại khác. Có thể chỉ định cho VUI ghi chú lại những thông tin quan trọng vì nó có thể chuyển lời nói thành văn bản. Nó là một công cụ hoàn hảo cho các quản trị viên, những người dành hầu hết thời gian trước máy tính và không muốn dán đầy các ghi chú xung quanh bàn làm việc.
Hỗ trợ người khuyết tật: VUI là một công cụ tốt dành cho những người khuyết tật. Nó có thể đọc các tin nhắn, email hay các bài viết trên website hoặc tài liệu cho những người khiếm thị. Đối với những người khiếm thính, nó có thể chuyển đổi các quyển sách nói và các tin nhắn thoại thành văn bản để đọc được trên màn hình máy tính. Sẽ rất khó khăn khi những người khuyết tật phải sử dụng tay để tương tác với mọi thứ xung quanh.
Giao tiếp thành thạo với người nước ngoài: Hệ thống nhận diện giọng nói có thể làm cho việc giao tiếp giữa những người nói những ngôn ngữ khác nhau trở nên trôi chảy, suôn sẻ hơn. Bởi vì VUI có tích hợp một công cụ dịch thuật có thể tự động dịch ngôn ngữ nước ngoài sang ngôn ngữ mẹ đẻ mà người dùng có thể hiểu. Nó giúp cho những du khách vượt qua rào cản về ngôn ngữ để tiếp cận với các thông tin cần thiết dễ dàng hơn.
Hoàn thành mọi việc nhanh hơn: Nói lúc nào cũng nhanh hơn viết nên việc đưa ra yêu cầu bằng giọng nói sẽ nhanh hơn so với việc phải đi sang một căn phòng khác trong nhà để hoàn thành công việc. Sẽ dễ dàng hơn khi nói với máy tính là bật điều hòa lên thay vì phải tự đi ra khỏi giường và làm điều đó. Công nghệ làm cho cuộc sống dễ dàng hơn và nó ngày càng được ứng dụng vào nhiều thiết bị hơn.
Có thể kiểm soát hiệu quả nhiều sản phẩm: Ví dụ như trợ lý ảo như Google Home cho phép người dùng kiểm soát hơn 1.000 sản phẩm gia dụng thông minh. Những sản phẩm này bao gồm ấm, lò vi sóng và máy điều hòa. Một số thiết bị như HomePod cũng cho phép người dùng bật một số thiết bị nhà thông minh với một cụm từ duy nhất như "Chào buổi sáng".

Nhược điểm

Các thiết bị gia dụng thông minh có giá cao: Các sản phẩm gia dụng thông minh được điều khiển bởi các trợ lý ảo thì rất đắt và không phải người dùng nào cũng có khả năng chi trả. Chúng còn tiêu thụ rất nhiều điện. Vì vậy, nếu sử dụng nhiều thiết bị gia dụng thông minh trong nhà thì hóa đơn tiền điện sẽ rất cao. Khi không có điện, không thể sử dụng được chúng.
Dẫn đến mất tập trung với các công việc đang làm: Khi người dùng sử dụng trợ lý ảo với chức năng nhận dạng giọng nói trong lúc đang làm một việc nào khác thì có thể gây ra sự mất tập trung với những công việc đang làm. Vì vậy, trước khi đưa ra hướng dẫn cho trợ lý ảo, hãy đảm bảo dừng mọi việc người dùng đang làm.
Những lo ngại về dữ liệu cá nhân: Nếu người dùng sử dụng các thiết bị có tích hợp VUI, dữ liệu của người dùng có thể bị nhà sản xuất theo dõi. Đã có những phàn nàn về việc này. Ví dụ vụ bê bối Cambridge Analytica tuyên bố rằng Google Home và Amazon Alexa đang nghe lén các cuộc trò chuyện riêng tư. Điều này khiến người dùng vô cùng lo lắng về các dữ liệu riêng tư của họ đang được các nhà sản xuất này sử dụng. Nhận thức được vấn đề, các nhà sản xuất hiện đang nỗ lực cung cấp các biện pháp kiểm soát quyền riêng tư tốt hơn cho người tiêu dùng để họ có thể sử dụng công nghệ này một cách an toàn hơn.^[3]

Nền tảng kỹ thuật - VUI hoạt động như thế nào?

Trí tuệ nhân tạo (AI)

Trí tuệ nhân tạo được tích hợp vào trong giao diện người dùng (UI) hoặc giao diện giọng nói người dùng (VUI) dưới dạng phần mềm hoặc phần cứng, được gọi là đàm thoại trí tuệ nhân tạo (Conversational AI). Đàm thoại trí tuệ nhân tạo cho phép giao diện người dùng tương tác, giao tiếp với người sử dụng bằng ngôn ngữ mẹ đẻ. Để thực hiện được điều này, hệ thống cần phải có công cụ chuyển văn bản thành giọng nói để có thể đọc được các văn bản trên thiết bị điện tử.^[4] Đàm thoại trí tuệ nhân tạo hiểu được lời nói của người dùng thông qua các yêu cầu, ý định và cách nói của họ. Sau đó, nó sẽ gửi thông tin về "bộ não" có đầy đủ các thuật toán để giải mã. Một khi đã giải mã được, đàm thoại trí tuệ nhân tạo sẽ thông dịch lời nói và cung cấp cho người dùng các thông tin, phản hồi cũng như thực hiện nhiệm vụ một cách thích hợp.^[5]

Tự động nhận dạng giọng nói (ASR)

Tự động nhận dạng giọng nói (ASR) là một công nghệ được sử dụng để phân tích và xử lý lời nói của con người thành văn bản. Khi có một đầu vào âm thanh nhất định, ASR được yêu cầu để lọc tất cả âm thanh gây nhiễu và xác định lời nói của con người. Nó được sử dụng để thay thế các phương thức nhập liệu khác như chạm, gõ hoặc chọn theo các cách khác.

Sự biến dạng trong âm thanh khi thực hiện ghi âm và phát trực tuyến có thể làm ảnh hưởng đến sự chính xác của ASR. Một số công nghệ cơ bản đã được thử nghiệm và sử dụng để xây dựng công nghệ ASR, bao gồm các mô hình hỗn hợp Gaussian (mô hình xác suất) và nghiên cứu sâu với hệ thống mạng thần kinh nhân tạo xử lý và phân phối thông tin để thu thập dữ liệu.

Thông thường, các từ được ASR công nhận không khớp chính xác với các thực thể trong mục đích của người dùng. Trong các trường hợp này, các thực thể tăng cường sẽ được kết hợp để lấy các từ tương tự hoặc các từ có âm tương tự và khớp chúng với một đối tượng được xác định trước trong VUI.^[6]

Nhận dạng thực thể tên (NER)

Nhận dạng thực thể tên (NER) được sử dụng để phân loại các từ làm thực thể cơ bản của chúng. Ví dụ, trong câu lệnh "chỉ đường đến Thành phố Hồ Chí Minh", Thành phố Hồ Chí Minh được công nhận là một địa điểm. Ngoài các vị trí, NER định vị các thực thể hoặc văn bản có thể là một người, một chủ đề hoặc một khái niệm cụ thể như một thuật ngữ khoa học. NER thường lấy văn bản hoặc từ xung quanh để xác định giá trị của thực thể. Trong ví dụ "chỉ đường đến Thành phố Hồ Chí Minh", các mô hình xác suất được lập trình từ trước giả định rằng bất kỳ từ nào xuất hiện sau "chỉ đường đến" được phân loại là một địa điểm. Các ví dụ như "chỉ đường đến trạm xăng gần nhất", cũng có cơ chế hoạt động tương tự, với "gần nhất" như là một vòng giới hạn vị trí được xác định trước.^[7]

NER hỗ trợ ASR trong việc hiểu và giải quyết các từ được xem như là thực thể cần được xác định. Chỉ dựa trên cơ sở nhập liệu bằng giọng nói, "thành phố Hồ Chí Minh" sẽ được ghi nhận thành "thành" "phố" "Hồ" "Chí" "Minh". Sau đó NER xác định đây là một địa điểm duy nhất và chỉ đường đến Thành phố Hồ Chí Minh. NER phụ thuộc rất nhiều vào ngữ cảnh và cần đầu vào bổ sung để có thể xác định các thực thể. Đôi khi, NER phụ thuộc vào những lập trình sẵn có và sẽ không thể xác định một thực thể đầu vào chính xác vào nếu chưa được lập trình từ trước.^[8]

Tổng hợp giọng nói (SS)

Tổng hợp lời nói là hệ thống tạo ra giọng nói và lời nói nhân tạo sử dụng dựa trên các văn bản đầu vào. Nếu VUI thực hiện công việc trong ba giai đoạn là nhận đầu vào, xử lý và xuất các đầu ra thì tổng hợp lời nói chỉ đơn giản là đầu ra, chuyển văn bản thành giọng nói (Text-to-speech) trong đó một thiết bị đọc thành tiếng những gì được nhập với giọng nói mô phỏng qua loa. Những công nghệ AI sẽ phân tích, học hỏi và bắt chước các mẫu giọng nói của con người và cũng có thể điều chỉnh ngữ điệu lời nói, cao độ và nhịp điệu. Sau khi tất cả các thông tin này được lưu trữ và phân tích, các công nghệ này (ASR, NER và SS) sẽ sử dụng những thông tin đó để tự động cải thiện chính nó và VUI thông qua một khái niệm thuộc trí tuệ nhân tạo gọi là học máy. Từ đó các đám mây và công nghệ sẽ xác định ý định của người dùng và trả về phản hồi thông qua ứng dụng hoặc thiết bị.
^[9]

Những thuận lợi và thử thách với doanh nghiệp khi triển khai VUI

Những thuận lợi

Kết hợp VUI vào sản phẩm, dịch vụ sẽ mang lại một lợi thế cạnh tranh vô cùng lớn so với các đối thủ ít có sự cập nhật công nghệ hơn.
Khai thác triệt để năng lực của đội ngũ nhân viên, tăng năng suất làm việc: Nhân viên sẽ tiết kiệm được rất nhiều thời gian khi thực hiện công việc của mình với VUI, đẩy nhanh tốc độ xử lý công việc và giải quyết được khối lượng công việc lớn hơn, mang lại năng suất làm việc cao hơn.
Tạo hiệu quả trong việc cộng tác giữa các nhân viên: Các công ty điển hình như Microsoft đang triển khai phòng họp tích hợp công nghệ mới để có thể thực hiện một loạt các tính năng thông minh như ghi chú, viết biên bản cuộc họp và gửi email cho tất cả các thành viên trong buổi họp. Đồng thời, họ luôn mong muốn cuộc họp có sự góp mặt của các thành viên đang làm việc từ xa và cả các thành viên gặp khó khăn trong việc nghe. Kế hoạch của họ là áp dụng VUI để chuyển dịch lời nói của mọi người tại thời điểm đó và chiếu lên màn hình để mọi người dễ dàng theo dõi cuộc họp.^[10]
Kết nối khách hàng với doanh nghiệp, phục vụ khách hàng tốt hơn, hiểu được insight của khách hàng: Trợ lý Google và Alexa là hai ví dụ tốt nhất của việc chăm sóc khách hàng đến từ Google và Amazon. Nhờ vào các trợ lý giọng nói ảo này, người dùng sẽ có cảm giác giống như có một người bạn luôn đồng hành với mình có thể giải đáp thắc mắc, thực hiện các nhiệm vụ, nhắc nhở,... 24/7. Hơn nữa, với mối quan hệ hợp tác có sẵn giữa Amazon và Logitech, Alexa còn có thể phủ sóng trên nhiều thiết bị khác nhau trên thị trường, nhằm mang thương hiệu Amazon đến gần hơn với khách hàng.^[11]

Những khó khăn

Phản hồi và duy trì cuộc hội thoại: Thách thức lớn nhất của việc triển khai VUI đó là việc thấu hiểu được sự phức tạp trong ngôn ngữ. Mỗi người dùng có một cách diễn đạt khác nhau cho một tình huống, và rất khó để hiểu được hết vô số những sắc thái trong lời nói của con người. Hơn nữa, hầu hết các công nghệ VUI hiện nay chưa được cập nhật tính năng đồng bộ bối cảnh, tức là nó rất có để có thể duy trì một câu chuyện dài. Vì vậy thật khó để đáp ứng được những kỳ vọng của người dùng khi những yêu cầu của họ về tính tương tác của ngôn ngữ đang là cao hơn những gì đa số các công nghệ VUI có thể đáp ứng.
Yêu cầu khi thiết kế: Thiết kế một giao diện bằng giọng nói sẽ gặp rất nhiều cản trở, VUI yêu cầu một hệ thống vận hành trơn tru và tích hợp các công nghệ hiện đại và vô cùng phức tạp, việc đầu tư về công nghệ trí tuệ nhân tạo sẽ tiêu tốn rất nhiều tài lực và nhân lực. Bên cạnh đó những yêu cầu về ngôn ngữ của người dùng là vô cùng khắt khe, nhưng đa số các sản phẩm có tích hợp VUI hỗ trợ lượng ngôn ngữ rất hạn chế vì việc hiểu rõ về ngữ cảnh, phong cách và đặc điểm để thiết kế giao diện cho một ngôn ngữ mới có tỷ lệ thành công vô cùng thấp.
Về chi phí: Để đầu tư thiết kế một giao diện giọng nói người dùng, doanh nghiệp phải tốn rất nhiều thời gian, nguồn nhân lực và đặc biệt là ngân sách, như là chi phí phục vụ cho việc thay đổi, cập nhật và cải tiến công nghệ, vận hành, bảo mật thông tin và hỗ trợ người dùng.
Tính bảo mật của thông tin^[12]: Người tiêu dùng luôn lo ngại về hành vi "luôn luôn lắng nghe", điều cần thiết cho việc áp dụng VUI một cách đồng bộ và cung cấp trải nghiệm đầy đủ và chính xác cho người dùng, nhất là sau khi nhiều chủ đề về rò rỉ thông tin người dùng xuất hiện hay những tin tức về việc một người có thể sử dụng những trợ lý ảo của người khác khi đứng trong phạm vi lắng nghe của nó. Điều này có thể ảnh hưởng đến niềm tin mà khách hàng đặt vào trợ lý ảo của mình. Một số sản phẩm đã được phát triển để giảm thiểu những lo ngại này nhưng chúng sẽ tiêu tốn thêm chi phí cho việc thực hiện và phát triển.^[13]

Ứng dụng trong thực tế cuộc sống, tiềm năng trong tương lai và những kỳ vọng về công nghệ

Ứng dụng trong thực tế cuộc sống

Đối với người dùng, họ không chỉ muốn biết rằng một hệ thống đã nhận được yêu cầu hay chỉ đơn giản là xác nhận thông tin mà họ còn muốn hệ thống sẽ hiểu họ đang nói gì, nghĩ gì và mong muốn điều gì. Cảm giác này đóng một vai trò quan trọng trong việc thiết lập một mức độ tin cậy lớn hơn, tạo niềm tin nơi người dùng và tăng trải nghiệm người dùng, đồng thời thể hiện sự tương tác rõ rệt hơn giữa con người và máy móc.

Năm 2016 nhằm đánh dấu kỷ niệm 100 năm thành lập của công ty mẹ BMW, mẫu xe điện 103EX ra đời và là chiếc xe điện tự lái đầu tiên của Rolls-Royce có khung gầm được chế tạo thủ công bằng vật liệu tiên tiến. Xe không có vô lăng trong cabin, nhiệm vụ lái xe được đảm nhiệm bởi Eleanor, một trợ lý ảo và tài xế ảo để tương tác với hành khách. Chúng có thể hiểu được những câu lệnh của hành khách và thực hiện những câu lệnh đó.^[14]
Những ông lớn công nghệ như Samsung hay LG đang phát hành tủ lạnh có nhận dạng giọng nói. Ứng dụng ThinQ của LG cho phép quản lý tất cả các thiết bị LG có hỗ trợ wi-fi bao gồm máy giặt, máy sấy, tủ lạnh, lò nướng, máy rửa chén, máy hút bụi, máy điều hòa không khí,... Khi sử dụng, người dùng có thể yêu cầu ứng dụng ThinQ kiểm tra thời gian còn lại sau khi giặt hoặc điều chỉnh nhiệt độ của điều hòa trong khi lái xe về nhà mà không cần phải nhìn vào màn hình điện thoại. Ứng dụng cung cấp thông tin hữu ích về các tính năng và chức năng của sản phẩm và cảnh báo cho người dùng về các vấn đề bảo trì và khắc phục sự cố. Chẳng hạn như chỉ cần hỏi: "Chức năng tự động lọc không khí hoạt động như thế nào ?" hoặc "Đèn vàng trên tủ lạnh có nghĩa là gì ?" thì người dùng sẽ nhận được phản hồi nhanh chóng ngay trong ứng dụng.^[15]
Tổng đài trí tuệ nhân tạo Vbee AI Call Center giúp thay thế 70% con người trong những công việc chăm sóc khách hàng đơn giản, có tính lặp lại như xác nhận đơn hàng khảo sát thị trường,... hay những trường hợp truyền tin khẩn cấp dịch bệnh, trợ lý ảo, báo nói tự động, chatbot, các giải pháp tích hợp IOT (Loa thông minh, nhà thông minh),...

^[16]

Tuy nhiên các hệ thống VUI hiện nay vẫn chưa thể giải thích hết được những mệnh lệnh được yêu cầu bởi người dùng khi được hỏi lại bởi vì bản chất chúng không phải con người nên chúng không hiểu được ý nghĩa của những câu lệnh đó. Và mong muốn của người dùng chính là trong tương lai hệ thống VUI có thể dự đoán những hành vi của người dùng thông qua những lần tương tác trước đó, ghi nhớ để có thể đưa ra đề xuất, chuẩn bị sẵn sàng những việc sẽ xảy ra.

Ứng dụng tiềm năng trong tương lai

Công nghệ VUI dự báo trong tương lai sẽ xuất hiện nhiều trong các lĩnh vực khác trong cuộc sống như ở nơi làm việc, khu vườn, lớp học hay trạm xe buýt...

VUI cũng được kì vọng phát triển ngành Marketing vào hoạt động như một công cụ marketing mới giúp doanh nghiệp thiết lập mối quan hệ tương tác mạnh mẽ với khách hàng, tìm kiếm những khách hàng mới, đặc biệt là trong tiếp thị đàm thoại (conversational marketing). Tiếp thị đàm thoại là cơ hội tốt nhất để thực hiện những giao dịch mang tính cá nhân hóa thông qua các thiết bị thông minh như điện thoại, laptop,... và khi VUI càng phát triển thì những cơ hội và tiềm năng của tiếp thị đàm thoại sẽ càng được khai thác hiệu quả. Khi mà lúc này doanh nghiệp có thể tạo ra cuộc hội thoại như là một trải nghiệm trò chuyện trực tiếp với khách hàng thông qua VUI, đem lại cảm giác thân mật và mang tính cá nhân trong quá trình tiếp thị. Để khai thác được những tiềm năng này, cần phải có sự kết hợp chặt chẽ và cẩn thận của hệ thống VUI và các chuyên gia marketing để thiết kế được một hệ thống phù hợp, đúng mục đích và đạt hiệu quả cao.^[17]

VUI cũng sẽ có lợi cho người dùng máy tính cỡ laptop và máy tính để bàn, vì nó sẽ giải quyết được nhiều vấn đề hiện nay liên quan đến việc sử dụng bàn phím và chuột, bao gồm các chấn thương do sử dụng bàn phím liên tục và tốc độ gõ chậm của người dùng bàn phím thiếu kinh nghiệm. Từ những hướng phát triển như vậy, các thiết bị di động sẽ được thiết kế với màn hình lớn hơn, dễ dàng hơn vì không cần dùng đến bàn phím. Các thiết bị màn hình cảm ứng sẽ không còn cần phải phân chia màn hình giữa nội dung và bàn phím trên màn hình, do đó có thể cung cấp chế độ xem toàn màn hình cho nội dung của chiếc điện thoại. Máy tính xách tay về cơ bản có thể bị cắt giảm một nửa về kích thước, vì một nửa bàn phím sẽ bị loại bỏ. Máy tính để bàn sẽ chỉ bao gồm CPU và màn hình, tiết kiệm không gian khi có thể loại bỏ phần còn lại của bàn phím trượt được xây dựng dưới bề mặt bàn. Các thiết bị khác cũng sẽ có được không gian rộng rãi hơn mà không còn quá cồng kềnh như tivi có thể điều khiển từ xa đến những nút điều chỉnh trên lò vi sóng hay các máy photocopy cũng có thể được loại bỏ.

Những kỳ vọng về công nghệ

Xử lý các câu lệnh phức tạp hơn

VUI được kỳ vọng có thể xử lý nhiều công việc cùng một lúc. Đầu năm nay, Google đã bắt đầu triển khai hỗ trợ nhiều lệnh cho Google home. Bây giờ nó có thể hỗ trợ tối đa 3 yêu cầu trong cùng một câu. Chẳng hạn như: "Này Google, cho tôi biết vị trí nhà hàng BBQ Nhật Bản gần đây, thời gian đi là bao lâu và đề xuất cho tôi phương tiện đến đó". Google hiện có thể hiểu các lệnh cơ bản khi được xâu chuỗi lại với nhau trong một câu. Tuy nhiên, nó vẫn còn là một thách thức với các lệnh phức tạp và câu nhiều mệnh đề. Ngay cả khi VUI có thể xử lý các câu hỏi phức tạp, nhưng chúng cần phải được hỏi theo một cách rất cụ thể thì thiết bị mới có thể hiểu được câu lệnh đó.

Bối cảnh

Một thiết bị có thể chứa bộ nhớ của các tương tác trước đó có thể giúp thiết bị hiểu được các yêu cầu trong tương lai của người dùng. Chẳng hạn như khi người dùng muốn hỏi rằng: "Từ nơi tôi đang đứng đến sân bay Tân Sơn Nhất mất thời gian bao lâu ?", hệ thống trả lời rằng "Mất 30 phút". Người dùng ra câu lệnh là "Đặt cho tôi một chiếc taxi" và hệ thống sẽ trả lời được rằng: "Chắc chắn rồi. Bạn có muốn tôi đặt một chiếc taxi đến sân bay Tân Sơn Nhất hay một nơi nào khác ?"

Việc ghi nhớ những hoạt động trong quá khứ này sẽ giúp cho người dùng tiết kiệm thời gian và cũng cảm thấy dễ chịu hơn thì không phải lặp đi lặp lại những câu lệnh cũ quá nhiều lần. Cách ghi nhớ về linh hoạt theo bối cảnh là một tính năng rất được mong đợi, nó cần được sử dụng bằng trực giác. Nếu một người dùng hỏi về sân bay Tân Sơn Nhất cho một người bạn, điều đó sẽ không liên quan đến họ. VUI cần phải có khả năng hiểu Khi nào bối cảnh hữu ích cho người dùng và khi nào nó không thích hợp với hoàn cảnh khi tương tác. Điều này có thể được thực hiện bằng cách tham chiếu chéo các sự kiện lịch hoặc bằng cách học hỏi từ dữ liệu người dùng về các ví dụ tương tác trước đó qua việc ứng dụng học máy.

Nhận thức

Việc nhận thức này sẽ trở nên hiệu quả khi kết hợp với bối cảnh. Nhận thức về các thiết bị hiện tại, vị trí và các tương tác gần đây tạo thành ảo giác về nhận thức. Nếu thiết bị biết rằng người dùng đang ở nhà thay vì ở nơi làm việc, việc tìm kiếm vị trí có thể phù hợp hơn. Nếu thiết bị biết rằng người dùng đã xem các món ăn ở một trang web của cửa hàng thức ăn Hàn Quốc thì rất có thể họ đang muốn ăn món ăn đó. Nếu thiết bị có thể tham chiếu chéo với lịch của người dùng, nó có thể xác minh ngày mà họ đang truy cập vào những trang web nào. Hệ thống này sẽ có thể hiểu được hành vi của người dùng và dự đoán được những nhu cầu cũng như mong muốn của họ.

Nếu một ngày thiết bị thông minh của người dùng có thể cung cấp cho người dùng mọi thứ người dùng cần cho cả ngày dựa trên các thông tin lịch trình trước đây của người dùng. Chẳng hạn như thứ hai người dùng sẽ thức dậy lúc mấy giờ, người dùng sẽ rời khỏi nhà để đi đâu, người dùng đi bằng gì và người dùng sẽ ăn trưa chỗ nào,... Từ đó, thiết bị sẽ cung cấp thông tin hợp lý và chính xác cho người dùng như ghi nhớ báo thức, gợi ý phương tiện đi lại cho người dùng và nhà hàng người dùng hay ăn.

Đồng cảm về ngôn ngữ

Khi người dùng cảm thấy rằng trợ lý cá nhân của người dùng là người cũng có cách nói chuyện, sở thích và tính cách giống như người dùng thì điều đó sẽ làm tăng sự tin tưởng của người dùng dành cho họ. Chẳng hạn như nói chuyện với trẻ em bằng những từ đơn giản hơn và những câu lệnh ngắn hơn để trẻ em có thể hiểu được những gì thiết bị đang nói. Thiết bị này cũng đã và đang được thử nghiệm với Pretty Home của Google Home, một tính năng có thể được kích hoạt để khuyến khích trẻ em lịch sự khi sử dụng Google. Khả năng VUI thực hiện điều này sẽ tự động phá vỡ các rào cản ngôn ngữ hơn nữa, đảm bảo rằng người dùng và VUI đều nói cùng một ngôn ngữ.

VUI đôi khi có thể hiểu tạm dừng trong lời nói là một gợi ý để bắt đầu trả lời một câu hỏi. Điều này không chỉ gây khó chịu cho người dùng mà trợ lý sẽ không thể hiển thị thông tin chính xác từ một câu chưa hoàn thành. Bằng cách học các mẫu giọng nói, các thiết bị sẽ có thể hiểu khi người dùng tạm dừng hoặc kết thúc yêu cầu của họ. Điều này cũng có thể tiến thêm một bước và giao tiếp với những đối tượng, ngữ cảnh khác nhau dựa trên tính cách, tâm trạng và tuổi tác của người dùng.^[18]

Lịch sử

Năm 1952, các kỹ sư tại Bell Labs đã phát triển một bộ nhận dạng chữ số tự động có tên Audrey. Audrey cao 6 feet, có nhiều tín hiệu tương tự với tụ điện, bộ khuếch đại và bộ lọc. Mặc dù thiết bị có thể nhận ra đầu vào bằng giọng nói với độ chính xác 97-99% nhưng chính vì kích thước lớn, chi phí cao và thiết bị điện tử phức tạp nên nó đã không thể trở thành một sản phẩm được thương mại hóa. Tuy nhiên, thiết bị Audrey này cũng đã đánh dấu sự khởi đầu của VUI và tiếp tục cho những nghiên cứu sau đó.

VUI thế hệ đầu tiên được SpeechWorks và Nuance giới thiệu vào năm 1984 thông qua các hệ thống tổng đài trả lời tự động (IVR). Những IVR này có thể nhận ra giọng nói của con người qua cuộc gọi và thực hiện các nhiệm vụ được giao cho chúng. Bất cứ ai có điện thoại đều có thể nhận được tất cả thông tin như tìm thời gian chiếu phim địa phương, nghe thông tin giao thông, báo giá cổ phiếu, đặt chuyến bay máy bay, chuyển tiền giữa các tài khoản, đặt mua thuốc theo toa,... Mọi thứ chỉ xoay quanh chiếc điện thoại cầm tay và giọng nói của con người. Các hệ thống IVR đã trở thành xu hướng chủ đạo trong những năm 2000 và là một phần chính của các dịch vụ chăm sóc và hỗ trợ khách hàng ngày nay.

Năm 2006, Apple đã giới thiệu khái niệm về Siri, cho phép người dùng tương tác với các máy sử dụng giọng nói. Sau đó, Google đã giới thiệu một nghiên cứu hỗ trợ giọng nói vào năm 2007. Những gã khổng lồ công nghệ như Microsoft, Apple và Google sau đó đã tung ra trợ lý giọng nói cho thiết bị di động.

Siri (Apple, 2007)
Cortana (Microsoft, 2011)
Trợ lý Google (Google, 2016)^[19]

Năm 2014 Amazon đã giới thiệu Amazon Echo, một loa thông minh tích hợp với trợ lý ảo (Alex, Siri...). Những lời này có thể được kết hợp với các ứng dụng di động thông qua kỹ năng Alexa. Tương tự, các đối thủ cạnh tranh để giới thiệu Google home, Apple Homepod để cải thiện trải nghiệm người dùng khi họ ở văn phòng, nhà hoặc thậm chí tại trung tâm mua sắm.^[20]