Công trình nghiên cứu giúp tăng độ chính xác của các mô hình nhận dạng tiếng nói trong thời gian thực (Streaming Automatic Speech Recognition) thực hiện bởi kỹ sư Zalo AI vừa được chấp nhận công bố tại Hội nghị khoa học hàng đầu thế giới về Xử lý tiếng nói – Interspeech, dự kiến diễn ra tại Hy Lạp vào tháng 9/2024.
Thực hiện bởi kỹ sư sinh năm 2000 Lê Duy Khánh đến từ Zalo AI dưới sự hướng dẫn của TS. Châu Thành Đức – Trưởng bộ phận Nghiên cứu và phát triển tại Zalo AI, Giảng viên trường ĐH Khoa học tự nhiên, ĐH Quốc gia TP.HCM, nghiên cứu này có đóng góp quan trọng giúp nâng cấp các mô hình nhận dạng tiếng nói và tăng độ chính xác của tính năng soạn tin nhắn bằng giọng nói (dictation) và tính năng chuyển tin nhắn thoại thành văn bản (voice-to-text) trên ứng dụng Zalo.
Được đánh giá cao cả về tính học thuật lẫn thực tiễn, bài nghiên cứu của Zalo AI đã vượt qua vòng xét duyệt khắt khe và sẽ được trình bày tại Hội nghị Interspeech dưới hình thức thuyết trình (oral session). Mỗi năm, Interspeech tiếp nhận hàng nghìn bài báo từ nhiều khía cạnh của lĩnh vực Xử lý tiếng nói. Để được giới thiệu dưới hình thức thuyết trình (oral session) thay vì treo poster (poster session), báo cáo của kỹ sư sinh năm 2000 đã phải vượt qua vòng xét duyệt với hơn 2.000 bài báo tham dự và đạt điểm số gần như tuyệt đối, 11/12 điểm.
Được biết, nghiên cứu này đã được Zalo tích hợp vào ứng dụng nhắn tin của mình từ cuối năm 2023, mang lại sự cải thiện đáng kể về độ chính xác cho tính năng “soạn tin nhắn bằng giọng nói” (voice dictation) đang trong giai đoạn thử nghiệm.
Tính năng này cho phép người dùng soạn tin nhắn bằng giọng nói, thay vì phải gõ tay, giúp tiết kiệm thời gian và tiện lợi hơn trong nhiều tình huống sử dụng. Sau khi áp dụng các cải tiến từ nghiên cứu, độ chính xác của tính năng này đã đạt tới 95% trong môi trường thực tế, với tỷ lệ cần chỉnh sửa lại văn bản sau khi soạn bằng giọng nói cũng giảm từ 6,4% xuống chỉ còn 4,8%.
Theo thống kê của Zalo, mặc dù tính năng vẫn đang trong giai đoạn thử nghiệm, nhưng đã tạo ra gần 4,5 triệu tin nhắn mỗi ngày và thu hút khoảng 3,2 triệu người dùng hàng tháng (dữ liệu cập nhật đến tháng 6/2024).
Ngoài việc cải thiện tính năng hiện có, đề tài nghiên cứu này còn có tiềm năng ứng dụng rộng rãi để nâng cấp nhiều sản phẩm và dịch vụ khác, bao gồm chatbot giọng nói, trợ lý giọng nói, hoặc tính năng tự động tạo bản ghi (transcript) cho các cuộc gọi video…
Interspeech là một hội thảo quốc tế lâu đời, toàn diện và uy tín hàng đầu về lĩnh vực Xử lý tiếng nói (Speech Processing) do Hiệp hội Giao tiếp tiếng nói Quốc tế (International Speech Communication Association) tổ chức. Đây cũng là một trong số ít các hội thảo quốc tế được xếp hạng A bởi Hiệp hội Máy tính và nghiên cứu giáo dục của Australia (CORE).
Năm nay, Interspeech tổ chức lần thứ 25 và sẽ diễn ra từ ngày 1- 5/9 tại đảo Kos (Hy Lạp). Với chủ đề “Speech and beyond” (Tạm dịch: Tiếng nói và hơn thế nữa), hội nghị năm nay sẽ tập trung vào các phương thức tiếp cận đa dạng nhằm giải quyết các vấn đề liên quan đến khoa học và công nghệ về tiếng nói và ngôn ngữ của con người, từ lý thuyết đến ứng dụng thực tiễn.