Google vừa chính thức ra mắt mô hình âm thanh Gemini 3.5 Live Translate, cho phép dịch hội thoại trực tiếp với độ trễ thấp, áp dụng trên phạm vi toàn cầu, trong đó có Việt Nam.
Công nghệ này có khả năng tự động nhận diện và hỗ trợ hơn 70 ngôn ngữ, giúp các cuộc trò chuyện giữa người dùng ở nhiều quốc gia diễn ra liên tục, tự nhiên mà không cần chờ người nói hoàn thành câu.
Khác với các hệ thống dịch thuật truyền thống vốn yêu cầu người dùng nói theo lượt và chờ bản dịch hoàn chỉnh, Gemini 3.5 Live Translate hoạt động theo cơ chế xử lý và phát âm thanh dạng luồng.
Nội dung dịch được tạo ra gần như song song với lời nói gốc, chỉ chậm vài giây nhằm đảm bảo tính liền mạch và tự nhiên của cuộc hội thoại.
Google cho biết mô hình mới được thiết kế để hoạt động hiệu quả trong nhiều điều kiện khác nhau, kể cả môi trường có nhiều tạp âm hoặc khi các bên giao tiếp nói xen lẫn nhau.
Đáng chú ý, công nghệ này không chỉ dừng lại ở việc chuyển ngữ nội dung mà còn tái hiện được các đặc điểm giọng nói của người nói như tốc độ, ngữ điệu, cao độ và cảm xúc, giúp trải nghiệm giao tiếp trở nên chân thực hơn.
Hiện tại, Google đã triển khai Gemini 3.5 Live Translate thông qua Gemini Live API và tích hợp vào các ứng dụng quen thuộc như Google Meet và Google Translate trên cả nền tảng Android và iOS.

Người dùng kết nối tai nghe, sau đó vào nền tảng Google dịch, nhấp vào mục "Cuộc trò chuyện", chọn tính năng "Nghe" để trải nghiệm
Người dùng cá nhân có thể trải nghiệm trực tiếp thông qua ứng dụng Google Translate, đặc biệt khi kết nối tai nghe, hệ thống sẽ phát lại phần dịch với tông giọng gần giống người nói gốc.
Trên thiết bị Android, người dùng còn có thêm tùy chọn áp điện thoại lên tai để nghe bản dịch như đang thực hiện cuộc gọi, hạn chế việc phát âm thanh ra ngoài. Tính năng này được đánh giá phù hợp với các tình huống cần sự riêng tư như công tác hoặc du lịch nước ngoài.
Tính năng dịch trực tiếp của Google. Nguồn: Google
Trong môi trường doanh nghiệp, Google Meet đang thử nghiệm tính năng dịch trực tiếp với một số khách hàng Google Workspace từ tháng này, trước khi mở rộng vào cuối năm.
Bản cập nhật mới nâng số ngôn ngữ hỗ trợ từ 5 lên hơn 70, cho phép tạo hơn 2.000 cặp ngôn ngữ trong cùng một cuộc họp, thay vì chỉ dịch sang tiếng Anh như trước.
Ngoài hệ sinh thái Google, nhiều đối tác như Agora, LiveKit hay Pipecat đã tích hợp mô hình này để phát triển ứng dụng giao tiếp đa ngôn ngữ mà không cần tự xây dựng hạ tầng phức tạp.
Grab cũng đang thử nghiệm công nghệ nhằm hỗ trợ giao tiếp giữa tài xế và hành khách, trong bối cảnh nền tảng này xử lý hơn 10 triệu cuộc gọi mỗi tháng.
Theo ông Philipp Kandal, Giám đốc Sản phẩm của Grab, công cụ của Google gây ấn tượng với khả năng phát hiện nhiều ngôn ngữ, độ chính xác cao và độ trễ thấp, đặc biệt hữu ích trong bối cảnh nền tảng này xử lý hơn 10 triệu cuộc gọi thoại mỗi tháng.
Việc triển khai Gemini 3.5 Live Translate được kỳ vọng sẽ thay đổi cách con người giao tiếp xuyên biên giới, đồng thời mở ra nhiều ứng dụng thực tiễn trong công việc, du lịch và đời sống hàng ngày.
0 nhận xét:
Đăng nhận xét