Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

Google nâng cấp Gemini Native Audio, giới thiệu tính năng dịch trực tiếp.

Generatived

0:00 16/12/25

Gemini 2.5 nâng cấp Flash Native Audio, mang đến trải nghiệm hội thoại tự nhiên hơn cho các trợ lý giọng nói trực tiếp. Bản cập nhật này, có sẵn trên nhiều sản phẩm Google bao gồm Google AI Studio và Vertex AI, nhằm mục đích cải thiện việc quản lý quy trình làm việc phức tạp, điều hướng do người dùng định hướng và tính tự nhiên tổng thể của cuộc hội thoại. Các tính năng mới này cũng được giới thiệu trên Gemini Live và Search Live, đánh dấu lần đầu tiên âm thanh gốc được tích hợp vào Search Live.

Phiên bản cập nhật có một số cải tiến, bao gồm cải thiện độ chính xác của các lệnh gọi hàm. Ví dụ, nó đạt được điểm số 71,5% trên ComplexFuncBench Audio, một công cụ đánh giá các lệnh gọi hàm nhiều bước. Nó cũng cải thiện khả năng tuân thủ hướng dẫn của nhà phát triển lên 90% và cải thiện đáng kể chất lượng hội thoại nhiều lượt. Những cải tiến này sẽ nâng cao độ tin cậy và tính nhất quán của các tương tác giữa người dùng và trợ lý giọng nói.

Bên cạnh các tính năng hội thoại được cải tiến, Gemini còn mở rộng khả năng của mình với việc giới thiệu tính năng dịch giọng nói trực tiếp. Hiện đang ở phiên bản beta trên ứng dụng Google , tính năng này cung cấp khả năng dịch giọng nói trực tuyến trong khi vẫn giữ nguyên ngữ điệu, tốc độ và cao độ của người nói. Nó hỗ trợ hơn 70 ngôn ngữ và 2.000 cặp ngôn ngữ, hiểu nhiều ngôn ngữ cùng lúc và tự động phát hiện cũng như dịch ngôn ngữ đang được nói, ngay cả trong môi trường ồn ào.

Tính năng dịch giọng nói trực tiếp hiện đang được triển khai trên các thiết bị Android tại Hoa Kỳ, Mexico và Ấn Độ, và dự kiến sẽ mở rộng sang iOS và các khu vực khác trong tương lai. Người dùng có thể truy cập phiên bản beta bằng cách kết nối tai nghe với thiết bị của mình và chọn "Dịch trực tiếp". Gemini 2.5 Flash Native Audio hiện đã có sẵn trên Vertex AI, và phiên bản xem trước có thể được truy cập thông qua API Gemini. Các mô hình chuyển văn bản thành giọng nói Gemini 2.5 Flash và 2.5 Pro có thể được truy cập thông qua API Gemini trong Google AI Studio.

Nguồn: Blog của DeepMind

Chia sẻ bài viết này:

Tin tức mới nhất

Mavericks bổ sung giao diện người dùng tiếng Hàn cho nền tảng NoLang.

0:00 21/4/26

Mavericks vừa thông báo bổ sung giao diện tiếng Hàn cho công cụ tạo video bằng trí tuệ nhân tạo “NoLang”, mở rộng phạm vi ngôn ngữ được hỗ trợ lên bốn.

đọc thêm

DailyTrial ra mắt ứng dụng công cụ cố vấn AI miễn phí.

0:00 21/4/26

DailyTrial vừa thông báo ra mắt “AI Mentor: DailyTrial-chan”, một ứng dụng miễn phí hướng dẫn người dùng thực hiện các thao tác trên máy tính bằng con trỏ trên màn hình

đọc thêm

Net Reputation ra mắt dịch vụ tìm kiếm ngược bằng AI.

0:00 21/4/26

Net Reputation vừa công bố ra mắt dịch vụ quản lý danh tiếng kết hợp tìm kiếm ngược bằng AI, LLMO ngược và các biện pháp GEO ngược.

đọc thêm

DXHR hợp tác với các đối tác về Chiến lược Thông tin và Công nghệ cho Trí tuệ Nhân tạo (AI).

0:00 21/4/26

DXHR vừa công bố hợp tác với Information Strategy Technology để thúc đẩy các dịch vụ hỗ trợ chuyển đổi số dựa trên trí tuệ nhân tạo (AI).

đọc thêm

Chia sẻ bài viết này:

Danh mục

Trình nâng cao hình ảnh AI

Trình tạo mã AI

Quản lý tác vụ AI

Không có mã/mã thấp

Trình tạo thiết kế đồ họa AI

Trình tạo minh họa/nghệ thuật AI

Tất cả công cụ

Tin tức

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI sáng tạo

Hướng dẫn ứng dụng AI cơ bản

Hồ sơ công ty

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Ngôn ngữ

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Hãy theo dõi chúng tôi

Ngôn ngữ

Danh mục

Tất cả công cụ

Quản lý tác vụ AI

Trình tạo thiết kế đồ họa AI

Không có mã/mã thấp

Trình tạo mã AI

Trình nâng cao hình ảnh AI

Trình tạo minh họa/nghệ thuật AI

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI tạo ra

Hướng dẫn ứng dụng AI cơ bản

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Tin tức mới nhất

Mavericks bổ sung giao diện người dùng tiếng Hàn cho nền tảng NoLang.

0:00 21/4/26

Mavericks vừa thông báo bổ sung giao diện tiếng Hàn cho công cụ tạo video bằng trí tuệ nhân tạo “NoLang”, mở rộng phạm vi ngôn ngữ được hỗ trợ lên bốn.

đọc thêm

DailyTrial ra mắt ứng dụng công cụ cố vấn AI miễn phí.

0:00 21/4/26

DailyTrial vừa thông báo ra mắt “AI Mentor: DailyTrial-chan”, một ứng dụng miễn phí hướng dẫn người dùng thực hiện các thao tác trên máy tính bằng con trỏ trên màn hình

đọc thêm

Net Reputation ra mắt dịch vụ tìm kiếm ngược bằng AI.

0:00 21/4/26

Net Reputation vừa công bố ra mắt dịch vụ quản lý danh tiếng kết hợp tìm kiếm ngược bằng AI, LLMO ngược và các biện pháp GEO ngược.

đọc thêm

DXHR hợp tác với các đối tác về Chiến lược Thông tin và Công nghệ cho Trí tuệ Nhân tạo (AI).

0:00 21/4/26

DXHR vừa công bố hợp tác với Information Strategy Technology để thúc đẩy các dịch vụ hỗ trợ chuyển đổi số dựa trên trí tuệ nhân tạo (AI).

đọc thêm