Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

Realtime Tech công bố mô hình giọng nói gpt-realtime nâng cao

Generatived

0:00 1/9/25

Những tiến bộ mới nhất trong công nghệ giọng nói được thể hiện rõ qua việc phát hành mô hình tổng hợp giọng nói nâng cao "gpt-realtime" và những cải tiến cho API Thời gian thực. API này đơn giản hóa việc tích hợp với máy chủ MCP từ xa, chụp ảnh và gọi SIP, cung cấp cho các nhà phát triển và doanh nghiệp các công cụ để xây dựng các tác nhân giọng nói tiên tiến và nhạy bén hơn. Các tác nhân này sau đó có thể tận dụng ngữ cảnh và khả năng bổ sung để xử lý nhiều tác vụ hơn.

Mô hình gpt-realtime đại diện cho một bước đột phá lớn trong tổng hợp giọng nói, mang lại giọng nói tự nhiên và biểu cảm hơn. Nó vượt trội trong việc hiểu các hướng dẫn phức tạp và có thể chuyển đổi ngôn ngữ giữa câu, cải thiện trải nghiệm người dùng trong hỗ trợ khách hàng và các ứng dụng tương tác khác. Khả năng hiểu được cải thiện của mô hình này thể hiện rõ qua khả năng diễn giải chính xác hơn các thông báo hệ thống và lời nhắc của nhà phát triển. Ngoài ra, hai giọng nói mới, Cedar và Marin, đã được bổ sung, giúp tăng thêm sự đa dạng của các tùy chọn giọng nói có sẵn thông qua API thời gian thực.

Kể từ khi phát hành phiên bản beta công khai, API thời gian thực đã được tối ưu hóa, tập trung vào độ tin cậy, latency thấp và chất lượng sản xuất âm thanh cao. Phương pháp API mô hình đơn này hợp lý hóa quy trình tạo âm thanh, giảm latency và giữ nguyên sắc thái của giọng nói. Mô hình gpt-realtime được đào tạo để tuân theo các hướng dẫn chi tiết và gọi các công cụ một cách chính xác, biến nó thành một giải pháp mạnh mẽ để triển khai các tác nhân giọng nói trong nhiều môi trường sản xuất khác nhau.

Giờ đây, các nhà phát triển có thể tận dụng API thời gian thực phổ biến và mô hình gpt-realtime mới. API này có giá giảm 20% so với các dịch vụ trước đây. Giá API được thiết kế để tiết kiệm chi phí, đặc biệt là cho các phiên làm việc dài, và các nhà phát triển có thể đặt giới hạn mã thông báo thông minh và cắt ngắn các cuộc trò chuyện một cách hiệu quả. Đối với những người quan tâm đến việc dùng thử các tính năng mới này, tài liệu hướng dẫn toàn diện và sân chơi thử nghiệm có sẵn để dễ dàng tích hợp và áp dụng.

Nguồn: Blog OpenAI

Chia sẻ bài viết này:

Tin tức mới nhất

Google Tech ra mắt Gemini để tăng cường bảo mật cho AI tại chỗ

0:00 1/9/25

Google Distributed Cloud (GDC) gần đây đã gây chú ý lớn khi công bố phát hành Gemini trên GDC.

đọc thêm

GeminiTech phát hành mô hình văn bản-hình ảnh thống nhất mới

0:00 1/9/25

Gemini 2.5 Flash Image giới thiệu một mô hình mới tích hợp liền mạch việc xử lý văn bản và hình ảnh chỉ trong một bước.

đọc thêm

Realtime Tech công bố mô hình giọng nói gpt-realtime nâng cao

0:00 1/9/25

Những tiến bộ mới nhất trong công nghệ giọng nói được thể hiện rõ qua việc phát hành mô hình tổng hợp giọng nói nâng cao, gpt-realtime và các cải tiến đối với API thời gian thực.

đọc thêm

Chương trình đào tạo AI của Agent đã được triển khai

0:00 1/9/25

Agent (Shibuya-ku, Tokyo) đã triển khai chương trình đào tạo cho dịch vụ hỗ trợ triển khai AI toàn diện của mình, "AI Partners".

đọc thêm

Chia sẻ bài viết này:

Danh mục

Trình nâng cao hình ảnh AI

Trình tạo mã AI

Quản lý tác vụ AI

Không có mã/mã thấp

Trình tạo thiết kế đồ họa AI

Trình tạo minh họa/nghệ thuật AI

Tất cả công cụ

Tin tức

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI sáng tạo

Hướng dẫn ứng dụng AI cơ bản

Hồ sơ công ty

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Ngôn ngữ

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Hãy theo dõi chúng tôi

Ngôn ngữ

Danh mục

Tất cả công cụ

Quản lý tác vụ AI

Trình tạo thiết kế đồ họa AI

Không có mã/mã thấp

Trình tạo mã AI

Trình nâng cao hình ảnh AI

Trình tạo minh họa/nghệ thuật AI

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI tạo ra

Hướng dẫn ứng dụng AI cơ bản

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Tin tức mới nhất

Google Tech ra mắt Gemini để tăng cường bảo mật cho AI tại chỗ

0:00 1/9/25

Google Distributed Cloud (GDC) gần đây đã gây chú ý lớn khi công bố phát hành Gemini trên GDC.

đọc thêm

GeminiTech phát hành mô hình văn bản-hình ảnh thống nhất mới

0:00 1/9/25

Gemini 2.5 Flash Image giới thiệu một mô hình mới tích hợp liền mạch việc xử lý văn bản và hình ảnh chỉ trong một bước.

đọc thêm

Realtime Tech công bố mô hình giọng nói gpt-realtime nâng cao

0:00 1/9/25

Những tiến bộ mới nhất trong công nghệ giọng nói được thể hiện rõ qua việc phát hành mô hình tổng hợp giọng nói nâng cao, gpt-realtime và các cải tiến đối với API thời gian thực.

đọc thêm

Chương trình đào tạo AI của Agent đã được triển khai

0:00 1/9/25

Agent (Shibuya-ku, Tokyo) đã triển khai chương trình đào tạo cho dịch vụ hỗ trợ triển khai AI toàn diện của mình, "AI Partners".

đọc thêm