top of page

Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

logo.png

Giới thiệu Voicebox, những tiến bộ trong AI tạo giọng nói

Theo các nhà nghiên cứu AI tại Meta, Voicebox, AI tạo giọng nói, có hiệu suất và tính năng được sử dụng cho nhiều tác vụ tạo giọng nói khác nhau.

Hộp thoại vượt xa các bộ tổng hợp giọng nói trước đây bằng cách cho phép bạn tạo các clip âm thanh chất lượng cao theo nhiều phong cách. Không giống như các phiên bản trước, Voicebox có thể tạo đầu ra từ đầu hoặc sửa đổi các mẫu hiện có với độ chính xác cao. Các khả năng của mô hình bao gồm tổng hợp giọng nói bằng sáu ngôn ngữ khác nhau, loại bỏ tiếng ồn, chỉnh sửa nội dung, chuyển đổi kiểu và lấy mẫu đa dạng được Meta AI chi tiết hóa.


Theo các nhà nghiên cứu của MIT, Voicebox là mô hình tiên tiến nhất hiện nay trong tính năng chuyển văn bản thành giọng nói không cần nhấn nút, cả về mức độ dễ hiểu (tỷ lệ lỗi từ 5,9% so với 1,9%) và độ tương tự của giọng nói (0,580 so với 1,9%). 0,681). Nó được cho là nhanh hơn 20 lần so với VALL-E.

Hộp thoại có nhiều công dụng:

Chuyển văn bản thành giọng nói trong ngữ cảnh: :Voicebox khớp với các kiểu âm thanh và có thể được sử dụng để tạo chuyển văn bản thành giọng nói dựa trên mẫu đầu vào 2 giây. Điều này mở ra khả năng hỗ trợ những người không thể nói cũng như tùy chỉnh giọng nói của trợ lý ảo và nhân vật không phải người chơi.
Chuyển phong cách qua các ngôn ngữ: Với các mẫu âm thanh và đoạn văn bản ở các ngôn ngữ khác nhau, Hộp thoại có thể tạo văn bản to bằng ngôn ngữ đó, khuyến khích giao tiếp tự nhiên và chân thực vượt qua các rào cản ngôn ngữ.
Khử nhiễu và chỉnh sửa âm thanh: Hộp thoại vượt trội trong việc chỉnh sửa liền mạch các phân đoạn trong bản ghi âm. Bạn có thể loại bỏ các tiếng ồn ngắn hoặc thay thế các từ sai chính tả mà không cần phải ghi lại toàn bộ âm thanh. Tính năng này giúp đơn giản hóa các tác vụ chỉnh sửa âm thanh cũng như các công cụ chỉnh sửa hình ảnh thông thường.
Lấy mẫu âm thanh đa dạng: Dựa trên quá trình đào tạo với nhiều dữ liệu trong thế giới thực, Voicebox tạo ra âm thanh thể hiện chặt chẽ các mẫu giọng nói trong thế giới thực trên các ngôn ngữ được hỗ trợ. Có thể tạo dữ liệu tổng hợp để đào tạo các mô hình trợ lý giọng nói một cách hiệu quả.
Chia sẻ nghiên cứu của bạn một cách có trách nhiệm

Meta AI đã quyết định không công khai mô hình và mã của nó vào thời điểm này, với lý do cần phải cân bằng giữa tính cởi mở và trách nhiệm trong khi thể hiện tiềm năng của Voicebox trong việc thúc đẩy AI tạo giọng nói. Thay vào đó, họ chia sẻ các mẫu âm thanh và tài liệu nghiên cứu nêu chi tiết cách tiếp cận và kết quả của họ, nhấn mạnh tầm quan trọng của việc phát triển AI có trách nhiệm và tiếp tục các cuộc trò chuyện xung quanh tác động của nó.

Chia sẻ bài viết này:

Tin tức mới nhất
Giới thiệu Spicecode AI Agent

Giới thiệu Spicecode AI Agent

24/12/13 4:30

Spicecode (Chuo-ku, Tokyo) thông báo rằng họ sẽ cung cấp chức năng tác nhân AI cho dịch vụ ERP "Locale Order for B2B" từ nửa đầu năm 2025.

Nghiên cứu thị trường Generative AI Aung Consulting

Nghiên cứu thị trường Generative AI Aung Consulting

24/12/13 4:30

Aung Consulting (Chiyoda-ku, Tokyo) đã điều tra khối lượng tìm kiếm về Generative AI ở 18 quốc gia và khu vực trên toàn thế giới.

OSIRO ra mắt cộng đồng AI

OSIRO ra mắt cộng đồng AI

24/12/13 4:30

OSIRO (Shibuya-ku, Tokyo) đã thông báo rằng họ sẽ ra mắt "Linear", một cộng đồng trực tuyến do chuyên gia tư vấn AI/ Digital Transformation Yosuke Kurashima tổ chức trên nền tảng "OSIRO".

Tính năng mới được thêm vào CLINKS Narration Full Chat

Tính năng mới được thêm vào CLINKS Narration Full Chat

24/12/13 4:30

CLINKS (Chuo-ku, Tokyo) thông báo rằng họ đã bổ sung các chức năng mới vào dịch vụ trò chuyện Generative AI của công ty, Narreful Chat.

Copyright © 2024 Generatived - All right Reserved.

Chia sẻ bài viết này:

Chia sẻ bài viết này:

Generatived AI Logo

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

  • Facebook
  • X

Hãy theo dõi chúng tôi

Ngôn ngữ

Tin tức mới nhất
Giới thiệu Spicecode AI Agent

Giới thiệu Spicecode AI Agent

24/12/13 4:30

Spicecode (Chuo-ku, Tokyo) thông báo rằng họ sẽ cung cấp chức năng tác nhân AI cho dịch vụ ERP "Locale Order for B2B" từ nửa đầu năm 2025.

Nghiên cứu thị trường Generative AI Aung Consulting

Nghiên cứu thị trường Generative AI Aung Consulting

24/12/13 4:30

Aung Consulting (Chiyoda-ku, Tokyo) đã điều tra khối lượng tìm kiếm về Generative AI ở 18 quốc gia và khu vực trên toàn thế giới.

OSIRO ra mắt cộng đồng AI

OSIRO ra mắt cộng đồng AI

24/12/13 4:30

OSIRO (Shibuya-ku, Tokyo) đã thông báo rằng họ sẽ ra mắt "Linear", một cộng đồng trực tuyến do chuyên gia tư vấn AI/ Digital Transformation Yosuke Kurashima tổ chức trên nền tảng "OSIRO".

Tính năng mới được thêm vào CLINKS Narration Full Chat

Tính năng mới được thêm vào CLINKS Narration Full Chat

24/12/13 4:30

CLINKS (Chuo-ku, Tokyo) thông báo rằng họ đã bổ sung các chức năng mới vào dịch vụ trò chuyện Generative AI của công ty, Narreful Chat.

bottom of page