top of page

Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

logo.png

Azure AI phát hành bản xem trước công khai của hình đại diện bằng giọng nói

Generatived

10:50 17/11/23

Azure AI đã phát hành bản xem trước công khai về tính năng mới, hình đại diện chuyển văn bản thành giọng nói. Công cụ cải tiến này cho phép người dùng tạo video hình đại diện biết nói bằng cách nhập văn bản hoặc phát triển các bot tương tác thời gian thực bằng hình ảnh con người. Hệ thống hình đại diện chuyển văn bản thành giọng nói là hệ thống chuyển văn bản thành giọng nói với khả năng thị giác cho phép khách hàng tạo video tổng hợp với hình đại diện nói chuyện như ảnh chụp 2D. Mô hình hình đại diện được đào tạo bởi mạng lưới thần kinh sâu dựa trên các mẫu ghi video của con người và giọng nói của hình đại diện được cung cấp bởi mô hình giọng nói chuyển văn bản thành giọng nói.

Tạo hình đại diện có hai mục đích chính. Đầu tiên, việc sản xuất nội dung video thông thường đòi hỏi nhiều thời gian và ngân sách, bao gồm việc chuẩn bị môi trường quay video, quay và chỉnh sửa video. Hình đại diện chuyển văn bản thành giọng nói cho phép người dùng tạo nội dung video hiệu quả hơn, chẳng hạn như video đào tạo, giới thiệu sản phẩm và lời chứng thực của khách hàng, chỉ bằng cách nhập văn bản. Thứ hai, với việc phát hành Dịch vụ Azure OpenAI và chuyển văn bản thần kinh thành giọng nói, các cuộc hội thoại tương tác giờ đây trở nên tự nhiên hơn bao giờ hết. Hình đại diện chuyển văn bản thành giọng nói cho phép người dùng tạo các tương tác kỹ thuật số hấp dẫn hơn và xây dựng các tác nhân đàm thoại, trợ lý ảo, chatbot, v.v.

Quy trình tạo nội dung hình đại diện bao gồm ba thành phần: bộ phân tích văn bản, bộ tổng hợp âm thanh TTS và bộ tổng hợp video hình đại diện TTS. Để tạo video hình đại diện, trước tiên văn bản phải được nhập vào bộ phân tích văn bản, bộ phân tích này cung cấp đầu ra dưới dạng chuỗi âm vị. Tiếp theo, bộ tổng hợp âm thanh TTS dự đoán các đặc điểm âm thanh của văn bản đầu vào và tổng hợp âm thanh. Hai phần này được cung cấp bởi mô hình giọng nói chuyển văn bản thành giọng nói. Tiếp theo, mô hình Avatar chuyển văn bản thành giọng nói thần kinh sử dụng các tính năng âm thanh để dự đoán hình ảnh hát nhép và tạo ra video tổng hợp.

Azure AI hiện cung cấp hai khả năng hình đại diện chuyển văn bản thành giọng nói riêng biệt: hình đại diện văn bản thành giọng nói dựng sẵn và hình đại diện văn bản thành giọng nói tùy chỉnh. Hình đại diện dựng sẵn có thể nói các ngôn ngữ và giọng nói khác nhau dựa trên cách nhập văn bản. Khách hàng có thể chọn hình đại diện từ nhiều tùy chọn khác nhau và sử dụng chúng để tạo nội dung video và ứng dụng tương tác với phản hồi hình đại diện theo thời gian thực. Tính năng hình đại diện chuyển văn bản thành giọng nói tùy chỉnh cho phép khách hàng tạo hình đại diện được cá nhân hóa cho sản phẩm hoặc thương hiệu của họ. Khách hàng có thể tải lên các bản ghi video của riêng họ về các tài năng avatar mà công ty cho biết sẽ được sử dụng để đào tạo các video tổng hợp về cách phát biểu của các avatar tùy chỉnh. nước xốt:

Chia sẻ bài viết này:

Tin tức mới nhất
Gemini tăng cường chế độ tư duy sâu sắc để giải quyết các vấn đề phức tạp.

Gemini tăng cường chế độ tư duy sâu sắc để giải quyết các vấn đề phức tạp.

0:00 17/2/26

Gemini vừa công bố bản cập nhật quan trọng cho chế độ Gemini 3 Deep Think

Ngày hội An ninh mạng Shoeisha được tổ chức

Ngày hội An ninh mạng Shoeisha được tổ chức

0:00 16/2/26

Tạp chí EnterpriseZine, do Shoeisha (Shinjuku-ku, Tokyo) điều hành, sẽ tổ chức Ngày An ninh Trực tuyến Mùa xuân 2025 trực tuyến vào ngày 17 tháng 3 năm 2026.

Dịch vụ tối ưu hóa web SSS AI đã ra mắt.

Dịch vụ tối ưu hóa web SSS AI đã ra mắt.

0:00 16/2/26

Công ty Sun Strategic Solutions (Minato-ku, Tokyo) vừa thông báo sẽ bắt đầu cung cấp dịch vụ "AIO Service".

Cuộc thi gợi ý AI Treasure Foot Saga

Cuộc thi gợi ý AI Treasure Foot Saga

0:00 16/2/26

Treasure Foot (Kamakura, tỉnh Kanagawa) và Togabai AI Consulting sẽ tổ chức "Cuộc thi thiết kế gợi ý AI" đầu tiên của tỉnh Saga, nằm trong khuôn khổ "RYO-FU AI SCHOOL"

Copyright © 2024 Generatived - All right Reserved.

Chia sẻ bài viết này:

Chia sẻ bài viết này:

Generatived AI Logo

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

  • Facebook
  • X

Hãy theo dõi chúng tôi

Ngôn ngữ

Tin tức mới nhất
Gemini tăng cường chế độ tư duy sâu sắc để giải quyết các vấn đề phức tạp.

Gemini tăng cường chế độ tư duy sâu sắc để giải quyết các vấn đề phức tạp.

0:00 17/2/26

Gemini vừa công bố bản cập nhật quan trọng cho chế độ Gemini 3 Deep Think

Ngày hội An ninh mạng Shoeisha được tổ chức

Ngày hội An ninh mạng Shoeisha được tổ chức

0:00 16/2/26

Tạp chí EnterpriseZine, do Shoeisha (Shinjuku-ku, Tokyo) điều hành, sẽ tổ chức Ngày An ninh Trực tuyến Mùa xuân 2025 trực tuyến vào ngày 17 tháng 3 năm 2026.

Dịch vụ tối ưu hóa web SSS AI đã ra mắt.

Dịch vụ tối ưu hóa web SSS AI đã ra mắt.

0:00 16/2/26

Công ty Sun Strategic Solutions (Minato-ku, Tokyo) vừa thông báo sẽ bắt đầu cung cấp dịch vụ "AIO Service".

Cuộc thi gợi ý AI Treasure Foot Saga

Cuộc thi gợi ý AI Treasure Foot Saga

0:00 16/2/26

Treasure Foot (Kamakura, tỉnh Kanagawa) và Togabai AI Consulting sẽ tổ chức "Cuộc thi thiết kế gợi ý AI" đầu tiên của tỉnh Saga, nằm trong khuôn khổ "RYO-FU AI SCHOOL"

bottom of page