Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

MMCTAgent AI hỗ trợ phân tích video dạng dài

Generatived

0:00 14/11/25

MMCTAgent đã công bố một hệ thống AI mới được thiết kế để nâng cao khả năng phân tích dữ liệu video và hình ảnh dạng dài. GitHub trên GitHub và được giới thiệu trong Azure AI Foundry Labs, hệ thống này được xây dựng dựa trên hệ thống đa tác tử AutoGen của Microsoft và cung cấp kiến trúc lập kế hoạch-phê bình cho việc hỏi đáp đa phương thức. Kiến trúc này được thiết kế để hỗ trợ lập kế hoạch, phản biện và lập luận dựa trên công cụ, phối hợp hiệu quả ngôn ngữ, tầm nhìn và hiểu biết về thời gian để chuyển đổi các tác vụ đa phương thức tĩnh thành các quy trình lập luận động.

MMCTAgent hoạt động với các tác nhân chuyên biệt về phương thức như ImageAgent và VideoAgent để thực hiện suy luận lặp lại bằng các công cụ như get_relevant_query_frames() và object_detection-tool(). Phương pháp này cho phép các tác nhân lựa chọn công cụ phù hợp cho từng phương thức, đánh giá kết quả trung gian và tinh chỉnh kết luận thông qua một vòng lặp phê bình. Quy trình lặp lại này cho phép MMCTAgent phân tích các truy vấn phức tạp trên các thư viện video và hình ảnh khổng lồ theo cách dễ hiểu, dễ mở rộng và có khả năng mở rộng.

Chức năng của MMCTAgent được điều khiển bởi hai tác nhân cộng tác, Planner và Critic, hoạt động cùng nhau thông qua AutoGen. Tác nhân Planner phân tích truy vấn của người dùng, xác định các công cụ suy luận, thực hiện các thao tác đa phương thức và tạo ra câu trả lời sơ bộ. Tác nhân Critic xem xét chuỗi suy luận của Planner, xác minh tính toàn vẹn của bằng chứng và tinh chỉnh câu trả lời để đảm bảo tính chính xác và nhất quán về mặt thực tế. Vòng lặp suy luận lặp lại này cho phép MMCTAgent cải thiện câu trả lời thông qua quá trình tự đánh giá có cấu trúc, kết hợp phản biện vào suy luận AI và tăng khả năng thích ứng với nhiều lĩnh vực khác nhau.

Thành phần VideoAgent của hệ thống mở rộng kiến trúc sang suy luận video dạng dài, triển khai hoạt động hai giai đoạn: thu thập video và tạo thư viện, sau đó là suy luận thời gian truy vấn. Cách tiếp cận có cấu trúc này, kết hợp với việc đánh giá kết quả suy luận bằng công cụ Critic, cho phép MMCTAgent cung cấp thông tin chi tiết chính xác và dễ hiểu cho các video chứa nhiều thông tin. Tương tự, ImageAgent áp dụng mô hình Planner-Critic vào phân tích hình ảnh tĩnh, cung cấp suy luận chi tiết và dễ hiểu cho các bộ sưu tập hình ảnh. Hiệu quả của MMCTAgent được chứng minh thông qua các đánh giá sử dụng nhiều mô hình LLM cơ sở và bộ dữ liệu chuẩn, cho thấy việc bổ sung các công cụ chuyên biệt giúp cải thiện đáng kể hiệu suất.

Nguồn: Tin tức mới nhất - Nguồn, Microsoft

Chia sẻ bài viết này:

Tin tức mới nhất

Tiện ích mở rộng AI Square QuickSummary 2.0

0:00 14/11/25

AI Square (Minato-ku, Tokyo) thông báo rằng dịch vụ trung tâm liên lạc "QuickSummary2.0" hiện đã tương thích với môi trường PBX tại chỗ.

đọc thêm

Máy gia tốc AI ANOBAKA U-25 đã ra mắt

0:00 14/11/25

ANOBAKA (Minato-ku, Tokyo) sẽ ra mắt "Chương trình tăng tốc AI ANOBAKA U-25" dành cho các doanh nhân trẻ và sinh viên.

đọc thêm

Ra mắt doanh nghiệp hoạt hình AI CrestLab

0:00 14/11/25

CrestLab (Chiyoda-ku, Tokyo) vừa công bố sẽ ra mắt doanh nghiệp sản xuất phim hoạt hình sử dụng nền tảng hỗ trợ sản xuất phim hoạt hình bằng AI "ANICRA™".

đọc thêm

Kobe Digital Lab ra mắt dịch vụ chẩn đoán bảo mật AI

0:00 14/11/25

Kobe Digital Lab (Thành phố Kobe, Tỉnh Hyogo) đã ra mắt dịch vụ mới sử dụng Trí tuệ Generative AI) để kiểm tra và phân tích rủi ro bảo mật trong các ứng dụng web.

đọc thêm

Chia sẻ bài viết này:

Danh mục

Trình nâng cao hình ảnh AI

Trình tạo mã AI

Quản lý tác vụ AI

Không có mã/mã thấp

Trình tạo thiết kế đồ họa AI

Trình tạo minh họa/nghệ thuật AI

Tất cả công cụ

Tin tức

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI sáng tạo

Hướng dẫn ứng dụng AI cơ bản

Hồ sơ công ty

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Ngôn ngữ

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Hãy theo dõi chúng tôi

Ngôn ngữ

Danh mục

Tất cả công cụ

Quản lý tác vụ AI

Trình tạo thiết kế đồ họa AI

Không có mã/mã thấp

Trình tạo mã AI

Trình nâng cao hình ảnh AI

Trình tạo minh họa/nghệ thuật AI

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI tạo ra

Hướng dẫn ứng dụng AI cơ bản

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Tin tức mới nhất

Tiện ích mở rộng AI Square QuickSummary 2.0

0:00 14/11/25

AI Square (Minato-ku, Tokyo) thông báo rằng dịch vụ trung tâm liên lạc "QuickSummary2.0" hiện đã tương thích với môi trường PBX tại chỗ.

đọc thêm

Máy gia tốc AI ANOBAKA U-25 đã ra mắt

0:00 14/11/25

ANOBAKA (Minato-ku, Tokyo) sẽ ra mắt "Chương trình tăng tốc AI ANOBAKA U-25" dành cho các doanh nhân trẻ và sinh viên.

đọc thêm

Ra mắt doanh nghiệp hoạt hình AI CrestLab

0:00 14/11/25

CrestLab (Chiyoda-ku, Tokyo) vừa công bố sẽ ra mắt doanh nghiệp sản xuất phim hoạt hình sử dụng nền tảng hỗ trợ sản xuất phim hoạt hình bằng AI "ANICRA™".

đọc thêm

Kobe Digital Lab ra mắt dịch vụ chẩn đoán bảo mật AI

0:00 14/11/25

Kobe Digital Lab (Thành phố Kobe, Tỉnh Hyogo) đã ra mắt dịch vụ mới sử dụng Trí tuệ Generative AI) để kiểm tra và phân tích rủi ro bảo mật trong các ứng dụng web.

đọc thêm