Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif

AI MMCTAgent mendukung analisis video berdurasi panjang
Generatived
14/11/25, 00.00
MMCTAgent telah mengumumkan sistem AI baru yang dirancang untuk meningkatkan analisis data video dan gambar berdurasi panjang. GitHub di GitHub dan ditampilkan di Azure AI Foundry Labs, sistem ini dibangun di atas sistem multi-agen AutoGen Microsoft dan menyediakan arsitektur perencana-kritikus untuk tanya jawab multimodal. Arsitektur ini dirancang untuk memfasilitasi perencanaan, refleksi, dan penalaran berbasis alat, yang secara efektif mengoordinasikan bahasa, visi, dan pemahaman temporal untuk mengubah tugas multimodal statis menjadi alur kerja penalaran dinamis.
MMCTAgent bekerja dengan agen-agen yang spesifik terhadap modalitas seperti ImageAgent dan VideoAgent untuk melakukan inferensi iteratif menggunakan alat-alat seperti get_relevant_query_frames() dan object_detection-tool(). Pendekatan ini memungkinkan agen-agen untuk memilih alat yang tepat untuk setiap modalitas, mengevaluasi hasil antara, dan menyempurnakan kesimpulan mereka melalui siklus kritik. Proses iteratif ini memungkinkan MMCTAgent untuk menganalisis kueri-kueri kompleks di seluruh pustaka video dan gambar yang luas dengan cara yang mudah dijelaskan, diperluas, dan diskalakan.
Fungsionalitas MMCTAgent digerakkan oleh dua agen kolaboratif, Planner dan Critic, yang bekerja sama melalui AutoGen. Agen Planner menguraikan kueri pengguna, mengidentifikasi alat penalaran, melakukan operasi multimoda, dan membuat jawaban awal. Agen Critic meninjau rantai penalaran Planner, memverifikasi integritas bukti, dan menyempurnakan jawaban untuk memastikan akurasi dan konsistensi faktual. Siklus penalaran iteratif ini memungkinkan MMCTAgent untuk meningkatkan jawabannya melalui evaluasi diri terstruktur, menggabungkan refleksi ke dalam penalaran AI-nya, dan meningkatkan kemampuan adaptasinya terhadap berbagai domain.
Komponen VideoAgent dari sistem ini memperluas arsitekturnya ke inferensi video berdurasi panjang, dengan mengimplementasikan operasi dua tahap: penyerapan video dan pembuatan pustaka, diikuti oleh inferensi waktu kueri. Pendekatan terstruktur ini, dikombinasikan dengan evaluasi keluaran inferensi oleh alat Critic, memungkinkan MMCTAgent untuk memberikan wawasan yang akurat dan dapat diinterpretasikan untuk video yang padat informasi. Demikian pula, ImageAgent menerapkan paradigma Planner-Critic untuk analisis visual statis, memberikan inferensi yang terperinci dan dapat dijelaskan untuk koleksi gambar. Efektivitas MMCTAgent ditunjukkan melalui evaluasi menggunakan beberapa model LLM dasar dan set data tolok ukur, yang menunjukkan bahwa penambahan alat khusus meningkatkan kinerja secara signifikan.
Bagikan artikel ini:
Tin tức mới nhất
Penelitian berbasis optimasi dan penelitian internal sedang mengalami kemajuan
14/11/25, 00.00
Opt (Chiyoda-ku, Tokyo) melakukan survei terhadap kebutuhan internal yang menargetkan pemilik bisnis.
Pengenalan suara presisi tinggi CTI Comm Design diluncurkan
14/11/25, 00.00
ComDesign (Chiyoda-ku, Tokyo) telah mulai menawarkan CTI berbasis cloud "CT-e1/SaaS," yang kompatibel dengan "GPT-4o Transcribe" milik OpenAI.
Implementasi Inferensi Multi-tahap AI Media Lanjutan
14/11/25, 00.00
Advanced Media (Toshima-ku, Tokyo) telah menerapkan fungsi baru, "AI multi-stage inference," dalam "AmiVoice Communication Suite," yang dilengkapi dengan sistem pengenalan suara AI AmiVoice.
Copyright © 2024 Generatived - All right Reserved.
Bagikan artikel ini:
Bagikan artikel ini:
Kategori
Berita
AI dan hukum/peraturan/masyarakat
Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.
Berita terkini
Penelitian berbasis optimasi dan penelitian internal sedang mengalami kemajuan
14/11/25, 00.00
Opt (Chiyoda-ku, Tokyo) melakukan survei terhadap kebutuhan internal yang menargetkan pemilik bisnis.
Pengenalan suara presisi tinggi CTI Comm Design diluncurkan
14/11/25, 00.00
ComDesign (Chiyoda-ku, Tokyo) telah mulai menawarkan CTI berbasis cloud "CT-e1/SaaS," yang kompatibel dengan "GPT-4o Transcribe" milik OpenAI.
Implementasi Inferensi Multi-tahap AI Media Lanjutan
14/11/25, 00.00
Advanced Media (Toshima-ku, Tokyo) telah menerapkan fungsi baru, "AI multi-stage inference," dalam "AmiVoice Communication Suite," yang dilengkapi dengan sistem pengenalan suara AI AmiVoice.

%20(1).webp)
%20(1).webp)
%20(1).webp)
%20(1).webp)

