top of page
Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif
logo.png

Tim CMU-NVIDIA Mengumumkan Pendekatan Sistem AAC yang Ditingkatkan

Generatived

23/10/24, 04.30

Tugas pembuatan teks audio otomatis (AAC) mendapatkan perhatian karena memungkinkan mesin menafsirkan dan berinteraksi dengan lingkungan akustik sekitarnya. Sejak tahun 2020, lebih dari 26 tim dari seluruh dunia telah berpartisipasi dalam kompetisi AAC tahunan, yang diselenggarakan oleh komunitas Detection and Classification of Acoustic Scenes and Events (DCASE). Tim-tim ini, dengan latar belakang akademisi dan industri, berfokus pada peningkatan arsitektur encoder-decoder yang membentuk tulang punggung sistem AAC.

Carnegie Mellon University (CMU) dan NVIDIA berkolaborasi dalam pendekatan inovatif terhadap DCASE 2024 AAC Challenge di Tokyo. Proposal mereka memperkenalkan beberapa encoder audio ke dalam arsitektur untuk menangkap dan mendeskripsikan fitur audio yang lebih kaya. Strategi multi-encoder ini dilengkapi dengan perintah aktivasi tugas berbasis model bahasa (LM) untuk meningkatkan proses pengeditan pasca-informasi. Profesor Shinji Watanabe dari Institut Teknologi Bahasa CMU menyoroti kolaborasi ini dan kontribusinya terhadap komunitas pemahaman audio dan bahasa.

Pendekatan tim CMU-NVIDIA juga mencakup kolaborasi multi-agen antara model encoder yang berbeda, yang membantu meningkatkan kinerja. Dengan mengintegrasikan encoder dengan granularitas berbeda, seperti BEAT dan ConvNeXt, sistem mencapai cakupan fitur audio yang lebih komprehensif. Strategi ini mirip dengan penelitian AI multimodal baru-baru ini di mana penggabungan agen khusus memberikan hasil yang lebih unggul. Sistem tim juga menggabungkan pengayaan berbasis hipotesis teks, memanfaatkan teknik evaluasi GenTranslate dan Generative Image Captioning (GIC) dari NVIDIA Research.

Kinerja sistem AAC telah ditingkatkan secara signifikan melalui penggunaan teknologi komputer NVIDIA yang canggih, termasuk cluster superkomputer Taipei-1. Sistem multi-encoder mencapai skor FENSE (Fluency Enhanced Sentence-BERT Evaluation) sebesar 0,5442, yang melampaui skor dasar sebesar 0,5040. Keberhasilan ini menunjukkan potensi sistem multi-agen dan multi-modal untuk meningkatkan pemahaman umum. Penggunaan model bahasa berskala besar untuk koreksi teks merupakan inovasi penting, yang memungkinkan model menyaring informasi tersembunyi dalam ucapan. Teknologi GPU canggih NVIDIA, termasuk GPU A100 dan H100, telah memainkan peran penting dalam mempercepat pengembangan AI dan memperluas kemungkinan pembelajaran multimodal.

Bagikan artikel ini:

Tin tức mới nhất
Tantangan implementasi AI Largegate dan dukungan penerapannya

Tantangan implementasi AI Largegate dan dukungan penerapannya

15/1/26, 00.00

Largegate (Tokyo) melakukan survei terhadap 550 manajer bisnis yang tertarik untuk mengintegrasikan AI ke dalam produk perusahaan mereka.

Meta Heroes membahas masa depan pendidikan AI.

Meta Heroes membahas masa depan pendidikan AI.

15/1/26, 00.00

Meta Heroes (Kota Osaka, Prefektur Osaka) telah mengumumkan bahwa mereka akan berbicara di "AI GALA by Generative AI EXPO" yang akan diadakan di STATION Ai di Kota Nagoya

Teknologi audit konten VSO AI diluncurkan.

Teknologi audit konten VSO AI diluncurkan.

15/1/26, 00.00

VeritasChain Standards Organization (Shibuya-ku, Tokyo) telah merilis versi 0.2 dari "CAP," sebuah spesifikasi teknis untuk jejak audit dalam sistem pembuatan konten AI.

Platform Pendukung AI Pertumbuhan Digital/ Digital Transformation Diluncurkan

Platform Pendukung AI Pertumbuhan Digital/ Digital Transformation Diluncurkan

15/1/26, 00.00

Digital Growth Academia (Tokyo) mulai menawarkan "Minna de EX," sebuah platform promosi AI/ Digital Transformation untuk bisnis, pada tanggal 14 Januari 2026.

Copyright © 2024 Generatived - All right Reserved.

Bagikan artikel ini:

Bagikan artikel ini:

Generatived

Hãy theo dõi chúng tôi

  • Facebook
  • X

Bahasa

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Generatived AI Logo

Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.

  • Facebook
  • X

Ikuti kami

Bahasa

Berita terkini
Tantangan implementasi AI Largegate dan dukungan penerapannya

Tantangan implementasi AI Largegate dan dukungan penerapannya

15/1/26, 00.00

Largegate (Tokyo) melakukan survei terhadap 550 manajer bisnis yang tertarik untuk mengintegrasikan AI ke dalam produk perusahaan mereka.

Meta Heroes membahas masa depan pendidikan AI.

Meta Heroes membahas masa depan pendidikan AI.

15/1/26, 00.00

Meta Heroes (Kota Osaka, Prefektur Osaka) telah mengumumkan bahwa mereka akan berbicara di "AI GALA by Generative AI EXPO" yang akan diadakan di STATION Ai di Kota Nagoya

Teknologi audit konten VSO AI diluncurkan.

Teknologi audit konten VSO AI diluncurkan.

15/1/26, 00.00

VeritasChain Standards Organization (Shibuya-ku, Tokyo) telah merilis versi 0.2 dari "CAP," sebuah spesifikasi teknis untuk jejak audit dalam sistem pembuatan konten AI.

Platform Pendukung AI Pertumbuhan Digital/ Digital Transformation Diluncurkan

Platform Pendukung AI Pertumbuhan Digital/ Digital Transformation Diluncurkan

15/1/26, 00.00

Digital Growth Academia (Tokyo) mulai menawarkan "Minna de EX," sebuah platform promosi AI/ Digital Transformation untuk bisnis, pada tanggal 14 Januari 2026.

bottom of page