Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

NVIDIA xác định các mối đe dọa bảo mật mới đối với AI đa phương thức
Generatived
0:00 4/8/25
Nhóm AI Red Team của NVIDIA tích cực mô phỏng các cuộc tấn công trong thế giới thực để xác định các mối đe dọa tiềm ẩn đối với hệ thống AI, đặc biệt tập trung vào các lỗ hổng trong AI sinh sản và đa phương thức. Nghiên cứu của họ không đưa ra giải pháp tức thời mà chỉ nêu bật những lĩnh vực cần nỗ lực chung để tăng cường bảo mật.
Nhóm đã giới thiệu một loại tấn công mới, tiêm nhắc đa phương thức, bỏ qua ngôn ngữ tự nhiên và thao túng hệ thống tác tử bằng cách sử dụng đầu vào trực quan biểu tượng, chẳng hạn như chuỗi biểu tượng cảm xúc hoặc câu đố ghép hình. Cách tiếp cận này vượt qua bộ lọc đầu vào truyền thống, cho thấy cần phải có các biện pháp phòng thủ ở cấp độ đầu ra để bảo mật quy trình làm việc của AI.
Theo truyền thống, các cuộc tấn công tiêm nhắc đa phương thức thao túng hệ thống AI bằng cách nhúng văn bản độc hại vào hình ảnh và xử lý chúng thông qua một đường ống văn bản. Tuy nhiên, với sự xuất hiện của các mô hình như dòng O của OpenAI, xử lý các phương thức thành các vectơ nhúng và thực hiện giải mã chung, các kỹ thuật tấn công mới đã xuất hiện, khai thác sự tích hợp trực tiếp của các đầu vào đa phương thức mà không cần tải trọng văn bản ẩn.
Những tiến bộ trong các mô hình đa phương thức, đặc biệt là các kiến trúc hợp nhất ban đầu như Meta Llama 4, đã cho phép suy luận liên phương thức tinh vi hơn bằng cách tích hợp liền mạch văn bản và hình ảnh trong một không gian tiềm ẩn chung. Sự tiến bộ này đã tạo điều kiện cho các loại hình tấn công mới, cho phép kẻ tấn công vượt qua các biện pháp đối phó bảo mật dựa trên văn bản truyền thống bằng cách tạo ra các chuỗi hình ảnh mã hóa trực quan các hướng dẫn.
Để ứng phó với những mối đe dọa mới này, NVIDIA đề xuất một sự thay đổi trong các chiến lược bảo mật AI. Thay vì chỉ dựa vào lọc đầu vào, các tổ chức nên tập trung vào việc triển khai các bộ lọc đầu ra thích ứng, phòng thủ nhiều lớp và phân tích liên phương thức ngữ nghĩa để phát hiện và giảm thiểu các cuộc tấn công. Việc liên tục điều chỉnh các biện pháp phòng thủ này thông qua các bài tập nhóm đỏ và vòng lặp phản hồi là điều cần thiết để đảm bảo an toàn và khả năng phục hồi của các hệ thống AI trong quá trình sản xuất.
Chia sẻ bài viết này:

