Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo
Pic2Word: Ánh xạ hình ảnh thành từ để nâng cao khả năng tìm kiếm hình ảnh
Theo Google, sinh viên nghiên cứu Kuniaki Saito và Nhà khoa học nghiên cứu Kihyuk Sohn từ nhóm Google AI của Google Research đã phát triển một hệ thống mới có tên Pic2Word có thể ánh xạ ảnh thành từ để tìm kiếm hình ảnh tổng hợp không cần chụp.
Truy xuất hình ảnh là một tính năng quan trọng của công cụ tìm kiếm và người dùng thường sử dụng hình ảnh hoặc văn bản làm truy vấn để tìm hình ảnh mục tiêu mong muốn. Tuy nhiên, có thể khó mô tả chính xác hình ảnh bằng từ ngữ. Điều này gây ra sự cố khi người dùng tìm kiếm các thuộc tính nhất định trong hình ảnh, chẳng hạn như màu của biểu tượng hoặc màu của chính biểu tượng, có thể khác với những gì họ tìm thấy trên trang web.
Để giải quyết vấn đề này, bài viết này giới thiệu Truy xuất hình ảnh tổng hợp (CIR), cho phép người dùng truy xuất hình ảnh dựa trên các truy vấn kết hợp cả hình ảnh và mẫu văn bản. Mẫu văn bản giải thích cách sửa đổi hình ảnh để khớp chính xác với mục tiêu tìm kiếm dự định. Cách tiếp cận này kết hợp thông tin hình ảnh và văn bản để tìm kiếm hình ảnh chính xác hơn.
Tuy nhiên, các phương pháp CIR hiện tại yêu cầu lượng lớn dữ liệu được dán nhãn, có thể tốn kém và có khả năng khái quát hóa hạn chế cho các bộ dữ liệu khác nhau. Để vượt qua những thách thức này, bài viết này đề xuất một nhiệm vụ mới gọi là truy xuất hình ảnh tổng hợp không ảnh (ZS-CIR). Mục tiêu của ZS-CIR là xây dựng một mô hình CIR duy nhất có thể thực hiện nhiều tác vụ CIR khác nhau như định cấu hình đối tượng, chỉnh sửa thuộc tính và chuyển đổi miền mà không cần dựa vào dữ liệu bộ ba được gắn nhãn.
Phương pháp đề xuất đề xuất sử dụng các cặp chú thích ảnh có quy mô lớn và ảnh chưa được gắn nhãn để huấn luyện mô hình truy xuất thay vì dữ liệu được dán nhãn. Cách tiếp cận này hỗ trợ rất nhiều cho việc thu thập dữ liệu và cho phép đào tạo các mô hình trên quy mô lớn.
Hiệu quả của mô hình đã huấn luyện được xác minh thông qua nhiều thử nghiệm khác nhau trên các nhiệm vụ CIR khác nhau. Một hướng nghiên cứu tiềm năng trong tương lai được đề cập trong bài viết là mở rộng việc sử dụng dữ liệu hình ảnh trong nghiên cứu hiện tại để sử dụng dữ liệu chú thích để huấn luyện mạng bản đồ. Sự tiến bộ này hứa hẹn sẽ cải thiện khả năng tìm kiếm hình ảnh và trải nghiệm người dùng trong lĩnh vực tìm kiếm hình ảnh tổng hợp zero-shot.
Chia sẻ bài viết này:
Tin tức mới nhất
Giới thiệu Spicecode AI Agent
24/12/13 4:30
Spicecode (Chuo-ku, Tokyo) thông báo rằng họ sẽ cung cấp chức năng tác nhân AI cho dịch vụ ERP "Locale Order for B2B" từ nửa đầu năm 2025.
Nghiên cứu thị trường Generative AI Aung Consulting
24/12/13 4:30
Aung Consulting (Chiyoda-ku, Tokyo) đã điều tra khối lượng tìm kiếm về Generative AI ở 18 quốc gia và khu vực trên toàn thế giới.
OSIRO ra mắt cộng đồng AI
24/12/13 4:30
OSIRO (Shibuya-ku, Tokyo) đã thông báo rằng họ sẽ ra mắt "Linear", một cộng đồng trực tuyến do chuyên gia tư vấn AI/ Digital Transformation Yosuke Kurashima tổ chức trên nền tảng "OSIRO".
Copyright © 2024 Generatived - All right Reserved.
Chia sẻ bài viết này:
Chia sẻ bài viết này:
Danh mục
Tin tức
AI và luật/hệ thống/kinh tế/xã hội
Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.
Tin tức mới nhất
Giới thiệu Spicecode AI Agent
24/12/13 4:30
Spicecode (Chuo-ku, Tokyo) thông báo rằng họ sẽ cung cấp chức năng tác nhân AI cho dịch vụ ERP "Locale Order for B2B" từ nửa đầu năm 2025.
Nghiên cứu thị trường Generative AI Aung Consulting
24/12/13 4:30
Aung Consulting (Chiyoda-ku, Tokyo) đã điều tra khối lượng tìm kiếm về Generative AI ở 18 quốc gia và khu vực trên toàn thế giới.
OSIRO ra mắt cộng đồng AI
24/12/13 4:30
OSIRO (Shibuya-ku, Tokyo) đã thông báo rằng họ sẽ ra mắt "Linear", một cộng đồng trực tuyến do chuyên gia tư vấn AI/ Digital Transformation Yosuke Kurashima tổ chức trên nền tảng "OSIRO".