Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

Pic2Word: Ánh xạ hình ảnh thành từ để nâng cao khả năng tìm kiếm hình ảnh

Theo Google, sinh viên nghiên cứu Kuniaki Saito và Nhà khoa học nghiên cứu Kihyuk Sohn từ nhóm Google AI của Google Research đã phát triển một hệ thống mới có tên Pic2Word có thể ánh xạ ảnh thành từ để tìm kiếm hình ảnh tổng hợp không cần chụp.

Truy xuất hình ảnh là một tính năng quan trọng của công cụ tìm kiếm và người dùng thường sử dụng hình ảnh hoặc văn bản làm truy vấn để tìm hình ảnh mục tiêu mong muốn. Tuy nhiên, có thể khó mô tả chính xác hình ảnh bằng từ ngữ. Điều này gây ra sự cố khi người dùng tìm kiếm các thuộc tính nhất định trong hình ảnh, chẳng hạn như màu của biểu tượng hoặc màu của chính biểu tượng, có thể khác với những gì họ tìm thấy trên trang web.

Để giải quyết vấn đề này, bài viết này giới thiệu Truy xuất hình ảnh tổng hợp (CIR), cho phép người dùng truy xuất hình ảnh dựa trên các truy vấn kết hợp cả hình ảnh và mẫu văn bản. Mẫu văn bản giải thích cách sửa đổi hình ảnh để khớp chính xác với mục tiêu tìm kiếm dự định. Cách tiếp cận này kết hợp thông tin hình ảnh và văn bản để tìm kiếm hình ảnh chính xác hơn.

Tuy nhiên, các phương pháp CIR hiện tại yêu cầu lượng lớn dữ liệu được dán nhãn, có thể tốn kém và có khả năng khái quát hóa hạn chế cho các bộ dữ liệu khác nhau. Để vượt qua những thách thức này, bài viết này đề xuất một nhiệm vụ mới gọi là truy xuất hình ảnh tổng hợp không chụp (ZS-CIR). Mục tiêu của ZS-CIR là xây dựng một mô hình CIR duy nhất có thể thực hiện nhiều tác vụ CIR khác nhau như định cấu hình đối tượng, chỉnh sửa thuộc tính và chuyển đổi miền mà không cần dựa vào dữ liệu bộ ba được gắn nhãn.

Phương pháp đề xuất đề xuất sử dụng các cặp chú thích ảnh có quy mô lớn và ảnh chưa được gắn nhãn để huấn luyện mô hình truy xuất thay vì dữ liệu được dán nhãn. Cách tiếp cận này hỗ trợ rất nhiều cho việc thu thập dữ liệu và cho phép đào tạo các mô hình trên quy mô lớn.

Hiệu quả của mô hình đã huấn luyện được xác minh thông qua nhiều thử nghiệm khác nhau trên các nhiệm vụ CIR khác nhau. Một hướng nghiên cứu tiềm năng trong tương lai được đề cập trong bài viết là mở rộng việc sử dụng dữ liệu hình ảnh trong nghiên cứu hiện tại để sử dụng dữ liệu chú thích để huấn luyện mạng bản đồ. Sự tiến bộ này hứa hẹn sẽ cải thiện khả năng tìm kiếm hình ảnh và trải nghiệm người dùng trong lĩnh vực tìm kiếm hình ảnh tổng hợp zero-shot.

Chia sẻ bài viết này:

Tin tức mới nhất

Hỗ trợ Meiji với chương trình đào tạo AI And.dot

0:00 8/12/25

And.dot (quận Shibuya, Tokyo) đã tổ chức hội thảo đào tạo về "Doanh nghiệp mới x Ứng dụng Generative AI) tạo sinh" cho Phòng Chiến lược Kinh doanh Đổi mới của Meiji (quận Chuo, Tokyo).

đọc thêm

Thông báo về việc cải tiến tác nhân AI BLUEISH

0:00 8/12/25

BLUEISH (Minato-ku, Tokyo) đã công bố các chức năng nâng cao cho nền tảng tác nhân AI doanh nghiệp của mình, "BLUEISH Agents".

đọc thêm

Polimill: Hỗ trợ quyết định với sự tham gia của công dân AI

0:00 8/12/25

Polimill (Minato-ku, Tokyo) đặt mục tiêu phát triển "bản thân việc ra quyết định công" bằng cách tận dụng sự tham gia của người dân và Generative AI) tạo sinh.

đọc thêm

Hỗ trợ phục hồi trí tuệ nhân tạo Rosetta sẽ bắt đầu

0:00 8/12/25

Rosetta, một công ty con của Tập đoàn Metareal có trụ sở tại Tokyo, đã phát triển Metareal Rehab Device (Metareal RD), một công cụ AI dành cho các cơ sở phục hồi chức năng,

đọc thêm

Chia sẻ bài viết này:

Danh mục

Trình nâng cao hình ảnh AI

Trình tạo mã AI

Quản lý tác vụ AI

Không có mã/mã thấp

Trình tạo thiết kế đồ họa AI

Trình tạo minh họa/nghệ thuật AI

Tất cả công cụ

Tin tức

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI sáng tạo

Hướng dẫn ứng dụng AI cơ bản

Hồ sơ công ty

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Ngôn ngữ

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Hãy theo dõi chúng tôi

Ngôn ngữ

Danh mục

Tất cả công cụ

Quản lý tác vụ AI

Trình tạo thiết kế đồ họa AI

Không có mã/mã thấp

Trình tạo mã AI

Trình nâng cao hình ảnh AI

Trình tạo minh họa/nghệ thuật AI

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI tạo ra

Hướng dẫn ứng dụng AI cơ bản

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Tin tức mới nhất

Hỗ trợ Meiji với chương trình đào tạo AI And.dot

0:00 8/12/25

And.dot (quận Shibuya, Tokyo) đã tổ chức hội thảo đào tạo về "Doanh nghiệp mới x Ứng dụng Generative AI) tạo sinh" cho Phòng Chiến lược Kinh doanh Đổi mới của Meiji (quận Chuo, Tokyo).

đọc thêm

Thông báo về việc cải tiến tác nhân AI BLUEISH

0:00 8/12/25

BLUEISH (Minato-ku, Tokyo) đã công bố các chức năng nâng cao cho nền tảng tác nhân AI doanh nghiệp của mình, "BLUEISH Agents".

đọc thêm

Polimill: Hỗ trợ quyết định với sự tham gia của công dân AI

0:00 8/12/25

Polimill (Minato-ku, Tokyo) đặt mục tiêu phát triển "bản thân việc ra quyết định công" bằng cách tận dụng sự tham gia của người dân và Generative AI) tạo sinh.

đọc thêm

Hỗ trợ phục hồi trí tuệ nhân tạo Rosetta sẽ bắt đầu

0:00 8/12/25

Rosetta, một công ty con của Tập đoàn Metareal có trụ sở tại Tokyo, đã phát triển Metareal Rehab Device (Metareal RD), một công cụ AI dành cho các cơ sở phục hồi chức năng,

đọc thêm