Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

Gemini ra mắt AI cho các nhiệm vụ hiểu hình ảnh nâng cao

Generatived

0:00 23/7/25

Gemini mang đến một chiều hướng mới cho khả năng hiểu hình ảnh của AI, cho phép nó phân tích các mô tả và mối quan hệ phức tạp trong một hình ảnh. Sự tiến bộ này cho phép AI nhận dạng các đối tượng không chỉ bằng các nhãn đơn giản mà còn bằng các cụm từ phức tạp, chẳng hạn như xác định ""chiếc xe xa nhất"". Sự đổi mới này cải thiện khả năng tương tác của AI với dữ liệu hình ảnh theo cách tinh tế hơn, giống con người hơn.

Khả năng của AI bao gồm hiểu các mối quan hệ đối tượng, logic điều kiện, khái niệm trừu tượng, văn bản trong hình ảnh và nhãn đa ngôn ngữ. Ví dụ, Gemini có thể nhận dạng ""người cầm ô"" và lọc ra ""đồ ăn chay"", thể hiện khả năng xử lý nhiều truy vấn chi tiết. Khả năng này đặc biệt hữu ích cho các tác vụ đòi hỏi khả năng hiểu biết thị giác nâng cao, chẳng hạn như nhận dạng ""bông hoa héo nhất trong bó hoa"" và nhận dạng văn bản trong hình ảnh.

Ứng dụng thực tế của phân đoạn hình ảnh đàm thoại của Gemini rất đa dạng, từ việc tinh giản biên tập nội dung sáng tạo đến tăng cường giám sát compliance an toàn. Các nhà thiết kế giờ đây có thể tương tác với hình ảnh bằng ngôn ngữ tự nhiên, và các nhà quản lý an toàn có thể xác định hành vi không tuân thủ bằng các hướng dẫn như ""làm nổi bật nhân viên không đội mũ bảo hiểm"". Các giám định viên bảo hiểm có thể đánh giá thiệt hại chính xác hơn bằng cách yêu cầu AI ""Segment nhà bị hư hại do thời tiết"". Điều này chứng minh khả năng hiểu các khái niệm trừu tượng của Gemini.

Đối với các nhà phát triển, công nghệ của Gemini là một bước tiến vượt bậc. Nó cung cấp các mô hình ngôn ngữ linh hoạt, không phụ thuộc vào các lớp được xác định trước, cho phép tạo ra các giải pháp tùy chỉnh cho nhiều ngành công nghiệp khác nhau. Ngoài ra, trải nghiệm dành cho nhà phát triển được đơn giản hóa với một API duy nhất cho tất cả các nhu cầu phân khúc, giúp dân chủ hóa quyền truy cập vào các ứng dụng thị giác tiên tiến, cho phép các nhà phát triển dễ dàng tích hợp các khả năng hiểu thị giác tiên tiến vào sản phẩm của họ.

Nguồn: Blog của nhà phát triển Google

Chia sẻ bài viết này:

Tin tức mới nhất

Jump TOON bắt đầu cải thiện hiệu quả dựa trên trí tuệ nhân tạo.

0:00 12/2/26

Jump TOON (trụ sở chính: JUMP TOON) cung cấp các ứng dụng di động và ứng dụng trình duyệt web.

đọc thêm

Nhóm chuyên gia công nghệ AI cảnh báo về rủi ro an toàn trong các mô hình tạo sinh.

0:00 12/2/26

Nghiên cứu gần đây đã tiết lộ rằng sự phù hợp về an toàn của các mô hình ngôn ngữ lớn (LLM) và mô hình khuếch tán có thể bị phá vỡ bởi một kỹ thuật gọi là tối ưu hóa chính sách tương

đọc thêm

Khảo sát của Tổ chức Meta-Linux Foundation: Trí tuệ nhân tạo thúc đẩy nền kinh tế Canada

0:00 12/2/26

Một báo cáo gần đây cho thấy Canada đã khẳng định vị thế dẫn đầu toàn cầu trong lĩnh vực trí tuệ nhân tạo (AI), điều này được kỳ vọng sẽ mang lại những lợi ích kinh tế thiết thực.

đọc thêm

NVIDIA AutoDeploy đơn giản hóa việc triển khai các mô hình ngôn ngữ quy mô lớn.

0:00 12/2/26

NVIDIA vừa công bố bản phát hành beta của AutoDeploy, một tính năng của TensorRT LLM.

đọc thêm

Chia sẻ bài viết này:

Danh mục

Trình nâng cao hình ảnh AI

Trình tạo mã AI

Quản lý tác vụ AI

Không có mã/mã thấp

Trình tạo thiết kế đồ họa AI

Trình tạo minh họa/nghệ thuật AI

Tất cả công cụ

Tin tức

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI sáng tạo

Hướng dẫn ứng dụng AI cơ bản

Hồ sơ công ty

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Ngôn ngữ

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Hãy theo dõi chúng tôi

Ngôn ngữ

Danh mục

Tất cả công cụ

Quản lý tác vụ AI

Trình tạo thiết kế đồ họa AI

Không có mã/mã thấp

Trình tạo mã AI

Trình nâng cao hình ảnh AI

Trình tạo minh họa/nghệ thuật AI

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI tạo ra

Hướng dẫn ứng dụng AI cơ bản

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Tin tức mới nhất

Jump TOON bắt đầu cải thiện hiệu quả dựa trên trí tuệ nhân tạo.

0:00 12/2/26

Jump TOON (trụ sở chính: JUMP TOON) cung cấp các ứng dụng di động và ứng dụng trình duyệt web.

đọc thêm

Nhóm chuyên gia công nghệ AI cảnh báo về rủi ro an toàn trong các mô hình tạo sinh.

0:00 12/2/26

Nghiên cứu gần đây đã tiết lộ rằng sự phù hợp về an toàn của các mô hình ngôn ngữ lớn (LLM) và mô hình khuếch tán có thể bị phá vỡ bởi một kỹ thuật gọi là tối ưu hóa chính sách tương

đọc thêm

Khảo sát của Tổ chức Meta-Linux Foundation: Trí tuệ nhân tạo thúc đẩy nền kinh tế Canada

0:00 12/2/26

Một báo cáo gần đây cho thấy Canada đã khẳng định vị thế dẫn đầu toàn cầu trong lĩnh vực trí tuệ nhân tạo (AI), điều này được kỳ vọng sẽ mang lại những lợi ích kinh tế thiết thực.

đọc thêm

NVIDIA AutoDeploy đơn giản hóa việc triển khai các mô hình ngôn ngữ quy mô lớn.

0:00 12/2/26

NVIDIA vừa công bố bản phát hành beta của AutoDeploy, một tính năng của TensorRT LLM.

đọc thêm