AI Lab

开放词汇目标检测

输入任意类别名称，AI 在图片中定位并标注所有匹配实例。无需预定义类别库，基于 OWLv2 模型，直接在浏览器中运行。

工作原理

🔤

文本编码

将输入的物体名称编码为语义向量，支持任意自然语言描述。

🖼️

图像特征提取

Vision Transformer 提取图像中每个区域的视觉特征。

📍

匹配与定位

对比文本与区域特征，输出匹配物体的边界框和置信度。

点击卡片查看 OWLv2 的开放词汇检测结果，彩色框标注检测到的物体。

检测宇航员装备中的不同物体

human facerockethelmetamerican flag

点击查看检测结果↓

检测图片中的猫和遥控器

catremote control

点击查看检测结果↓

检测客厅内的家具和物品

sofapillowcushion

点击查看检测结果↓

📷

点击上传图片

JPG / PNG / WebP

快捷添加：

模型：Google OWLv2（量化 INT8） · 推理：浏览器端 Transformers.js · 开放词汇检测 · 无需服务器