← 返回 AI Lab

开放词汇目标检测

输入任意类别名称,AI 在图片中定位并标注所有匹配实例。无需预定义类别库,基于 OWLv2 模型,直接在浏览器中运行。

工作原理

🔤
文本编码

将输入的物体名称编码为语义向量,支持任意自然语言描述。

🖼️
图像特征提取

Vision Transformer 提取图像中每个区域的视觉特征。

📍
匹配与定位

对比文本与区域特征,输出匹配物体的边界框和置信度。

预设演示

点击卡片查看 OWLv2 的开放词汇检测结果,彩色框标注检测到的物体。

宇航员

检测宇航员装备中的不同物体

human facerockethelmetamerican flag
点击查看检测结果

猫咪与遥控器

检测图片中的猫和遥控器

catremote control
点击查看检测结果

室内场景

检测客厅内的家具和物品

sofapillowcushion
点击查看检测结果

自己试试(需先加载模型)

📷

点击上传图片

JPG / PNG / WebP

想找什么?

快捷添加:

模型:Google OWLv2(量化 INT8) · 推理:浏览器端 Transformers.js · 开放词汇检测 · 无需服务器