白小交 发自 凹非寺
量子位 | 公众号 QbitAI
无需用户教唆,AI就不错识别万物!
何况精度更高、速率更快。

IDEA照拂院创院理事长沈向洋官宣IDEA照拂院最新效果:通用视觉大模子DINO-X。
它完结视觉任务大一统,撑抓各式开辟天下感知和目标理撤职务,包括洞开天下对象检测与分割、短语定位、视觉教唆计数、姿态揣摸、无教唆对象检测与识别、密集区域字幕等。

这背后成绩于,他们构建了逾越一亿高质料样本的大型数据集Grounding-100M。
与之前DINO眷属中Grounding DINO 1.5相似,DINO-X 也分为DINO-X Pro模子和DINO-X Edge模子。
前者可为各式场景提供更强的感知武艺,后者过程优化,推理速率更快,更适合部署在角落陶冶上。
实验限度标明,DINO-X Pro 模子在 COCO、LVIS-minival 和 LVIS-val 零镜头物体检测基准测试平区别取得了 56.0 AP、59.8 AP和 52.4 AP 的成绩。
尤其是在 LVIS-minival 和 LVIS-val 这两个荒凉类别的基准测试中完结新SOTA——
区别取得了 63.3 AP 和 56.5 AP 的成绩,皆比之前的SOTA性能提高了 5.8 AP。

这一限度标明,它在识别长尾物体方面的武艺有了权臣提高。

在洞开天下,AI识别万物
回来来看,DINO-X主要有四个方面的特质。
当先即是全面检测,险些可识别所有这个词物体。DINO-X称得受骗今业界检测最全的通用视觉模子,以致无需用户教唆。

然后是泛化和通用性。在濒临未见过的物体或环境时,模子仍能保抓高水平的检测性能。
细粒度目标迷惑:DINO-X通过斡旋多个视觉任务,完结了万般化输出,包括鸿沟框、分割掩码、枢纽点和描述文本,升迁了模子在复杂场景下的迷惑武艺。

多任务感知与迷惑:DINO-X整合了多个感知头,撑抓包括分割、姿态揣摸、区域描述和基于区域的问答在内的多种区域级别任务,让感知到迷惑徐徐成为了本质。

长尾目标检测优化:为了撑抓长尾目标的检测任务,DINO-X不仅撑抓文本教唆和视觉教唆,还撑抓过程视觉教唆优化的自界说教唆。
跟之前的版块 GroundingDINO 1.5 Pro 和 Grounding DINO 1.6 Pro比拟,这次通用视觉大模子DINO-X 进一步增强了言语迷惑武艺,同期在密集物体检测场景中进展出色。

怎样作念到?
DINO-X可接纳文本教唆、视觉教唆和自界说教唆,并能同期生成从低能的暗示(如边框)到概述的细节(包括遮罩、枢纽点和对象标题)等各式输出。

DINO-X Pro的中枢架构,与Grounding DINO 1.5相似,运用事前检察好的 ViT 模子看成主要的视觉主干,并在特征提真金不怕火阶段摄取了深度早期和会计策。
但不同的是,他们扩大了DINO-X Pro在输入阶段的教唆撑抓,除了文本,还撑抓视觉教唆和自界说教唆,以安闲包括长尾物体在内的各式检测需求。
而关于DINO-X Edge版块,他们运用 EfficientViT看成高效特征提真金不怕火的主干,并摄取了相似Transformer编码器-解码器架构。
此外,为了提高 DINO-X Edge 模子的性能和缠绵遵循,他们还对模子结构和检察本领作念了几个方面的改良。
更强的文本教唆编码器,摄取了与pro模子商酌的 CLIP 文本编码器。
常识提真金不怕火:从 Pro 模子中提真金不怕火常识,以提 Edge 模子的性能。具体来说,团队运用基于特征的蒸馏和基于反馈的蒸馏,区别调度Edge模子和 Pro模子之间的特征和谋划对数。
改良FP16推理:摄取浮点乘法归一化本领,在不影响精度的情况下将模子量化为 FP16。

领有了对洞开天下的视觉感知
DINO-X的万物识别武艺,让其领有了对洞开天下(Open World)的视觉感知,不错大意顶住真是天下中的稠密不笃定性和洞开环境。
IDEA照拂院创院理事长沈向洋提到了具身智能、大鸿沟多模态数据的自动标注、视障东说念主士劳动等这几个场景。
对具身智能而言,开辟环境感知和迷惑是中枢武艺,这其中的视觉感知更是机器和物理天下交互的基础。近期,聚焦东说念主居环境具身智能中枢本领攻关的福田实验室精致挂牌,该实验室精致由IDEA照拂院与腾讯协作组建,死力于打造最前沿的具身智能改进平台。
多模态模子连续需要处理多量的图片并生成图文对,而仅依靠东说念主工标注的口头不仅耗时、资本高,何况在濒临海量数据时难以保险标注的一致性和遵循。DINO-X的万物识别武艺,不错匡助标注公司快速完成多量量的高质料图像标注或者为标注员提供自动化的赞助限度,从而镌汰手工标注的使命量。
视障东说念主士零丁性和生存质料的升迁对信息获取与感知等方面有着极高的条款,DINO-X的万物识别武艺恰逢当时地为助盲用具开辟带来福音,为视障东说念主士的夙昔生存带来好意思好但愿。
在自动驾驶、智能安防、工业检测等领域,DINO-X使得系统概况顶住各式复杂场景,识别出传统模子难以检测的物体,为产业升级和社会发展注入新的活力。
IDEA照拂院一系列视觉大模子,为处置业务场景现有的小模子蓬勃、留意迭代资本昂贵、准确率不及等问题,提供了可行的决策。

△Dino-X基座大模子零样本检测武艺,为庞杂中小企业客户提供方便高效的计数和标注用具
当今,IDEA照拂院与多家企业聚会开展视觉大模子及应用场景的探索照拂使命,在视觉大模子的落所在面取得了内容性进展。
一方面,有别于商场上的以言语为基础的多模态大模子基于全图迷惑的措施, 通过在物体级别的迷惑上加入言语模块优化大模子幻觉问题。
另一方面结合自研的“视觉教唆优化”措施,无需更始模子结构,无须从头检察模子,完结小样本下的场景化定制。

△IDEA照拂院通用视觉大模子行业平台架构
论文相连: https://arxiv.org/abs/2411.14347
官网相连:https://deepdataspace.com/home
— 完 —
量子位 QbitAI · 头条号签
关心咱们,第一时刻获知前沿科技动态约