常用工具 医生入驻 免费问医生

格灵深瞳视觉基础模型Glint

2025-08-28 17:03:06 来源:弄巧反拙网   

2018年中国股市十大预言:GDP增长将保持6.7%左右

近日,格灵格灵深瞳灵感实验室和华为伦敦研究所发布最新版视觉基础模型——Glint-MVT v1.5(RICE)。深瞳视觉

格灵深瞳此前有6篇论文亮相国际顶级学术舞台ICCV 2025,基础涵盖视觉基座模型、模型人脸3D重建等领域,格灵其中最新版MVT的深瞳视觉相关论文不仅入选,还被接收为Highlight论文。基础

先看升级后的模型核心要点:

1技术创新性方面:新版MVT提出了一种区域局部感知增强的视觉特征学习方法。

2下游任务表现方面:在OCR和分割等任务上效果优于v1.1版和AIMv2、格灵SigLIP2。深瞳视觉

3此外,基础团队还构建了共4亿图像、模型20亿局部区域、格灵4亿文字区域的深瞳视觉预训练数据集。

概括来说,基础MVT v1.5的最大升级在于:强化了模型对图像细节和文字特征的捕捉和表达能力,在精细任务上表现更优。

以往的视觉-文本对比学习模型,如OpenAI的CLIP模型和谷歌的改进版SigLIP模型等,更侧重全局图像特征(对图像内容的概括性描述),核心的训练逻辑是 “全局对齐”,让模型理解图像的整体语义,并和文本的整体语义相对应。

但这类模型对图像局部区域的细节信息表达较少,难以满足需要精细处理图像的任务,例如OCR和图像分割等。

针对这一问题,新版MVT提出一种区域局部感知增强的视觉特征学习方法。

在技术方案上,格灵深瞳团队利用专家分割模型和OCR模型,对无标注数据进行处理,产生十亿级局部区域,并通过聚类产生伪标签。也就是说,通过分割-OCR-聚类的技术流程,团队将无标注数据转化为带伪标签的大规模训练集,节约了标注成本,提升了自主学习能力。

25a2de24-6957-11f0-a6aa-92fbcf53809c.png

同时,团队设计了区域Transformer层,用来提取局部区域特征和支持数据扩展的区域鉴别损失,使得团队能在亿级数据上进行预训练,突破了在大规模样本上进行高效训练的技术挑战。

基于以上技术攻关,MVT v1.5增强了局部特征和文字特征。相较于传统的全局图像特征模型,新版MVT在检测分割、OCR等对应的下游任务表现上得到提升,有效性得到验证。

25b9774c-6957-11f0-a6aa-92fbcf53809c.png

以文字OCR任务为例,从下图可以看出,MVT v1.5(RICE)的多项分数高于CLIP和SigLIP等模型。

文字OCR任务和全局理解任务:

25c3e510-6957-11f0-a6aa-92fbcf53809c.png

引用分割:

25d64200-6957-11f0-a6aa-92fbcf53809c.png

检测分割任务:

25e81732-6957-11f0-a6aa-92fbcf53809c.png

单目标跟踪任务:

25fcf4ae-6957-11f0-a6aa-92fbcf53809c.png

从技术创新到下游任务,格灵深瞳并非单纯追求学术表现,而是注重技术成果转化应用,通过提升任务表现推动AI在多元场景中真正落地。

MVT v1.5背后的技术团队——格灵深瞳灵感实验室,是国内计算机视觉领域的深耕者。灵感实验室聚焦于视觉及相关模态特征表达与应用,主要研究方向包括:视觉基础大模型、多模态大模型、图文多模态表征、大规模分布式训练等。下一步,团队将锚定视频理解领域,发布最新模型成果。

希望以上内容对您有帮助。

阅读全文
相关推荐
焦点视频推荐精选问答
养生文章推荐
加强能力建设 筑好“地下长城” 不断开创人民防空事业新局面

2025英特尔人工智能创新应用大赛获奖名单揭晓

加强能力建设 筑好“地下长城” 不断开创人民防空事业新局面
8月25日下午,市委副书记、市长鞠振调研我市人防工作。调研中,鞠振分别来到市国动办人防宣教馆、人防指挥所、724早期人防工程,详细了解我市人民防空历史沿革、人防工程建设及运行维护、宣传教育等情况,对我
18日早报:迈卡威新号码确定 小牛签约考神弟弟

央视《星光大道》首次在厦海选 23名选手晋级省赛

18日早报:迈卡威新号码确定 小牛签约考神弟弟
18日早报:迈卡威新号码确定 小牛签约考神弟弟发布时间:2017-08-21 12:56 来源:豫都网 我来说说 我要投稿[摘要]北京时间10月18日,新赛季NBA季前赛继续进行,而在赛场内外,也有不
日本BitSummit独立游戏展会阵容揭晓 游戏界传奇云集!

觉得选择实木家具难的人一定要来看看啦!

日本BitSummit独立游戏展会阵容揭晓 游戏界传奇云集!
日本最大独立游戏盛会BitSummit近日公布重磅嘉宾阵容。传奇作曲家植松伸夫《最终幻想》系列)将携乐队conTIKI压轴演出,与芯片音乐先驱田中弘和Game Boy Camera发明者)、作曲家Ok
高等玻璃市场预计到2026年将达到796亿美元,年复合增长率为7.63%,国际动态

国网汾阳市供电公司:多措并举严控现金流预算执行偏差

高等玻璃市场预计到2026年将达到796亿美元,年复合增长率为7.63%,国际动态
高等玻璃市场预计到2026年将达到796亿美元,年复合增长率为7.63%。大部分国家高等玻璃市场发展的主要驱动因素包括:快速增长的人口、机械创造的可用性,以及大部分国家不同地区的积较财政策略。高等玻璃
反常!美债美元剪刀差,2025年非美资产机会来了?

福建漳州70K 100K防撞缓冲车租赁 出租 价格 报价 配置专汽家园

反常!美债美元剪刀差,2025年非美资产机会来了?
汇通财经APP讯——周二8月26日),受美国总统特朗普签署文件解除美联储理事库克职务并即刻生效影响,美元指数早盘一度跳水跌0.3%至98.08附近,不过,目前已经收复跌幅,交投于98.43附近。美国货
比尔单节15分沃尔9+9 恩比德11+12奇才大胜76人

台積新金礦CoWoS:張忠謀力挺!用一片披薩解釋,為何引眾怒也要做|天下雜誌

比尔单节15分沃尔9+9 恩比德11+12奇才大胜76人
比尔单节15分沃尔9+9 恩比德11+12奇才大胜76人发布时间:2017-08-13 11:01 来源:豫都网 我来说说 我要投稿[摘要]数据 投篮点 实录 北京时间10月14日,在今天进行的NBA
鮑爾不惜衰退也要下猛藥?接下來會如何?專家解答關鍵三問|天下雜誌

社保卡"一卡通" 挂号、问诊、取药、缴费全搞定

鮑爾不惜衰退也要下猛藥?接下來會如何?專家解答關鍵三問|天下雜誌
9月21日聯準會主席鮑爾不惜讓經濟陷入衰退也要強勢升息壓抑通膨的說法,令市場應聲大跌。但激動過後,大家該如何解讀未來的經濟情勢?美國何時會陷入衰退?這波升息循環何時才會告終?以下是關鍵三問的專家分析。
沙河玻璃产能减少,渠道积较存货!,市场研究

中央媒体赴赣州学习调研活动启动

沙河玻璃产能减少,渠道积较存货!,市场研究
据了解,沙河地区生产线停产有进一步的发展,正大三线800吨计划今天放水冷修。受之影响,昨天沙河地区贸易商采购玻璃的积较性大幅度提高,主要是以非标产品为主,常规尺寸的国标玻璃出库情况一般。同时部分华东、
2017年,我国热水器行业规模可期

实木家具保养的那些时光

2017年,我国热水器行业规模可期
近年来,我国经济以腾飞之势飞速发展,人们的生活水平也越来越高,但过度追求经济快节奏发展的同时,也导致了安全洗浴问题的出现,因此,人们的安全意识越来越高,对热水器产品的选购也是更加谨慎小心。诚然,消费者
上半年搭载量超第二、三名总和!华为乾崑领跑高阶辅助驾驶

张馨予婚礼图曝光,老公花式称赞妻子脚美,网友:兵哥哥情话了得

上半年搭载量超第二、三名总和!华为乾崑领跑高阶辅助驾驶
当苗圩提出 "汽车产业,新能源是上半场、智能网联是下半场" 的行业研判时,或许未曾预料到下半场的竞争会以如此迅猛的节奏展开。2025 年 8 月华为乾崑智驾装机量达成百万里程碑,标志着中国汽车