• 沈向洋解读AI演进五大维度!IDEA研究院发布“万物可抓取”模型

      发布时间:2026-03-19 02:16:38   作者:玩站小弟   我要评论
      去年码洋规模同比下降4.63%,站在“三期交汇”关键节点。

    衡宇 发自 深圳量子位 | 公众号 QbitAI

    “机会不只来自技术本身。”

    带领IDEA研究院(粤港澳大湾区数字经济研究院)走过第五个年头的沈向洋,新鲜分享了他用来梳理智能演进的五个维度——

    算法范式智能载体交互范式计算架构数据

    作为IDEA研究院创院理事长,相比给出一个技术路径路线图,他更希望提出一个识别机会的思考框架,帮助创新者在智能演进中找到技术、产品与商业的切口。

    算法范式维度出发,AI算法已经从构筑表达与生成能力的监督学习阶段,演进到引入因果与执行的强化学习阶段。

    后面,将继续朝迈向高层认知的自主学习阶段探索。

    智能载体维度出发,当下的关注点已从语言和多模态模型,转向世界模型与具身模型。

    这个变化反映出智能载体正从抽象符号空间迈向物理空间。

    人机交互维度上,沈向洋强调交互创新的重要性。

    过去70年,人机交互经历了命令行、图形界面、搜索、推荐到自然交互的多次范式迁移,每一次迁移背后都对应着底层技术浪潮的变化。

    “今天的产品开发者必须看懂智能特性带来的交互机会。”他同时提到,自然交互内部也在分层:

    被动响应——交互式执行——具备提议能力的主动模式,交互方式从文本扩展到语音、手势乃至未来的脑机接口。

    计算架构维度已经出现从通用走向专用、从单一走向多元的趋势。GPU刺激了深度学习的第一波爆发,但能耗与成本也不断攀升。

    于是,性能、成本与能效成了大家追逐的新的平衡点,推理、端侧、强化学习等匹配不同应用任务的专用芯片纷纷涌现。

    最后关于数据——在模拟世界阶段,数据是静态教材;在探索世界阶段,数据是动态反馈;在归纳世界阶段,数据是验证假设的证据。

    从人类数据枯竭到合成数据兴起,再到AI主动探索并获取实验数据,这背后体现出数据从限制模型能力的约束,逐步转变为推动AI主动学习的工具。

    综上,不难得出沈向洋的insight:

    机会并不仅仅来自技术本身,也来自理解技术如何改变载体、交互、计算与数据的方式,如何重新分布能力、资源与价值。

    此外,沈向洋特别提到对未来个体和未来公司的思考。

    当个体的能力被AI放大,许多原本需要多环节协作的任务,可以由单个个体端到端完成。

    组织的重心,在某些领域中,会从管控变成定义问题、融合个体之间的协作。

    他打趣地说道:

    我想未来的CEO应该怎么定义呢?可能不是Chief Executive Officer,而是Chief Entertaining Officer(首席氛围官)。还发布了啥?一揽子创新项目

    此次大会上,IDEA研究院还宣布了国际先进技术应用推进中心(深圳)与深港高等研究交流中心(SHARE)两个创新平台,以及一系列创新项目。

    量子位选取了与具身、AI-Native编程语言等项目与大家分享——

    从视觉切入,发布“万物可抓取”DINO-X Grasp模型

    2025 IDEA大会上,IDEA研究院计算机视觉与机器人研究中心负责人张磊,首次系统介绍了研究院在具身智能方向的最新成果:

    DINO-X Grasp

    过去两年,具身智能异军突起,不少团队试图通过VLA(视觉-语言-动作)大模型架构,让机器人像人一样“听得懂人话,看得懂世界,动得起来”。

    但这条路线背后的问题很快浮现出来:泛化能力不足

    与其从动作建模着手,不如先把“看清楚”这个问题解决得更彻底——这成为了IDEA研究院发力的突破口。

    依托IDEA团队过去在开集目标检测和视觉感知的研究积淀,以强泛化的视觉检测模型DINO-X为基础,IDEA研究院发起了DINO-X Grasp项目

    这个模型不仅能够精准识别物体、预测抓取点位,还可以结合深度信息,还原物体的三维结构,从而指导机械臂完成稳定、精确的操作。

    更重要的是,它不挑设备也不挑场景。

    在普通4090显卡上,DINO-X Grasp可以实现10帧/秒的实时推理速度。可兼容主流的英特尔深度相机与X-ARM机械臂,不依赖昂贵工业设备。具备开箱即用的适配能力,支持在移动端或端侧设备运行

    现场展示的视频中,DINO-X Grasp驱动的机器人灵活应对各种形状各异的物品,从食品包装袋到异形障碍物,一抓一个准。

    目前,这套方案已在招商局集团多个子公司应用,覆盖港口集装箱验残、桥梁螺钉检测、夜间车辆识别等多个复杂场景。

    此外,DINO-X Grasp已经与美团机器人研究院开展了合作。

    张宏波团队MoonBit:中国人写的编程语言有了10万用户

    写过ReScript语言的张宏波,现在又带领团队在IDEA研究院开发MoonBit。

    沈向洋特别提到,张宏波是他知道的唯一一个写的编程语言全世界有以万为计量单位的人数在用的人。

    他所带领的MoonBit团队2022年底才成立,刚好赶上了ChatGPT横空出世。张宏波在台上分享时说:“作为新的编程语言,(赶上这个时间点),可以让我们有机会重新思考在AI时代下怎么做开发者工具。”

    MoonBit专门为AI时代设计

    它是所有编程语言史上第一个原生提供AI助手的语言,还为语言模型打造了基于语义分析的IDE。

    更重要的是,MoonBit的性能表现出色。在数字计算等基准测试中,性能超越Java近10倍;WebAssembly后端代码体积比Rust小30%,是TypeScript和Go的50%。

    过去一年半,MoonBit从一门支持多后端的编程语言,逐步演进为完整的全栈工具链(包含专为AI设计的原生工具集),最终构建起集开发者工具链与智能体开发生态于一体的开发者平台。

    张宏波透露,MoonBit已经有了商业付费客户,包括北美的云厂商用它来进行服务器开发。”大部分编程语言在前四年、前五年都是默默无闻的,而我们在这么早的阶段就累积了这么多用户。”

    目前,MoonBit的用户从去年的2.6万到现在超过了10万。张宏波预计到2026年底会有接近100万用户,“成为首个从中国走出去的有世界影响力的开源平台”。

    提前预告一下:

    下个月,用MoonBit编程语言开发的、支持使用多种编程语言的智能体平台MoonBit agent SDK将正式开源。

    GPU渲染器Smaray:五年磨一剑,打破国外垄断

    王嘉平团队的GPU渲染器Smaray是更为直观的IDEA研究院新近成果。

    “在电影工业中,一个镜头通常包含几百个G的数据。”王嘉平在演示时介绍,电影工业的渲染和游戏完全不同。游戏要求毫秒级响应,而电影渲染一帧画面可能需要几小时甚至一天。

    目前全球电影渲染市场被三家公司垄断:

    美国的Arnold占据半壁江山,皮克斯的Renderman和欧洲的V-Ray瓜分剩余市场。

    此前,《流浪地球》等国产大片几乎必须使用Arnold渲染。

    花了整整5年时间,从基础算法到工业标准集成,IDEA研究院终于推出了Smaray渲染器。

    现场演示环节,王嘉平展示了Smaray的实时渲染能力——

    原本需要几分钟才能看清的场景图和雄狮形象,Smaray几秒钟就渲染完成,而且可以像玩FPS游戏一样在场景中自由探索。

    更让人惊喜的是,Smaray不仅支持英伟达GPU,还支持AMD、国产GPU甚至苹果芯片。

    目前,《流浪地球》特效制作方MoreVFX、《哪吒》制作方光线动画等顶级公司已经开始使用Smaray。