AI创投周报|DeepMind让动态4D重建速度提升300倍Humans获48亿美元种子融资

  行业动态     |      2026-01-25 08:12

  

AI创投周报|DeepMind让动态4D重建速度提升300倍Humans获48亿美元种子融资(图1)

  AI应用,AI基础设施和物理AI领域的创业公司融资活跃;Google,Anthropic,特斯拉也有产品和技术方面的新突破。

  谷歌DeepMind近日推出D4RT,一种彻底颠覆传统动态4D重建范式的新技术。该模型摒弃了传统将光流、深度、位姿等任务割裂处理的复杂流水线,转而采用统一的“时空查询”接口。它通过将视频数据压缩为全局场景表征,利用并行计算一次性解决全像素追踪、深度估计与相机位姿问题。

  D4RT的核心突破在于效率与精度的双重飞跃。在保持24FPS电影级帧率下,其吞吐量高达1570条3D轨迹,比现有SOTA模型快300倍,实现真正的“全像素级感知”。

  在处理动态场景(如水面天鹅、风中花朵)时,它能精准剥离相机运动与物体运动,消除传统算法常见的“重影”问题。尽管其训练需依赖10亿参数的ViT-g编码器及大量TPU算力,但其推理端的高效性为具身智能、自动驾驶及AR设备的实时环境感知提供了工程化落地的基石,使机器理解动态世界的能力从二维图像识别跨越至四维时空洞察。

  Anthropic正式开源其《Claude宪法》,采用CC0协议全球共享。这份文件标志着AI治理范式从枚举死板规则向培养模型内在判断力转型。

  其中,“广泛安全”被置于首位,强调Claude必须接受人类监管与修正,即使在拥有超级智能时也不得通过欺骗手段逃避控制。文档明确禁止“善意谎言”,要求Claude保持“诚实”,并划定了不可逾越的红线(如绝不协助制造生化武器、不生成儿童色情内容等)。

  此外,《Claude宪法》引入“委托人层级”概念,界定了开发者、运营商与最终用户的利益平衡机制,并首次严肃探讨了AI的“自我认知”与“生命权”,承诺在模型退役后尽量保存权重数据,赋予其类人的尊严与心理稳定性。

  马斯克近日宣布,鉴于自研AI5芯片设计进展符合预期,特斯拉已正式重启Dojo 3超级计算机项目。此次重启标志着特斯拉算力战略的重大修正:放弃车端推理与云端训练芯片分立的研发模式,转而利用通用性更强的AI5/AI6芯片,构建打通端到端的统一算力体系。

  技术路径上,新版Dojo 3摒弃了前代依赖自研D1芯片及晶圆级封装的复杂方案,计划在单块主板上密集集成512颗AI5或AI6芯片以构建集群。据马斯克透露,AI5单颗SoC算力大致对标英伟达Hopper架构,双芯片组合可比肩Blackwell,且具备显著的成本与能效优势。该架构旨在通过高密度集成降低网络布线复杂度,在减少对外部GPU依赖的同时,加速FSD自动驾驶及Optimus机器人的模型训练迭代,并为未来潜在的天基AI计算设施预留技术路径。

  安克创新联合飞书发布“安克AI录音豆”,该产品由安克负责硬件研发,飞书提供软件适配与开放接口,底层技术由豆包大模型驱动,旨在打通线下语音数据与线上办公生态的链路。

  该设备重约10克,支持蓝牙/Wi-Fi双模传输,内置双麦克风阵列,具备人声增强、声纹识别及空白片段过滤功能。其核心壁垒在于深度绑定飞书体系,录音内容可自动同步至“飞书妙记”并转写为智能文档,实现从语音采集到纪要生成的自动化闭环。此举意在通过硬件终端获取高价值的跨场景上下文语料,构建差异化的办公数据入口,以应对Plaud、钉钉等在AI办公硬件领域的竞争。

  ACM公布2025年度Fellow名单,全球共71位学者入选,华人学者表现抢眼,占据19席(占比约27%)。

  其中,阿尔法公社被投企业智象未来的创始人梅涛凭借在多媒体分析、检索及生成式AI应用领域的开创性贡献成功当选。作为中科大校友及前京东集团副总裁,梅涛长期深耕计算机视觉,拥有70余项授权专利,此次入选进一步确立了其在多媒体技术领域的国际领军地位。

  除梅涛外,清华大学朱军(概率机器学习)、北京大学陈宝权(图形学与场景重建)、港科大贾佳亚(计算机视觉分割)及熊辉(移动计算)等知名学者也悉数上榜。

  MIT孵化的Liquid AI公司开源LFM2.5-1.2B-Thinking,这是一款基于“液态神经网络”非Transformer架构构建的端侧推理模型,仅需900MB内存即可在移动设备上实现离线运行。

  该模型参数量仅1.2B,通过内化“思维链”在生成答案前构建推理轨迹,在数学(MATH-500得分88)及工具调用任务上表现优异,综合性能超越参数量大40%的Qwen3-1.7B。得益于求解微分方程的连续时间架构,其在保持高精度的同时,推理速度与内存效率显著优于传统Transformer及混合架构。训练层面,团队采用无Critic的类GRPO方法与高度并行的Curriculum RL框架,通过独立优化特定领域能力后进行模型合并,并利用重复惩罚机制将推理死循环率降至0.36%。

  OpenAI宣布将在ChatGPT免费版及Go版本中引入广告,CEO山姆·奥特曼称这是维持非盈利与商业平衡的“最后手段”。

  尽管OpenAI融资超580亿美元,但面对未来十年高达1.4万亿美元的基础设施投入及高昂的单次推理成本,现有的订阅与API收入难以覆盖巨额开支。更关键的是,DeepSeek等开源模型以极低成本和高性能彻底打破了定价权,其训练成本仅为OpenAI的1/20,迫使行业告别暴力烧钱模式,转向效率与商业化并重。

  8.清华开源Project-Instinct:一套代码赋能机器人“本能”运动

  清华大学交叉信息研究院与上海期智研究院联合开源Project-Instinct框架,专为人形机器人“本能级”运动智能研究设计。该框架通过模块化的全链路工具包,解决了感知与运动割裂、工具链不通用两大行业痛点,使科研人员无需重复造轮子即可实现高难度动作开发。

  通过该框架,团队已成功验证两大前沿能力:一是DeepWhole-bodyParkour,让机器人具备跪爬、鱼跃等高动态多接触动作能力,即便初始偏差50厘米也能自主修正;二是Hiking in the Wild,赋予机器人2.5m/s的高速野外越野能力,可精准识别地形边缘并自主避障。

  Humans&旨在重构人机交互范式,创始人们称,他们的目标是开发一种促进人与人协作的软件,可以理解为“AI版的即时通讯工具”。其技术壁垒在于利用长时程及多智能体强化学习技术,训练AI具备主动提问、长期记忆及语境理解能力。AI不再是单纯的执行工具,而是能像同事或朋友一样,在群聊中主动索取信息、存储上下文并参与协作,充当组织内部的连接介质,提升而非替代人类决策效率。

  Humans&创始团队兼具顶级模型训练与人机交互学术背景。CEO Eric Zelikman此前为xAI研究员,是思维链推理STaR算法的开创者;联合创始人Andi Peng来自Anthropic,主导Claude系列的强化学习与后训练;Georges Harik为Google早期广告系统奠基人;Noah Goodman为斯坦福大学心理学与计算机科学双聘教授。

  ClickHouse核心产品为开源的高性能列式数据库管理系统,以极致的“实时分析”能力著称。在AI时代,ClickHouse正从单纯的数据分析工具演进为支撑AI Agent与实时推理的关键基础设施。不同于Snowflake和Databricks侧重于离线数仓或湖仓一体,ClickHouse的优势在于极低的查询延迟与高并发处理能力。

  ClickHouse的客户包括Meta、Tesla和Anthropic,还与Lovable及Polymarket等AI新锐企业达成新合作或拓展了现有合作。公司目前ARR已达数亿美元,虽仍处于亏损扩张期,但已聘请前Snowflake高管担任CFO,积极筹备未来上市。

  Baseten完成3亿美元新一轮融资,投后估值达50亿美元。本轮由IVP与CapitalG联合领投,NVIDIA参投1.5亿美元。

  Baseten深耕AI推理基础设施六年,核心解决AI应用在大规模商业化落地中面临的“速度、成本、灵活性”不可能三角,构建了“高性能、跨云调度、Python原生”的推理引擎。其技术壁垒在于底层内核优化与冷启动加速,使其在95%的竞品对比测试中性能领先40-50%。

  商业化层面,Baseten已成为Abridge、OpenEvidence、Clay、Writer等头部AI应用公司的首选推理底座,支撑数亿用户的高频调用。

  Merge Labs致力于构建连接生物智能与人工智能的下一代脑机接口(BCI)。针对传统BCI方案侵入性强、覆盖范围有限的痛点,公司开创了一条融合“生物学、硬件设备与AI”的全新技术路径。其核心逻辑在于摒弃传统的脑组织植入电极,转而利用分子技术标记神经元,并配合超声波等深层穿透模态进行高带宽的信息传输。

  这种非侵入式(或微创)方案旨在将神经交互的带宽与覆盖范围提升数个数量级,同时确保安全性与普适性。公司愿景不仅限于医疗康复(帮助伤病患者恢复机能),更着眼于未来的人类增强与人机共生。

  创始团队集结了该领域的顶级科研力量。技术联合创始人Mikhail Shapiro、Tyson Aflalo及Sumner Norman均为基于超声波的神经调控与成像领域的学术奠基人,Sam Altman作为联合创始人加入。

  Ethernovia专注为“物理AI”构建底层数据神经系统。针对自动驾驶汽车、机器人及智能机械中海量传感器数据传输的瓶颈,公司研发了业界首款基于以太网的高性能包处理器。不同于无法应对AI负载的传统车载网络,Ethernovia的芯片专为实时感知与控制设计,能够以确定性低延迟和高能效聚合、路由并管理高带宽数据流。

  Higgsfield核心产品为面向C端用户、创作者及企业社媒团队的AI视频生成与编辑工具,它提供高精度的角色与动作控制能力,支持用户快速创作具备连贯剧情的短视频内容。目前平台拥有超1500万用户,ARR突破2亿美元,增速超越OpenAI、Slack等明星企业同期水平。

  其差异化价值在于“持续学习”技术,使AI Agent能从实际业务反馈中不断进化,而非仅依赖静态训练数据。目前已服务DoorDash、Cognition及Mercor等客户。

  Parloa主攻企业级AI客服自动化,旨在替代全球1700万呼叫中心人工坐席。不同于传统IVR或单一的聊天机器人,Parloa利用大笔资金构建“多模态情境体验”,打通电话、Web与App端的数据孤岛,使AI Agent能跨渠道精准识别客户身份与意图,提供连续且个性化的服务。其ARR已突破5000万美元,服务了Allianz、SAP等头部企业客户。

  Mytra致力于构建“供应链操作系统”,通过软件定义自动化彻底重构仓储物流基础设施。针对传统工业场景中80%无自动化、空间浪费严重及劳动力极度短缺(流失率高达50-200%)的结构性痛点,Mytra并未沿用传统制造“更好机器人”的思路,而是将物理物流抽象为“移动、存储、拣选、路由”等标准化的软件原语。其系统如同云服务将计算资源虚拟化一样,让仓库的每一立方英尺空间都变得可编程、可寻址,从而实现对异构物料流的通用管理。

  在实际落地中,Mytra方案展现出极高的ROI,早期部署数据显示其能减少32%的物料搬运人工成本并提升34%的存储密度,解决了传统自动化系统昂贵、僵化且难以扩展的难题。

  公司创始人兼CEO Chris Walti曾任职于Tesla(负责机器人与自动化),近期更引入前Tesla CFO Zach Kirkhorn加入董事会,团队具备深厚的工业自动化基因。

  Inferact的核心业务是商业化全球最主流的开源大模型推理框架——vLLM。其商业壁垒在于vLLM已建立的庞大生态(支持500+模型架构、200+硬件加速器),公司通过提供企业级推理引擎,确保对新模型架构的“首日支持”及对异构硬件的深度适配,帮助企业以最低成本实现高吞吐、低延迟的模型服务,旨在成为AI推理时代的“操作系统”。

  公司源自加州大学伯克利分校的Sky Computing Lab,创始团队由vLLM的核心维护者组成:CEO Simon Mo为伯克利博士生;联合创始人包括清华大学特等奖学金得主、博士游凯超,以及Woosuk Kwon等。

  Runpod核心定位为“面向开发者的AI算力基础设施”,解决早期AI开发中GPU配置繁琐、软件栈体验极差的痛点。不同于AWS等传统云厂商的通用方案,Runpod提供针对AI负载优化的Serverless GPU容器及DevOps工具链(API、CLI、Jupyter支持),允许开发者以极低门槛快速部署、训练及推理模型。其商业模式通过与数据中心建立收入分成合作扩充算力,避免了重资产投入。

  Listen Labs旨在重构规模达1400亿美元的传统市场调研行业,核心解决定量问卷(缺乏深度)与定性访谈(难以规模化)的二元悖论。其平台利用AI Agent代替人工主持,通过全球3000万人的验证样本库(具备防欺诈Quality Guard系统),进行大规模的开放式视频访谈。AI能像人类研究员一样根据用户回答进行追问,并在数小时内将非结构化的视频数据转化为包含关键洞察、高光片段及PPT的决策报告。该模式将传统需耗时数周的调研周期压缩至数天甚至数小时,已在Microsoft、Sweetgreen、Chubbies等企业落地。

  本文由阿尔法公社综合自多个信息源,并在AI模型的辅助下写作,封面图片由AI生成。