6.21-25日,在美国洛杉矶举行的机器人领域国际顶会2025 Robotics: Science and Systems(RSS)中,上海期智研究院PI、清华大学许华哲、高阳团队共计发布4项最新科研
高阳 成果收录于RSS 2025
高阳团队提出了SKIL框架,通过结合视觉基础模型自动获取语义关键点,并基于关键点构建紧凑且具备语义对齐能力的表示,有效提升机器人复杂操作任务中的模仿学习效率。该方法在不增加训练数据的前提下,将抓取杯子、鼠标等日常物品的成功率提升至现有基线方法的2倍,同时展现出对物体变化、环境扰动和干扰物的强鲁棒性。
许华哲 成果收录于RSS 2025
许华哲团队提出了一种开源友好的低成本力触觉反馈动作捕捉手套系统DOGlove。该手套具备21自由度动作捕捉、5自由度力触觉反馈能力,可以精准捕捉用户手势,同时为用户提供沉浸的力触觉反馈体验。团队还配合手套硬件,进一步提出动作重映射和力触觉重映射框架,其可以协助用户完成具有丰富、复杂接触力信息的灵巧手遥操作,进一步提升数据采集质量和成功率。
许华哲 成果收录于RSS 2025
许华哲团队提出了DemoGen,一种用于机器人操作的合成数据方法。该方法可以用极低的计算和时间成本,生成视觉逼真的、针对待操作物体实现空间增强的、且具有对抗外界干扰与避障行为的合成数据,旨在改善机器人操作策略的泛化性。实验表明,仅需要一条由人类采集的原始数据,DemoGen即可生成大量的高质量合成操作数据,从而可以训练出具有良好泛化行的机器人操作策略。
许华哲 成果收录于RSS 2025
许华哲团队联合上海交通大学卢策吾团队提出了一种慢-快(slow-fast)层次化视觉触觉模仿学习算法RDP,将动作预测分为“低频隐空间扩散”(复杂全局规划)与“高频触觉微调”(闭环力控调节)两级,解决了传统 IL 方法在执行动作块期间“无法即时调整”与“动作连贯性与实时响应性难以兼得”的矛盾,在三项具有挑战性的接触丰富任务(剥皮、擦拭、双臂提杯)上相较于现有视觉 IL 基线在任务完成度、受扰动鲁棒性等方面提升显著。
6.11-15日,在美国纳什维尔举行的计算机视觉领域国际顶会2025 Conference on Computer Vision and Pattern Recognition(CVPR)中,上海期智
姚远 成果收录于CVPR 2025
姚远团队提出了RLAIF-V—完全使用开源多模态大模型反馈信号,通过分治算法自动构造高质量偏好数据,以提升多模态大模型可信度。团队将复杂的偏好标注任务拆解为更简单的原子命题判别任务,从而使得基于开源模型自动构造的偏好数据质量得到显著提升,达到与人工精标注结果超过90%的一致性,超过蒸馏 GPT-4V 等模型的偏好标注质量。通过在训练和测试时充分挖掘和利用开源自动偏好实现了超越GPT-4V的模型可信度,并提出了开源多模态大模型通过自学习提升可信度的新范式。
许华哲 成果收录于CVPR 2025
许华哲团队提出了2BY2—覆盖18类精细任务的大规模成对装配数据集,以及一套两阶段SE(3) 姿态估计框架。数据集包含1034个实例、517对物体,同时标注位姿与对称信息;模型提取 SE(3) 等变特征,估计物体之间的配对姿态,在18个任务上整体超越现有方法。该方法能够成功部署到真实世界的UR5机械臂上,在4种真实装配任务中取得 77.5 % 成功率。
弋力 成果收录于CVPR 2025
弋力团队提出了MobileH2R框架,让人形机器人首次以端到端的方式学会通用的基于视觉的人机交接策略。这一策略能从仿真迁移到现实,让当前的人形轮式机器人明星「Galbot G1」能够协同操控底盘和机械臂,在更广泛的工作区间内,从不同场景、不同状态下的人手中接过各种几何形状的物体,进一步拓展了人机交互的边界。
弋力 成果收录于CVPR 2025
弋力团队提出了“掩码自回归预训练算法”(MAP)来激发混合Mamba-Transformer视觉架构的潜力。通过分别深入分析Mamba和Transformer视觉骨干预训练的关键因素,设计了适用于混合Mamba-Transformer的统一预训练策略。这一策略在2D和3D任务上均得到充分验证,为混合Mamba-Transformer视觉架构的广泛应用和未来发展奠定了基础。
弋力 成果收录于CVPR 2025
弋力团队构建了一个关注双人合作重新摆放家用物体的大规模的融合真实和合成数据的人-物-人交互数据集CORE4D。该数据集结合了真实世界中的光-惯混合动作捕捉和仿真环境中全新的合作重定向算法,提出了动作预测和动作生成的基准任务,检验了现有方法并发现它们面临的挑战。CORE4D能提升现有的动作预测方法的效果,并支持人形机器人交互技能的学习。
弋力 成果收录于CVPR 2025
弋力团队提出了一种“基于简短行走参考的人体全身操作技能生成框架”,致力于解决物理可行的人体全身伸手与抓取动作的生成问题。团队利用先进的运动学技术构建任务相关的抓取参考姿态,并通过插值方法将其转化为可用参考运动轨迹。同时,引入局部特征对齐,对齐行走数据中蕴含可迁移的自然运动模式,最大程度提升生成动作的质量。该方法兼具自然行走的稳定性与任务动作生成的灵活性,在多种复杂环境与未见物体上的实验中均表现出卓越的成功率与适应性。
近期在美国亚特兰大举行的机器人领域国际顶会2025 International Conference on Robotics and Automation (ICRA) 中,上海期智研究院PI、清华大
陈建宇 成果收录于ICRA 2025
陈建宇团队提出了 iRe-VLA 框架,使用在线强化学习来提升视觉语言动作(VLA)大模型。该框架在强化学习和监督学习之间进行迭代,以有效地改进 VLA 模型,既能利用强化学习的探索性优势,又能保持监督学习的稳定性。在两个模拟基准测试和一个真实世界操作套件中的实验验证了方法的有效性。
高阳 成果收录于ICRA 2025
高阳团队提出了一种数据驱动的微调框架,旨在优化四足机器人运动中难以模拟的目标,例如电池功耗和踩踏噪音。这些因素通常在常用模拟器中建模不准确或缺失。该框架通过利用真实世界数据对这些目标进行建模,并将学习到的模型整合到模拟中以改进策略。以节约电能为例,展示了该框架的有效性,在不同速度下,电池总功耗显著降低了24-28%。这表明该方法能够有效地解决四足机器人运动中对功耗建模的复杂挑战,并具有解决其他难以模拟目标的潜力。
许华哲 成果收录于ICRA 2025
许华哲团队提出了一种集成移动平台、机械臂和灵巧手的高自由度操作系统—Catch It,实现了机器人对飞行物体的自主捕捉能力。团队打造了一套由移动底盘、6自由度机械臂、12自由度灵巧手组成的移动操作机器人系统,采用两阶段强化学习方法,在模拟中训练的策略可直接迁移部署于现实机器人系统,可以在真实环境中捕捉人类投掷的不同形状的物体。
赵行 成果收录于ICRA 2025
赵行团队提出了TrackOcc,一种先进的方法,能以流式、端到端方式处理图像输入,并提供 4D 全景查询,以解决提出的任务。利用定位感知损失,TrackOcc很轻松就能提高 4D 全景占用跟踪的准确性。实验结果表明,该方法在 Waymo 数据集上实现了最先进的性能。
赵行 成果收录于ICRA 2025
赵行团队提出了一种全新鲁棒四足机器人运动控制方法—Robust Robot Walker,使机器人能够仅依赖本体感知在复杂真实环境中跨越微型障碍。
赵行 成果收录于ICRA 2025
赵行团队提出了四足机器人在三维地形中的自主导航系统—SARO,具备良好的空间感知能力。该系统引入了预训练视觉-语言模型(VLM),结合任务分解与闭环子任务执行模块,利用VLM的零样本推理能力对3D地形进行语义感知与任务规划,显著提升了高层空间推理与运动规划能力。在多个室内外地形场景中,包括楼梯、斜坡、缺口与门框等典型三维地形,SARO系统在实际部署中显著优于现有方法。
赵行 成果收录于ICRA 2025
赵行团队提出了 StateTransformer-2(STR2),STR2 通过将运动规划任务转化为自监督序列建模,并结合专家混合架构,实现了在各种复杂城市场景下的卓越泛化性能。相较于以往需要多阶段、多范式训练的方案,STR2 仅凭单一阶段的自监督学习,就能在少样本、零样本、以及大规模产业级数据环境中保持高度一致的性能表现,从而大幅降低了研发门槛并提高了部署价值。在 NuPlan 数据集上的大规模实验结果表明,STR2 在不同测试集、包括少样本与零样本场景上,较现有方法均取得显著提升;在 LiAuto 产
近期在新加坡举行的人工智能与机器学习领域国际顶会2025 International Conference on Learning Representation(ICLR)中,上海期智研究院PI、清华
杜韬 成果收录于ICLR 2025
近期在新加坡举行的人工智能与机器学习领域国际顶会2025 International Conference on Learning Representation(ICLR)中,上海期智研究院PI、清华大学高阳、张景昭、弋力、许华哲、杜韬各团队共计发布7项最新科研成果。主要成果包括通过数据扩展定律提高机器人操作样本效率,“懒”外插牛顿法突破“最优”算法的计算复杂度,“通用灵巧操作轨迹跟踪器”来解决通用灵巧操控策略的获取问题,逆扩散模型元观测框架Stem-OB、可微仿真与拓扑优化推测固体内部拓扑的方法Topo
许华哲 成果收录于ICLR 2025
近期在新加坡举行的人工智能与机器学习领域国际顶会2025 International Conference on Learning Representation(ICLR)中,上海期智研究院PI、清华大学高阳、张景昭、弋力、许华哲、杜韬各团队共计发布7项最新科研成果。主要成果包括通过数据扩展定律提高机器人操作样本效率,“懒”外插牛顿法突破“最优”算法的计算复杂度,“通用灵巧操作轨迹跟踪器”来解决通用灵巧操控策略的获取问题,逆扩散模型元观测框架Stem-OB、可微仿真与拓扑优化推测固体内部拓扑的方法Topo
许华哲 成果收录于ICLR 2025
近期在新加坡举行的人工智能与机器学习领域国际顶会2025 International Conference on Learning Representation(ICLR)中,上海期智研究院PI、清华大学高阳、张景昭、弋力、许华哲、杜韬各团队共计发布7项最新科研成果。主要成果包括通过数据扩展定律提高机器人操作样本效率,“懒”外插牛顿法突破“最优”算法的计算复杂度,“通用灵巧操作轨迹跟踪器”来解决通用灵巧操控策略的获取问题,逆扩散模型元观测框架Stem-OB、可微仿真与拓扑优化推测固体内部拓扑的方法Topo
弋力 成果收录于ICLR 2025
近期在新加坡举行的人工智能与机器学习领域国际顶会2025 International Conference on Learning Representation(ICLR)中,上海期智研究院PI、清华大学高阳、张景昭、弋力、许华哲、杜韬各团队共计发布7项最新科研成果。主要成果包括通过数据扩展定律提高机器人操作样本效率,“懒”外插牛顿法突破“最优”算法的计算复杂度,“通用灵巧操作轨迹跟踪器”来解决通用灵巧操控策略的获取问题,逆扩散模型元观测框架Stem-OB、可微仿真与拓扑优化推测固体内部拓扑的方法Topo
张景昭 成果收录于ICLR 2025
近期在新加坡举行的人工智能与机器学习领域国际顶会2025 International Conference on Learning Representation(ICLR)中,上海期智研究院PI、清华大学高阳、张景昭、弋力、许华哲、杜韬各团队共计发布7项最新科研成果。主要成果包括通过数据扩展定律提高机器人操作样本效率,“懒”外插牛顿法突破“最优”算法的计算复杂度,“通用灵巧操作轨迹跟踪器”来解决通用灵巧操控策略的获取问题,逆扩散模型元观测框架Stem-OB、可微仿真与拓扑优化推测固体内部拓扑的方法Topo
张景昭 成果收录于ICLR 2025
近期在新加坡举行的人工智能与机器学习领域国际顶会2025 International Conference on Learning Representation(ICLR)中,上海期智研究院PI、清华大学高阳、张景昭、弋力、许华哲、杜韬各团队共计发布7项最新科研成果。主要成果包括通过数据扩展定律提高机器人操作样本效率,“懒”外插牛顿法突破“最优”算法的计算复杂度,“通用灵巧操作轨迹跟踪器”来解决通用灵巧操控策略的获取问题,逆扩散模型元观测框架Stem-OB、可微仿真与拓扑优化推测固体内部拓扑的方法Topo
高阳 成果收录于ICLR 2025
近期在新加坡举行的人工智能与机器学习领域国际顶会2025 International Conference on Learning Representation(ICLR)中,上海期智研究院PI、清华大学高阳、张景昭、弋力、许华哲、杜韬各团队共计发布7项最新科研成果。主要成果包括通过数据扩展定律提高机器人操作样本效率,“懒”外插牛顿法突破“最优”算法的计算复杂度,“通用灵巧操作轨迹跟踪器”来解决通用灵巧操控策略的获取问题,逆扩散模型元观测框架Stem-OB、可微仿真与拓扑优化推测固体内部拓扑的方法Topo
2025 年3月举办的计算机体系结构和高性能计算领域的顶级学术会议High Performance Computer Architecture(HPCA , 美国-拉斯维加斯)中,上海期智研究院PI、
高鸣宇 成果收录于HPCA 2025
在HPCA 2025中,上海期智研究院PI、上海交通大学教授冷静文、蒋力,上海期智研究院PI、清华大学副教授高鸣宇各团队共计发布4项最新科研成果。在向量量化的大模型推理,加速AI 推理的端到端稀疏编译优化方案,针对动态神经网络的专用加速架构等方向取得创新成果。
蒋力 成果收录于HPCA 2025
在HPCA 2025中,上海期智研究院PI、上海交通大学教授冷静文、蒋力,上海期智研究院PI、清华大学副教授高鸣宇各团队共计发布4项最新科研成果。在向量量化的大模型推理,加速AI 推理的端到端稀疏编译优化方案,针对动态神经网络的专用加速架构等方向取得创新成果。
冷静文 成果收录于HPCA 2025
在HPCA 2025中,上海期智研究院PI、上海交通大学教授冷静文、蒋力,上海期智研究院PI、清华大学副教授高鸣宇各团队共计发布4项最新科研成果。在向量量化的大模型推理,加速AI 推理的端到端稀疏编译优化方案,针对动态神经网络的专用加速架构等方向取得创新成果。