聚焦于机器人研究,提出 FuSe 方法,通过语言锚定对通用机器人策略进行微调 视觉、触觉、听觉

news/2025/2/21 7:24:58

聚焦于机器人研究,提出 FuSe 方法,通过语言锚定对通用机器人策略进行微调,利用多模态传感器提升性能,在多种任务中表现优异,具备跨模态推理能力。

 

  1. 研究背景:与世界交互需多感官协作,当前先进通用机器人策略多依赖视觉和本体感受数据训练,忽略其他模态信息。
  2. 方法:FuSe 利用自然语言作为跨模态锚定,结合多模态对比损失和基于感官的语言生成损失,对视觉运动通用策略在异构传感器模态上微调。多模态对比损失最大化不同模态和场景语义间互信息;多模态生成损失通过生成网络和辅助交叉熵损失,将观察嵌入与语言指令对比学习。
  3. 数据集:收集 26,866 条轨迹数据集,涵盖桌面抓取、购物袋抓取、按钮按压任务,涉及视觉、触觉、音频等多种传感器数据。
  4. 实验结果:FuSe 在所有任务环境中超越基线方法,在购物袋抓取任务提升显著。还具备简单和复杂跨模态推理能力,且适用于不同通用策略架构,如 PaliGemma - based 3B - parameter VLA 模型。
  5. 引用

http://www.niftyadmin.cn/n/5860449.html

相关文章

分布式光纤声波振动技术在钻井泄漏检测中的应用

在石油天然气的钻井作业中,及时发现并定位泄漏点对于保障开采安全、降低环境污染以及避免经济损失至关重要。传统的泄漏检测方法往往存在局限性,而分布式光纤声波振动技术凭借其独特的优势,正逐渐成为钻井过程中寻找泄漏的有力工具。 技术原理…

深入解析MySQL索引:本质、分类、选择及使用原则

一、索引的本质 索引,作为数据库中的一种核心数据结构,其本质在于通过改变数据结构来加快查询效率。可以将索引理解为数据库中的一种“目录”或“路标”,它帮助数据库系统快速定位到需要查询的数据行,从而大大提高数据检索的速度…

快速入门Springboot+vue——MybatisPlus多表查询及分页查询

学习自哔哩哔哩上的“刘老师教编程”,具体学习的网站为:7.MybatisPlus多表查询及分页查询_哔哩哔哩_bilibili,以下是看课后做的笔记,仅供参考。 多表查询 多表查询[Mybatis中的]:实现复杂关系映射,可以使…

计算机网络之TCP的可靠传输

上一篇内容可能比较多,显得比较杂乱,这一篇简单总结一下TCP是靠什么实现可靠传输的吧。 校验和 TCP是端到端的传输,由发送方计算校验和,接收方进行验证,目的是为了验证TCP首部和数据在发送过程中没有任何改动&#x…

语音直播交友app出海:语音直播交友系统软件源码搭建国际化发展技术层面分析

随着移动互联网的普及和全球社交需求的增长以及国内如火如荼的Ai大模型引起的全球发展热潮,语音直播软件出海成为了具有巨大发展潜力的业务领域。以下是一些关键的技术方向,将为语音直播软件在国际市场的成功推广及搭建合作奠定基础。 通信技术 实时语音…

k8s Container runtime network not ready

问题 k8s 3 控制节点,docker 运行时,后期踢掉其中一个节点,使用了 containerd 运行时,但是在加入集群的时候,node 状态 notready。查看 kubelet 的日志发现如下报错 Feb 20 11:28:14 bjm3 kubelet[144781]: E0220 11:28:14.506374 144781 kubelet.go:2475] "Conta…

AGI的星火?:解码语言模型进化史与文明重构

AGI的星火?:解码语言大模型进化史与文明重构 序章:机器之眼中的文艺复兴 在斯坦福大学的地下档案室,保存着1955年麦卡锡手写的"人工智能"原始提案。泛黄的稿纸上,他用铅笔勾勒的智能体结构图,与…

小米AX3000T 路由器如何开启 SSH 安装 OpenWRT 系统,不需要降级 v1.0.91 (2025)

小米AX3000T 路由器如何开启 SSH 安装 OpenWRT 系统,不需要降级 v1.0.91 (2025) 本文内容需要你有一定的 Linux 操作基础,最好是程序员那种,英文水平足够用才行。一般人不需要使用这么复杂的路由器操作系统&#xff0c…