爬越企服-爬越算法备案代办

快速导航

联系客服

客服橙子

  • 微信二维码

  • 13360330306

  • cz@payue.com

算法备案

代办互联网信息服务算法备案、深度合成备案填报,电话13360330306,微信同号

达闼 RobotGPT 多模态具身大模型算法原理分析报告

  •  更新时间:2024/08/06
  •  点击量:117
  •  分享

一、引言

随着人工智能技术的飞速发展,特别是多模态学习和机器人技术的深度融合,智能机器人正逐步从单一功能向多功能、高智能化方向迈进。达闼科技推出的RobotGPT多模态具身大模型算法,正是这一领域的重要突破。本报告将从算法的基本原理、运行机制、应用场景及目的意图等方面,对RobotGPT进行全面而深入的分析。

二、算法基本原理

RobotGPT是一个基于MOE(Mixture of Experts,专家混合)结构的多模态具身大模型算法,它集成了多种先进的人工智能技术,包括自研的大语言模型、开放域检测视觉大模型、机器人导航大模型和机器人抓取大模型等。这一算法的核心在于通过全参数微调训练,实现了语言、视觉、导航和抓取等多模态信息的深度融合与协同工作。RobotGPT不仅能够进行开放式知识问答、文本内容创作生成、自然语言处理等语言相关的任务,还能够结合视觉大模型的环境感知能力,以及导航和抓取大模型的机器人控制能力,自主完成复杂的多模态交互和任务执行。

三、算法运行机制

RobotGPT的运行机制可以概括为多模态输入、多模态输出和提示管理三个关键环节。

  1. 多模态输入:RobotGPT首先通过机器人传感器采集多模态感知信息,包括声音、视频、图像等。这些信息经过高效的专家算法处理(如人脸识别、语音识别等),生成更多模态数据。随后,通过多模态对齐算法,这些数据被整合成弹性可扩展的结构化多模态感知数据,为后续处理提供基础。

  2. 多模态输出:根据用户语音指令和其他模态信息的输入,RobotGPT构建不同的提示工程内容,并执行多轮推理。输出形式包括多模态人机交互(如语音、图像、视频等)、机器人执行动作(如底盘、关节运动)或任务分解与执行等。提示管理作为连接外部环境和机器人、不同输入模态以及RobotGPT内部大模型之间的桥梁,通过消除歧义、引导推理思维链,确保输出的准确性和可靠性。

  3. 提示管理与敏感信息管理:提示管理模块对用户输入进行预处理,结合环境和用户画像进行灵活个性化推荐,提高内容的适合度和安全性。RobotGPT生成的内容会经过敏感信息管理模块的审核,包括AI自动审核和人工审核,确保内容的真实性、客观性和准确性。对于敏感信息,采用兜底话术进行回复。

四、算法应用场景

RobotGPT的应用场景广泛,主要支持包括机器人在内的智能设备,实现多模态人机交互和多模态复杂任务的自主执行。通过海睿AGI平台,RobotGPT可向不同企业和个人用户开放服务,支持Web应用的开发和合作。这一算法不仅可用于家庭服务机器人、工业生产线机器人等场景,还可拓展至教育、医疗、娱乐等多个领域,为智能机器人行业注入新的活力。

五、算法目的意图

RobotGPT的目的在于通过集成和融合多种感知模式和专家大模型,实现对环境和对象的深度理解,并通过类似人类的认知方式完成信息处理。该算法旨在提升机器人的灵活性和适应能力,使其能够生成文本、图片、音视频等多种内容,并编排机器人动画序列、推理分解行动控制指令等。同时,RobotGPT还通过结合用户画像和个性化推荐等内容,实现机器人自主工作以及执行复杂和多功能的工作。此外,RobotGPT还希望通过海睿AGI平台向不同企业和个人用户开放服务,作为多模态基础大模型训练调优行业大模型,加速各领域的发展和行业应用的落地。

六、结论与展望

达闼RobotGPT多模态具身大模型算法是人工智能与机器人技术深度融合的重要成果。该算法通过集成多种感知模式和专家大模型,实现了对环境和对象的深度理解和自主处理。随着技术的不断发展和应用场景的不断拓展,RobotGPT有望在智能机器人领域发挥更大的作用,推动智能机器人行业向更高水平迈进。同时,我们也期待RobotGPT在未来能够持续优化和创新,为人类社会带来更多便利和惊喜。


拟公示算法机制机理内容

 

 

 

算法名称

达闼 RobotGPT 多模态具身大模型算法

 

 

 

 

 

 

 

 

 

 

 

算法基本原理

达闼 RobotGPT 是一个基于 MOE 结构的自研多模态具身大模 型算法,融合了自研开发的大语言模型、开放域检测视觉大模型、 机器人导航大模型和机器人抓取大模型和基于深度强化学习的 专家小模型等。一方面,基于自研开发的自回归语言大模型进行 全参数微调训练,可以实现开放式知识问答,文本内容创作生成, 自然语言处理,以及文本生成图像等交互式任务。另一方面,结 合大语言模型内化的世界知识和推理能力,以及开放域检测视觉 大模型带来的物理环境实时交互能力,加上导航,抓取等机器人 控制大模型,可以智能完成类似人类工作方式,自主感知、认知、

决策、执行多功能的复杂任务。

 

 

 

 

 

 

 

 

 

算法运行机制

 

 

1.  多模态输入:获取机器人传感器采集到的多模态感知信息(包 括声音,视频,图像等),部分信息通过一些高效的专家算法 (如人脸识别识别出用户人脸属性,ASR 将声音转化为文字 等)产生更多的模态数据,通过多模态对齐算法形成弹性可扩

展的结构化多模态感知数据。

2.  多模态输出:RobotGPT 根据用户语音指令的不同和其他模态

信息输入不同,构建不同的提示工程内容,执行多轮推理,输

 


 


出包括多模态人机交互(包括语音/图像/视频等),机器人执 行动作(一定频率的底盘,关节动作),或者一系列的任务分

解并自动执行任务,这些不同的多模态内容。

其中提示管理(Prompt Manager)作为连结外部环境和机器 人、连结不同的输入模态,以及连结 Robot GPT 内部不同的大模 型和语言大模型推理逻辑能力之间的桥梁,是消除歧义,引导 LLM 实现准确、可靠的推理思维链的关键。同时由于提示模块对 用户输入进行预处理,提示工程内容能结合环境和用户画像等内

容进行更灵活个性化推荐,更能保证内容的适合度和安全性。

RobotGPT 生成内容会进入敏感信息管理模块进行审核,包括 AI 自动审核,人工审核,知识修正。经审核满足真实性,客观性, 准确性等标准的内容,才会作为最终的输出。对于敏感信息,进

行兜底话术回复。

 

 

 

 

算法应用场景

支持包括机器人在内的智能设备,实现各种多模态人机交互,

和多模态复杂任务的自主执行等应用场景。

支持通过海睿 AGI 平台向不同企业和个人用户开放 RobotGPT

服务,支持企业和个人 web 应用的开发和合作。

 

 

 

 

 

算法目的意图

 

 

RobotGPT 作为基于 MOE 架构的多模态具身大模型,有效地结合 语言大模型,视觉大模型,抓取大模型,导航大模型等一系列专 家大模型,以支持机器人从感知、认知、决策、执行的整个 AGI

赋能过程:

 


 


1.    集成和融合多个感知模式(如视觉、声学、接触等),实现对环境

和对象的深度理解;

2.    通过和人类相似的认知方式完成信息处理, 能理解自然语言,

理解用户的情绪等,具备更强的灵活性和适应能力;

3.    结合人工训练和自动训练的 AIGC 能力,生成文本、图片、音

视频,编排机器人动画序列、推理分解,行动控制指令等;

4.    根据 AIGC 能力,结合用户画像,个性化推荐等内容,进入机 器人执行环节,实现机器人类似人类一样自主工作以及执行

复杂和多功能的工作。

同时,RobotGPT 可通过海睿 AGI 平台向不同企业和个人用户 开放服务,以及作为多模态基础大模型训练调优行业大模型,加

速各领域发展和行业应用的落地。