首页 » 互联网 » AI自己写代码让智能体进化!OpenAI的大年夜模型有“人类思惟”那味了_算法_机械人

AI自己写代码让智能体进化!OpenAI的大年夜模型有“人类思惟”那味了_算法_机械人

admin 2024-09-01 11:31:04 0

扫一扫用手机浏览

文章目录 [+]

量子位 | "大众年夜众号 QbitAI

搞事情!

AI自己写代码让智能体进化!OpenAI的大年夜模型有“人类思惟”那味了_算法_机械人 互联网

AI“看”了一眼GitHub上人类都是怎么提交更新(commit)的,然后就模拟人类程序员修正代码……

终极,这个AI还成功“调教”出了个智能体机器人:

没开玩笑,这种细思极恐的事情,在OpenAI最新发布的一项研究中,就真真的发生了……

原来呢,研究职员要办理的是一个遗传程序设计(GP)问题——让一个智能体机器人学会移动。

(GP是蜕变打算中的一个分外领域,它紧张针对自动构建程序去独立办理问题。

但OpenAI剑走偏锋,把自家的大规模措辞模型(LLM)放了进来,结果便是一个大大的“切切没想到”。

以前在智能体演进的过程中,人类研究员是须要参与进来做一些细节调度、确定演进方向等事情,让智能体往好的方向发展。

现在好了,这些活儿都让大模型给经办了,自己学、自己写代码、自己去“调教”:

这事一经论文一作Joel Lehman在网络曝光,瞬间引发了网友们的大量关注:

一位程序员网友在看完后直呼“跟不上(技能)发展的步伐”了:

乃至OpenAI自己都在研究中说:

弥合了进化算法在人类思想水平运行的鸿沟。

那么这件“魔幻”的事情,AI到底是怎么办到的?

看一眼GitHub,AI自己动手敲代码

在虚拟环境中设计可移动的机器人,是遗传算法研究中很火的一个项目。

特殊是Sodarace竞赛由于须要的打算量少,过程方便可视化很受欢迎。

规则很大略,由“枢纽关头”和“肌肉”组成的机器人在各种地形上赛跑。

OpenAI还特意把全体竞赛程序从专用的遗传编码改写成了Python版本,为了展示新方法对当代编程措辞的通用性。

比如这样一段Python代码,就可以作为初始种子机器人。

定义好一个正方形的四个顶点枢纽关头、终点枢纽关头,相互之间都用“肌肉”连接好后,结果如下。

不过这样方方正正的构造一动都不能动,接下来就须要靠遗传算法对代码做修正。

研究团队认为,用传统遗传算法修正代码VS人类程序员自己动手,在效率上还有两点差距:

一个是软件越来越繁芜,人类可以搞模块化的代码复用来应对,而目前最前辈的遗传算法也无法在人类利用的编程措辞上做到这一点。

另一个是险些所有遗传算法靠的都是随机突变(mutation),而人类程序员每一次修正代码都带有目的,或者是增加功能、或者是改进效率、又或者是修复bug。

那么有没有办法让AI学习到人类是如何修正代码的呢?

还真有,所需的演习数据都存在GitHub上。

精良的程序员每次提交代码都会写好commit描述,说清楚这一次提交修正了什么内容。

commit描述合营上提交前后代码比拟的diff数据,便是AI绝佳的学习材料。

研究职员筛选出一些描述意图明确、修正的代码量不大的提交数据来演习一个GPT-3架构的AI模型。

相称于让AI向人类程序员学习了如何有目的的修正一段代码。

这篇论文所用的模型也不须要完备版GPT-3的1750亿参数那么大,最高7.5亿参数就足以。

由此得到了根本的AI模型,将在遗传算法中扮演变异算子的角色。

接下来让AI自己设计新机器人的流程统共分三步。

第一步,先用经典的MAP-Elites算法天生一组初始机器人。

这是一种QD(质量多样性)算法,可以担保机器人行为不同且质量都很高。

第二步,用第一步产生的初始数据做预演习,让AI先学会设计出演习数据分布内的机器人。

也便是开头处那张在网上惊艳了众人的动图,展示了AI如何一步步把无法移动的“方块”改造成双腿交替弹跳移动机器人。

第三步,再结合上强化学习算法做微调,让AI能根据不同地形条件天生能适应环境的机器人。

终极,研究职员选取了从最初的三个种子进化而来的机器人做效果展示。

可以看出它们的构造和移动办法都完备不同。

网友惊呼“思路清奇”

这项研究一经公布,可谓是一石激起千层浪。

许多网友都惊叹于这种“大模型+演进算法”结合的新奇办法:

做过与之干系事情的研究职员也表示,从未想过能用大模型以diffs的形式来学习突变:

而除了对研究形式和本身的谈论之外,也有网友配上了这样图:

Emmm……是有点那种味了。

团队先容

这项研究的团队成员均来自OpenAI。

论文一作是Joel Lehman,是一位机器学习科学家。
其聚焦的领域包括人工智能安全、强化学习和开放式搜索算法。

与此同时,Joel Lehman此前基于对人工智能发展的思考合写过一本科学读物《为什么伟大不能被操持出来:客不雅观的秘密》:

而对付这项研究的下一步,Joel Lehman本人表示:

还有一个主要问题,便是模型能够多大程度上运用到其它环境中。

GP中的突变功效现在可以通过ELM大幅提高,这将引发出一系列广泛的新运用和研究方向。

那么这项研究是否也对你产生了新的启示呢?

欢迎在评论区留言谈论~

参考链接:

[1]https://arxiv.org/abs/2206.08896[2]https://twitter.com/joelbot3000/status/1538770905119150080?s=21&t=l8AASYjgC6RAEEimcQaFog

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一韶光获知前沿科技动态

相关文章