作者 | GenAICon 2024
2024中国天生式AI大会于4月18-19日在北京举行,在大会第一天的主会场大模型专场上,云天励飞“云每天书”大模型技能卖力人余晓填以《多模态大模型技能演进与落地运用探索》为题揭橥演讲。
2022年底,ChatGPT横空出世,搅起了AI行业的发展热潮。2024年初,文生视比年夜模型Sora推出,AGI(通用人工智能)发展驶入快车道。余晓填以Sora的发布以及美国利用脑机接口帮助瘫痪病人实现自主行动等案例,展示了AI技能惊人的迭代速率及其潜力。余晓填认为,大模型技能从前几年的崭露锋芒,发展到现在的如日中天,人类已然迈入了AI的新时期,并朝着AGI的大道全速提高。

在AI发达发展的新时期,大模型技能成为AI领域的焦点之一。以Transformer构造为核心的大型模型被认为是一种高效、可扩展的学习器,能够在短韶光内对海量数据进行学习和信息压缩。然而,大模型技能的发展仍旧面临寻衅。个中突出问题之一便是数据支持的不敷。
如何战胜这一难题?余晓填认为,办理的关键在于顶尖AI人才的造就,顶级的人才、专家才是支撑着大模型技能快速发展的基石。
多模态大模型作为大模型技能的主要发展方向,也引起了各界的广泛关注。余晓填提到,多模态大模型信息压缩策略紧张分为两种类型:分阶对齐构造和端到端对齐构造。前者利用文本数据的广泛覆盖上风,加速学习收敛速率;后者则通过一次性对各种信息进行交叉并发,实现高效的信息压缩。然而,多模态大模型的落地运用面临诸多寻衅。
在此背景下,云天励飞又将如何冲破大模型运用的“三角约束”,为大模型技能在各行各业的运用供应新的可能?
以下为余晓填的演讲实录:
在梳理大模型技能近期的主要事宜中,如大模型的发布、算力的提升,我看到了两点主要信息:第一,AI技能的迭代速率惊人,天下各地的科技巨子均在竞相争夺领先地位;第二,以大模型技能为核心的AI领域正在经历前所未有的快速发展,并且这种加速度正持续提升。
我们梳理了三个可视化的例子。
首先,去年特斯拉在其投资者日公开展示了一个视频,展示了一个人形机器人正在考试测验组装机器。这预示着我们可能即将迈入机器人制造机器人的时期。
其次,最近OpenAI发布了名为Sora的项目,并与Figure互助,开拓了具备人形外不雅观的智能机器人。这种机器人具备了高度交互性,能够与人类进行流畅的沟通,并实行人类的指令。
其余,上个月,美国首例利用脑机接口帮助瘫痪的病人已经开始利用自己的意念来发推文,乃至在半夜利用意念玩游戏。这些令人震荡的运用展示了AI技能带来的巨大潜力,表明人类已经迈入了AI的新时期。
一、从ChatGPT到Transformer,大模型在信息压缩与学习中的演进ChatGPT的根基是环绕着Transformer构造的蜕变,但是,什么是Transformer?我们认为,它是一个很高效的、可扩展的海量数据的学习器。大略来说,它是一种信息压缩机制,能够在短韶光内将人类历史上的所有知识进行压缩,并从中创造措辞的规律。
GPT的构造并不偏好任何特定的领域或模态,它能够对各种知识和多种模态进行压缩。这种信息压缩的关键条件包括巨大的参数规模、强大的打算能力以及海量的数据支持。参数规模已经发展到了千亿或万亿级别。在打算能力方面,英伟达一贯在为其供应强大支持。
然而,从数据层面,一些学者表示,往后数据将不敷以支撑大模型的演习,那这时候怎么办?可能是采取数据合成,用大模型去制造更多的数据进行博弈的学习。
我们认为大模型的一个核心根基是人才,顶尖的AI人才。这种人才可以把大参数、大算力、大数据有机地结合在一起,形成真正算法构造下的高效信息压缩,而这种顶级的专家人才则是支撑着美国大模型技能快速发展的基石。
可以看到,大模型技能的发展以及大模型的能力,归纳起来便是海量信息的压缩,并学习到个中的统计规律。目前在文本方面,我们可以把海量的数据进行压缩,得到了文本的规律,形成了措辞的理解和天生。视频、图像、声音等也可以通过海量的数据进行压缩,演习数百万小时的视频,终极用眼睛去看和理解这个天下,乃至在未来进行多种模态的数据交互,这时候,自然而然就会引出来下一个真正要谈论的主题——多模态大模型。
二、多模态大模型如何做信息压缩?探索分阶对齐构造、端到端对齐构造多模态大模型是怎么去做信息压缩的?我们认为有两大类型。
第一大类型,分阶的对齐构造。第一个阶段先去压缩文本的信息,第二阶段再压缩其它的信息,其它的信息包括视觉、声音等。
为什么要这么做?由于文本的数据覆盖面更广,全量,而且是高知识量的。以此为根本,就可以得到更快的学习收敛速率。这里可以类比人,人学习的过程最主要的三大来源:说话、眼睛看天下、耳朵听东西,这三个信息可能最开始要勾引的教诲过程,是勾引他讲东西,这也便是分阶段对齐的核心要义。从图来看,LLM Backbone以措辞对齐为核心,分阶段去做多模态大模型的信息压缩,找到个中的信息系规律。
第二大类型,端到端对齐构造。便是对不同模态的数据同时学习,同时输入图像、文本各种各样的信息,直接把所有信息交叉并发,把所有的信息进行压缩,抽取里面的规律,终极达到理解这个天下,去驱动跟这个天下进行交互。
三、解读大模型技能发展三阶段,场景反哺技能阶段仍面临寻衅
大模型能够帮我们做什么?我们很清楚大模型技能只是一个工具,从技能的角度去看,它帮我们把很多信息压缩,更高效地找出个中的规律。大模型要表示出代价,就要落实到各行各业、各种业务的闭环运用里面去。
借鉴AI技能发展的路径,我们认为大模型技能发展定义也有三个阶段。这三个阶段实际上也是技能跟数据或者算法的关系。
一开始,我们设打算法时常日会利用少量数据进行验证,这被称为技能找场景。在第二阶段,场景反哺技能,我们则采取更多数据来提升算法和技能的能力。第三阶段,场景找技能,即所有运用和需求都能通过同一个算法、模型来办理,这标志着我们迈入AGI时期的大道。
那么,技能找场景现在的进展如何?我们已经走完了技能找场景在大模型技能发展运用的这段路。许多运用,例如智能问答、文天生图以及像ChatGPT这样的天生式大模型单点运用,已履历证了大模型技能的运用和算法成熟度。
目前,我们正处于第二阶段,即场景反哺技能的阶段。我们可以看到,多模态大模型的落地还有很长一段路要走,其困难之处在于行业场景的繁芜性。只管我们希望在各行各业中广泛运用大模型,但行业场景的知识深度对大模型的能力提出了严厉的磨练,仍存在着参差不齐、远未知足需求的情形。
因此,我们须要积极推动多模态大模型技能的落地,并应对寻衅探求办理方案。
四、如何冲破大模型运用的“三角约束”?云天励飞提出“算法芯片化”我们要考虑紧张的变量是什么?从聪慧城市中的城市管理、聪慧交通,我们归纳出,要在多模态大模型进行落地变现,应把稳三个变量的“三角约束”。
如今,对话系统备受关注,其精度已经靠近人类,跟人没有差异,但在对垂域的深度支持和行业的代价,大模型没法去做。在真实生产环境中,很多任务是很繁芜的,由于对垂域专业知识的不敷,以及数据优化构造的增加,大模型面临着本钱和效率方面的寻衅。
因此,我们须要在精度、本钱和效率之间探求平衡点,以推动多模态大模型技能在对话系统中的落地运用。我们相信,我们正在积极办理这一问题,并与AI领域的同仁一道不断推进技能进步。
云天励飞是如何打破“三角约束”的?我来分享一下我们的办理方案。
自2014年云天励飞建立之初,我们就定义了“算法芯片化”的技能发展路径。算法芯片化不仅仅是大略地将算法运用于芯片,还须要高度专业的人才,须要专家人才对算法有深刻理解,对不同场景和行业数据有专业认知,并能够通过协同设打算法与场景,终极表示在芯片侧、算子侧,包括推进可伸缩的指令集、优化打算架构以及工具链的优化。
这样的技能支持使得我们能够运用包括Transformer、各种深度学习算法框架等多种算法。最主要的一点,它的本钱、效率是制约多模态大模型落地的关键。
过去打造的云每天书多模态大模型包含了几个维度,包括措辞、CV、文本问答、目标检测分割等。这些大模型的落地采纳了分层解耦的策略,通过设打算法芯片化平台,我们构建了一个通用大模型。这个通用大模型具备根本能力,它在行业知识和场景履历方面可能只达到60到70分,但在通用性方面可以达到80分、90分乃至满分。
再往上走便是行业大模型、场景大模型,要在详细的场景业务里面拿到90分,须要低本钱的算子层面优化,并通过与边缘侧数据的高效迭代演习来知足客户需求。
过去十年,云每天书算法研究经历了永劫光的迭代发展。从2017年之前研究以ResNet卷积神经网络的深度学习,到Transformer构造起来之后,我们第一批启动了Transformer构造适配全体算法芯片化的平台。去年公司上市后,我们加大了对大模型技能的研发投入,并持续跟进海内外的前辈技能。我们成功地研发了从百亿级到千亿级的措辞多模态大模型。
上个月,我们发布了云每天书3.5V的大模型。在图文理解、天生以及问答等方面,这些模型表现非常可不雅观。在措辞大模型方面,我们去年已经多次得到了威信榜单的第一名。
五、云天励飞是怎么取得可不雅观成绩的?背后有4项关键技能我们如何实现这些可不雅观的成绩?只管我们面临了诸多寻衅,但我们总结归纳后认为有四个关键点值得分享:
第一,办理本钱的问题。精度可以通过数据堆积办理,在真正落地的时候,推理的本钱是绕不过去的,我们的核心要义是办理高效的推理引擎问题。
为此,我们自主研发了Space推理引擎,它与算子层高效领悟,实现了无损的推理,并将推理速率提升了50%以上。详细来说,像天生式大模型,常日是进行单字符的向前预测,但我们想办法一次性预测多个字符,同时保持无损、精度不变。在这种情形下,我们通过对算法构造进行改进,实现了一次性预测多个词条,从而提升了推理效率。
第二,降落核心本钱。我们致力于提高效率和减少GPU存储需求,通过研究分布式切块,包括自适应的稀疏缓存解码等技能,我们成功将GPU需求降落了50%。
第三,优化演习技能。优化演习是大模型落地的根基,所有的运用都在这个根基上长起来。我们研发了一套可伸缩的大模型演习技能,大略来说,演习一个大模型,这个大模型要考虑如果扩展它的参数或者说扩展它的规模、优化它的构造,能不能复用原有的大模型?
答案是肯定的,这种方法也节省了演习本钱。从深度和广度的角度来看,通过复用已演习的参数,达到深度扩展和宽度扩展,使演习效率翻倍,同时降落了达50%的演习本钱。
第四,神经网络处理器和推理芯片是我们近十年来的重点。如今已经历了四代迭代,从第一代NNP100到目前的NNP400T,我们已经完备灵巧适配多种深度学习架构,特殊是在Transformer架构下,我们进行了指令集优化、算子的协同设计以及高效的联合设计,支撑了Transformer构造的高效推理。此外,我们还是最早一批利用Chiplet构造适配大模型的公司之一。
利用这四项核心技能,我们构建了支持边缘大模型的算法芯片化系统。我们的底层技能支持了神经网络处理器和自主研发的推理芯片,促进了国产化进程,避免了对供应链的依赖,并在此根本上实现了多模态大模型的运行。从行业运用的角度来看,我们有基于行业到边缘的场景大模型。更主要的是,我们支持用户进行无感知的在线微调,同时保护用户的数据隐私,而且本钱极低。
六、实现每秒30字高效推理,多模态大模型已落地G端云每天书的多模态大模型在文本理解和天生方面表现卓越,每秒可实现30字的高效推理速率,并能处理超过45万字的高下文。通过指定哀求,快速天生符合特定格式的关照、决议等文件,从而有效推动办公自动化。大家可以看到全体天生过程内容极其简洁,速率极其快。
此外,我们也支持带参考内容的文章修正和润色,可以复制一部分已有的参考内容,高效地进行润色、修正,变成大家所须要的东西。目前这一块的内容已成功地在多个地级市、省厅局委办落地。采取我们的多模态大模型进行办公赋能,对付项目报告的内容天生也是非常灵巧。
末了,在文本内容的理解和天生方面,很主要的一点是天生的质量。我们自带校阅功能,天生完之后可以多次优化里面的内容,达到自迭代、自进化的效果。云每天书多模态大模型支撑视频数据的理解和天生,很多数据演习过程结束之后,有一些数据是须要优化、编辑的,尤其在消费真个场景,比如对图片编辑,对3D数据合成。
我们可以通过多模态大模型进行数据的合成,达到我们想要的3D数据。对付图片的数据理解,比如通过指令去渲染,通过指令去编辑全体图片,让大模型去理解,根据指令操作图片,乃至画出不同的风格。多模态大模型的Agent能力,以开源目标检测为例,这种技能为城市发展供应了支持,正如我们之条件到的,我们发布了一个AI模盒,旨在促进AI技能在城市领域的运用,个中就包括基于多模态大模型的支持。
我们非常荣幸,能够身处在这个AI发达发展,引领各行各业不断变革的时期。如今,AI大模型技能在各行各业各处着花,我们希望携手各行各业的专家及朋友,共同引领多模态技能的落地,并迈向AGI大方向。
以上是余晓填演讲内容的完全整理。