西湖大学教授蓝振忠:关于大模型的几个认知

2023年9月19日,“2023上海区块链国际周·第九届区块链全球峰会”在上海开幕。西湖心辰创始人;西湖大学教授蓝振忠进行以《关于大模型的几个认知》为题的现场演讲。

更多信息请点击:《“2023上海区块链国际周”精彩内容直击(持续更新中)》

对本次会议进行全程现场跟踪报道。以下是演讲内容整理。

西湖大学教授蓝振忠:关于大模型的几个认知

大家早上好!

今天我主要讲大模型和人工智能,后面会讲一些与Web3的结合及在做的工作。

我从2007年开始做人工智能,至今已有十几年,从CPU时代到GPU时代,从小模型到大模型,做了很久,也做过一些比较有代表性的内容。2019年,我在Google的时候做的大模型是世界上最好的大模型,比GPT2好很多,所以我们当时是比较看不起GPT系列的,结果现在他们做得很好。

2020年回国的时候做了第一个中文的大模型测评,算是大模型的深度参与者,现在有一个实验室和公司都在做大模型相关的研究。

过去,我很少回看大模型的发展史,也很少进行深度思考。直到ChatGPT火了,大家来问我各种问题,我总结一下大概有几个问题:

一是大家希望模型越来越大还是越来越小?

二是现在都在讲通用大模型,那么到底是通用大模型有机会,还是行业大模型有机会?

三是我应该投资英伟达还是投资大模型公司、应用公司?

四是对大众来说,大模型如何改变我的工作?我应该如何选择职业。

这些问题让我们回顾过往历史,我主要是呈现一些过去的数据,希望给大家参考。

首先,第一个问题,大模型会不会变得越来越大?拉长历史,从一九五几年计算机刚开始发展的时候,其实模型是变得越来越大的,一直在变大。可以说,模型变大基本上是模型变智能的第一要素,所以模型会变得越来越大。

一直到2018年,我们发现一种方法可以使得模型急剧膨胀,现在膨胀得非常快,从2018年到2021年初,基本上每18个月涨了几百倍,现在速度慢下来了,但也在快速膨胀。

(如图所示)这张图是GPT4的图,纵轴讲的是智能程度,越往下智能程度越高,横轴讲的是模型大小、训练多少。随着模型变大、训练变多,智能程度越来越高。绿色的点是GPT4,在那个点上,仍然有斜率,仍然会往下降。所以可以预见的是当你把模型放得更大,它仍然能变得更加智能。人类总是追求极限,我们肯定会把它放大。

只是现在大家担心的问题是GPT4已经是万亿级模型了,推理成本特别贵,训练又特别贵,放大到底有没有用?

再看另外一个数据我们就知道这种担心不太必要,因为训练和推理成本是在急剧下降的。2020年GPT3训练出来的时候,单次训练成本是400万美金。2022年已经降到40万美金了,成本降低的速度是非常快的。

主要来自于几方面:

一是GPU performance(GPU性能)急剧上升和成本下降,是远超摩尔定律的。从2016年到2022年,按摩尔定律CPU的performance提升8倍,GPU提升26倍,提升非常明显。

二是软件上的提升,随着软件带来的训练效率提升,大概每年训练成本降低47%,两者叠加起来是非常可怕的下降,一个是硬件,一个是软件。

三是我们在大规模地铺算力,在ChatGPT没有出来之前,大概每年全球算力提升20%-40%之间,ChatGPT出来之后算力提升可能是翻倍的。当你的算力大规模提升,GPU大量生产的时候,运营成本也在下降。综合下来,训练和推理的成本在急剧下降,所以可以看到两年降了10倍的速度。

接下来过几年,像GPT4这样的万亿级模型会变得相对便宜,大家都可以用起来。

总结一下,我预测模型会持续变大,而且能力会持续变强,训练和推理成本会持续下降,且迭代速度会很快。

(如图所示)这张图讲的是GPT1,我当时还不怎么看得起的GPT1,现在回看我犯了一个很大的错误,GPT1做了非常大的贡献,把人工智能从专用人工智能转变为通用人工智能。

自然语言处理任务以前有几百个,每个任务会设计各种模型,所以有大量论文。但GPT1出来以后说你们别用各种模型了,我用单个模型把你们大部分(任务)给处理掉了。

后面一篇文章是我当时在Google的同事的文章,把各种任务集成在同样的模型里,所以这波主要的贡献在于通用性,通用不止体现在文本上,还体现在图片、声音、蛋白质序列等各种数据上,只要你能把数据转换成序列,基本上都能处理。

把图片切成很多块拉长了,就是现在Transformer(转换器)模型可以处理的任务,基本可以涵盖各种各样的任务,通用性非常强。

虽然现在大模型无法处理很多复杂任务,但你只要稍微帮他做一点点,只要稍微把任务分解一点点就能做了。虽然大家感觉GPT4很强,但直接做24点的准确度是7.3%,但如果稍微分解一下,就能提高到74%,很多看似复杂的任务,如果有专业人士帮他拆解的话,现在的GPT系列模型或者通用大模型可以帮你解决很多任务,做到自动化。

一个是模型会变大,一个是通用性稍微拆解一下就会解决很多复杂人物,所以落地性非常强。在国外有很多已经落地成功的,像Duolingo是匹兹堡的一家公司,2023年一季度营收增长42%,因为加入了ChatGPT的应用。

现在很多程序员都在用Copilot ,OpenAI今年的营收估计能达到12亿美金,这对一家创业公司来说是非常不容易的营收规模。

这波人工智能和之前的不同在于替代了脑力劳动工作者,右边的图展示的是在没有这波通用人工智能之前各个行业的智能程度(自动化程度),最下是没有学位的,随后是从Master到PHD,越往上可替代化的程度越来越低。现在不同了,通用人工智能出来之后,脑力劳动工作者也很容易被替代掉。

总结一下,大模型的落地会比我们想象的快,当然比很多金融工作者想象的要慢一些,因为股市的反应总是比技术快的,起码比我们想象的要快一些,而且能赋能各行各业。你要拆解各个任务是有难度的,如果大模型公司深入到行业里是有很大的机会。

现在大部分人在关注模型的智能程度,比较少关注到模型“情商”跟人交互的程度,比如我问了我爱人会问的问题,ChatGPT给了我这样的回答,这个回答有方法但没有情感,显得我们跟模型的交互是冷冰冰的,缺少对用户的关注,这是行业发展初期的体现。

大家可以对照一下搜索引擎,刚推出的时候个性化很少见,但是发展到现在,大家用的百度、Google都是不同的,因为会有很多信息做个性化处理,使搜索更加精准,但大模型现在还做不到这一点。

也有人开做了,比如一家叫Character.ai的公司,也是我Google同事创建的,他把个性化加到模型中,能显著提升模型与人的交互时间。5月份的数据:OpenAI平均交互时长是4分钟,这家公司的平均交互时长是28分钟,是几倍的交互时长。页面是这样的,相当于我把大模型分成各个Capital及Agent(代理人),做到个性化的方向,更加有情感,人家也愿意跟他交互。大模型发展到现在,接下来人机交互会有大突破。

我们公司和实验室主要在研究高智商、高情商的通用大模型,主要是多模态大模型。过去为了提高模型情商,做了一系列加强记忆、加强个性化、加强情感感知的能力。

模型推出比较早,因为我很早就在Google做通用大模型了,2020年中ChatGPT出来之前我们就有自己的通用大模型,当时模型的写作能力和3.5是齐平的,做了substantial profession。

上线一年多,有200多位C端用户,包括星巴克、支付宝在内的100多家B端用户。

其中比较典型的应用是跟汤姆猫的合作,汤姆猫是陪伴类产品,在全球有4亿月活,之前主要是复制人的说话,通过变声把话复制出来。我们把它加上多模态的交互能力、对话能力。

下面回到跟大会相关的Web3,这是我的粗浅认识,我认为大模型和Web3分别对应生产力跟生产关系,大模型极大地提升了生产力水平,但是它要发挥好的话肯定要有相应的生产关系去匹配。我总结下来,大模型落地现在存在几个问题:

一是训练成本非常高,初创公司没有把模型开源出来的incentive(激励),花几百万美金训练的模型开源出来,但之后就跟我无关了,他很难开源。但开源对模型非常重要,现在模型很多是黑盒的,很多研究机构负担不起自己训练模型的费用,如果大家都在训练,那大家都在重复造轮子,所以开源非常重要,但需要相应的激励机制。

二是推理成本高,现在GPT4单条对话的推理成本是6毛钱,比我讲话贵多了,推理成本非常高,落地非常困难。GPT4可以用在很多地方,但是成本承担不起。

三是数据敏感,之前三星数据被OpenAI泄露闹得沸沸扬扬,我们现在上传到大模型的数据都是敏感数据,很多公司不愿意把自己的数据上传上去,如何处理这些问题?希望Web3可以帮我们解决这些问题。

刚才听曹老师讲还有很多困难,但我们希望通过研究可以帮忙解决这些问题,比如我们有一条公链,大家可以上传开源的模型,即使你开源出来上到公链上也有相应的激励机制,比如说用户上传数据,如果能允许我们训练的话,也有相应的激励。

还有计算问题,现在每个人手机上都有非常强大的显卡,如果每个人手机都可以贡献出来做推理,那我们可以把推理成本降低非常多。希望通过Web3力量能够真正实现我们的理想,希望大模型能赋能各行各业,陪伴每个人,真正成为每个人的助理或伴侣。

谢谢大家!