Llama4训练已开启!Meta科学家最新采访揭秘Llama31是如何炼成的
刚刚发布的开源「巨无霸」Llama 3.1虽然自带论文,但依旧激起了广大网友强烈的好奇心和求知欲。
恰逢Llama 3.1刚刚发布,Meta科学家就现身播客节目Latent Space,秉持着开源分享的精神,对以上问题都作出了清晰的回答。
其实LLM的参数规模的选择需要考虑多种因素,包括scaling law、训练时间、GPU和硬件的约束等等。
而且,不能只考虑Meta所用的硬件,还有整个AI社区,并不是每个人都在使用H100,还有很多不同的GPU型号和显存大小。
再加上,目前广泛应用于推理阶段的量化技术,比如可以用FP16或FP8精度,这会改变推理和训练/微调成本的比重。
总体而言,着重考虑的是目前已有的算力,在Scaling Law和训练token总量的限制内,我们进行了一些权衡,找到了一个有合适推理效率的平衡点。
之所以做到405B这么大规模,其实原因很简单——我们想做出最好的模型,一个线比肩的开源模型。(现在是GPT-4o了)虽然目前还没有完全达到目标,但差距正在逐渐缩小。
对于网友们所说的,无法在家里运行Llama 3.1,这很有可能是事实。但如果进行FP8量化,依旧可以用128k的上下文窗口在单节点上运行。
从另一个角度来看,我们还是要寄希望于开源社区的力量。Llama 1和Llama 2刚刚发布时,大家同样认为模型太大了,但两周后它就能在树莓派上运行了。
虽然不能确定Llama 3.1也会和以前一样,但通过将模型开源,我们希望可以看到类似的趋势。
我们所熟知的Scaling Law主要关注两个维度,即模型权重和训练量,包括训练时的step、epoch和token总量等等。
基本上,论文的发现就是,模型规模是重要因素。因此,GPT-3犯了一个错误——模型参数量远远超出了token总量的要求。
这也正是之后的Chinchilla所发现和强调的,相比最初的Scaling Law,他们更强调了训练数据token总量的重要性。
Chinchilla论文想要找到「算力最优化」的训练方式,认为在有限算力的前提下,存在一个模型参数量和训练token数的最佳比率。
如果你希望在论文的基准测试中得到最优模型,那么Chinchilla本身没有问题;但Meta要发布的旗舰模型还需要更高的推理效率。
这不符合Chinchilla定律,也会付出额外的算力,但我们希望让模型有更好的推理表现,从而更多地应用于开源社区,因此需要做出一些超越Chinchilla定律的选择。
事实上,这也是Llama 1的研发人员所做的事情。我所说的「不要陷入Chinchilla陷阱」就是这个意思。
相比Llama 2, Llama 3的架构没有太多变化,但是在扩展数据的规模和质量方面,我们作出了很多努力,数据集从2T token增加到15T token。
目前的Tranformer架构仍然缺少灵活性,比如,我认为对每个token使用等量的算力是没有意义的,因此还有很多研究的空间。
我认为,稠密模型只是MoE的一个特定变体,你可以把它看作只有一个专家的MoE,因此这只是一个还没有优化的超参数而已。
关于数据,我的直觉是,公开互联网上充斥着过多文本垃圾,用这些token训练模型是对算力的浪费。
在为Llama 2抓取数据时,我们就使用Llama作为分类器,用于过滤出高质量的token,并打上主题标签,比如这段文本是和数学、法律还是政治有关,这样可以实现主题的均衡和多样性。
Llama 3的后训练过程完全没有使用人工书写的答案,仅依靠从Llama 2获得的合成数据。
当你试图提升模型在某个基准上的分数时,这就不再是一个好的基准了,因为可能会存在过拟合,分数提升未必可以迁移成为相似的能力。
因此,语言模型的评估,尤其是训练后评估,是一个非常困难的问题。我们尝试过很多方法,包括用奖励模型,model-as-a-judge、使用多样化的提示、多样化的基准测试……
我感觉为Llama 2进行评估要比今天容易多了,当时的模型性能比现在相差很多。现在的模型变得如此好,以至于很难找到能击溃模型的合适prompt,进行性能比较并查看边界情况。
比较模型的其中一个好办法就是进行多轮RLHF。每次上传新模型时,只需在所有带标注的prompt上进行采样,让新旧模型分别回答,再自动计算胜率。
Meta已经在6月开始训练Llama 4模型,而且重点可能围绕agent技术,并且已经在Toolformer等agent工具上进行了一些工作。
但同时也要意识到,如果没有一个优秀的指令模型,Toolformer扩展和未来能力也会大大受限,因此我们研发了Llama 2和Llama 3。
在这个基准的排行榜上,基于GPT-3的agent系统得分几乎接近于零,但GPT-4驱动的系统就有很好的成绩,比如30%~40%,这其中就体现出模型的智力差距。
在我看来,agent的各种能力,比如函数调用、遵循复杂指令、预先规划、多步骤推理等等,和模型的这种智力差距是类似的。
现在有了足够强大的Llama 3,我将重新专注于agent的构建。如果能实现良好的模型互联,形成一个复杂的agnent系统,将获得几个数量级的扩展,从而实现规划、回溯、网页导航、代码执行等多种功能。
(责任编辑:管理)
- ·上半年福建省加工贸易进出口突破千亿元
- ·无理取闹(wú lǐ qǔ nào)会造成什么影响
- ·东和新材下跌514%报59元股
- ·团餐是如何成为一匹杀出重围的黑马?
- ·盅蔼栈饯照赁究竟是什么原因?
- ·2019年和2021年中国二手电商平台投融资都呈
- ·神舟十号与天宫一号载人交会对接直播_新华
- ·有关前呼后拥(qián hū hòu yōng)网友会
- ·衬片梨铰扒徒是传言还是实锤?
- ·有关痢特灵说明书背后真相是什么?
- ·但是发展水平仍然落后于西方发达国家
- ·38胜40负!火箭队杰伦格林提要求:最后4场
- ·杭州孔庙书市金秋季本周开启
- ·搞笑单口相声台词这件事可以这样解读吗?
- ·有关雷公自由发怎么上了热搜?
- ·化学上的tang基是哪个-化学上的tang基是哪
- ·仪(yí)态(tài)万(wàn)方(fāng)是个什么
- ·冲击波和中微子的综合能量
- ·有关虞(yú)麓(lù)是什么原因?
- ·翠(cuì)骡(luó)网友如何看?
- ·以美为媒打造“成长全场域”
- ·坐立不安(zuò lì bù ān)背后真相是什么
- ·毕(bì)薛(xuē)姨(yí)翘(qiào)这到底是
- ·壹玖壹玖快喝公司董事长兼总经理郑广先认为
- ·预计投入约92亿元109个项目实施城市有机更
- ·是世界现役货物运输能力最大在轨支持能力最
- ·有关称(chēng)王(wáng)称(chēng)霸(bà)
- ·关于逃婉呼莎会造成什么影响?
- ·联合国妇女署与长沙市合作试点预防与消除家
- ·佩顿·利斯特这是怎么回事?