苹果Microsoft缩小人工智能模型以改进它们
科技公司已经陷入了一场构建最大的大型语言模型(LLM)的竞赛中。例如,今年 4 月,Meta 宣布了 4000 亿参数的 Llama 3,它包含的参数数量(或决定模型如何响应查询的变量)是 OpenAI 2022 年原始 ChatGPT 模型的两倍。虽然尚未得到证实,但 GPT-4 估计有大约 1.8 万亿个参数。
然而,在过去的几个月里,包括苹果和Microsoft在内的一些最大的科技公司已经推出了小型语言模型(SLM)。这些模型的规模只是 LLM 对应模型的一小部分,但在许多基准测试中,它们可以与它们相媲美,甚至优于它们。
6 月 10 日,在苹果全球开发者大会上,该公司宣布了其“Apple Intelligence”模型,该模型具有大约 30 亿个参数。4 月下旬,Microsoft 发布了 Phi-3 系列 SLM,其型号包含 38 亿至 140 亿个参数。
OpenAI 的首席执行官 Sam Altman 认为,我们正处于巨型模型时代的末期。
在一系列测试中,Microsoft最小的模型 Phi-3-mini 可与 OpenAI 的 GPT-3.5(1750 亿个参数)相媲美,后者为 ChatGPT 的免费版本提供支持,并优于谷歌的 Gemma(70 亿个参数)。这些测试通过提示模型有关数学、哲学、法律等问题来评估模型对语言的理解程度。更有趣的是,Microsoft 的 Phi-3-small 拥有 70 亿个参数,在许多基准测试中的表现明显优于 GPT-3.5。
在波士顿东北大学研究语言模型的亚伦·穆勒(Aaron Mueller)对SLM可以在选定的函数中与LLM并驾齐驱并不感到惊讶。他说,这是因为缩放参数数量并不是提高模型性能的唯一方法:在更高质量的数据上训练它也可以产生类似的结果。
Mueller 说,Microsoft 的 Phi 模型是在微调的“教科书质量”数据上训练的,这些数据具有更一致的风格,比 LLM 通常依赖的来自互联网的高度多样化的文本更容易学习。同样,苹果公司只在更丰富、更复杂的数据集上训练其SLM。
SLM 的兴起正值 LLM 之间的性能差距正在迅速缩小,科技公司希望偏离标准扩展定律并探索其他性能升级途径。在 4 月份的一次活动中,OpenAI 的首席执行官 Sam Altman 表示,他相信我们正处于巨型模型时代的终结。“我们会以其他方式让它们变得更好。”
由于 SLM 消耗的能量几乎不如 LLM,因此它们还可以在智能手机和笔记本电脑等设备(而不是在云中)本地运行,以保护数据隐私并针对每个人进行个性化设置。今年3月,谷歌在该公司的Pixel系列智能手机中推出了Gemini Nano。SLM 可以汇总录音,并在没有 Internet 连接的情况下对对话生成智能回复。预计苹果将在今年晚些时候效仿。
更重要的是,SLM可以使对语言模型的访问民主化,Mueller说。到目前为止,人工智能开发一直集中在几家有能力部署高端基础设施的大公司手中,而其他较小的运营和实验室则被迫以高额费用获得许可。
Mueller 说,由于 SLM 可以很容易地在更实惠的硬件上进行训练,因此对于那些资源有限但仍然足以满足特定应用的人来说,它们更容易获得。
此外,虽然研究人员一致认为,要克服幻觉还有很多工作要做,但精心策划的SLM使他们更接近于构建负责任的人工智能,该人工智能也是可解释的,这可能使研究人员能够调试特定的LLM问题,并在源头上修复它们。
对于苏黎世联邦理工学院(ETH Zurich)的计算机科学研究员亚历克斯·沃斯塔特(Alex Warstadt)这样的研究人员来说,SLM还可以为一个长期存在的科学问题提供新的、引人入胜的见解:儿童如何获得他们的第一语言。Warstadt与包括东北大学的Mueller在内的一组研究人员一起组织了BabyLM挑战赛,参与者在小数据上优化语言模型训练。
SLM不仅有可能解开人类认知的新秘密,而且还有助于改进生成式AI。到13岁时,他们已经接触到大约1亿个单词,并且在语言方面比聊天机器人更好,只能访问0.01%的数据。Warstadt说,虽然没有人知道是什么让人类如此高效,但“在小规模上对高效的类人学习进行逆向工程,当扩展到LLM规模时,可能会带来巨大的改进。
关键词: 苹果 Microsoft 人工智能模型 小型语言模型
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码
相关文章
-
-
-
2024-08-01
-
-
-
-
-