人工智能军备竞赛白热化：谷歌最新AI大语言模型数据量扩充5倍

　　北京时间5月17日早间消息，据报道，谷歌上周发布的最新大语言模型使用的训练数据，几乎是2022年的上一代模型的5倍。得益于此，该模型在编程、数学和创意写作方面的表现更为优秀。

　　谷歌是在其I/O开发者大会上发布最新通用大语言模型PaLM2的。内部文件显示，该模型采用了3.6万亿个令牌（token）进行训练。令牌指的是单词串，这是训练大语言模型的重要基础，因为这可以教给模型如何预测字符串中可能出现的下一个单词。

　　之前版本的PaLM发布于2022年，当时使用的令牌为7800亿个。

　　虽然谷歌很希望展示其人工智能技术的实力，以及嵌入搜索、电子邮件、字处理和电子表格后的效果，但该公司却不愿发布其训练数据的规模和其他细节。微软支持的OpenAI也对其最新的GPT-4大语言模型的细节信息保密。

　　这些公司表示，之所以不披露这些信息，是出于商业竞争考虑。谷歌和OpenAI都在努力吸引想要用聊天机器人代替传统搜索引擎，从而直接获取答案的用户。

　　但随着人工智能军备竞赛日趋白热化，相关研究人员也呼吁企业加大透明度。

　　自从发布PaLM2之后，谷歌一直表示新的模型比之前的大语言模型更小，这就意味着该公司的技术效率得以提升，但却可以完成更加复杂的任务。内部文件显示，PaLM2基于3400亿个参数训练——这项指标可以说明该模型的复杂程度。最初的PaLM则基于5400亿个参数训练。

　　目前，谷歌尚未对此置评。

　　谷歌在一篇关于PaLM2的博文中表示，该模型使用了一种名为“计算机优化扩张”的新技术。这就让大语言“更高效、整体性能更好，包括加快推理速度、减少参数调用和降低服务成本。”

　　在宣布PaLM2时，谷歌证实了此前的媒体报道，计该模型针对100种语言进行训练，可以执行更广泛的任务。它已经被用于25项功能和产品，包括该公司的实验性聊天机器人Bard。按照从小到大的规模划分，该模型共有4种，分别是壁虎（Gecko）、水獭（Otter）、野牛（Bison）和独角兽（Unicorn）。

　　根据公开披露的信息，PaLM2比现有的任何模型都更加强大。Facebook在2月份宣布的的LLaMA大语言模型采用1.4万亿个令牌。OpenAI上一次披露GPT-3的训练规模时表示，它当时基于3000亿个令牌。OpenAI今年3月发布GPT-4时表示，它在许多专业测试中展示出“与人类媲美的表现”。

　　LaMDA是谷歌两年前推出的一个对话型大语言模型，在今年2月还与Bard一同对外宣传。该模型基于1.5万亿个令牌训练。

　　随着新的人工智能应用快速进入主流，围绕底层技术的争议也越来越激烈。

　　谷歌高级研究科学家艾尔·迈赫迪·艾尔·麦哈麦迪（El Mahdi El Mhamdi）于今年2月辞职，主要原因就是人工智能技术缺乏透明度。本周二，OpenAI CEO山姆·阿尔特曼（Sam Altman）出席美国国会针对隐私和技术举行的听证会，他也认为需要设立一套新的制度来应对人工智能的潜在问题。

　　“对于一种全新的技术，我们需要一套全新的框架。”阿尔特曼说，“当然，像我们这样的公司应当为我们推出的工具承担许多责任。”（来源：新浪科技）

统一老坛酸菜供应商工厂开放参观第11年快手团深度揭秘品质奥秘

于东来的“美好之路”在何方？

林辉文集国学读书网故海文集

⚡东治书院2024级易学文士班（第二届）报名者必读⚡

⚡『独贾参考』：独特视角，洞悉商业世相。⚡

☕【耕菑草堂】巴山杂花土蜂蜜，爱家人，送亲友，助养生☕ ❤解惑 | “格物致知”的“格”到底是什么意思？❤ ❤❤❤【拙话】儒学之流变❤❤❤ ❤易经 | 艮卦究竟在讲什么？兼斥《翦商》之荒谬❤ ☯大风水，小风水，风水人☯ ❤❤❤人的一生拜一位好老师太重要了❤❤❤ ☯如何成为一个受人尊敬的易学家？☯ ☻成功一定有道，跟着成功的人，学习成功之道。☻ ✿关注『书仙笙』：结茅深山读仙经，擅闯人间迷烟火。✿ 研究报告、榜单收录、高管收录、品牌收录、企业通稿、行业会务 ★★★你有买点，我有流量，势必点石成金！★★★