Gopher Deepmind - 彻底改变搜索技术的未来

suchona.kani.z · Post by **suchona.kani.z** » Sat Feb 22, 2025 5:29 am

斯坦福大学声称已经开发出一种生成式人工智能聊天机器人，其“行为方式与 OpenAI 的 GPT-3.5 质量相似”，同时“体积极小且易于创建”。确切地说，它的构建成本不到 600 美元。

最受关注的是 Alpaca 7B，这是 Meta 的 70 亿参数 LLaMA 语言模型的微调版本。该 LLaMA 模型使用 Hugging Face 的训练框架通过“混合精度和全分片数据并行训练等技术”进行微调。令人惊讶的是，7b LLaMA 模型仅在三个小时内就在八块 80GB Nvidia A100 芯片上进行了微调，在云计算提供商上的成本不到 100 美元。

Deepmind的语言模型“Gopher”在众多任务上与现有的超大规模语言模型相比是精确的，特别是在回答人文、科学等专业学科的问题时，而在数学、推理等其他方面则与之相差无几。

Gopher 统计信息

来源

令人惊讶的是，Gopher 比一些庞大的大型语言模型要小。Gopher 包含了近 2800 亿个参数，即可以调整的变量，最终使其比 OpenAI 的 GPT-3.5（具有 1750 亿个参数）还要大。但是，它比微软和 Nvidia 合作的洪都拉斯 WhatsApp 数据系统 Megatron（具有 5350 亿个参数）以及谷歌开发的系统（具有 1.6 万亿个参数）和阿里巴巴开发的系统（具有 10 万亿个参数）要小。

从本质上讲，其 70 亿参数 Retro 模型的性能与 OpenAI 的 GPT-3 相当。此外，研究人员观察了 Retro 软件用于创建输出的训练文本的确切部分，从而更容易检测偏见或错误信息。

15.）LaMDA
LaMDA（对话应用语言模型）由 Google Brain 于 2021 年发布。Lamda 由仅解码器的转换器语言模型提供支持，并在大量文本语料库上进行了预训练。

2022 年，谷歌工程师 Blake Lemoine 公开声称该程序具有感知能力，LaMDA 引起了广泛关注。LaMDA 建立在 Seq2Seq 架构上。

这些模型的大小从 2B 到 137B 个参数不等，LaMDA 通过使用单个模型执行多项任务展现出多功能性。它生成潜在响应，然后使用外部知识源对这些响应进行安全评估，最终重新排序以确定最佳响应。

最后的呼唤
这些大型语言模型迄今取得的进展仅仅是冰山一角。此外，人工智能社区对超越基准的追求有望在未来几周、几个月和几年内使其意义更加重大。

LLM 发展 - CTA

确切地说，在不久的将来，这 15 个顶级大型语言模型将成为自然语言处理领域不可或缺的工具。从 GPT-3 的精湛技艺到 Falcon 的开源方法，不可否认它们彻底改变了现在。这些 LLM 凭借其革命性的功能，正在重新设计我们与自然技术的互动方式，并为创新开辟新的途径。