斯坦福大学声称已经开发出一种生成式人工智能聊天机器人,其“行为方式与 OpenAI 的 GPT-3.5 质量相似”,同时“体积极小且易于创建”。确切地说,它的构建成本不到 600 美元。
最受关注的是 Alpaca 7B,这是 Meta 的 70 亿参数 LLaMA 语言模型的微调版本。该 LLaMA 模型使用 Hugging Face 的训练框架通过“混合精度和全分片数据并行训练等技术”进行微调。令人惊讶的是,7b LLaMA 模型仅在三个小时内就在八块 80GB Nvidia A100 芯片上进行了微调,在云计算提供商上的成本不到 100 美元。
Deepmind的语言模型“Gopher”在众多任务上与现有的超大规模语言模型相比是精确的,特别是在回答人文、科学等专业学科的问题时,而在数学、推理等其他方面则与之相差无几。
Gopher 统计信息
来源
令人惊讶的是,Gopher 比一些庞大的大型语言模型要小。Gopher 包含了近 2800 亿个参数,即可以调整的变量,最终使其比 OpenAI 的 GPT-3.5(具有 1750 亿个参数)还要大。但是,它比微软和 Nvidia 合作的 洪都拉斯 WhatsApp 数据 系统 Megatron(具有 5350 亿个参数)以及谷歌开发的系统(具有 1.6 万亿个参数)和阿里巴巴开发的系统(具有 10 万亿个参数)要小。
从本质上讲,其 70 亿参数 Retro 模型的性能与 OpenAI 的 GPT-3 相当。此外,研究人员观察了 Retro 软件用于创建输出的训练文本的确切部分,从而更容易检测偏见或错误信息。
15.)LaMDA
LaMDA(对话应用语言模型)由 Google Brain 于 2021 年发布。Lamda 由仅解码器的转换器语言模型提供支持,并在大量文本语料库上进行了预训练。
2022 年,谷歌工程师 Blake Lemoine 公开声称该程序具有感知能力,LaMDA 引起了广泛关注。LaMDA 建立在 Seq2Seq 架构上。
这些模型的大小从 2B 到 137B 个参数不等,LaMDA 通过使用单个模型执行多项任务展现出多功能性。它生成潜在响应,然后使用外部知识源对这些响应进行安全评估,最终重新排序以确定最佳响应。
最后的呼唤
这些大型语言模型迄今取得的进展仅仅是冰山一角。此外,人工智能社区对超越基准的追求有望在未来几周、几个月和几年内使其意义更加重大。
LLM 发展 - CTA
确切地说,在不久的将来,这 15 个顶级大型语言模型将成为自然语言处理领域不可或缺的工具。从 GPT-3 的精湛技艺到 Falcon 的开源方法,不可否认它们彻底改变了现在。这些 LLM 凭借其革命性的功能,正在重新设计我们与自然技术的互动方式,并为创新开辟新的途径。
Gopher Deepmind - 彻底改变搜索技术的未来
-
- Posts: 615
- Joined: Sat Dec 21, 2024 5:39 am