体、投放方式、归因

rifattry7 · Post by **rifattry7** » Sat Dec 28, 2024 4:08 am

一觉醒来超越和的新架构诞生了？斯坦福、、伯克利和的研究人员提出了一种全新架构用机器学习模型取代的隐藏状态。论文压缩上下文这种方法被称为「测试时间训练层（-- ）」。层直接替代了注意力机制解锁了具有表现力记忆的线性复杂度架构使我们能够在上下文中训练包含数百万（未来可能是数十亿）个k的。作者相信这个研究了一年多的项目将从根本上改变我们的语言模型方法。端产品经理的能力模型与学习提升端产品经理面临的第一大挑战是如何正确的分析诊断业务问题。这也是最难的部分产品设计知识对这部分工作基本没有帮助如果想做好业务分析诊断必须具备扎实 ... 查看详情 > 而结果证明-和-直接赶超或击败了最强的和！作者之一的惊喜地表示：不敢相信我们真的做到了。

更令人兴奋的是虽然目前南非电话号码表只应用于语言建模但在未来它也可以用在长视频上可谓前景远大。在将来当我们对长视频进行建模时就可以对帧进行密集采样而不是采样了。这些密集帧对是一种负担但对于层来说这却是一种福音！一个年多的想法终于实现了作者表示在过去的.年里团队一直在开发一种新的架构可以具有线性复杂度和更强的隐藏状态用于长上下文建模。而这个测试时训练的想法已经研究了超过年。清晰记得在刚开始做博士后时曾让自己去找讨论。这次会面就是这项研究的起点。序列模型会把历史上下文存储在一个隐藏状态中。像这样的层会随着时间的推移压缩成一个固定大小的状态它们虽然效率很高但性能受限于其表达能力。

注意力机制有一个K缓存它会随着时间的推移不断增长。这个状态不会压缩任何历史上下文但随着上下文长度的增加成本也会越来越高。团队成员想：既然这样为什么不把上下文压缩到模型的权重中——就像处理互联网数据那样呢？这种「隐藏状态模型」既能在时间上保持固定大小又能大大增强表达能力。研究人员使用了自监督学习来更新隐藏状态的权重对每个k进行一次梯度下降。在处理一个序列时该状态已经在其上下文窗口中的k上「训练」过了。值得注意的是隐藏状态只存在于端到端架构中的一层。其他组件比如K投影矩阵是在预训练期间通过标准的交叉熵目标函数学习的。