Google DeepMind发布Gemma Scope:揭开语言模型“黑箱”的可视化工具
摘要
Google DeepMind发布了Gemma Scope,这是一套可视化工具,用于揭示语言模型内部运作的秘密。通过训练稀疏自编码器(SAEs)在Gemma2模型上,Gemma Scope可以分解和重构语言模型的激活特征。该工具采用JumpReLU SAEs,优化了重建损失,并正则化了潜在特征数量,显著提高了模型的透明度和可靠性。实验结果显示,Gemma Scope在不同数据集上表现出色,特别是在DeepMind数学数据集上。
主要特点
- 揭示语言模型激活特征:通过分解和重构激活特征,深入理解模型内部运作。
- 创新JumpReLU SAEs:采用移位的Heaviside阶跃函数优化模型性能。
- 多层次训练评估:在注意力头输出、MLP输出和后MLP残差流等多个层次上进行训练。
技术优势
- 提高模型透明度:帮助研究人员更好地理解和解释语言模型。
- 改进任务性能:优化重建损失,提高实际任务的表现。
- 增强安全性:通过红队测试确保模型找到了“真实”概念。
应用场景
- 语言模型研究
- 人工智能安全性评估
- 高效数据处理与分析
相关链接
– 论文地址
– 在线体验
© 版权声明
文章版权归作者所有,未经允许请勿转载。