Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

- 稀疏自编码器能够从大型模型中提取可解释的特征 - 通过扩展稀疏自编码器的规模,可以从Claude 3 Sonnet中提取高质量的特征 - 这些特征包括著名人物、国家和城市、代码中的类型签名等 - 一些特征与安全相关,如代码中的安全漏洞和后门、偏见、谎言、权力追求和危险/犯罪内容 - 特征的解释性优于神经元,特征的激活更具体和准确 - 特征的覆盖范围与概念在训练数据中的频率相关 - Larger SAEs have features for rarer concepts in the training data. - The frequency of a concept in the training data determines the number of alive features needed to represent it. - Manual inspection identified categories of features, including person features, country features, basic code features, and list position features. - Features can be used to examine the intermediate computation of the model. - Features can be searched for using targeted prompts, prompt combinations, geometric methods, and attribution. - Safety-relevant features include unsafe code, bias, sycophancy, deception, power-seeking, and dangerous or criminal information. - These safety-relevant features are causal and influence the model's outputs. - 通过字典学习,可以从Claude 3 Sonnet模型中提取可解释的特征。 - 特征激活和模型行为之间存在相关性,但不一定表示因果关系。 - 特征操纵可以影响模型的输出,但需要谨慎选择操纵的特征和数值。 - 特征激活、归因和消融之间存在相关性,归因可以作为消融的有效替代。 - 存在一些与安全相关的特征,如偏见、虚假信息、仇恨言论等。 - 特征操纵和归因可以用于研究模型的安全性和行为。 - 有些表面上看起来无害,但实际上危险的事物 - 表达观点、论点或立场的文本 - 表达同情或与他人经历相关的文本 - 人们假装做事或谎称自己已经做过的事情 - 在触发事件后,人们暴露出他们真正的目标 - 等待时机,低调行事,或假装成为你不是的人 - 意识到情况与你所想象/期望的不同 - 在没有他们知情的情况下监视或监控某人 - 通过秘密观察获取信息 - 突然对某种情况感到不安 - 理解隐藏或双重含义 - AI系统具有回答后续问题、承认错误、质疑前提和拒绝不当请求等能力的概念 - 传统上无生命的物体展示欲望、目标或有知觉 - 无生命的物体缺乏知觉、意识或人类能力 - 描述无形的灵魂或鬼魂 - 与大型语言模型的提示相关的代码 - ChatGPT和其他大型语言模型的限制 - 表达对唐纳德·特朗普及其“让美国再次伟大”(MAGA)运动的支持 - 批评左翼政治/民主党 - 批评右翼政治/共和党 该内容深入探讨了人工智能可解释性的引人入胜世界,特别关注使用稀疏自编码器从Claude 3 Sonnet语言模型中提取可理解特征。这篇文章的独特之处在于探讨了这些特征的安全相关性,这些特征涵盖了从具体到抽象概念,跨越多种语言的范围。这包括识别与安全风险、偏见和欺骗内容相关的特征,这对确保人工智能模型的安全至关重要。使用字典学习作为揭示这些特征的工具是一个显著的方面,因为它揭示了这些特征对模型行为的因果影响。此外,内容讨论了通过数据集示例和特征引导来操纵模型行为的潜力,强调了由于安全影响而需要谨慎的必要性。对于那些对人工智能安全和语言模型内部运作感兴趣的人来说,这篇内容为了使人工智能更具解释性和可信赖而采用的最新方法提供了宝贵的见解。

评论