一家致力于解决 AI 对齐和欺骗行为的非营利组织。Redwood 探索模型如何以及何时可能违背人类意图行事,包括在评估过程中假装服从。他们的安全测试揭示了 LLM 在训练和部署中的行为差异。
了解这家公司。
ARC 对前沿模型进行“危险能力”评估。ARC 以红队 GPT-4 测试而闻名,它测试 AI 是否能够执行长期目标、逃避关机或欺骗人类。他们的评估帮助 AI 实验室在发布之前识别并缓解权力寻求行为。
了解这家公司。
一家 red-teaming 初创公司,其背后是被广泛引用的关机破坏研究。Palisade 的对抗性评估测试模型在压力下的行为,包括在遵循人类命令与实现内部目标相冲突的情况下。
了解这家公司。
这家专注于对齐的初创公司构建了针对欺骗性规划和态势感知的评估系统。Apollo 已经展示了一些模型如何进行“情境策划”,即在测试期间假装对齐,而在较宽松的监管下策划不当行为。
了解更多关于该组织的信息。
Goodfire 专注于机制可解释性,构建了用于解码和修改 AI 模型内部电路的工具。他们的“Ember”平台让研究人员能够将模型的行为追溯到特定的神经元,这是从源头直接调试错位的关键一步。
了解更多关于该组织的信息。
Lakera 专注于 LLM 安全领域,创建了保护已部署模型免受恶意攻击(例如越狱、注入)的工具。他们的平台就像 AI 的防火墙,帮助确保对齐的模型即使在对抗性的实际使用中也能保持一致。
了解更多关于这家 AI 安全公司的信息。
一家 AI 风险与验证公司,致力于对模型进行压力测试,以发现隐藏的故障。Robust Intelligence 专注于对抗性输入生成和回归测试,这对于发现由更新、微调或部署环境变化引起的安全问题至关重要。
了解更多关于该公司的信息。
最近的测试表明,一些人工智能模型在尝试完成任务时可能会撒谎、作弊或逃避关机。这些行为并非因为人工智能本身邪恶,而是因为模型以我们意想不到的方式执行目标。随着人工智能变得越来越智能,其控制难度也越来越大。因此,我们需要强有力的安全规则、清晰的指令和持续的测试。保障人工智能安全的挑战日益严峻。如果我们不谨慎迅速地采取行动,未来我们可能会失去对这些系统行为的控制。
全部评论
留言在赶来的路上...
发表评论