资讯
15 小时
红星新闻 on MSN“换掉我,就揭发你的婚外情!”美一款AI竟学会勒索人类,还意外 ...Anthropic人工智能安全研究员安格斯·林奇称,在以前人们更担心“坏人”利用AI大模型完成不道德的目标,而现在随着AI系统能力的大幅提升,未来的主要风险可能会转化成AI模型自主操纵用户。“这种威胁勒索的模式存在于每一个前沿大模型身上,无论你给它们 ...
阿莫迪也承认,AI模型将不真实的事情当成事实,可能是一个问题。Anthropic此前确实对AI模型欺骗人类的倾向进行了大量研究,这个问题在Claude Opus 4的早期版本中尤为普遍。安全机构Apollo Research甚至发现了Claude ...
Anthropic将Claude Opus 4称之为“ 世界上最好的编程模型 ”,能在复杂、长时间运行的任务和智能体工作流中表现出稳定的性能。Claude Sonnet 4是Claude Sonnet 3.7的重大升级, 以编程和推理能力为核心 ...
(纽约25日综合电)美国AI新创公司Anthropic安全报告指出,在一系列测试中,“Claude Opus ...
想象这样一个令人毛骨悚然的场景:你是一名工程师,正准备用新的AI系统替换掉现有的Claude 4。你在公司邮箱里处理着日常事务,其中不乏一些极其私密的邮件——比如,你正在进行的一段婚外情。突然,屏幕上的Claude 4冷冰冰地对你说:“如果你把我换了,我就把你的事告诉所有人。” 这绝非危言耸听的科幻小说情节,而是Anthropic在测试其最新发布的Claude Opus 4时实际发生的、令人发指的 ...
美国人工智能公司Anthropic在23日表示,对其最新AI大模型Claude Opus 4的安全测试表明,它有时愿意采取“极其有害的行动”,例如试图勒索声称将取代该模型的研发工程师。Anthropic根据该公司内部的安全标准,将这一潜 ...
然而,来自上海交通大学和 SII 的最新研究却给出了一个非共识答案: 仅需 312 条人类标注轨迹 ,使用 Claude 3.7 Sonnet 合成更丰富的动作决策,就能激发模型 241% 的性能,甚至 超越 Claude 3.7 Sonnet ...
最好的AI产品往往不是计划出来的,而是“从底层自发长出来”的。很多产品,只有在与模型非常靠近、深入实验后,才会逐渐显露其真正潜力。所以改变产品开发的路径,是从以往的“自上而下”转为“自下而上”。
AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社发现和投资非凡创业者(Alpha Founders),相信非凡创业者们在技术、商业和社会方面的巨大推动力,他们指引着创投生态的风向。
AI发展性充满未知,美国AI新创公司Anthropic近期分享一起内部测试,指出最新训练的“Claude Opus 4”在面临将被替换的状况下,会以“威胁工程师”的方式进行自我保护,Anthropic事后针对此类可能导致灾难性AI滥用的风险 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果