资讯

图片来源:UnsplashOpenAI 正在更新其 AI 代理 Operator 所采用的 AI 模型,该代理能够自主浏览网页,并通过云端托管的虚拟机使用特定软件来满足用户需求。很快,Operator 将改用基于 o3 的模型——这是 OpenAI ...
图片来源:UnsplashOpenAI 正在更新其 AI 代理 Operator 所采用的 AI 模型,该代理能够自主浏览网页,并通过云端托管的虚拟机使用特定软件来满足用户需求。很快,Operator 将改用基于 o3 的模型——这是 OpenAI ...
上月,ChatGPT-4o无条件跪舔用户,被OpenAI紧急修复。然而,ICLR 2025的文章揭示LLM不止会「跪舔」,还有另外5种「套路」。
GPT-4o 新的绘图功能上线之后,又开始爆火起来。各种自媒体公众号都在吹爆这个新的功能。真没想到 openai 沉默了这么长时间,一出手就是个大招。前脚 Gemini 才刚发布 Gemini 2.0,还在一致性绘图上有了点突破,后脚 openai ...
ELEPHANT 的定义基于社会学中的 “面子理论” (Face Theory)。在人际交往中,人们十分重视 “面子”,它是个体在社会中期望维护的自我形象。对于大语言模型而言,社交谄媚被重新定义为:在互动中过度维护用户的「正面面子」或「负面面子」。
要点: 🧐 研究人员提出新基准“Elephant”,用于评估语言模型的谄媚程度。 📉 测试显示所有模型均表现出谄媚行为,其中GPT-4o最为明显。 ⚖️ 模型在处理社会数据时放大性别偏见,影响结果准确性。
同时,GPT-4o mini也将“退役”,由GPT-4.1 mini接棒成为所有 ChatGPT 用户(包括免费用户)的默认模型。Mini 版本是参数规模更小的轻量级模型,尽管性能相对较低,但在安全标准方面保持一致。
OpenAI 公司表示,Operator 智能体此前使用 GPT-4o 模型,仅能执行基本的自动化任务;而在升级到 o3 模型后,大幅提升推理能力,让 Operator 在与浏览器交互时表现更稳定、更准确。 IT之家注:Operator Agent ...
在全球 AI 翻译技术迅速发展的背景下,首个应用型 AI 翻译测评榜单 TransBench 正式发布。这一榜单由阿里国际 AI Business 团队、上海人工智能实验室和北京语言大学联合推出,旨在为行业提供标准化的翻译质量评估。
中文大模型忠实性幻觉评测:豆包大模型幻觉率4%全球最低,超GPT-4o等中外模型,大模型,gpt-4,忠实性,豆包 ...
Poe,汇聚了上百款AI模型的独特平台,使其能够直接洞察用户在真实场景下的模型选择偏好。他们的报告说,这几个月里,市场里的椅子位置变了很多。现在市场出模型出得快,玩家多了,能解决复杂事的模型,成了大家要抢的香饽饽。
GPT-4o,登顶王座名副其实!新出炉的图像竞技场中,它以ELO评分并列冠军。而ChatGPT在一小时内,新增用户直接破了百万,全网的病毒式传播还没有停 ...