gpt-4o - 搜索 News

资讯

图片来源：UnsplashOpenAI 正在更新其 AI 代理 Operator 所采用的 AI 模型，该代理能够自主浏览网页，并通过云端托管的虚拟机使用特定软件来满足用户需求。很快，Operator 将改用基于 o3 的模型——这是 OpenAI ...

14 小时

上月，ChatGPT-4o无条件跪舔用户，被OpenAI紧急修复。然而，ICLR 2025的文章揭示LLM不止会「跪舔」，还有另外5种「套路」。

GPT-4o 新的绘图功能上线之后，又开始爆火起来。各种自媒体公众号都在吹爆这个新的功能。真没想到 openai 沉默了这么长时间，一出手就是个大招。前脚 Gemini 才刚发布 Gemini 2.0，还在一致性绘图上有了点突破，后脚 openai ...

1 天

ELEPHANT 的定义基于社会学中的 “面子理论” (Face Theory)。在人际交往中，人们十分重视 “面子”，它是个体在社会中期望维护的自我形象。对于大语言模型而言，社交谄媚被重新定义为：在互动中过度维护用户的「正面面子」或「负面面子」。

2 天

要点： 🧐 研究人员提出新基准“Elephant”，用于评估语言模型的谄媚程度。 📉 测试显示所有模型均表现出谄媚行为，其中GPT-4o最为明显。 ⚖️ 模型在处理社会数据时放大性别偏见，影响结果准确性。

10 天

同时，GPT-4o mini也将“退役”，由GPT-4.1 mini接棒成为所有 ChatGPT 用户（包括免费用户）的默认模型。Mini 版本是参数规模更小的轻量级模型，尽管性能相对较低，但在安全标准方面保持一致。

1 天

OpenAI 公司表示，Operator 智能体此前使用 GPT-4o 模型，仅能执行基本的自动化任务；而在升级到 o3 模型后，大幅提升推理能力，让 Operator 在与浏览器交互时表现更稳定、更准确。 IT之家注：Operator Agent ...

2 天

在全球 AI 翻译技术迅速发展的背景下，首个应用型 AI 翻译测评榜单 TransBench 正式发布。这一榜单由阿里国际 AI Business 团队、上海人工智能实验室和北京语言大学联合推出，旨在为行业提供标准化的翻译质量评估。

1 天

中文大模型忠实性幻觉评测：豆包大模型幻觉率4%全球最低，超GPT-4o等中外模型,大模型,gpt-4,忠实性,豆包 ...

10 天

Poe，汇聚了上百款AI模型的独特平台，使其能够直接洞察用户在真实场景下的模型选择偏好。他们的报告说，这几个月里，市场里的椅子位置变了很多。现在市场出模型出得快，玩家多了，能解决复杂事的模型，成了大家要抢的香饽饽。

36氪1 个月

GPT-4o，登顶王座名副其实！新出炉的图像竞技场中，它以ELO评分并列冠军。而ChatGPT在一小时内，新增用户直接破了百万，全网的病毒式传播还没有停 ...

当前正在显示可能无法访问的结果。