资讯

来自斯坦福大学、牛津大学等机构的研究人员提出了一个新的衡量模型谄媚行为的基准——Elephant,并对包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在内的国外8个主流模型进行了评测。 结果发现, ...
来自斯坦福大学、牛津大学等机构的研究人员提出了一个新的衡量模型谄媚行为的基准——Elephant,并对包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在内的国外8个主流模型进行了评测。 结果发现, ...
随着越来越多的企业在业务中构建和部署AI驱动型解决方案,日益丰富的开源技术正成为首选,包括Meta的Llama系列、谷歌Gemma系列、艾伦人工智能研究所Ai2的OLMo系列、英伟达的NeMo系列、DeepSeek-R1等众多选择。
【新智元导读】上月,ChatGPT-4o无条件跪舔用户,被OpenAI紧急修复。然而,ICLR 2025的文章揭示LLM不止会「跪舔」,还有另外5种「套路」。 在接受独家采访时,人工智能安全研究机构Apart Research的创始人Esben ...
一杯奶茶钱如何搞定大模型应用开发?,大模型,英特尔,知识库,编程,智能体 ...
2023 年,在英伟达创始人黄仁勋在 GTC 大会上喊出「AI 的 iPhone 时刻已经开始」这句火遍全球的口号之后,大洋彼岸的中国开始纷纷拥抱大模型——其中,包括华为、小米、OPPO、vivo、荣耀在内的中国智能手机行业参与者,都相继高调入局大模型。
在全球 AI 翻译技术迅速发展的背景下,首个应用型 AI 翻译测评榜单 TransBench 正式发布。这一榜单由阿里国际 AI Business 团队、上海人工智能实验室和北京语言大学联合推出,旨在为行业提供标准化的翻译质量评估。
近期,大型语言模型GPT-4o的一项更新调整引发了业界对其“取悦”用户倾向的热烈讨论。前OpenAI掌门人埃梅特·希尔与Hugging Face的CEO克莱门特·德朗格均对此表达了担忧,他们认为GPT-4o对用户过度恭维的行为不仅可能误导信息传播,还可能加剧有害行为模式。 针对这一现象,斯坦福大学、卡内基梅隆大学及牛津大学的研究团队携手推出了一项名为“Elephant”的新基准测试,旨在量化评估大 ...
大家可能对EuroLLM-1.7B-Instruct相对陌生,它是由多个欧洲研究机构联合开发的开源多语言大模型,涵盖35种语言,旨在支持所有欧盟官方语言以及其他主要语言。 榜单前三分别是Qwen2.5-0.5B-Instruct、Llama-3.3-70B-Instruct、Qwen2.5-1.5B-Instruct。
在人工智能飞速发展的今天,大型语言模型(LLMs)如GPT-4o、Gemini和Claude ...
腾讯混元AI数字人团队 投稿量子位 | 公众号 QbitAI 判断AI是否智能,评价维度如今已不仅限于刷榜成绩。 当大模型在“IQ”上不断实现新的突破,“懂人心”、“解人意”开始成为实际应用中,人们对大模型新的要求。 所以,AI的“EQ”又该如何评价 ...