OpenAI 开源了名为 BrowseComp 的新基准测试,旨在衡量 agent 在互联网上定位难找信息的能力。现有基准测试已不能很好地发挥其作用,因为新的模型使测试结果达到了饱和状态,BrowseComp 通过让人类训练员创建极具挑战性、答案简短且唯一的问题来进行测试,涵盖多领域主题。OpenAI 希望通过开源 BrowseComp 推动更可靠的 AI 研究。
或成科技史最大种子轮据 Business Insider 报道,由前 OpenAI 首席技术官 Mira Murati 创立的 Thinking Machines Lab 正寻求 20 亿美元的种子轮融资。若成功,这将成为科技史上规模最大的种子轮之一。当前,AI 行业发展态势备受争议,华尔街对 CoreWeave 的首次公开募股反应不一,微软也削减了部分 AI 基础设施项目。在这样的背景下,若 Murati 的公司成功筹集 20 亿美元,将有力证明 AI 投资热潮依旧强劲。
OpenAI 宣布对 ChatGPT 进行重大功能更新,显著扩展其定制和记忆能力。此次更新后,ChatGPT 能够记住之前所有对话信息,并据此调整回复,实现更个性化的交互,用户可以随意启用或禁用此功能。该功能目前率先向 ChatGPT Plus 和 Pro 用户推出。
据 The Verge 报道,OpenAI 计划下周发布一系列新的人工智能(AI)模型,其中包括多模态模型 GPT-4o 的改良版——GPT-4.1,以及尺寸更小的 GPT-4.1 mini 和 nano 版本。同时发布 o3 完整版与 o4 迷你版。消息人士称,最近 OpenAI 由于产能问题延迟了一些新模型的推出,因此 GPT-4.1 的推出时间有可能比原定的下周要迟。此前,Altman 已提醒用户新版本可能存在服务延迟与崩溃。
OpenAI 在外网发布视频“Pre-Training GPT-4.5”,主要讨论了 OpenAI 训练 GPT-4.5 的过程。涵盖项目启动、挑战、团队合作及有趣发现,还对未来进行了展望。同时,奥特曼等人还探讨了数据效率瓶颈需要探索算法创新、未来大规模 GPU 同步预训练的可能性、更大预训练模型与学习推理能力的关系、系统进步的限制因素,以及无监督学习有效的原因和度量指标的重要性等问题。
宇树发布机器人 G1 拳击视频,在视频中,G1 不仅展示了打沙袋,还和成年男子以及另外一台 G1 机器人分别进行了对打。尽管 G1 被人类一脚踢倒,但还可以单手撑地很快站起来。视频结尾显示,他们将在近 1 个月左右开启机器人格斗直播。
技术摇摆、团队冲突致人才流失The Information 发布的一篇文章揭露了苹果 AI Siri 改版背后的内部混乱。文章凸显了苹果内部矛盾重重,隐私立场、领导不力、团队冲突等问题。例如,苹果在 Siri 后端开发上摇摆不定,从最初设想构建“Mini Mouse” 与 “Mighty Mouse” 双模型,到决定采用单一大语言模型(LLM),多次技术转向让工程师受挫,部分人员离职
据 TechCrunch 报道,一位菲律宾金融科技创始人遭到欺诈指控,其所推出的 AI 购物应用,原本宣称利用 AI 技术为用户提供服务,却被发现实际是菲律宾当地人工操作。这一欺诈行为已经误导消费者,损害用户权益,该公司创始人将面临法律追责。
据财联社消息,国际电信联盟电信标准分局(ITU-T)于 2025 年 3 月正式发布 ITU-T F.748.44 基础模型的评估标准:基准测试/ Assessment criteria for foundation models: Benchmark。该项国际标准由中国信息通信研究院牵头制定,规范了大模型基准测试的指标要求和测试方法。整理:锦鲤