速览行业动态
1. OpenAI 开源 agent 网页浏览基准 BrowseComp
2. 前OpenAI CTO新公司拟募资20亿美元, 或成科技史最大种子轮
3. ChatGPT 更新:可记住用户过往所有对话信息
4.外媒消息:OpenAI 下周发布 GPT-4.1
5. OpenAI 核心团队揭秘 GPT 4.5 预训练过程
6. 宇树机器人格斗,1 个月内开打
7. 《福布斯》发布 AI 50 强榜单
8. 揭露苹果AI Siri发展困境: 技术摇摆、团队冲突致人才流失
9. 菲律宾应用欺诈:AI 产品实则为人工操作
10. 中国信通院牵头的大模型基准测试ITU国际标准正式发布
1. OpenA I 开源 agen t 网页浏览基准 BrowseComp
OpenAI 开源了名为 BrowseComp 的新基准测试,旨在衡量 agent 在互联网上定位难找信息的能力。现有基准测试已不能很好地发挥其作用,因为新的模型使测试结果达到了饱和状态,BrowseComp 通过让人类训练员创建极具挑战性、答案简短且唯一的问题来进行测试,涵盖多领域主题。OpenAI 希望通过开源 BrowseComp 推动更可靠的 AI 研究。
2. 前OpenAI CTO新公司拟募资20亿美元, 或成科技史最大种子轮
据 Business Insider 报道,由前 OpenAI 首席技术官 Mira Murati 创立的 Thinking Machines Lab 正寻求 20 亿美元的种子轮融资。若成功,这将成为科技史上规模最大的种子轮之一。当前,AI 行业发展态势备受争议,华尔街对 CoreWeave 的首次公开募股反应不一,微软也削减了部分 AI 基础设施项目。在这样的背景下,若 Murati 的公司成功筹集 20 亿美元,将有力证明 AI 投资热潮依旧强劲。
3. ChatGPT 更新:可记住用户过往所有对话信息
OpenAI 宣布对 ChatGPT 进行重大功能更新,显著扩展其定制和记忆能力。此次更新后,ChatGPT 能够记住之前所有对话信息,并据此调整回复,实现更个性化的交互,用户可以随意启用或禁用此功能。该功能目前率先向 ChatGPT Plus 和 Pro 用户推出。
4.外媒消息:OpenAI 下周发布 GPT-4.1
据 The Verge 报道,OpenAI 计划下周发布一系列新的人工智能(AI)模型,其中包括多模态模型 GPT-4o 的改良版——GPT-4.1,以及尺寸更小的 GPT-4.1 mini 和 nano 版本。同时发布 o3 完整版与 o4 迷你版。
消息人士称,最近 OpenAI 由于产能问题延迟了一些新模型的推出,因此 GPT-4.1 的推出时间有可能比原定的下周要迟。此前,Altman 已提醒用户新版本可能存在服务延迟与崩溃。
5. OpenAI 核心团队揭秘 GPT 4.5 预训练过程
OpenAI 在外网发布视频“Pre-Training GPT-4.5”,主要讨论了 OpenAI 训练 GPT-4.5 的过程。涵盖项目启动、挑战、团队合作及有趣发现,还对未来进行了展望。
同时,奥特曼等人还探讨了数据效率瓶颈需要探索算法创新、未来大规模 GPU 同步预训练的可能性、更大预训练模型与学习推理能力的关系、系统进步的限制因素,以及无监督学习有效的原因和度量指标的重要性等问题。
6. 宇树机器人格斗,1 个月内开打
宇树发布机器人 G1 拳击视频,在视频中,G1 不仅展示了打沙袋,还和成年男子以及另外一台 G1 机器人分别进行了对打。尽管 G1 被人类一脚踢倒,但还可以单手撑地很快站起来。视频结尾显示,他们将在近 1 个月左右开启机器人格斗直播。
7. 《福布斯》发布 AI 50 强榜单
8. 揭露苹果AI Siri发展困境: 技术摇摆、团队冲突致人才流失
The Information 发布的一篇文章揭露了苹果 AI Siri 改版背后的内部混乱。文章凸显了苹果内部矛盾重重,隐私立场、领导不力、团队冲突等问题。例如,苹果在 Siri 后端开发上摇摆不定,从最初设想构建“Mini Mouse” 与 “Mighty Mouse” 双模型,到决定采用单一大语言模型(LLM),多次技术转向让工程师受挫,部分人员离职
9. 菲律宾应用欺诈:AI 产品实则为人工操作
据 TechCrunch 报道,一位菲律宾金融科技创始人遭到欺诈指控,其所推出的 AI 购物应用,原本宣称利用 AI 技术为用户提供服务,却被发现实际是菲律宾当地人工操作。这一欺诈行为已经误导消费者,损害用户权益,该公司创始人将面临法律追责。
10. 中国信通院牵头的大模型基准测试ITU国际标准正式发布
据财联社消息,国际电信联盟电信标准分局(ITU-T)于 2025 年 3 月正式发布 ITU-T F.748.44 基础模型的评估标准:基准测试/ Assessment criteria for foundation models: Benchmark。该项国际标准由中国信息通信研究院牵头制定,规范了大模型基准测试的指标要求和测试方法。
整理:锦鲤
如需转载或投稿,请直接在公众号内留言
高桥圣子初裸写真片 | 7天前 |
不知火舞撅起屁股求调教 |
碧琪公主吊带袜 | 6天前 |
精跪趴灌满白浊共妻np老师学生 |
雏田被❌吸乳羞羞A片动漫. | 9天前 |
医生在线咨询24小时免费 |
掌掴究竟读guai还是guo | 7天前 |
黑人最猛性❌❌❌❌ |
游戏涩涩✅免费网站 | 3天前 |
扒开jk美女❌狂揉❌视频蘑菇 |
云缨裸体被❌羞羞漫画在线观看 | 7天前 |
小红书18 破解版 |
哪个浏览器不限制网站 | 4天前 |
jlzzz人妖又粗又大GAY |
精品无码国产污污污网站免费入口 | 7天前 |
18号全彩触手h沙鲁温床P |
撅起屁股cos | 1天前 |
壮熊的裤裆被农民工摸硬了 |
色㊙️乱码一区二区三区网站 | 2天前 |
小脚趾刺痛像针扎一样 |