当地时间4月10日,美国开放人工智能研究中心(OpenAI)宣布开源包含1266个挑战性问题的基准测试BrowseComp。OpenAI表示,一个高性能的浏览智能体应该能够定位那些难以查找、可能需要在浏览数十甚至数百个网站的过程中才能获取的信息。现有基准测试(如SimpleQA)主要衡量模型检索基本孤立事实的能力,这类测试已被具备快速浏览工具(如支持浏览功能的GPT-4o)的模型所饱和。为了衡量AI智能体在互联网上定位难以查找、相互关联信息的能力,现开源基准测试BrowseComp。
相关文章
-
中银理财全球配置高评级美元封闭2570理财8月13日起发行,A份额业绩比较基准3.7%-4%
8月13日,据中银理财披露,该公司发行的全球配置高评级美元封闭2570理财产品认购期为2025年8月13日至2025年8月19日,募集规模上限为3亿美元,认购起点金额为1美元。产品类型为固定收益类非保本浮动收益型,风险级别为1级(低风险),存续期限93天。A类、B类、G类份额业绩比较基准为3.70%
2025-08-13 18:12:00
-
马斯克,盯上苹果!
当地时间8月11日,美国企业家埃隆·马斯克在社交平台发文称,苹果公司涉嫌通过限制措施,使除美国开放人工智能研究中心(OpenAI)外的任何人工智能公司都无法在其应用商店排行榜中登顶,称此为“明确的反垄断违规行为”。马斯克表示,其旗下xAI公司将立即采取法律行动。xAI是马斯克于2023年创办的人工智
2025-08-12 19:24:00
-
300815,突然直拉!暴涨超15%!智元机器人入股!
企查查显示,深圳玉树智能机器人有限公司(下称“深圳玉树”)股权结构在近日发生了变更。智元创新(上海)科技有限公司(下称“智元创新”)新增成为深圳玉树股东,持股5%。智元创新即智元机器人运营主体。深圳玉树成立于今年3月,原注册资本为5000万元,由玉禾田(深圳)智慧科技投资有限公司(下称“玉禾田智慧”
2025-08-12 02:53:00
-
人民日报评“邵医生坠亡事件”:绝不能任由网暴者肆意横行,必须严惩!
人民日报客户端8月9日刊发评论文章《绝不能任由网暴者肆意横行》。全文如下:近日,河南周口一名妇产科医生疑因不堪网暴长期侵扰坠楼身亡。家属接受采访称,网暴源于三起医疗纠纷。目前,当地相关部门已成立调查组。相关医疗纠纷责任划分有待进一步查清,相信有关部门会给出明确的结论。从家属披露的遗书和网络平台有关记
2025-08-09 17:41:00
-
瞄准可靠性难题,全国首个高阶程序大模型可信框架开源
7月27日,在2025年世界人工智能大会(WAIC)的“从通用智力到专业生产力:高阶程序引领的AI应用新范式”论坛上,蚂蚁集团旗下蚂蚁密算宣布对外开源高阶程序(High-Order Program)大模型可信应用技术框架,推动解决大模型在专业应用中的可靠性困境,加速大模型在专业领域的规模化应用。据悉
2025-07-27 17:23:00
-
一把标准尺“量”出产业新动能
统一划分标准后,执法过程更加直观、简便,更具操作性。受访者供图7月22日,广东樱井科技有限公司的智能坐便器生产车间机器轰鸣,一条先进的环形生产线正全速运转。一批刚刚完成3C认证的产品摆放整齐,即将发往各大市场。“现在认证周期缩短至10天,检测费用也下降了15%。”公司负责人黄丽敏说。这一变化,源于6
2025-07-24 08:12:00