当地时间4月10日,美国开放人工智能研究中心(OpenAI)宣布开源包含1266个挑战性问题的基准测试BrowseComp。OpenAI表示,一个高性能的浏览智能体应该能够定位那些难以查找、可能需要在浏览数十甚至数百个网站的过程中才能获取的信息。现有基准测试(如SimpleQA)主要衡量模型检索基本孤立事实的能力,这类测试已被具备快速浏览工具(如支持浏览功能的GPT-4o)的模型所饱和。为了衡量AI智能体在互联网上定位难以查找、相互关联信息的能力,现开源基准测试BrowseComp。
相关文章
-
广东人工智能终端产品、行业大模型和应用解决方案首批名单正式发布
4月14日记者从广东省工信厅获悉,人工智能终端产品、行业大模型和应用解决方案名单(第一批)于近日正式发布。广东经过单位申报、地市推荐、专家评审等程序,共遴选出第一批50个人工智能终端产品、行业大模型、应用解决方案。文/广州日报新花城记者:何颖思广州日报新花城编辑:廖黎明
2025-04-14 20:17:00
-
周鸿祎健博会谈企业如何用好AI:应遵循四阶段方法
日前,2025年(第七届)世界大健康博览会(简称“健博会”)在中国光谷科技会展中心召开。大会以“AI赋能,健康生活”为主题,设置1个主会场和多个分会场,来自18个国家和地区的近700家参展商及医疗健康领域的顶尖企业家、科学家、技术专家齐聚武汉,共同探讨人工智能技术驱动下的大健康产业变革与创新实践。在
2025-04-14 16:34:00
-
同心聚力,打造大湾区分析测试领域一流学术大会 ——第三届深圳国际安全健康测试学术会议隆重开幕
来源:【中国食品报融媒体】4月11日,第三届深圳国际安全健康测试学术会议在深圳隆重开幕。大会分两天举行,100多个学术报告主题涉及精准医学、环境与水体、食品、农产品、化工、珠宝首饰与新材料、绿色实验室建设、冷冻电镜等多个学术领域,展示了多组学、质谱、色谱等分析测试前沿技术的最新发展。本次会议采取线上
2025-04-14 14:10:00
-
湖北襄阳:校园廊道变身“运动充电站”
2025年4月11日,在湖北省襄阳市大庆路小学的“运动充电站”,学生们正在进行智能体感运动。该校合理利用校园布局,将教学楼架空层、廊道等边角空间改造为全天候智能运动场,配置跳跳机、跳舞机、投篮机、骑行机等智能体感运动设备,让传统课间跃动科技活力,帮助学生养成运动习惯。(中国教育报-中国教育新闻网通讯
2025-04-13 19:00:00
-
大风极端天气不听劝阻,20多人强行攀爬野山,组织者被依法传唤
4月10日,北京市气象台发布大风橙色预警信息,相关部门发布森林防火红色预警信息。怀柔气象台发布的最新气象信息显示,预计13日午后怀柔区西部山区个别点位可达阵风10级以上。4月13日上午,曾某带领20余人前往怀柔区九渡河镇攀爬野山,在现场工作人员劝阻下,仍强行登山且始终拒绝配合下山。九渡河派出所民警会
2025-04-13 16:01:00
-
推动企业数字化网络化智能化转型 河北省开展智能工厂梯度培育行动
河北日报讯(米彦泽、林靖晗)近日,河北省工业和信息化厅、省发展改革委、省国资委、省市场监管局、省数据和政务服务局联合印发《河北省智能工厂梯度培育行动工作方案(2025—2027年)》提出,加快建成覆盖全省的智能工厂梯度培育体系,通过基础级、先进级、卓越级、领航级4个层级开展培育,推动企业数字化、网络
2025-04-13 07:19:00