
科技媒体marktechpost近日报道了谷歌DeepMind团队与约翰?开普勒林茨大学LIT AI实验室的最新研究成果。该研究通过强化学习微调技术,显著提升了语言模型的决策能力。当前基于海量数据训练的语言模型虽然展现出超越文本处理的决策潜力,但在实际应用中仍存在明显缺陷,包括理论与实践的脱节、过度追求短期利益以及机械重复常见动作等问题。传统强化学习方法难以有效解决这些内在问题。研究团队创新性地采用强化学习微调技术,以模型自生成的思维链作为训练信号,通过评估每个推理步骤对应的行动奖励,促使模型选择更合理高效的行动方案。在具体实施中,研究人员运用蒙特卡洛基线评估和广义优势估计进行优化,并建立了惩罚机制和奖励塑造技术。实验结果显示,该方法在多臂老虎机测试中显著提升了模型性能,动作覆盖率提高了12个百分点,频次偏见率大幅下降。在井字棋实验中,模型对阵随机对手的胜率提升了5倍,与最优代理的对战表现也有明显改善。特别值得注意的是,该方法有效缩小了大模型推理与执行之间的差距,使执行最优动作的概率从21%提升至87%。
谷歌DeepMind突破性研究:AI语言模型实战能力大提升
万念智库
首款原生PS3模拟器登陆谷歌商店,安卓手机畅玩经典游戏
近日,一款名为aPS3e的PlayStation 3模拟器正式登陆谷歌Play应用商店,为安卓用户带来了重温经典PS3游戏的新方式。这款由小众开发者打造的模拟器能够原生运行在安卓设备上,标志着移动端游戏模拟技术的又一突破。不过,这款模拟器目...
IT之家|2025-06-16 19:36
谷歌搜索新增语音播报功能 一键收听网页精华
谷歌搜索引擎近期推出了一项名为"音频概览"的新功能,这项创新服务利用谷歌的Gemini模型,为用户提供由人工智能生成的音频总结。用户现在可以通过谷歌搜索直接获取类似播客形式的简短音频内容,而不再需要花费大量时间浏览多个搜索结果页面。这项功能...
IT之家|2025-06-16 13:24
腾讯发布混元3D 2.1大模型 全面开放源代码
腾讯在计算机视觉领域的顶级会议CVPR2025上宣布了一项重要消息,混元3D 2.1大模型正式对外开源。这一举措标志着腾讯在3D视觉技术方面的研究成果开始向全球开发者开放。混元3D模型是腾讯在3D视觉领域的重要研究成果,目前已经在知名开源社...
界面新闻|2025-06-16 12:12
meta收购Scale AI半数股权,谷歌或终止合作
近日有媒体报道称,科技巨头谷歌计划终止与人工智能数据标注公司Scale AI的合作关系。这一决定源于Scale AI近期被谷歌的竞争对手meta Platforms收购了49%股份,使得谷歌出于商业竞争考虑不得不重新评估合作。据了解,谷歌原...
财联社|2025-06-16 07:48
"智能玩具新趋势:大模型如何引爆情绪消费"
近期,AI技术正在快速渗透玩具行业,为传统玩具赋予智能化交互能力。全球玩具巨头和科技企业纷纷布局这一新兴领域,预示着玩具市场即将迎来一场智能化变革。OpenAI与芭比娃娃制造商美泰公司达成战略合作,计划在今年推出首款AI玩具产品。美泰作为全...
财联社|2025-06-15 16:55
"豆包大模型1.6高考数学144分创纪录 实力碾压全国考生"
6月11日,字节跳动旗下火山引擎举办了FORCE原动力大会,正式发布了豆包大模型1.6版本。此次发布的新系列包含三个大模型,分别是Doubao-Seed-1.6-thinking、Doubao-Seed-1.6和Doubao-Seed-1....
快科技|2025-06-13 21:00
谷歌Pixel 8/9系列迎来重大更新:新增桌面模式,平板支持多窗口功能
科技媒体Android Authority于6月11日报道,谷歌最新发布了安卓16 QPR1 Beta 2测试版,重点推出了Connected Displays桌面模式功能。目前该功能仅支持Pixel 8和Pixel 9系列手机,用户需要在...
IT之家|2025-06-13 20:50
谷歌大规模裁员:搜索等核心部门员工可自愿离职
谷歌近期在美国搜索部门推出了一项自愿离职计划,覆盖市场、公关、研究和核心工程等多个团队。这项计划为员工提供至少14周工资的补偿,报名截止日期为7月1日。目前该计划尚未涉及DeepMind、Google Cloud、YouTube和中央广告销...
IT之家|2025-06-13 20:10
谷歌大规模裁员:搜索等核心部门员工可自愿离职
近日,谷歌公司再次向员工提出自愿离职买断方案,这是继去年大规模裁员后的又一人员调整举措。此次方案主要面向知识与信息部门、核心工程部门,以及营销、研究和公关团队。其中知识与信息部门直接关联谷歌核心业务板块,包括搜索、广告和商业等重要领域。目前...
快科技|2025-06-13 20:00
meta发布LlamaRL框架:异步分布设计让AI训练提速10倍
meta公司近日推出了名为LlamaRL的全新强化学习框架,这一创新技术在大规模语言模型训练领域取得了突破性进展。根据科技媒体marktechpost的报道,LlamaRL框架采用全异步分布式设计,在4050亿参数模型上的测试结果显示,强化...
IT之家|2025-06-13 18:10
小鹏G7首发自研芯片:性能超Orin-X三倍,智能驾驶再升级
小鹏汽车在6月11日晚正式发布了全新车型G7,这款车被称为全球首款具备L3级算力的AI汽车。该车最大的亮点是搭载了小鹏自主研发的图灵芯片,官方宣称1颗图灵AI芯片的算力相当于3颗Orin-X芯片。G7配备了3颗自研图灵AI芯片,有效算力达到...
IT之家|2025-06-13 11:00
小鹏G7首发智能驾驶辅助系统,实现大脑小脑协同控制
小鹏汽车在6月11日的发布会上正式推出了智能驾驶辅助VLA-OL模型,这一技术将首次应用于全新G7车型。该模型实现了从"小脑式反射"到"大脑+小脑"认知模式的重大升级,标志着小鹏汽车在自动驾驶领域迈出了重要一步。这套系统通过"运动型大脑"和...
快科技|2025-06-13 10:50
本信息来自互联网,不代表导读网立场,如若转载,请注明出处:http://www.frfey.com/news/63916/