开源资讯
每一个新动态都是尊龙凯时人生就是博向前迈进的新脚步

尊龙凯时官网登录|藤本绫|对话中国信通院魏凯:AI下半场大模型要少说话多做事

2025-08-01

  魏凯说✿ღღ★ღ:“2024年一年✿ღღ★ღ,国内包括DeepSeek在内的多个大模型团队✿ღღ★ღ,一直从多角度努力✿ღღ★ღ,不断提升模型性能✿ღღ★ღ,基本上每个月都能看到新的进展✿ღღ★ღ。在我们的测试中✿ღღ★ღ,DeepSeek在2024年4月的模型性能排名还比较靠后✿ღღ★ღ,8月的版本已经是TOP10里的玩家了✿ღღ★ღ,到了10月的版本已经是前几名了✿ღღ★ღ,12月发布的DeepSeek-V3成为当时基础能力第一名的模型✿ღღ★ღ,而且是开源的✿ღღ★ღ,非常了不起✿ღღ★ღ。”

  中国信通院是工业和信息化部直属科研事业单位✿ღღ★ღ,在人工智能领域承担决策支撑✿ღღ★ღ、新技术研究✿ღღ★ღ、标准研制✿ღღ★ღ、检验检测✿ღღ★ღ、咨询服务和国际合作等任务✿ღღ★ღ。2023年✿ღღ★ღ,魏凯带领团队推出“方升”大模型基准测试体系✿ღღ★ღ,依托“人工智能关键技术与应用评测部重点实验室”✿ღღ★ღ,制定测试标准✿ღღ★ღ,建设测试平台和数据集✿ღღ★ღ,定期对国内外大模型进行测试✿ღღ★ღ,目前已经构建了近700万条测试数据集✿ღღ★ღ。

  “方升”是战国时期的度量衡标准器✿ღღ★ღ,也是现存最早的度量衡标准器✿ღღ★ღ。魏凯说✿ღღ★ღ:“现在国内外大模型基准测试很多✿ღღ★ღ,但缺乏标准化的测试方法和体系✿ღღ★ღ,刷榜作弊也时有发生✿ღღ★ღ。我们推出‘方升’✿ღღ★ღ,就是希望能够推动大模型基准测试的标准化✿ღღ★ღ。”

  6月底✿ღღ★ღ,《中国企业家》专访了魏凯✿ღღ★ღ,作为资深专家✿ღღ★ღ,他对大模型以及当前最火的Agent有独特的看法✿ღღ★ღ,以下是内容要点✿ღღ★ღ:

  5.拥有海量C端用户对模型能力提升的贡献有限✿ღღ★ღ,超级APP只有很浅的数据✿ღღ★ღ,大量数据不在APP上✿ღღ★ღ,而在行业沉淀的知识中✿ღღ★ღ。

  7.到了AI下半场✿ღღ★ღ,大模型要精简输出信息✿ღღ★ღ,甚至输出信息不是主要目的✿ღღ★ღ,主要是把活干好✿ღღ★ღ。少说话✿ღღ★ღ,多做事✿ღღ★ღ,是大模型从生成式(Generative)AI走向代理型(Agentic)AI的主要目标✿ღღ★ღ。

  《中国企业家》✿ღღ★ღ:从中国信通院的测试看✿ღღ★ღ,国内哪些模型的表现更好一些?魏凯✿ღღ★ღ:根据我们过去一年的测试✿ღღ★ღ,通义千问✿ღღ★ღ、DeepSeek✿ღღ★ღ、豆包✿ღღ★ღ、混元✿ღღ★ღ、文心等模型表现一直比较好✿ღღ★ღ。我们也会测OpenAI✿ღღ★ღ、Anthropic✿ღღ★ღ、谷歌的模型✿ღღ★ღ,他们的表现也非常优异✿ღღ★ღ。最新测试看✿ღღ★ღ,基础模型TOP10中✿ღღ★ღ,中国的模型大概是6个左右✿ღღ★ღ,美国有4个✿ღღ★ღ。

  但第一名经常变✿ღღ★ღ,去年12月DeepSeek是最好的大模型✿ღღ★ღ,春节之后✿ღღ★ღ,千问成了第一名✿ღღ★ღ,但没多久✿ღღ★ღ,OpenAI又上来了✿ღღ★ღ,紧接着✿ღღ★ღ,谷歌Gemini也追上来了✿ღღ★ღ。我们观察到一个现象✿ღღ★ღ,最近大家更新的频率越来越快✿ღღ★ღ,导致TOP1的模型在那个位置待的时间越来越短了✿ღღ★ღ。近半年来基础模型的更新频繁✿ღღ★ღ,性能上你追我赶✿ღღ★ღ,排名经常轮动✿ღღ★ღ,但历次榜单中总是这几个模型的新版处在榜单前列✿ღღ★ღ。

  魏凯✿ღღ★ღ:现在可能不到3个月✿ღღ★ღ,现在十几天就会变化✿ღღ★ღ。去年5月✿ღღ★ღ,OpenAI的GPT-4o是最好的模型✿ღღ★ღ,它在第一名的位置上保持了200多天的纪录✿ღღ★ღ。但现在✿ღღ★ღ,排名十几天就会变一次✿ღღ★ღ,竞争特别激烈✿ღღ★ღ。

  这也是为什么现在大模型玩家越来越少了✿ღღ★ღ,因为每次训练至少要几百万美元✿ღღ★ღ,保鲜期却很短✿ღღ★ღ,你训完以后✿ღღ★ღ,再过几天✿ღღ★ღ,又要接着训✿ღღ★ღ,所以✿ღღ★ღ,支撑基础大模型创新✿ღღ★ღ,必须要有雄厚的资源保障✿ღღ★ღ。

  《中国企业家》✿ღღ★ღ:DeepSeek发布的R1-0528版本强调后训练✿ღღ★ღ,这是不是一种趋势?有一些明星模型公司不做预训练了✿ღღ★ღ,转向了后训练✿ღღ★ღ。

  魏凯✿ღღ★ღ:不管是后训练还是预训练✿ღღ★ღ,它都是训练阶段✿ღღ★ღ。对下游应用企业来说✿ღღ★ღ,会越来越少的参与到训练环节✿ღღ★ღ,一些公司可能会做一些微调✿ღღ★ღ,但随着基座模型能力快速迭代✿ღღ★ღ,做微调的用户企业也变少了✿ღღ★ღ。对广大用户侧的企业来说✿ღღ★ღ,如何通过提示词工程✿ღღ★ღ、检索增强✿ღღ★ღ、工作流等工程化方法✿ღღ★ღ,把大模型能力充分激发出来✿ღღ★ღ,开发针对特定场景的智能体✿ღღ★ღ,变得越来越重要了✿ღღ★ღ。围绕这方面需求的创新创业机会✿ღღ★ღ,也会越来越多✿ღღ★ღ。

  魏凯✿ღღ★ღ:你向大模型提的问题好坏决定了它回答的质量的高低✿ღღ★ღ,我们可能都会有这样的直观体验藤本绫✿ღღ★ღ,所以写提示词也是有技术含量的✿ღღ★ღ。在提示词之上✿ღღ★ღ,又加上了工作流✿ღღ★ღ,加上Agent✿ღღ★ღ,你看Manus和Cursor(AI编程智能体公司)✿ღღ★ღ,他们就不做基础模型✿ღღ★ღ,就是调用别人的✿ღღ★ღ。基于别人的大模型✿ღღ★ღ,开发出高水平的智能体✿ღღ★ღ,技术含量也会很高尊龙凯时官网登录✿ღღ★ღ,而这还并不需要重投入尊龙凯时官网登录✿ღღ★ღ。

  魏凯✿ღღ★ღ:智谱的技术团队实力很强✿ღღ★ღ,他们还重组资源来坚持长期投入✿ღღ★ღ。基础模型的比拼✿ღღ★ღ,看技术团队的实力✿ღღ★ღ,也看耐久力✿ღღ★ღ,“粮食”储备够不够多是一个关键✿ღღ★ღ。

  魏凯✿ღღ★ღ:投入海量数据和算力✿ღღ★ღ,开展大模型预训练✿ღღ★ღ,对于模型基础能力提升至关重要✿ღღ★ღ,预训练✿ღღ★ღ,是让大模型大量阅读和刷题✿ღღ★ღ,可以类比在学校中学习✿ღღ★ღ,而这些数据都是人类积累下来的✿ღღ★ღ,本质上还是向人类学习✿ღღ★ღ。但预训练不是提升模型能力的唯一路径✿ღღ★ღ,在后训练阶段利用强化学习✿ღღ★ღ,潜力也非常巨大✿ღღ★ღ。强化学习不太依赖人类提供的数据✿ღღ★ღ,而更强调从实战经验中学习✿ღღ★ღ,可以类比为在工作实践中学习✿ღღ★ღ。

  目前✿ღღ★ღ,我们也要警惕一种高估大模型能力的倾向藤本绫✿ღღ★ღ,错误地认为大模型无所不能✿ღღ★ღ,这是不准确的✿ღღ★ღ。在产业化应用中✿ღღ★ღ,我们要通过详细的评测✿ღღ★ღ,了解大模型能力边界✿ღღ★ღ,将任务需求与模型能力准确匹配✿ღღ★ღ。让大模型干它不擅长的活✿ღღ★ღ,一定会出问题✿ღღ★ღ。

  魏凯✿ღღ★ღ:大方向是减少幻觉✿ღღ★ღ,但目前的技术路线%保证没有幻觉✿ღღ★ღ。大模型生成内容✿ღღ★ღ,是靠神经网络参数来“回忆”✿ღღ★ღ,而不是一种精确查询✿ღღ★ღ。

  魏凯✿ღღ★ღ:把确定性的东西都放在数据库里✿ღღ★ღ,让大模型检索✿ღღ★ღ,可以有效减少输出幻觉✿ღღ★ღ。就像律师或法官✿ღღ★ღ,在法庭打官司的时候✿ღღ★ღ,如果要引用法律条文✿ღღ★ღ,一定是查原文✿ღღ★ღ,这样才能确保完全准确✿ღღ★ღ。

  到了一些严肃场景✿ღღ★ღ,还是得靠确定性的查询✿ღღ★ღ,所以一个真正的人工智能应用软件✿ღღ★ღ,它的组成部分有大模型✿ღღ★ღ,有数据库藤本绫✿ღღ★ღ、知识库以及各种被调用的工具✿ღღ★ღ,它并不只能单纯依靠模型本身来满足需求✿ღღ★ღ。

  模型本身就像一个中枢神经系统✿ღღ★ღ,它能调度✿ღღ★ღ,但它难以做到100%准确回忆✿ღღ★ღ,也不会直接干活✿ღღ★ღ,要具备“干活”能力✿ღღ★ღ,还是得靠调用其他的工具✿ღღ★ღ,那就是Agent✿ღღ★ღ。

  魏凯✿ღღ★ღ:Agent实际上是运行在大模型上面的软件✿ღღ★ღ,利用大模型意图理解和规划能力✿ღღ★ღ,调用专业工具✿ღღ★ღ,实现复杂的功能✿ღღ★ღ。其实早在两年前业内已经在提Agent了✿ღღ★ღ,2023年年中✿ღღ★ღ,信通院发布的人工智能十大关键词✿ღღ★ღ,就已经将Agent纳入其中✿ღღ★ღ。两年来✿ღღ★ღ,得益于基座模型水平的提升✿ღღ★ღ,Agent的智能水平也在不断进化✿ღღ★ღ。

  过去的Agent还要靠人写提示词✿ღღ★ღ,做成工作流✿ღღ★ღ,告诉它第一步干什么✿ღღ★ღ,第二步干什么✿ღღ★ღ,第三步干什么✿ღღ★ღ。今天的Agent可以自己规划工作流✿ღღ★ღ,自己产生思维链✿ღღ★ღ,与两年前基于人为提示词和工作流的智能体相比✿ღღ★ღ,智能水平显著提升✿ღღ★ღ。人的工作一直在往后退✿ღღ★ღ,AI的自主性更强了✿ღღ★ღ。《中国企业家》✿ღღ★ღ:那未来在人机互动中尊龙凯时官网登录✿ღღ★ღ,提示词是不是不用那么精准了?

  魏凯✿ღღ★ღ:我记得DeepSeek推理模型刚出来的时候✿ღღ★ღ,还专门有个教程说✿ღღ★ღ,不要让用户写提示词✿ღღ★ღ,否则影响模型的自主思考过程✿ღღ★ღ。现在并非不需要关注提示词了✿ღღ★ღ,提示词仍然非常重要✿ღღ★ღ。目前Agent已经内置精心设计的系统提示词✿ღღ★ღ,这部分提示词写得越好✿ღღ★ღ,模型能力就被激发得越充分✿ღღ★ღ,整体效果就越好✿ღღ★ღ。

  魏凯✿ღღ★ღ:同样的模型✿ღღ★ღ,你给它好的提示词和不好的提示词✿ღღ★ღ,得到答案的水平差异很大✿ღღ★ღ,这就是Agent层或者应用层公司的价值✿ღღ★ღ。

  魏凯✿ღღ★ღ:从技术上讲✿ღღ★ღ,大模型是一个操作系统✿ღღ★ღ,Agent就是一个应用程序✿ღღ★ღ。从功能上说✿ღღ★ღ,Agent非常像数字员工✿ღღ★ღ。未来✿ღღ★ღ,会慢慢进化出各种岗位特定的Agent✿ღღ★ღ,每个人可能会拥有很多Agent✿ღღ★ღ,有的是生活助手✿ღღ★ღ,有的是工作助手尊龙凯时官网登录✿ღღ★ღ。

  魏凯✿ღღ★ღ:未来是可能的✿ღღ★ღ,Agent会成为数字员工✿ღღ★ღ,人和数字员工合作✿ღღ★ღ,能力会越来越强✿ღღ★ღ。所以未来善用AI的人✿ღღ★ღ,可以拥有几乎无限个数字员工✿ღღ★ღ,从而成为一个超级个体✿ღღ★ღ,一个人可以指挥“千军万马”✿ღღ★ღ,这个意义上✿ღღ★ღ,一人公司不是梦✿ღღ★ღ。

  魏凯✿ღღ★ღ:哪家公司也没有明显的优势✿ღღ★ღ,现在都处于胶着状态✿ღღ★ღ,所有人都想抢藤本绫✿ღღ★ღ,手机操作系统厂商✿ღღ★ღ、一些智能硬件公司✿ღღ★ღ,还有超级APP厂商✿ღღ★ღ,包括新兴创业公司都想抢夺用户的入口✿ღღ★ღ。

  魏凯✿ღღ★ღ:还早✿ღღ★ღ,Agent可能不是一个产品✿ღღ★ღ,用户自己都可以开发一个✿ღღ★ღ,但功能很单一✿ღღ★ღ。未来✿ღღ★ღ,Agent会很有市场✿ღღ★ღ,企业里会有很多覆盖多种功能的Agent✿ღღ★ღ。所以Agent可能不是一个产品✿ღღ★ღ,而是好多功能的集合✿ღღ★ღ,但Agent开发平台可能是少数✿ღღ★ღ。

  魏凯✿ღღ★ღ:可能是个位数的基座模型✿ღღ★ღ,然后再加上若干个垂直行业的应用平台✿ღღ★ღ,或者是很成熟的Agent✿ღღ★ღ,形成数字劳动力市场✿ღღ★ღ。

  《中国企业家》✿ღღ★ღ:明星模型公司有超级APP✿ღღ★ღ,比如月之暗面的Kimi✿ღღ★ღ,它有海量用户✿ღღ★ღ,这能不能让模型能力变得更好?

  魏凯✿ღღ★ღ:这是两回事儿✿ღღ★ღ,不一定✿ღღ★ღ,超级APP只会沉淀很浅层的数据✿ღღ★ღ,大量用户数据不会在APP上✿ღღ★ღ,因此✿ღღ★ღ,聊天机器人类型的超级APP尊龙凯时官网登录✿ღღ★ღ,如果不附加其他深度应用功能✿ღღ★ღ,就很难构造自己的数据飞轮✿ღღ★ღ。

  魏凯✿ღღ★ღ:国内各行业✿ღღ★ღ,包括媒体在内✿ღღ★ღ,高度关注大语言模型✿ღღ★ღ、聊天机器人类型的AI应用发展✿ღღ★ღ,对谷歌DeepMind引领的AI路线关注度相对不高✿ღღ★ღ。

  DeepMind布局的强化学习路线✿ღღ★ღ,以及在蛋白质✿ღღ★ღ、材料✿ღღ★ღ、生物✿ღღ★ღ、数学等领域研发的垂直领域专业模型✿ღღ★ღ,对推动科学进展意义重大✿ღღ★ღ,如果能产业化✿ღღ★ღ,将会对实体经济产生重大影响✿ღღ★ღ。因此✿ღღ★ღ,AI大模型的赛道无限广阔✿ღღ★ღ,语言和多模态模型✿ღღ★ღ,只是一个分支✿ღღ★ღ,AI能用于创新和研发✿ღღ★ღ,可能会极大加速人类创新速度✿ღღ★ღ,需要引起高度关注✿ღღ★ღ。

  魏凯✿ღღ★ღ:外界绝对低估谷歌了✿ღღ★ღ。Transformer✿ღღ★ღ、MoE✿ღღ★ღ、蒸馏等技术都是谷歌创立的✿ღღ★ღ,而且✿ღღ★ღ,谷歌的大模型Gemini排名一直在前面✿ღღ★ღ,包括云✿ღღ★ღ、大数据等概念和核心技术也是谷歌最早提出来的✿ღღ★ღ。

  你看谷歌(DeepMind)的布局方向✿ღღ★ღ,那些才是真正的高价值场景✿ღღ★ღ,为什么大家说聊天机器人找不到场景✿ღღ★ღ,因为聊天就这么回事✿ღღ★ღ,但DeepMind的探索不一样✿ღღ★ღ,它可以优化工艺流程✿ღღ★ღ,发现新药✿ღღ★ღ、新材料✿ღღ★ღ,对实体经济的价值很大✿ღღ★ღ。

  国内也有一些公司在布局这些领域✿ღღ★ღ,但整体力量还比较薄弱✿ღღ★ღ,因为这方面难度很高✿ღღ★ღ。就像规模定律(Scaling Law)已经探明了✿ღღ★ღ,模型这条路可行✿ღღ★ღ,才有了今天的繁荣✿ღღ★ღ。今天✿ღღ★ღ,虽然DeepMind的创始人哈萨比斯获得了诺贝尔化学奖✿ღღ★ღ,激发了大家的兴趣✿ღღ★ღ,但这个领域的技术门槛很高✿ღღ★ღ,失败风险也很高✿ღღ★ღ,需要长期投入✿ღღ★ღ。

  《中国企业家》✿ღღ★ღ:哈佛大学的李飞飞博士提出了世界模型✿ღღ★ღ,说模型不能只靠在语言里面打转✿ღღ★ღ,要深入物理世界✿ღღ★ღ。

  魏凯✿ღღ★ღ:目前的大模型还不能很好地理解空间关系✿ღღ★ღ,也不能很好地掌握时间序列✿ღღ★ღ、因果关系✿ღღ★ღ、物理定律等✿ღღ★ღ。大语言模型掌握了语言序列的分布✿ღღ★ღ,通过语言来理解世界✿ღღ★ღ,是简介的✿ღღ★ღ、不可靠的✿ღღ★ღ。要让AI实现通用智能✿ღღ★ღ,还需要建立世界模型✿ღღ★ღ。

  魏凯✿ღღ★ღ:我认同山姆·阿尔特曼(OpenAI联合创始人)等人对AGI的观点✿ღღ★ღ,他们觉得这个词不太重要✿ღღ★ღ,我们只需要关心AI今天做得比昨天好✿ღღ★ღ,明天比今天好✿ღღ★ღ。比较容易定义目标尊龙凯时官网登录✿ღღ★ღ、容易采数据的任务✿ღღ★ღ,AI很快就能突破✿ღღ★ღ,干得比人好✿ღღ★ღ。比如自动驾驶藤本绫✿ღღ★ღ,就是很容易定义目标的任务✿ღღ★ღ,编程也是✿ღღ★ღ,这些领域会最早被突破✿ღღ★ღ。

  《中国企业家》✿ღღ★ღ:5月26日✿ღღ★ღ,红杉中国宣布推出全新的AI基准测试xbench✿ღღ★ღ,基准测试为什么很重要?

  魏凯✿ღღ★ღ:现在的人工智能都是基于神经网络去训练✿ღღ★ღ,但神经网络是个黑盒子✿ღღ★ღ,你不知道它学的效果怎么样✿ღღ★ღ,就跟学生一样✿ღღ★ღ,怎么看他学得好坏✿ღღ★ღ,那就需要考试✿ღღ★ღ,月考✿ღღ★ღ、周测✿ღღ★ღ、期中考试✿ღღ★ღ、高考等✿ღღ★ღ。

  现在的人工智能也是这样✿ღღ★ღ,神经网络训练叫涌现✿ღღ★ღ,或者叫生成✿ღღ★ღ,结果不确定✿ღღ★ღ,因为它本质是黑盒子✿ღღ★ღ,只有通过测试✿ღღ★ღ,才能知道它的能力有没有达到✿ღღ★ღ。测试基准(Benchmark)是衡量大模型水平高低的一把尺子✿ღღ★ღ。所以✿ღღ★ღ,每家大模型公司发布新模型的时候✿ღღ★ღ,都会引用一个测试结果✿ღღ★ღ,来说明它的产品性能✿ღღ★ღ;对内✿ღღ★ღ,公司的研发人员也得看评测结果✿ღღ★ღ,来决定是否结束训练✿ღღ★ღ,如果没达到目标✿ღღ★ღ,就需要继续训练✿ღღ★ღ。

  应用开发商也得测大模型✿ღღ★ღ,哪个好用✿ღღ★ღ,哪个不好用✿ღღ★ღ。整体来说✿ღღ★ღ,基准测试(Benchmark)是个指挥棒✿ღღ★ღ,牵引着技术往前走✿ღღ★ღ,所以✿ღღ★ღ,谁能定义Benchmark✿ღღ★ღ,谁就定义了方向✿ღღ★ღ,因为神经网络人工智能最强大的地方在于✿ღღ★ღ,只要你定目标✿ღღ★ღ,它就能学到✿ღღ★ღ,跟目标接近✿ღღ★ღ。

  《中国企业家》✿ღღ★ღ:中国信通院人工智能研究所做的“方升”大模型基准测试体系✿ღღ★ღ,它和其他的Benchmark有什么不同?

  魏凯✿ღღ★ღ:红杉中国推出xbench✿ღღ★ღ,实际上面向的是真实场景✿ღღ★ღ,比如AI在办公室能不能当文员✿ღღ★ღ,能不能当客服接线员✿ღღ★ღ,而不是早期的基准测试以学科考试题为主✿ღღ★ღ,比如高考题✿ღღ★ღ,或者研究生水平推理测试(GPQA)✿ღღ★ღ。那些学科考试类的评测✿ღღ★ღ,在学术上有价值✿ღღ★ღ,但并不能真正代表到真实用户场景中✿ღღ★ღ,AI具备完成任务的能力✿ღღ★ღ。

  我们的“方升”大模型基准测试✿ღღ★ღ,就是瞄准产业实战应用方向✿ღღ★ღ,目的是推动AI能干活✿ღღ★ღ,具备赋能实体经济的能力✿ღღ★ღ。

  魏凯✿ღღ★ღ:第一✿ღღ★ღ,我们的题目有学科考试类的题✿ღღ★ღ,增加了大量垂直行业的题目✿ღღ★ღ,比如它是不是能理解接线员的问题✿ღღ★ღ,我们就更偏重行业应用的问题藤本绫✿ღღ★ღ。

  第二✿ღღ★ღ,现在的大模型测试很容易被骗✿ღღ★ღ,很多Benchmark的数据集是开源的藤本绫✿ღღ★ღ,一些人会把它混到训练数据集里✿ღღ★ღ,大模型做过这些题✿ღღ★ღ,它当然能答对✿ღღ★ღ。现在✿ღღ★ღ,我们很多题不是开源的✿ღღ★ღ,是我们内部开发的✿ღღ★ღ。

  现在我们的数据库也比较大✿ღღ★ღ,有七八百万条数据✿ღღ★ღ,每次测试时✿ღღ★ღ,从中抽取大概1万或2万道题✿ღღ★ღ,测完以后✿ღღ★ღ,这些题就作废了✿ღღ★ღ。

  第三✿ღღ★ღ,测试的方法论标准化✿ღღ★ღ,我们把它都公开✿ღღ★ღ,写成蓝皮书✿ღღ★ღ,大家都来用✿ღღ★ღ,我们还引入了同行评审✿ღღ★ღ,大家都可以来挑刺✿ღღ★ღ。

  魏凯✿ღღ★ღ:大模型发展从2020年到现在✿ღღ★ღ,已经5年了✿ღღ★ღ。大家都在针对一个目标往前奔✿ღღ★ღ,在考试上追求高分数✿ღღ★ღ,为什么中国和美国大模型的差距会缩小?因为大家的目标一致✿ღღ★ღ,目标已经明确✿ღღ★ღ,路线也清楚了(Scaling)✿ღღ★ღ。

  现在的大模型侧重内容“生成”✿ღღ★ღ,给用户提供大量信息✿ღღ★ღ,这也会造成新的信息过载✿ღღ★ღ,但实际上并没有减轻人的工作量✿ღღ★ღ。下一阶段✿ღღ★ღ,精简输出信息✿ღღ★ღ,提升思考深度✿ღღ★ღ,增强使用能力是主要方向✿ღღ★ღ,意图理解✿ღღ★ღ、任务规划✿ღღ★ღ、深度研究✿ღღ★ღ、软件工程等能力就变得非常重要✿ღღ★ღ。

  通过标准和测试✿ღღ★ღ,引导推动大模型面向产业实际需求✿ღღ★ღ,解决高价值场景中的关键问题✿ღღ★ღ,提升人工智能赋能实体经济的效能✿ღღ★ღ,这就是我们“方升”大模型基准测试体系建设的方向✿ღღ★ღ。尊龙凯时人生就是博(中国)官网✿ღღ★ღ。AI解决方案✿ღღ★ღ,尊龙凯时人生就是搏官网✿ღღ★ღ!尊龙凯时app下载✿ღღ★ღ!尊龙凯时人生就是博·(中国)官网✿ღღ★ღ,尊龙凯时人生就是搏·(中国)官网✿ღღ★ღ,自动驾驶✿ღღ★ღ!尊龙凯时官网