开源资讯: 每一个新动态都是尊龙凯时人生就是博向前迈进的新脚步

尊龙凯时官网登录|藤本绫|对话中国信通院魏凯：AI下半场大模型要少说话多做事

2025-08-01

　　魏凯说✿ღღ★ღ：“2024年一年✿ღღ★ღ，国内包括DeepSeek在内的多个大模型团队✿ღღ★ღ，一直从多角度努力✿ღღ★ღ，不断提升模型性能✿ღღ★ღ，基本上每个月都能看到新的进展✿ღღ★ღ。在我们的测试中✿ღღ★ღ，DeepSeek在2024年4月的模型性能排名还比较靠后✿ღღ★ღ，8月的版本已经是TOP10里的玩家了✿ღღ★ღ，到了10月的版本已经是前几名了✿ღღ★ღ，12月发布的DeepSeek-V3成为当时基础能力第一名的模型✿ღღ★ღ，而且是开源的✿ღღ★ღ，非常了不起✿ღღ★ღ。”

　　中国信通院是工业和信息化部直属科研事业单位✿ღღ★ღ，在人工智能领域承担决策支撑✿ღღ★ღ、新技术研究✿ღღ★ღ、标准研制✿ღღ★ღ、检验检测✿ღღ★ღ、咨询服务和国际合作等任务✿ღღ★ღ。2023年✿ღღ★ღ，魏凯带领团队推出“方升”大模型基准测试体系✿ღღ★ღ，依托“人工智能关键技术与应用评测部重点实验室”✿ღღ★ღ，制定测试标准✿ღღ★ღ，建设测试平台和数据集✿ღღ★ღ，定期对国内外大模型进行测试✿ღღ★ღ，目前已经构建了近700万条测试数据集✿ღღ★ღ。

　　“方升”是战国时期的度量衡标准器✿ღღ★ღ，也是现存最早的度量衡标准器✿ღღ★ღ。魏凯说✿ღღ★ღ：“现在国内外大模型基准测试很多✿ღღ★ღ，但缺乏标准化的测试方法和体系✿ღღ★ღ，刷榜作弊也时有发生✿ღღ★ღ。我们推出‘方升’✿ღღ★ღ，就是希望能够推动大模型基准测试的标准化✿ღღ★ღ。”

　　6月底✿ღღ★ღ，《中国企业家》专访了魏凯✿ღღ★ღ，作为资深专家✿ღღ★ღ，他对大模型以及当前最火的Agent有独特的看法✿ღღ★ღ，以下是内容要点✿ღღ★ღ：

　　5.拥有海量C端用户对模型能力提升的贡献有限✿ღღ★ღ，超级APP只有很浅的数据✿ღღ★ღ，大量数据不在APP上✿ღღ★ღ，而在行业沉淀的知识中✿ღღ★ღ。

　　7.到了AI下半场✿ღღ★ღ，大模型要精简输出信息✿ღღ★ღ，甚至输出信息不是主要目的✿ღღ★ღ，主要是把活干好✿ღღ★ღ。少说话✿ღღ★ღ，多做事✿ღღ★ღ，是大模型从生成式（Generative）AI走向代理型（Agentic）AI的主要目标✿ღღ★ღ。

　　《中国企业家》✿ღღ★ღ：从中国信通院的测试看✿ღღ★ღ，国内哪些模型的表现更好一些？魏凯✿ღღ★ღ：根据我们过去一年的测试✿ღღ★ღ，通义千问✿ღღ★ღ、DeepSeek✿ღღ★ღ、豆包✿ღღ★ღ、混元✿ღღ★ღ、文心等模型表现一直比较好✿ღღ★ღ。我们也会测OpenAI✿ღღ★ღ、Anthropic✿ღღ★ღ、谷歌的模型✿ღღ★ღ，他们的表现也非常优异✿ღღ★ღ。最新测试看✿ღღ★ღ，基础模型TOP10中✿ღღ★ღ，中国的模型大概是6个左右✿ღღ★ღ，美国有4个✿ღღ★ღ。

　　但第一名经常变✿ღღ★ღ，去年12月DeepSeek是最好的大模型✿ღღ★ღ，春节之后✿ღღ★ღ，千问成了第一名✿ღღ★ღ，但没多久✿ღღ★ღ，OpenAI又上来了✿ღღ★ღ，紧接着✿ღღ★ღ，谷歌Gemini也追上来了✿ღღ★ღ。我们观察到一个现象✿ღღ★ღ，最近大家更新的频率越来越快✿ღღ★ღ，导致TOP1的模型在那个位置待的时间越来越短了✿ღღ★ღ。近半年来基础模型的更新频繁✿ღღ★ღ，性能上你追我赶✿ღღ★ღ，排名经常轮动✿ღღ★ღ，但历次榜单中总是这几个模型的新版处在榜单前列✿ღღ★ღ。

　　魏凯✿ღღ★ღ：现在可能不到3个月✿ღღ★ღ，现在十几天就会变化✿ღღ★ღ。去年5月✿ღღ★ღ，OpenAI的GPT-4o是最好的模型✿ღღ★ღ，它在第一名的位置上保持了200多天的纪录✿ღღ★ღ。但现在✿ღღ★ღ，排名十几天就会变一次✿ღღ★ღ，竞争特别激烈✿ღღ★ღ。

　　这也是为什么现在大模型玩家越来越少了✿ღღ★ღ，因为每次训练至少要几百万美元✿ღღ★ღ，保鲜期却很短✿ღღ★ღ，你训完以后✿ღღ★ღ，再过几天✿ღღ★ღ，又要接着训✿ღღ★ღ，所以✿ღღ★ღ，支撑基础大模型创新✿ღღ★ღ，必须要有雄厚的资源保障✿ღღ★ღ。

　　《中国企业家》✿ღღ★ღ：DeepSeek发布的R1-0528版本强调后训练✿ღღ★ღ，这是不是一种趋势？有一些明星模型公司不做预训练了✿ღღ★ღ，转向了后训练✿ღღ★ღ。

　　魏凯✿ღღ★ღ：不管是后训练还是预训练✿ღღ★ღ，它都是训练阶段✿ღღ★ღ。对下游应用企业来说✿ღღ★ღ，会越来越少的参与到训练环节✿ღღ★ღ，一些公司可能会做一些微调✿ღღ★ღ，但随着基座模型能力快速迭代✿ღღ★ღ，做微调的用户企业也变少了✿ღღ★ღ。对广大用户侧的企业来说✿ღღ★ღ，如何通过提示词工程✿ღღ★ღ、检索增强✿ღღ★ღ、工作流等工程化方法✿ღღ★ღ，把大模型能力充分激发出来✿ღღ★ღ，开发针对特定场景的智能体✿ღღ★ღ，变得越来越重要了✿ღღ★ღ。围绕这方面需求的创新创业机会✿ღღ★ღ，也会越来越多✿ღღ★ღ。

　　魏凯✿ღღ★ღ：你向大模型提的问题好坏决定了它回答的质量的高低✿ღღ★ღ，我们可能都会有这样的直观体验藤本绫✿ღღ★ღ，所以写提示词也是有技术含量的✿ღღ★ღ。在提示词之上✿ღღ★ღ，又加上了工作流✿ღღ★ღ，加上Agent✿ღღ★ღ，你看Manus和Cursor（AI编程智能体公司）✿ღღ★ღ，他们就不做基础模型✿ღღ★ღ，就是调用别人的✿ღღ★ღ。基于别人的大模型✿ღღ★ღ，开发出高水平的智能体✿ღღ★ღ，技术含量也会很高尊龙凯时官网登录✿ღღ★ღ，而这还并不需要重投入尊龙凯时官网登录✿ღღ★ღ。

　　魏凯✿ღღ★ღ：智谱的技术团队实力很强✿ღღ★ღ，他们还重组资源来坚持长期投入✿ღღ★ღ。基础模型的比拼✿ღღ★ღ，看技术团队的实力✿ღღ★ღ，也看耐久力✿ღღ★ღ，“粮食”储备够不够多是一个关键✿ღღ★ღ。

　　魏凯✿ღღ★ღ：投入海量数据和算力✿ღღ★ღ，开展大模型预训练✿ღღ★ღ，对于模型基础能力提升至关重要✿ღღ★ღ，预训练✿ღღ★ღ，是让大模型大量阅读和刷题✿ღღ★ღ，可以类比在学校中学习✿ღღ★ღ，而这些数据都是人类积累下来的✿ღღ★ღ，本质上还是向人类学习✿ღღ★ღ。但预训练不是提升模型能力的唯一路径✿ღღ★ღ，在后训练阶段利用强化学习✿ღღ★ღ，潜力也非常巨大✿ღღ★ღ。强化学习不太依赖人类提供的数据✿ღღ★ღ，而更强调从实战经验中学习✿ღღ★ღ，可以类比为在工作实践中学习✿ღღ★ღ。

　　目前✿ღღ★ღ，我们也要警惕一种高估大模型能力的倾向藤本绫✿ღღ★ღ，错误地认为大模型无所不能✿ღღ★ღ，这是不准确的✿ღღ★ღ。在产业化应用中✿ღღ★ღ，我们要通过详细的评测✿ღღ★ღ，了解大模型能力边界✿ღღ★ღ，将任务需求与模型能力准确匹配✿ღღ★ღ。让大模型干它不擅长的活✿ღღ★ღ，一定会出问题✿ღღ★ღ。

　　魏凯✿ღღ★ღ：大方向是减少幻觉✿ღღ★ღ，但目前的技术路线%保证没有幻觉✿ღღ★ღ。大模型生成内容✿ღღ★ღ，是靠神经网络参数来“回忆”✿ღღ★ღ，而不是一种精确查询✿ღღ★ღ。

　　魏凯✿ღღ★ღ：把确定性的东西都放在数据库里✿ღღ★ღ，让大模型检索✿ღღ★ღ，可以有效减少输出幻觉✿ღღ★ღ。就像律师或法官✿ღღ★ღ，在法庭打官司的时候✿ღღ★ღ，如果要引用法律条文✿ღღ★ღ，一定是查原文✿ღღ★ღ，这样才能确保完全准确✿ღღ★ღ。

　　到了一些严肃场景✿ღღ★ღ，还是得靠确定性的查询✿ღღ★ღ，所以一个真正的人工智能应用软件✿ღღ★ღ，它的组成部分有大模型✿ღღ★ღ，有数据库藤本绫✿ღღ★ღ、知识库以及各种被调用的工具✿ღღ★ღ，它并不只能单纯依靠模型本身来满足需求✿ღღ★ღ。

　　模型本身就像一个中枢神经系统✿ღღ★ღ，它能调度✿ღღ★ღ，但它难以做到100%准确回忆✿ღღ★ღ，也不会直接干活✿ღღ★ღ，要具备“干活”能力✿ღღ★ღ，还是得靠调用其他的工具✿ღღ★ღ，那就是Agent✿ღღ★ღ。

　　魏凯✿ღღ★ღ：Agent实际上是运行在大模型上面的软件✿ღღ★ღ，利用大模型意图理解和规划能力✿ღღ★ღ，调用专业工具✿ღღ★ღ，实现复杂的功能✿ღღ★ღ。其实早在两年前业内已经在提Agent了✿ღღ★ღ，2023年年中✿ღღ★ღ，信通院发布的人工智能十大关键词✿ღღ★ღ，就已经将Agent纳入其中✿ღღ★ღ。两年来✿ღღ★ღ，得益于基座模型水平的提升✿ღღ★ღ，Agent的智能水平也在不断进化✿ღღ★ღ。

　　过去的Agent还要靠人写提示词✿ღღ★ღ，做成工作流✿ღღ★ღ，告诉它第一步干什么✿ღღ★ღ，第二步干什么✿ღღ★ღ，第三步干什么✿ღღ★ღ。今天的Agent可以自己规划工作流✿ღღ★ღ，自己产生思维链✿ღღ★ღ，与两年前基于人为提示词和工作流的智能体相比✿ღღ★ღ，智能水平显著提升✿ღღ★ღ。人的工作一直在往后退✿ღღ★ღ，AI的自主性更强了✿ღღ★ღ。《中国企业家》✿ღღ★ღ：那未来在人机互动中尊龙凯时官网登录✿ღღ★ღ，提示词是不是不用那么精准了？

　　魏凯✿ღღ★ღ：我记得DeepSeek推理模型刚出来的时候✿ღღ★ღ，还专门有个教程说✿ღღ★ღ，不要让用户写提示词✿ღღ★ღ，否则影响模型的自主思考过程✿ღღ★ღ。现在并非不需要关注提示词了✿ღღ★ღ，提示词仍然非常重要✿ღღ★ღ。目前Agent已经内置精心设计的系统提示词✿ღღ★ღ，这部分提示词写得越好✿ღღ★ღ，模型能力就被激发得越充分✿ღღ★ღ，整体效果就越好✿ღღ★ღ。

　　魏凯✿ღღ★ღ：同样的模型✿ღღ★ღ，你给它好的提示词和不好的提示词✿ღღ★ღ，得到答案的水平差异很大✿ღღ★ღ，这就是Agent层或者应用层公司的价值✿ღღ★ღ。

　　魏凯✿ღღ★ღ：从技术上讲✿ღღ★ღ，大模型是一个操作系统✿ღღ★ღ，Agent就是一个应用程序✿ღღ★ღ。从功能上说✿ღღ★ღ，Agent非常像数字员工✿ღღ★ღ。未来✿ღღ★ღ，会慢慢进化出各种岗位特定的Agent✿ღღ★ღ，每个人可能会拥有很多Agent✿ღღ★ღ，有的是生活助手✿ღღ★ღ，有的是工作助手尊龙凯时官网登录✿ღღ★ღ。

　　魏凯✿ღღ★ღ：未来是可能的✿ღღ★ღ，Agent会成为数字员工✿ღღ★ღ，人和数字员工合作✿ღღ★ღ，能力会越来越强✿ღღ★ღ。所以未来善用AI的人✿ღღ★ღ，可以拥有几乎无限个数字员工✿ღღ★ღ，从而成为一个超级个体✿ღღ★ღ，一个人可以指挥“千军万马”✿ღღ★ღ，这个意义上✿ღღ★ღ，一人公司不是梦✿ღღ★ღ。

　　魏凯✿ღღ★ღ：哪家公司也没有明显的优势✿ღღ★ღ，现在都处于胶着状态✿ღღ★ღ，所有人都想抢藤本绫✿ღღ★ღ，手机操作系统厂商✿ღღ★ღ、一些智能硬件公司✿ღღ★ღ，还有超级APP厂商✿ღღ★ღ，包括新兴创业公司都想抢夺用户的入口✿ღღ★ღ。

　　魏凯✿ღღ★ღ：还早✿ღღ★ღ，Agent可能不是一个产品✿ღღ★ღ，用户自己都可以开发一个✿ღღ★ღ，但功能很单一✿ღღ★ღ。未来✿ღღ★ღ，Agent会很有市场✿ღღ★ღ，企业里会有很多覆盖多种功能的Agent✿ღღ★ღ。所以Agent可能不是一个产品✿ღღ★ღ，而是好多功能的集合✿ღღ★ღ，但Agent开发平台可能是少数✿ღღ★ღ。

　　魏凯✿ღღ★ღ：可能是个位数的基座模型✿ღღ★ღ，然后再加上若干个垂直行业的应用平台✿ღღ★ღ，或者是很成熟的Agent✿ღღ★ღ，形成数字劳动力市场✿ღღ★ღ。

　　《中国企业家》✿ღღ★ღ：明星模型公司有超级APP✿ღღ★ღ，比如月之暗面的Kimi✿ღღ★ღ，它有海量用户✿ღღ★ღ，这能不能让模型能力变得更好？

　　魏凯✿ღღ★ღ：这是两回事儿✿ღღ★ღ，不一定✿ღღ★ღ，超级APP只会沉淀很浅层的数据✿ღღ★ღ，大量用户数据不会在APP上✿ღღ★ღ，因此✿ღღ★ღ，聊天机器人类型的超级APP尊龙凯时官网登录✿ღღ★ღ，如果不附加其他深度应用功能✿ღღ★ღ，就很难构造自己的数据飞轮✿ღღ★ღ。

　　魏凯✿ღღ★ღ：国内各行业✿ღღ★ღ，包括媒体在内✿ღღ★ღ，高度关注大语言模型✿ღღ★ღ、聊天机器人类型的AI应用发展✿ღღ★ღ，对谷歌DeepMind引领的AI路线关注度相对不高✿ღღ★ღ。

　　DeepMind布局的强化学习路线✿ღღ★ღ，以及在蛋白质✿ღღ★ღ、材料✿ღღ★ღ、生物✿ღღ★ღ、数学等领域研发的垂直领域专业模型✿ღღ★ღ，对推动科学进展意义重大✿ღღ★ღ，如果能产业化✿ღღ★ღ，将会对实体经济产生重大影响✿ღღ★ღ。因此✿ღღ★ღ，AI大模型的赛道无限广阔✿ღღ★ღ，语言和多模态模型✿ღღ★ღ，只是一个分支✿ღღ★ღ，AI能用于创新和研发✿ღღ★ღ，可能会极大加速人类创新速度✿ღღ★ღ，需要引起高度关注✿ღღ★ღ。

　　魏凯✿ღღ★ღ：外界绝对低估谷歌了✿ღღ★ღ。Transformer✿ღღ★ღ、MoE✿ღღ★ღ、蒸馏等技术都是谷歌创立的✿ღღ★ღ，而且✿ღღ★ღ，谷歌的大模型Gemini排名一直在前面✿ღღ★ღ，包括云✿ღღ★ღ、大数据等概念和核心技术也是谷歌最早提出来的✿ღღ★ღ。

　　你看谷歌（DeepMind）的布局方向✿ღღ★ღ，那些才是真正的高价值场景✿ღღ★ღ，为什么大家说聊天机器人找不到场景✿ღღ★ღ，因为聊天就这么回事✿ღღ★ღ，但DeepMind的探索不一样✿ღღ★ღ，它可以优化工艺流程✿ღღ★ღ，发现新药✿ღღ★ღ、新材料✿ღღ★ღ，对实体经济的价值很大✿ღღ★ღ。

　　国内也有一些公司在布局这些领域✿ღღ★ღ，但整体力量还比较薄弱✿ღღ★ღ，因为这方面难度很高✿ღღ★ღ。就像规模定律（Scaling Law）已经探明了✿ღღ★ღ，模型这条路可行✿ღღ★ღ，才有了今天的繁荣✿ღღ★ღ。今天✿ღღ★ღ，虽然DeepMind的创始人哈萨比斯获得了诺贝尔化学奖✿ღღ★ღ，激发了大家的兴趣✿ღღ★ღ，但这个领域的技术门槛很高✿ღღ★ღ，失败风险也很高✿ღღ★ღ，需要长期投入✿ღღ★ღ。

　　《中国企业家》✿ღღ★ღ：哈佛大学的李飞飞博士提出了世界模型✿ღღ★ღ，说模型不能只靠在语言里面打转✿ღღ★ღ，要深入物理世界✿ღღ★ღ。

　　魏凯✿ღღ★ღ：目前的大模型还不能很好地理解空间关系✿ღღ★ღ，也不能很好地掌握时间序列✿ღღ★ღ、因果关系✿ღღ★ღ、物理定律等✿ღღ★ღ。大语言模型掌握了语言序列的分布✿ღღ★ღ，通过语言来理解世界✿ღღ★ღ，是简介的✿ღღ★ღ、不可靠的✿ღღ★ღ。要让AI实现通用智能✿ღღ★ღ，还需要建立世界模型✿ღღ★ღ。

　　魏凯✿ღღ★ღ：我认同山姆·阿尔特曼（OpenAI联合创始人）等人对AGI的观点✿ღღ★ღ，他们觉得这个词不太重要✿ღღ★ღ，我们只需要关心AI今天做得比昨天好✿ღღ★ღ，明天比今天好✿ღღ★ღ。比较容易定义目标尊龙凯时官网登录✿ღღ★ღ、容易采数据的任务✿ღღ★ღ，AI很快就能突破✿ღღ★ღ，干得比人好✿ღღ★ღ。比如自动驾驶藤本绫✿ღღ★ღ，就是很容易定义目标的任务✿ღღ★ღ，编程也是✿ღღ★ღ，这些领域会最早被突破✿ღღ★ღ。

　　《中国企业家》✿ღღ★ღ：5月26日✿ღღ★ღ，红杉中国宣布推出全新的AI基准测试xbench✿ღღ★ღ，基准测试为什么很重要？

　　魏凯✿ღღ★ღ：现在的人工智能都是基于神经网络去训练✿ღღ★ღ，但神经网络是个黑盒子✿ღღ★ღ，你不知道它学的效果怎么样✿ღღ★ღ，就跟学生一样✿ღღ★ღ，怎么看他学得好坏✿ღღ★ღ，那就需要考试✿ღღ★ღ，月考✿ღღ★ღ、周测✿ღღ★ღ、期中考试✿ღღ★ღ、高考等✿ღღ★ღ。

　　现在的人工智能也是这样✿ღღ★ღ，神经网络训练叫涌现✿ღღ★ღ，或者叫生成✿ღღ★ღ，结果不确定✿ღღ★ღ，因为它本质是黑盒子✿ღღ★ღ，只有通过测试✿ღღ★ღ，才能知道它的能力有没有达到✿ღღ★ღ。测试基准（Benchmark）是衡量大模型水平高低的一把尺子✿ღღ★ღ。所以✿ღღ★ღ，每家大模型公司发布新模型的时候✿ღღ★ღ，都会引用一个测试结果✿ღღ★ღ，来说明它的产品性能✿ღღ★ღ；对内✿ღღ★ღ，公司的研发人员也得看评测结果✿ღღ★ღ，来决定是否结束训练✿ღღ★ღ，如果没达到目标✿ღღ★ღ，就需要继续训练✿ღღ★ღ。

　　应用开发商也得测大模型✿ღღ★ღ，哪个好用✿ღღ★ღ，哪个不好用✿ღღ★ღ。整体来说✿ღღ★ღ，基准测试（Benchmark）是个指挥棒✿ღღ★ღ，牵引着技术往前走✿ღღ★ღ，所以✿ღღ★ღ，谁能定义Benchmark✿ღღ★ღ，谁就定义了方向✿ღღ★ღ，因为神经网络人工智能最强大的地方在于✿ღღ★ღ，只要你定目标✿ღღ★ღ，它就能学到✿ღღ★ღ，跟目标接近✿ღღ★ღ。

　　《中国企业家》✿ღღ★ღ：中国信通院人工智能研究所做的“方升”大模型基准测试体系✿ღღ★ღ，它和其他的Benchmark有什么不同？

　　魏凯✿ღღ★ღ：红杉中国推出xbench✿ღღ★ღ，实际上面向的是真实场景✿ღღ★ღ，比如AI在办公室能不能当文员✿ღღ★ღ，能不能当客服接线员✿ღღ★ღ，而不是早期的基准测试以学科考试题为主✿ღღ★ღ，比如高考题✿ღღ★ღ，或者研究生水平推理测试（GPQA）✿ღღ★ღ。那些学科考试类的评测✿ღღ★ღ，在学术上有价值✿ღღ★ღ，但并不能真正代表到真实用户场景中✿ღღ★ღ，AI具备完成任务的能力✿ღღ★ღ。

　　我们的“方升”大模型基准测试✿ღღ★ღ，就是瞄准产业实战应用方向✿ღღ★ღ，目的是推动AI能干活✿ღღ★ღ，具备赋能实体经济的能力✿ღღ★ღ。

　　魏凯✿ღღ★ღ：第一✿ღღ★ღ，我们的题目有学科考试类的题✿ღღ★ღ，增加了大量垂直行业的题目✿ღღ★ღ，比如它是不是能理解接线员的问题✿ღღ★ღ，我们就更偏重行业应用的问题藤本绫✿ღღ★ღ。

　　第二✿ღღ★ღ，现在的大模型测试很容易被骗✿ღღ★ღ，很多Benchmark的数据集是开源的藤本绫✿ღღ★ღ，一些人会把它混到训练数据集里✿ღღ★ღ，大模型做过这些题✿ღღ★ღ，它当然能答对✿ღღ★ღ。现在✿ღღ★ღ，我们很多题不是开源的✿ღღ★ღ，是我们内部开发的✿ღღ★ღ。

　　现在我们的数据库也比较大✿ღღ★ღ，有七八百万条数据✿ღღ★ღ，每次测试时✿ღღ★ღ，从中抽取大概1万或2万道题✿ღღ★ღ，测完以后✿ღღ★ღ，这些题就作废了✿ღღ★ღ。

　　第三✿ღღ★ღ，测试的方法论标准化✿ღღ★ღ，我们把它都公开✿ღღ★ღ，写成蓝皮书✿ღღ★ღ，大家都来用✿ღღ★ღ，我们还引入了同行评审✿ღღ★ღ，大家都可以来挑刺✿ღღ★ღ。

　　魏凯✿ღღ★ღ：大模型发展从2020年到现在✿ღღ★ღ，已经5年了✿ღღ★ღ。大家都在针对一个目标往前奔✿ღღ★ღ，在考试上追求高分数✿ღღ★ღ，为什么中国和美国大模型的差距会缩小？因为大家的目标一致✿ღღ★ღ，目标已经明确✿ღღ★ღ，路线也清楚了（Scaling）✿ღღ★ღ。

　　现在的大模型侧重内容“生成”✿ღღ★ღ，给用户提供大量信息✿ღღ★ღ，这也会造成新的信息过载✿ღღ★ღ，但实际上并没有减轻人的工作量✿ღღ★ღ。下一阶段✿ღღ★ღ，精简输出信息✿ღღ★ღ，提升思考深度✿ღღ★ღ，增强使用能力是主要方向✿ღღ★ღ，意图理解✿ღღ★ღ、任务规划✿ღღ★ღ、深度研究✿ღღ★ღ、软件工程等能力就变得非常重要✿ღღ★ღ。

　　通过标准和测试✿ღღ★ღ，引导推动大模型面向产业实际需求✿ღღ★ღ，解决高价值场景中的关键问题✿ღღ★ღ，提升人工智能赋能实体经济的效能✿ღღ★ღ，这就是我们“方升”大模型基准测试体系建设的方向✿ღღ★ღ。尊龙凯时人生就是博(中国)官网✿ღღ★ღ。AI解决方案✿ღღ★ღ，尊龙凯时人生就是搏官网✿ღღ★ღ！尊龙凯时app下载✿ღღ★ღ！尊龙凯时人生就是博·(中国)官网✿ღღ★ღ，尊龙凯时人生就是搏·(中国)官网✿ღღ★ღ，自动驾驶✿ღღ★ღ！尊龙凯时官网