当前位置：网站首页 >> 独立游戏 > >> 正文

实测学而思MathGPT大模型：中小学数学解题正确率有望全球新SOTA

时间：2023-08-30 17:08:11 来源：量子位

国内首个数学大模型 MathGPT 开放内测了，不上手试试怎么行？

【资料图】

第一印象上，最明显的就是：啪的一下，很快啊~

题目识别到对话框，结果不光答案准确，还就给出了具体的公式步骤、详细解析。

并且支持公式输入和修改。

这着实是数理爱好者福音了！要知道市面上GPT-4在内的通用大模型，都无法实现这一点。

作为千亿参数级别首个数学专用大模型，放在全球范围内也是少数，背后则是来自国内教育行业20年深耕的学而思。

另外内测据说还只是开始，因为之前就已经透露，将于年内推出基于该自研大模型的产品级应用。

所以这款垂直数学大模型究竟怎么样，完整上手“体验报告”呈上。

上手实测：支持公式图像输入
首先，从大模型基础功能来看，与GPT-4、Claude2相比，MathGPT主要有这些能与不能。
由于是数学专用大模型，因此对话内容目前只能回答与数学相关的问题。
界面上从现有的示例上看，它目前覆盖小学、中学以及高中的题目。
不仅有内容的划分，比如集合、立体几何、解析几何、导数、三角函数、统计学等模块；
还有题型的选择，比如应用题、高考填空压轴、解答压轴；
以及一些开拓思维的题目，比如小学题目中的推理推导、归纳总结、创新思维；初中的反正法、代入法等。
对于数学爱好者而言，可以说是非常全面了。
在输入端，除了普通文本外，它支持公式格式以及图像（带有数字和文字）的输入。
除此之外，面对数学题目的追问，它也支持多轮对话的能力。
了解基本情况后，接着就来考验一下MathGPT的真实实力。
根据此前官方介绍，MathGPT是以解题和讲题算法为核心的大模型，具体拆分为三个问题：
题目要解对；解题步骤要稳定、清晰；解题要讲的有趣、个性化。
依照这样的逻辑，先来看看它的基本解题思路。
以初中示例题为例，分为分析、详解、点睛三个步骤，不光给出详细的步骤，还会给你说知识点和题目难度，这归属于基本不等式的应用，难度为中档。
甚至还可以举一反三，比如就像这道整体代换的题目。
随手修改其中一两个数字，结果不光给出来了，还有更为详细的解析。
那么再上点难度，直接考验它高中题目，比如这道选择压轴。
结果也是分分钟出来。
还有像涉及几何类型的题目，也没有被难倒。
，时长 00:30
所以，一圈体验下来，简单总结一下MathGPT的评测感受：
基础功能上支持公式格式、图像输入，对数学爱好者很友好；支持小初高中的各类型题，覆盖比较全面。还能举一反三，多轮对话。
除此之外，还有一些不足，比如图像输入暂时不支持几何类型的题目，以及有时会出现一些乱码问题，比如答案对了，但中文输入，结果英文输出……

首个数学大模型，为什么是学而思？
大模型涌现以来，数学推理能力始终是产学研界共同攻坚的对象。
通用思路都是基于现有的通用LLM进行调优，最典型的就是OpenAI自己提出过程监督方法。
传统奖励模型采用的是结果监督，仅针对思维链的结果进行判别和反馈；相对的，过程监督就是对思维链每一步进行反馈。因此奖励增多、效果变好。
更多的还有像指令微调、prompt优化等思路。微软全华人团队提出WizardMath，用AI生成的指令微调羊驼大模型，结果直接超ChatGPT。
以及前段时间，有研究团队发现GPT-4代码解释器的代码生成和执行机制，于是就有特定的代码约束提示词直接将数学能力拔高至SOTA。
而像专门针对数学推理方向的自研大模型确实不多。目前来看，国内有且只有一个。
这样做的核心原因只有一个，加速大模型在数学领域的落地。
于行业玩家而言，若是依照通用开源LLM进行调优，一来目前还处于积极探索的阶段，没有形成一个很好的范式；二来，幻觉问题没有解决，稳定性依旧无法保证。
而数学推理不光要求结果的准确，还得强调过程的清晰和逻辑性。
当然同样的原因，也不能简单直接调用像GPT-4的API，性能等各方面始终会受限。
不过此前我们也讨论过，打造行业大模型天然就有这非常高的壁垒，数据量大还得高质量，关键还要有场景，知道行业Know-how。
既然如此，学而思又是如何做到？
核心还是：术业专攻、对症下药。
一方面，最首要也是本质的原因—— 术业专攻 ——多年在数学和AI领域的深入研发和布局。
学而思“以数学起家”，至今已有20年的数学教学经验，积累了庞大的数学相关数据，这些独家数据是进行MathGPT训练的必备物料。
而在AI领域，学而思早在第一波AI浪潮兴起之时（2017年）就已经开始布局—— 成立AI lab人工智能实验室。如今还是教育领域首批唯一一家人工智能“国家队”成员。
在学术方面，学而思实际也有高频产出。公开资料显示，基于智慧教育人工智能开放创新平台助力，学而思AI lab获得各类顶级学术会议比赛冠军16项，亚军6项；发表国际期刊和会议高水平学术论文31篇，包含光学字符识别、图像、自然语言处理、语音以及多模态等多领域的学术研究。
而在产品应用端，今年2月学而思学习机上线AI讲题机器人“小π”。其相关技术于2020年启动研发，背后是超3亿专业题库数据，经过三年的数据训练和迭代。
在实测中可以看到，在配套的AR镜识别到一道手写或者印刷的数学计算题时。
小π机器人会对题目进行智能AI拆解分析，同时生成逻辑流畅、表达清晰的语言，将题目的解题方法讲解出来。
该功能已覆盖的题目包括分数、小数等复杂计算，甚至一些“凑数、组合”的巧妙算法，已十分接近真人老师的解题效果。
正是基于这样的行业Know-how，MathGPT自诞生之日起就定义明确「面向更广泛的数学爱好者和科研机构打造」，并对症下药 ——
因为想要打造数学垂直大模型，就绕不过三大挑战：
第一，题目要解对。现在连GPT的结果经常出现错误；第二，解题步骤要稳定、清晰。现在GPT的解题步骤每次都不一样，而且生成内容经常很冗余；第三，解题要讲的有趣、个性化。现在GPT的解释过于“学术”和机械，对体验很不友好。
基于这样的目标，MathGPT结合大模型和计算引擎两者能力。
前者负责理解题目、分步解析，并在合适的步骤自行调用计算引擎，以此来提高正确率。基于海量名师解题过程的数据进行模型训练，模型的解题步骤可以更加清晰。再引入优秀老师的教学理念和方法，模型在解题趣味性上也能进一步提高。
可以看到的是，学而思展现了场景玩家入局大模型的优势——
可以后发制人，谋定而后动，而且壁垒天然。

Wolfram alpha之后，数学大模型
随着业内首个数学大模型的发布，有关大模型在数学领域的落地可以阶段性梳理，大致可以分为两个方向。
一方面，科研为核心的前沿探索。陶哲轩不止一次地透露大模型如何加入其工作流、辅助研究。
他让GPT-4针对论文提出问题来准备讲座；还让GPT-4生成数学证明，并发现过去阅读人类作品的经验完全不适用了。
对于AI在数学研究中的表现，他给出预言：
事实上，在更多的科研领域，大模型也正在赋予这样的价值。学界教授也不止一次提出，大模型的幻觉不见得是坏事，可以给研究方向提供新思路。
另一方面，则是面向更广泛大众的普惠教育、基础教育提升。让大模型参与到学习数学、思考数学的过程当中去，帮助人们更好地解决数学问题。学而思MathGPT就是基于这样的初衷。
事实上，数学本身在各个领域中充当着一种基础能力，未来数学大模型也将能够以工具的形态，与更多行业产生关联。
在此之前，理工科神器 Wolfram alpha ，就是以这样的作用垂直风靡。
它颠覆了传统模式，创造了一种全新的知识搜索引擎。由于支持几何、数值以及符号式计算，并拥有强大的可视化功能，支持用户对上传的图片进行识别等一系列功能而受到推崇。目前已经支持包括数学、统计学、物理化学、材料学等近20个领域的查询、计算和分析。
而现在，随着大模型范式到来，Wolfram alpha一样的理工基础教育、科研的工具，也将面临革新浪潮。
至少MathGPT已经展现了这样的趋势，MathGPT正在实践这样的趋势。
而MathGPT，一定只是开始。你说呢？
— 完 —
量子位 QbitAI · 头条号签
关注我们，第一时间获知前沿科技动态约

关键词：

上一篇: 蓝戟英特尔锐炫无畏契约亚运特别版A750 PHOTON，融合创新与工艺 下一篇: 最后一页

精彩推荐

x 广告

独立游戏

实测学而思MathGPT大模型：中小学数学解题正确率有望全球新SOTA

蓝戟英特尔锐炫无畏契约亚运特别版A750 PHOTON，融合创新与工艺

中国驻美大使谢锋：就矛盾分歧多做“减法”，为对话合作多做“加法”

角色扮演

11

受广东地区强降雨影响广铁部分列车将停运

11

北京顺义调整封管控区域范围地铁15号线国展站等五车站临时封闭

11

特大暴雨来袭广州海事部门全力保障水上交通安全

11

西宁成功入选清洁取暖试点城市

11

北京房山除生活保障外全部居家办公继续三轮区域核酸检测

动作游戏

x 广告

Copyright 2015-2022 大众游戏网版权所有备案号：豫ICP备20014643号-14 联系邮箱： 905 14 41 07@qq.com