自适应自学平台与 AI Tutor 深度调研综合报告

原始调研报告 · 2026-06-15-adaptive-ai-self-learning-platforms-synthesis.md

↩ 这是原始调研报告。返回综述首页

自适应自学平台与 AI Tutor 深度调研综合报告

0. 本次调研要回答什么

本项目要做的不是一个“课程库 + AI 答疑”,而是面向中国初高中自学孩子的 AI 原生自学平台。用户关心的核心问题不是“AI 能不能讲题”,而是:

  1. 自适应学习平台过去为什么经常效果不稳定,甚至商业失败?
  2. Khan Academy / Khanmigo 到底发生了什么,是否真的“关闭”?
  3. AI 出来之后,大家在做哪些 AI 自学平台 / AI Tutor 尝试?
  4. 学生为什么不会主动学,或者看起来学了但没有真的学会?
  5. 最新论文对自适应学习、智能辅导系统、LLM Tutor 的挑战和成功条件怎么说?
  6. 对“AI 版可汗学院”的 PRD、产品边界和验证指标有什么直接影响?

本报告综合四组并行调研结果,并复用项目已有报告:

1. 总判断

1.1 不是“内容不够”,而是“学习行为不发生”

Khan Academy、ASSISTments、MATHia、ALEKS、Squirrel AI 等案例反复说明:有内容、有题库、有诊断、有反馈,都不等于学生会持续学习。真正决定效果的,是一个完整闭环:

明确目标 -> 启动学习 -> 做出尝试 -> 获得即时反馈 -> 修正错误 -> 独立复做 -> 延迟复测 -> 被家长/教师/系统温和问责

如果缺少这个闭环,平台就会变成“免费资源仓库”:有价值,但弱基础学生不会自动用起来。

1.2 Khanmigo 没有关闭,但“独立 AI 超级导师”的叙事受挫

需要修正一个关键事实:Khanmigo 截至 2026-06 并没有关闭。官方站点仍在运行,教师版免费,家长/学习者访问仍主要通过家长或学校/学区。Khan Academy 2026-04 官方复盘显示,更准确的说法是:Khanmigo 正从“独立聊天式 AI 导师”转向更深嵌入 Khan Academy 练习和任务流的体验。

这比“关闭”更有启发:问题不是 AI 不能对话,而是学生很少主动问出高质量问题。Khan Academy 披露 Khanmigo 自 2023 上线以来有大量交互,但只有约 15% 有访问权限的学生会使用。Sal Khan 在 2026 访谈里也承认,大家期待的“AI 教育革命”并没有按早期叙事直接发生。

来源:

1.3 LLM Tutor 有潜力,但必须被教学结构约束

最新论文的方向比较一致:

来源:

1.4 对本项目最重要的一句话

AI 版可汗学院的核心不是“让 AI 更会讲”,而是“让孩子稳定做出正确的学习行为,并证明他脱离 AI 后仍然会”。

2. 经典平台案例:成功与失败

平台 结果判断 关键证据 / 问题 对本项目的启示
Khan Academy 平台效果证据较强,但推荐使用量难达成 2026 PNAS/PubMed 研究显示使用时间与学习增益相关;Khan 2024 报告提示达到推荐使用量的学生比例低 免费内容不够,必须设计使用剂量、回访、家长/教师推动
Khanmigo 未关闭,但早期“AI 导师”效果混合、使用率有限 官方 2026 复盘说早期结果 mixed,约 15% 有访问权限学生使用 AI 不能等学生主动问,要嵌入练习任务流
Knewton 商业失败典型 先卖“通用自适应大脑/API”,后转 courseware 太晚,2019 被 Wiley 收购资产 不要从通用平台做起,先做一个学科闭环
ASSISTments 证据最干净的成功案例之一 7 年级数学 RCT 支持“在线作业 + 即时反馈 + 教师报告”提高成绩 即时反馈和可行动报告比炫酷个性化更重要
MATHia / Cognitive Tutor 长期 ITS 代表,效果有证据但依赖实施 步骤级反馈、知识组件追踪、掌握路径 初中代数必须做步骤级判定和知识点追踪
ALEKS 诊断和知识空间理论成熟,证据相对分散 效果依赖课程整合和使用量 可借鉴诊断与掌握图谱,但不能只做自适应题库
DreamBox 低龄数学自适应平台,ESSA/WWC 有正向证据 效果量不大但方向稳定,游戏化服务概念理解 游戏化必须服务数学概念,不只服务活跃
Squirrel AI 中国自适应学习代表,有论文支持但独立复现有限 高粒度知识点诊断、个性路径;商业受政策/教培环境影响 中国初中数学图谱值得借鉴,但要透明评估、避开教培化叙事
Duolingo 留存和游戏化极强,深度掌握需区分 语言学习适配短任务、连胜、角色练习 可借鉴 streak 和短任务,但数学必须加掌握闸门

来源:

3. AI 时代的新尝试:产品地图

3.1 聊天导师

代表:Khanmigo、OpenAI ChatGPT Study Mode、Google Guided Learning、Quizlet Q-Chat。

优点:覆盖面广,能解释、追问、生成练习,部署快。

局限:如果没有题目状态、知识图谱、掌握判定和护栏,聊天导师很容易变成答案机。学生不一定知道怎么问,也不一定愿意问。

来源:

3.2 生成式交互 / 仿真

代表:Synthesis Tutor、Google Generative UI、PhET。

这是最接近本项目差异化的方向:把学生的错误变成可操作的数轴、函数图像、拖拽模拟、变量滑块,而不是再讲一段文字。

风险是正确性。数学、科学交互不能让 LLM 即兴发挥,必须有结构化参数、标准答案、边界条件、符号计算或规则校验。

来源:

3.3 自适应路径 / 智能题目推荐

代表:Squirrel AI、MATHia、ALEKS、ASSISTments。

这是学习效果证据更扎实的底座。它们不一定“生成式”,但有知识组件、诊断、题目状态、掌握概率、即时反馈。

对本项目来说,LLM 不应该替代这层底座。LLM 更适合做:

判分、掌握、解锁和数学正确性不能交给裸 LLM。

3.4 教师工具 / 内容生产力

代表:MagicSchool、Brisk、Coursera/Pearson AI tools。

这些产品对教师提效有价值,但它们不是学生自学平台。它们能启发本项目的“教师共创后台”:老师审核知识点、误区库、提示模板、交互模板,而不是把教师工具当作学生端 MVP。

来源:

3.5 语言/阅读 AI 练习

代表:Duolingo Max、Microsoft Reading Coach。

语言和阅读天然适合角色扮演、语音反馈、低风险重复练习。数学可以借鉴它们的短任务和即时反馈,但不能照搬角色扮演做法。数学的关键是可校验任务和迁移。

来源:

4. 学生为什么不会去学

4.1 缺少外部结构

弱基础学生往往不是不知道“学习重要”,而是不知道今天具体学什么、学多久、卡住怎么办、学完怎么判断有效。在线学习研究反复指出,自我调节能力、家庭支持、教师存在感和学习节奏会显著影响参与。

产品含义:

来源:

4.2 学习收益不可见

很多平台的反馈是“完成了多少题、拿了多少分”,但学生和家长关心的是“我是不是变强了”。如果短期看不到进步,学生会回到更即时满足的娱乐产品。

产品含义:

4.3 卡住后没有人接住

弱基础学生一旦连续失败,很容易把失败解释为“我不适合学这个”。AI 如果只继续追问,会增加挫败;如果直接给答案,又会损害学习。

产品含义:

4.4 缺少社会存在感

纯单机自学容易孤独。Community of Inquiry 相关研究显示,teaching presence、social presence、cognitive presence 与学习和满意度相关。

产品含义:

来源:

5. 平台为什么会“看起来学了但没学会”

5.1 练习正确率不等于真实掌握

Bastani 等研究最重要的警告是:AI 可以让学生练习表现变好,但撤掉 AI 后表现变差。这说明平台如果只看当场正确率,会把 AI 帮出来的表现误认为学生能力。

产品含义:

5.2 AI 解释会制造流畅感错觉

AI 讲得流畅,学生容易以为自己懂了。但真正的学习需要提取、生成、解释、迁移,而不是只听懂。

产品含义:

5.3 个性化兴趣包装可能稀释数学结构

AI 很容易把题目包装成 Minecraft、篮球、二次元,但连接可能是牵强的。EdWeek 对数学个性化学习的报道中也提到,AI 擅长识别兴趣,但不一定能做出有意义的学科连接。

产品含义:

来源:

6. 最新论文总结出的核心挑战

挑战 说明 本项目设计约束
冷启动和数据稀疏 新学生、新知识点、新题型时,知识追踪模型信心不足 v1 用短诊断 + 保守路径,模型信心低时多测少跳
可解释性 深度 KT 预测可能强,但难向学生/家长解释 v1 优先规则 + BKT + 无提示后测,家长端展示可理解证据
教师/家长整合 很多 ITS 有效是因为嵌入作业和课堂,不是纯自学 v1 做家长仪表盘,未来保留教师端接口
使用剂量 低频使用很难产生学习效果 设计每周目标、提醒、周报、短任务
认知负荷 解释太长、交互太复杂、追问太多都会压垮弱基础学生 每次反馈只处理一个错误;交互要短而聚焦
幻觉和错误反馈 LLM 会自信生成错误数学内容 代数题必须接 CAS/规则引擎;LLM 不做最终判分
公平与隐私 未成年人数据敏感,低资源学生设备条件不稳定 移动端优先、弱网可用、最小化采集、家长知情
指标错配 活跃、做题量、当场正确率容易掩盖真实学习 双主指标:留存 + 独立掌握 / 延迟保持 / 迁移

来源:

7. 成功案例的共同结构

7.1 不是“更聪明的解释”,而是“更短的反馈循环”

ASSISTments、MATHia、DreamBox、Squirrel AI 的共同点不是都有生成式 AI,而是都把学习拆成小步,并在每一步给反馈。

本项目应把初中代数拆成知识原子和步骤原子:

7.2 有外部结构

ASSISTments 本质是“作业 + 即时反馈 + 教师报告”。Khan Academy 的效果也依赖足量使用。印度 Uttar Pradesh 的 Khan Academy RCT 显示,配专职 lab-in-charge 这类实施结构后,使用时间和数学成绩明显提升。

产品含义:

来源:

7.3 真实掌握要被反复验证

成功平台往往不是只给一次题,而是持续跟踪掌握状态。AI 时代更要警惕“AI 帮会了”。本项目的掌握判定应至少包含:

  1. 当场独立正确。
  2. 使用提示后,能无提示复做。
  3. 1/3/7 天后能保持。
  4. 遇到变式题能迁移。
  5. 能用自己的话解释。

8. 对现有 PRD 的影响

现有 PRD 中 FR-1 ~ FR-10 的方向基本正确,但本次调研强化了几个优先级。

8.1 应提高优先级

  1. 题目状态机:每题记录 attempt、error type、hint level、retry、independent success、mastery update。
  2. 提示依赖度指标:掌握判定不能只看正确率,要看提示层级。
  3. 延迟复测 / 间隔复习:应该进入 v1 的掌握闭环,而不是后续优化。
  4. 家长端行动建议:家长仪表盘不只是展示学习时长,还要告诉家长下一步怎么帮。
  5. 生成内容校验:生成式交互必须先结构化、后校验、再呈现。

8.2 应保持边界

  1. 不要把 v1 做成全科 AI 老师。
  2. 不要先做开放聊天。
  3. 不要把兴趣包装当成核心差异化。
  4. 不要急着上深度 DKT / RL 推荐;v1 先用可解释掌握模型。
  5. 不要把教师工具当学生端 MVP,但要保留教师共创入口。

8.3 建议补入 EARS 的验收点

以下不是直接修改,只是后续 PRD/EARS 更新建议:

9. 推荐的 v1 产品验证设计

9.1 最小闭环

短诊断
-> 今日任务
-> 学生先尝试
-> AI 识别错因
-> 最小提示
-> 独立复做
-> 费曼解释
-> 延迟复测
-> 家长周报

9.2 首批核心指标

指标 为什么重要
每周有效学习分钟数 使用剂量是效果前提
独立掌握知识原子数 比做题量更接近真实学习
提示依赖度 防止 AI 帮出来的假掌握
延迟复测通过率 衡量保持
迁移题通过率 衡量是否会变式
7 日留存 衡量能否持续用
家长周报打开 / 鼓励率 衡量外部结构是否生效
卡住后恢复率 衡量系统是否能接住弱基础学生

9.3 首批实验问题

  1. 生成式交互相对标准讲解,是否提升首次独立正确率?
  2. 护栏式提示相对直接解释,是否提升延迟复测表现?
  3. 家长周报是否提升每周有效学习分钟数?
  4. 兴趣定制在有 verified 连接时是否提升启动率和坚持率?
  5. 提示层级过高时回退前置知识,是否降低后续卡住率?

10. 建议补做的本地化调研

已有海外论文和产品案例足够指导 v1 架构,但还不能替代中国目标用户研究。建议补做:

  1. 10-15 个目标学生访谈:重点问最近一次自学失败在哪里、卡住后做什么、会不会问 AI、为什么不坚持。
  2. 8-10 个家长访谈:重点问家长能提供什么支持、不能提供什么支持、愿不愿意每周看报告并鼓励。
  3. 3-5 个数学老师访谈:确认一元一次方程到方程组的误区库、步骤拆分、掌握标准。
  4. 低资源设备测试:手机、小屏、弱网、碎片时间场景是否能完成一次学习闭环。
  5. 兴趣连接小样本评估:让老师和学生共同判断 Minecraft/篮球/二次元类比是否真的帮助理解。

11. 结论:本项目的机会与底线

机会:

本项目真正有机会的位置是三者交叉:

可汗学院式免费开放内容
+ ITS 式知识图谱 / 掌握追踪
+ AI 原生交互 / 护栏式辅导
+ 家长/教师外部结构

底线:

  1. AI 永不直接给最终答案。
  2. 数学正确性必须外部校验。
  3. 学生必须先尝试,AI 再介入。
  4. 掌握必须通过无提示、延迟、迁移、解释来验证。
  5. 家长/教师端必须服务行动,不制造监控羞辱。
  6. v1 先做一个数学主线闭环,不做通用 AI 老师。

12. 参考来源

Khan / Khanmigo / 平台案例

自适应学习 / ITS / 论文

LLM Tutor / AI 教育风险

AI Tutor 产品

学习动机 / 在线学习失败模式

↩ 这是原始调研报告。返回综述首页