自适应自学平台与 AI Tutor 深度调研综合报告

原始调研报告 · 2026-06-15-adaptive-ai-self-learning-platforms-synthesis.md

↩ 这是原始调研报告。返回综述首页

自适应自学平台与 AI Tutor 深度调研综合报告

0. 本次调研要回答什么

本项目要做的不是一个“课程库 + AI 答疑”，而是面向中国初高中自学孩子的 AI 原生自学平台。用户关心的核心问题不是“AI 能不能讲题”，而是：

自适应学习平台过去为什么经常效果不稳定，甚至商业失败？
Khan Academy / Khanmigo 到底发生了什么，是否真的“关闭”？
AI 出来之后，大家在做哪些 AI 自学平台 / AI Tutor 尝试？
学生为什么不会主动学，或者看起来学了但没有真的学会？
最新论文对自适应学习、智能辅导系统、LLM Tutor 的挑战和成功条件怎么说？
对“AI 版可汗学院”的 PRD、产品边界和验证指标有什么直接影响？

本报告综合四组并行调研结果，并复用项目已有报告：

1. 总判断

1.1 不是“内容不够”，而是“学习行为不发生”

Khan Academy、ASSISTments、MATHia、ALEKS、Squirrel AI 等案例反复说明：有内容、有题库、有诊断、有反馈，都不等于学生会持续学习。真正决定效果的，是一个完整闭环：

明确目标 -> 启动学习 -> 做出尝试 -> 获得即时反馈 -> 修正错误 -> 独立复做 -> 延迟复测 -> 被家长/教师/系统温和问责

如果缺少这个闭环，平台就会变成“免费资源仓库”：有价值，但弱基础学生不会自动用起来。

1.2 Khanmigo 没有关闭，但“独立 AI 超级导师”的叙事受挫

需要修正一个关键事实：Khanmigo 截至 2026-06 并没有关闭。官方站点仍在运行，教师版免费，家长/学习者访问仍主要通过家长或学校/学区。Khan Academy 2026-04 官方复盘显示，更准确的说法是：Khanmigo 正从“独立聊天式 AI 导师”转向更深嵌入 Khan Academy 练习和任务流的体验。

这比“关闭”更有启发：问题不是 AI 不能对话，而是学生很少主动问出高质量问题。Khan Academy 披露 Khanmigo 自 2023 上线以来有大量交互，但只有约 15% 有访问权限的学生会使用。Sal Khan 在 2026 访谈里也承认，大家期待的“AI 教育革命”并没有按早期叙事直接发生。

来源：

Khanmigo 当前产品页：https://www.khanmigo.ai/
Khan Academy 2026 AI 复盘：https://blog.khanacademy.org/learning-in-the-open-what-ai-is-and-isnt-changing/
Chalkbeat 2026 Sal Khan 访谈：https://www.chalkbeat.org/2026/04/09/sal-khan-reflects-on-ai-in-schools-and-khanmigo/

1.3 LLM Tutor 有潜力，但必须被教学结构约束

最新论文的方向比较一致：

精心设计的 AI tutor 可以有效。Harvard 物理 RCT 显示，工程化 AI tutor 能在短时间内带来明显学习增益。
无护栏 AI 会伤害学习。Bastani 等高中数学实验显示，普通 GPT 可以提升练习表现，但在撤掉 AI 后的考试中反而降低表现；带护栏的 GPT Tutor 则避免了明显负效应。
传统 ITS / 自适应学习总体有效，但效果高度依赖知识图谱、即时反馈、使用剂量、教师/家长整合，而不是算法单点能力。

来源：

Harvard AI Tutor RCT：https://www.nature.com/articles/s41598-025-97652-6
Bastani et al. PNAS：https://www.pnas.org/doi/10.1073/pnas.2422633122
AI in education meta-analysis：https://doi.org/10.1186/s41239-023-00407-6
K-12 STEM ITS systematic review：https://doi.org/10.1186/s40594-023-00426-1

1.4 对本项目最重要的一句话

AI 版可汗学院的核心不是“让 AI 更会讲”，而是“让孩子稳定做出正确的学习行为，并证明他脱离 AI 后仍然会”。

2. 经典平台案例：成功与失败

平台	结果判断	关键证据 / 问题	对本项目的启示
Khan Academy	平台效果证据较强，但推荐使用量难达成	2026 PNAS/PubMed 研究显示使用时间与学习增益相关；Khan 2024 报告提示达到推荐使用量的学生比例低	免费内容不够，必须设计使用剂量、回访、家长/教师推动
Khanmigo	未关闭，但早期“AI 导师”效果混合、使用率有限	官方 2026 复盘说早期结果 mixed，约 15% 有访问权限学生使用	AI 不能等学生主动问，要嵌入练习任务流
Knewton	商业失败典型	先卖“通用自适应大脑/API”，后转 courseware 太晚，2019 被 Wiley 收购资产	不要从通用平台做起，先做一个学科闭环
ASSISTments	证据最干净的成功案例之一	7 年级数学 RCT 支持“在线作业 + 即时反馈 + 教师报告”提高成绩	即时反馈和可行动报告比炫酷个性化更重要
MATHia / Cognitive Tutor	长期 ITS 代表，效果有证据但依赖实施	步骤级反馈、知识组件追踪、掌握路径	初中代数必须做步骤级判定和知识点追踪
ALEKS	诊断和知识空间理论成熟，证据相对分散	效果依赖课程整合和使用量	可借鉴诊断与掌握图谱，但不能只做自适应题库
DreamBox	低龄数学自适应平台，ESSA/WWC 有正向证据	效果量不大但方向稳定，游戏化服务概念理解	游戏化必须服务数学概念，不只服务活跃
Squirrel AI	中国自适应学习代表，有论文支持但独立复现有限	高粒度知识点诊断、个性路径；商业受政策/教培环境影响	中国初中数学图谱值得借鉴，但要透明评估、避开教培化叙事
Duolingo	留存和游戏化极强，深度掌握需区分	语言学习适配短任务、连胜、角色练习	可借鉴 streak 和短任务，但数学必须加掌握闸门

来源：

Khan Academy 2024 efficacy：https://blog.khanacademy.org/khan-academy-efficacy-results-november-2024/
Khan Academy PNAS/PubMed：https://pubmed.ncbi.nlm.nih.gov/41481459/
Knewton 被 Wiley 收购：https://www.insidehighered.com/digital-learning/article/2019/05/07/wiley-buys-knewton-adaptive-learning-technology-company
ASSISTments AERJ RCT：https://doi.org/10.3102/0002831216673968
ASSISTments evidence：https://new.assistments.org/evidence
Cognitive Tutor WWC：https://ies.ed.gov/ncee/wwc/Docs/InterventionReports/WWC_Cognitive_Tutor_060913.pdf
RAND Cognitive Tutor：https://www.rand.org/pubs/research_reports/RR545.html
Squirrel AI 研究：https://doi.org/10.1080/10494820.2020.1808794

3. AI 时代的新尝试：产品地图

3.1 聊天导师

代表：Khanmigo、OpenAI ChatGPT Study Mode、Google Guided Learning、Quizlet Q-Chat。

优点：覆盖面广，能解释、追问、生成练习，部署快。

局限：如果没有题目状态、知识图谱、掌握判定和护栏，聊天导师很容易变成答案机。学生不一定知道怎么问，也不一定愿意问。

来源：

OpenAI Study Mode：https://openai.com/index/chatgpt-study-mode/
Google Guided Learning：https://blog.google/outreach-initiatives/education/guided-learning-gemini/
LearnLM learning science principles：https://storage.googleapis.com/gweb-uniblog-publish-prod/documents/LearnLM_Learning_Science_Principles.pdf

3.2 生成式交互 / 仿真

代表：Synthesis Tutor、Google Generative UI、PhET。

这是最接近本项目差异化的方向：把学生的错误变成可操作的数轴、函数图像、拖拽模拟、变量滑块，而不是再讲一段文字。

风险是正确性。数学、科学交互不能让 LLM 即兴发挥，必须有结构化参数、标准答案、边界条件、符号计算或规则校验。

来源：

Synthesis Tutor：https://www.synthesis.com/tutor
Google Generative UI：https://research.google/blog/generative-ui-a-rich-custom-visual-interactive-user-experience-for-any-prompt
PhET 2024 impact report：https://phet.colorado.edu/publications/PhET_Impact_Report_2024.pdf

3.3 自适应路径 / 智能题目推荐

代表：Squirrel AI、MATHia、ALEKS、ASSISTments。

这是学习效果证据更扎实的底座。它们不一定“生成式”，但有知识组件、诊断、题目状态、掌握概率、即时反馈。

对本项目来说，LLM 不应该替代这层底座。LLM 更适合做：

错因解释的语言表达；
提示生成；
个性化类比；
交互 UI 的生成计划；
家长/学生周报总结。

判分、掌握、解锁和数学正确性不能交给裸 LLM。

3.4 教师工具 / 内容生产力

代表：MagicSchool、Brisk、Coursera/Pearson AI tools。

这些产品对教师提效有价值，但它们不是学生自学平台。它们能启发本项目的“教师共创后台”：老师审核知识点、误区库、提示模板、交互模板，而不是把教师工具当作学生端 MVP。

来源：

MagicSchool：https://www.magicschool.ai/
Brisk：https://www.briskteaching.com/
Coursera Coach：https://blog.coursera.org/coursera-coach/
Pearson AI Study Tools：https://www.pearson.com/en-us/news-and-research/announcements/2024/pearson-launches-new-ai-study-tools.html

3.5 语言/阅读 AI 练习

代表：Duolingo Max、Microsoft Reading Coach。

语言和阅读天然适合角色扮演、语音反馈、低风险重复练习。数学可以借鉴它们的短任务和即时反馈，但不能照搬角色扮演做法。数学的关键是可校验任务和迁移。

来源：

Duolingo Max：https://blog.duolingo.com/duolingo-max/
Microsoft Reading Coach：https://educationblog.microsoft.com/en-us/2024/01/reading-coach-preview-free-ai-tool

4. 学生为什么不会去学

4.1 缺少外部结构

弱基础学生往往不是不知道“学习重要”，而是不知道今天具体学什么、学多久、卡住怎么办、学完怎么判断有效。在线学习研究反复指出，自我调节能力、家庭支持、教师存在感和学习节奏会显著影响参与。

产品含义：

每天打开后不要给“课程列表”，要给“今日最小学习任务”。
每周要有明确目标和复盘。
家长端要告诉家长“今天该怎么帮”，而不是只展示数据。

来源：

K-12 online teaching systematic review：https://journals.sagepub.com/doi/10.3102/00346543221105550
SRL interventions meta-analysis：https://olj.onlinelearningconsortium.org/index.php/olj/article/view/4025
Parental support challenges：https://eric.ed.gov/?ff1=pubTests%2FQuestionnaires&id=EJ1449133&q=k

4.2 学习收益不可见

很多平台的反馈是“完成了多少题、拿了多少分”，但学生和家长关心的是“我是不是变强了”。如果短期看不到进步，学生会回到更即时满足的娱乐产品。

产品含义：

每个知识原子都要有可见状态：未开始、进行中、辅助下正确、独立掌握、延迟保持。
家长周报要用人话写：“这周最重要的进步是什么，下一步只盯哪一个点”。
不要只奖励做题量，要奖励修正错误、独立复做和延迟复习。

4.3 卡住后没有人接住

弱基础学生一旦连续失败，很容易把失败解释为“我不适合学这个”。AI 如果只继续追问，会增加挫败；如果直接给答案，又会损害学习。

产品含义：

护栏式解题要有退出条件：追问过长时转入更小步骤，而不是无限苏格拉底。
每次提示只处理一个主要错误，降低认知负荷。
卡住超过阈值时，系统应调整讲法、换题、回补前置知识。

4.4 缺少社会存在感

纯单机自学容易孤独。Community of Inquiry 相关研究显示，teaching presence、social presence、cognitive presence 与学习和满意度相关。

产品含义：

v1 可以先做家长鼓励和 AI 周报。
v1.x 可以探索小组挑战、同伴互评、作品展示。
避免公开排行榜羞辱弱基础学生。

来源：

CoI meta-analysis：https://olj.onlinelearningconsortium.org/index.php/olj/article/view/2604

5. 平台为什么会“看起来学了但没学会”

5.1 练习正确率不等于真实掌握

Bastani 等研究最重要的警告是：AI 可以让学生练习表现变好，但撤掉 AI 后表现变差。这说明平台如果只看当场正确率，会把 AI 帮出来的表现误认为学生能力。

产品含义：

掌握判定必须区分“辅助下正确”和“独立正确”。
必须有无提示后测、延迟复测、迁移题。
A/B 测试不能只看当日正确率和用时。

5.2 AI 解释会制造流畅感错觉

AI 讲得流畅，学生容易以为自己懂了。但真正的学习需要提取、生成、解释、迁移，而不是只听懂。

产品含义：

每段讲解后必须让学生做一个小生成任务：填一步、解释原因、判断变式。
费曼出口不是装饰，而是掌握验证的一部分。

5.3 个性化兴趣包装可能稀释数学结构

AI 很容易把题目包装成 Minecraft、篮球、二次元，但连接可能是牵强的。EdWeek 对数学个性化学习的报道中也提到，AI 擅长识别兴趣，但不一定能做出有意义的学科连接。

产品含义：

兴趣定制必须接“兴趣-学科连接库”。
没有 verified 连接时，回退到中性严谨内容。
概念类比必须比情境包装更严格审核。

来源：

EdWeek personalized learning in math：https://www.edweek.org/technology/personalized-learning-in-math-has-proved-elusive-and-overhyped-can-ai-offer-a-breakthrough/2026/05

6. 最新论文总结出的核心挑战

挑战	说明	本项目设计约束
冷启动和数据稀疏	新学生、新知识点、新题型时，知识追踪模型信心不足	v1 用短诊断 + 保守路径，模型信心低时多测少跳
可解释性	深度 KT 预测可能强，但难向学生/家长解释	v1 优先规则 + BKT + 无提示后测，家长端展示可理解证据
教师/家长整合	很多 ITS 有效是因为嵌入作业和课堂，不是纯自学	v1 做家长仪表盘，未来保留教师端接口
使用剂量	低频使用很难产生学习效果	设计每周目标、提醒、周报、短任务
认知负荷	解释太长、交互太复杂、追问太多都会压垮弱基础学生	每次反馈只处理一个错误；交互要短而聚焦
幻觉和错误反馈	LLM 会自信生成错误数学内容	代数题必须接 CAS/规则引擎；LLM 不做最终判分
公平与隐私	未成年人数据敏感，低资源学生设备条件不稳定	移动端优先、弱网可用、最小化采集、家长知情
指标错配	活跃、做题量、当场正确率容易掩盖真实学习	双主指标：留存 + 独立掌握 / 延迟保持 / 迁移

来源：

Knowledge tracing survey：https://arxiv.org/abs/2505.21517
UNESCO guidance：https://unesdoc.unesco.org/ark:/48223/pf0000386693
OECD digital education：https://www.oecd.org/education/digital-education-outlook/
U.S. Department of Education AI report：https://www.ed.gov/sites/ed/files/documents/ai-report/ai-report.pdf

7. 成功案例的共同结构

7.1 不是“更聪明的解释”，而是“更短的反馈循环”

ASSISTments、MATHia、DreamBox、Squirrel AI 的共同点不是都有生成式 AI，而是都把学习拆成小步，并在每一步给反馈。

本项目应把初中代数拆成知识原子和步骤原子：

知识原子：一元一次方程的等式性质、移项、合并同类项、分母处理、方程组代入法等。
步骤原子：这一步是否等价变形、是否符号错误、是否漏乘、是否代入正确。

7.2 有外部结构

ASSISTments 本质是“作业 + 即时反馈 + 教师报告”。Khan Academy 的效果也依赖足量使用。印度 Uttar Pradesh 的 Khan Academy RCT 显示，配专职 lab-in-charge 这类实施结构后，使用时间和数学成绩明显提升。

产品含义：

对纯自学公益平台来说，家长仪表盘不是 nice-to-have，而是使用剂量保障机制。
如果未来进入学校，教师端要围绕作业布置、错因讲评和分组干预，而不是泛泛看板。

来源：

NBER Uttar Pradesh Khan Academy RCT：https://www.nber.org/system/files/working_papers/w34683/w34683.pdf

7.3 真实掌握要被反复验证

成功平台往往不是只给一次题，而是持续跟踪掌握状态。AI 时代更要警惕“AI 帮会了”。本项目的掌握判定应至少包含：

当场独立正确。
使用提示后，能无提示复做。
1/3/7 天后能保持。
遇到变式题能迁移。
能用自己的话解释。

8. 对现有 PRD 的影响

现有 PRD 中 FR-1 ~ FR-10 的方向基本正确，但本次调研强化了几个优先级。

8.1 应提高优先级

题目状态机：每题记录 attempt、error type、hint level、retry、independent success、mastery update。
提示依赖度指标：掌握判定不能只看正确率，要看提示层级。
延迟复测 / 间隔复习：应该进入 v1 的掌握闭环，而不是后续优化。
家长端行动建议：家长仪表盘不只是展示学习时长，还要告诉家长下一步怎么帮。
生成内容校验：生成式交互必须先结构化、后校验、再呈现。

8.2 应保持边界

不要把 v1 做成全科 AI 老师。
不要先做开放聊天。
不要把兴趣包装当成核心差异化。
不要急着上深度 DKT / RL 推荐；v1 先用可解释掌握模型。
不要把教师工具当学生端 MVP，但要保留教师共创入口。

8.3 建议补入 EARS 的验收点

以下不是直接修改，只是后续 PRD/EARS 更新建议：

WHEN 学生请求帮助前未提交任何尝试，THE SYSTEM SHALL 要求学生先做出一步尝试，而不是直接给解法。
THE SYSTEM SHALL 为每次 AI 帮助记录提示层级，并在掌握判定中区分辅助下正确与独立正确。
WHEN 学生完成某知识原子的当日掌握判定，THE SYSTEM SHALL 安排至少一次延迟复测。
IF 学生在同一知识原子多次依赖高层级提示，THEN THE SYSTEM SHALL 回退到前置知识或更短步骤。
THE SYSTEM SHALL 在家长周报中展示独立完成率、提示依赖度、复习欠账和下一步行动建议。
IF 生成式交互内容未通过数学/规则校验，THEN THE SYSTEM SHALL 不呈现该内容，并降级到标准内容。

9. 推荐的 v1 产品验证设计

9.1 最小闭环

短诊断
-> 今日任务
-> 学生先尝试
-> AI 识别错因
-> 最小提示
-> 独立复做
-> 费曼解释
-> 延迟复测
-> 家长周报

9.2 首批核心指标

指标	为什么重要
每周有效学习分钟数	使用剂量是效果前提
独立掌握知识原子数	比做题量更接近真实学习
提示依赖度	防止 AI 帮出来的假掌握
延迟复测通过率	衡量保持
迁移题通过率	衡量是否会变式
7 日留存	衡量能否持续用
家长周报打开 / 鼓励率	衡量外部结构是否生效
卡住后恢复率	衡量系统是否能接住弱基础学生

9.3 首批实验问题

生成式交互相对标准讲解，是否提升首次独立正确率？
护栏式提示相对直接解释，是否提升延迟复测表现？
家长周报是否提升每周有效学习分钟数？
兴趣定制在有 verified 连接时是否提升启动率和坚持率？
提示层级过高时回退前置知识，是否降低后续卡住率？

10. 建议补做的本地化调研

已有海外论文和产品案例足够指导 v1 架构，但还不能替代中国目标用户研究。建议补做：

10-15 个目标学生访谈：重点问最近一次自学失败在哪里、卡住后做什么、会不会问 AI、为什么不坚持。
8-10 个家长访谈：重点问家长能提供什么支持、不能提供什么支持、愿不愿意每周看报告并鼓励。
3-5 个数学老师访谈：确认一元一次方程到方程组的误区库、步骤拆分、掌握标准。
低资源设备测试：手机、小屏、弱网、碎片时间场景是否能完成一次学习闭环。
兴趣连接小样本评估：让老师和学生共同判断 Minecraft/篮球/二次元类比是否真的帮助理解。

11. 结论：本项目的机会与底线

机会：

传统可汗学院解决了“内容可得”，但没有完全解决“学生持续学、真的学会”。
传统自适应平台解决了部分“诊断和路径”，但体验常常像题库，缺少 AI 原生交互和个性化表达。
新 AI tutor 解决了“随时解释和追问”，但容易变成被动聊天和答案机。

本项目真正有机会的位置是三者交叉：

可汗学院式免费开放内容
+ ITS 式知识图谱 / 掌握追踪
+ AI 原生交互 / 护栏式辅导
+ 家长/教师外部结构

底线：

AI 永不直接给最终答案。
数学正确性必须外部校验。
学生必须先尝试，AI 再介入。
掌握必须通过无提示、延迟、迁移、解释来验证。
家长/教师端必须服务行动，不制造监控羞辱。
v1 先做一个数学主线闭环，不做通用 AI 老师。

12. 参考来源

Khan / Khanmigo / 平台案例

Khanmigo：https://www.khanmigo.ai/
Khan Academy 2026 AI 复盘：https://blog.khanacademy.org/learning-in-the-open-what-ai-is-and-isnt-changing/
Chalkbeat Sal Khan 访谈：https://www.chalkbeat.org/2026/04/09/sal-khan-reflects-on-ai-in-schools-and-khanmigo/
Khan Academy 2024 efficacy：https://blog.khanacademy.org/khan-academy-efficacy-results-november-2024/
Khan Academy PNAS/PubMed：https://pubmed.ncbi.nlm.nih.gov/41481459/
NBER Uttar Pradesh RCT：https://www.nber.org/system/files/working_papers/w34683/w34683.pdf
Knewton / Wiley 收购：https://www.insidehighered.com/digital-learning/article/2019/05/07/wiley-buys-knewton-adaptive-learning-technology-company

自适应学习 / ITS / 论文

AI in education meta-analysis：https://doi.org/10.1186/s41239-023-00407-6
K-12 STEM ITS systematic review：https://doi.org/10.1186/s40594-023-00426-1
ASSISTments RCT：https://doi.org/10.3102/0002831216673968
ASSISTments evidence：https://new.assistments.org/evidence
Cognitive Tutor WWC：https://ies.ed.gov/ncee/wwc/Docs/InterventionReports/WWC_Cognitive_Tutor_060913.pdf
RAND Cognitive Tutor：https://www.rand.org/pubs/research_reports/RR545.html
Squirrel AI study：https://doi.org/10.1080/10494820.2020.1808794
Knowledge tracing survey：https://arxiv.org/abs/2505.21517

LLM Tutor / AI 教育风险

Harvard AI Tutor RCT：https://www.nature.com/articles/s41598-025-97652-6
Bastani et al. PNAS：https://www.pnas.org/doi/10.1073/pnas.2422633122
Bastani paper PDF：https://hamsabastani.github.io/education_llm.pdf
AI Meets the Classroom：https://arxiv.org/abs/2409.17109
UNESCO guidance：https://unesdoc.unesco.org/ark:/48223/pf0000386693
U.S. Department of Education AI report：https://www.ed.gov/sites/ed/files/documents/ai-report/ai-report.pdf

AI Tutor 产品

OpenAI Study Mode：https://openai.com/index/chatgpt-study-mode/
Google Guided Learning：https://blog.google/outreach-initiatives/education/guided-learning-gemini/
LearnLM principles：https://storage.googleapis.com/gweb-uniblog-publish-prod/documents/LearnLM_Learning_Science_Principles.pdf
Synthesis Tutor：https://www.synthesis.com/tutor
Google Generative UI：https://research.google/blog/generative-ui-a-rich-custom-visual-interactive-user-experience-for-any-prompt
PhET 2024 impact report：https://phet.colorado.edu/publications/PhET_Impact_Report_2024.pdf
Duolingo Max：https://blog.duolingo.com/duolingo-max/
Microsoft Reading Coach：https://educationblog.microsoft.com/en-us/2024/01/reading-coach-preview-free-ai-tool
MagicSchool：https://www.magicschool.ai/
Brisk：https://www.briskteaching.com/

学习动机 / 在线学习失败模式

K-12 online teaching systematic review：https://journals.sagepub.com/doi/10.3102/00346543221105550
SRL interventions meta-analysis：https://olj.onlinelearningconsortium.org/index.php/olj/article/view/4025
Parental support challenges：https://eric.ed.gov/?ff1=pubTests%2FQuestionnaires&id=EJ1449133&q=k
Community of Inquiry meta-analysis：https://olj.onlinelearningconsortium.org/index.php/olj/article/view/2604
EEF remote learning evidence：https://edtechhub.org/wp-content/uploads/2020/04/Remote_Learning_Rapid_Evidence_Assessment.pdf
OECD digital education：https://www.oecd.org/education/digital-education-outlook/

↩ 这是原始调研报告。返回综述首页