自适应/AI 自学平台——挑战、失败与成败综合调研

原始调研报告 · 2026-06-15-自适应自学平台-挑战与成败综合调研.md

↩ 这是原始调研报告。返回综述首页

自适应/AI 自学平台——挑战、失败与成败综合调研

本报告定位：回应"调研可汗学院/自适应自学平台/AI 自学尝试的失败案例、挑战、为什么学生不学、最新论文、成功案例"这一需求。它是 7 份并行子代理详报的汇编入口，同时交叉引用了项目内并发产出的 Alpha School / Astra Nova 系列调研。需要细节请点进对应详报。

证据约定：✓ 已验证事实（可靠来源/同行评审） / ⚠️ 合理推测或单一来源 / ❓ 待验证。预印本（arxiv 等）标注"未经同行评审"。

执行摘要（10 条最关键结论）

"自适应学习"作为品类已经历一轮完整的炒作-幻灭循环：2013–2016 期望膨胀 → 2016–2019 幻灭 → 2019–2022 清算 → 2022 起 GenAI 引发新一轮。MIT 的 Justin Reich《Failure to Disrupt》(2020) 系统记录了这一点，结论是"技术本身无法颠覆教育"。✓
历史失败的根因，主要是"人/动机/商业问题"，而非技术问题。8 大共同失败模式：过度承诺 → 黑盒不透明 → 边缘化教师 → 商业模式不可持续 → 伪个性化（只是题库分支）→ 马太效应（强者愈强）→ 实施保真度差距 → 数据隐私政治风险。✓
Khanmigo 没有关闭——这是一个需要纠正的关键事实。 真相是：消费者付费版（$4/月）于 2024 年底转为免费、教师版免费、学区付费版持续扩张（SY24-25 约 795 学区、150 万学生）；2026 夏推出"主动介入"重设计。被误读为"关闭"的，很可能是Quizlet Q-Chat（确已于 2025-06-30 关闭）。✓
但 Khanmigo 的"参与度危机"是真的：Sal Khan 亲口承认仅约 15% 有权限的学生真正使用，对大多数学生"是个 non-event"。✓ 这与"Khan 自发用户仅 9% 达到推荐使用量"互相印证。
本品类最大的失败模式是"好用却没学会"：Bastani et al. 2025 PNAS（~1000 高中生）——无护栏 AI 让练习成绩 +48%，但撤掉 AI 后独立考试 -17%；有护栏版本（给提示不给答案）练习 +127% 且消除负效应。✓ 此研究被本批 5 个独立子代理各自检索到 → 极高置信度。 它直接为项目的"AI 永不直接给答案"护栏提供 PNAS 级实证。
学生不学的核心机制可归纳为"自我调节失败 + 三需要不满足 + 马太效应"：MOOC 完成率中位数仅 12.6% 且 6 年零改善；最需要个性化帮助的低自我调节/弱势学生，恰恰从在线自学中获益最少。✓
人类问责是效果的关键乘数，不是可选项：Khan 数据显示加入学区项目（有老师介入）的学生达标率是自发用户的 8–14 倍；社交临场感 RCT 显示被分配讨论的学生完成率显著提升。✓ → "纯 AI + 纯自驱"是已被反复证伪的失败配方。
真正可迁移的成功要素高度一致：掌握式进阶（元分析 ES≈0.52）、间隔重复（FSRS/SM-2，SMD≈0.78）、即时步骤级反馈、低门槛高频、明确目标路径、外部问责。✓ 而 Duolingo 式游戏化是"参与度成功 ≠ 学习效果成功"，连续打卡(streak)可能异化为"为打卡而打卡"的伪学习。⚠️
AI 辅导的"成功证据"普遍脆弱，需谨慎引用：Harvard Kestin (2 倍课堂) 是单一小样本(N=194)；World Bank 尼日利亚"≈2 年学习量"实为英语 +0.23 SD 与极低基准比、且有教师全程在场；元分析高效应量(g≈1.1)主要反映发表偏差，预注册大 RCT 通常只有 0.2–0.3 SD。✓
Alpha School（得州"2 小时 AI 自学"学校）是当前最响亮也最具警示性的反面教材：其"2.6x 学习速度"统计方法被专家批为根本性错误，"AI 教学"实为现成软件(IXL 等)+ 有缺陷的自研 AI，多州 Charter 申请被拒，并有真实的学生心理健康损害报道。✓ 它把"更快刷完内容"等同于"学习"——与本项目护栏原则直接冲突。详见 Alpha 实证与争议报告。

一、品类全景与炒作-幻灭曲线

"自适应/个性化学习"不是新概念，而是一个反复被资本和技术叙事点燃、又反复降温的品类。把今天的 GenAI 教育热放进这条历史曲线里看，才能避免重蹈覆辙。

2013–2016 期望膨胀峰值：Knewton、AltSchool、Summit、Gates 基金会重金押注"个性化学习将颠覆教育"。
2016–2019 幻灭低谷：RAND 评估降温、Summit 学生罢课、Knewton 贱卖。
2019–2022 清算：MIT Justin Reich《Failure to Disrupt》系统复盘——技术单独无法颠覆教育，有效的是"以技术支撑的增量改进"。✓ 来源：https://cmsw.mit.edu/failure-to-disrupt-why-technology-alone-cant-transform-education/
2022 至今新一轮：ChatGPT 引爆 GenAI 教育，Khanmigo / Synthesis / Alpha / 一众创业公司涌入——目前正处于新一轮期望膨胀期，已有产品（Q-Chat、Sizzle、AllHere）开始进入幻灭/出清。

对本项目的含义：我们正处在新一轮炒作期。差异化不在于"我们也用了 AI"，而在于是否系统性规避了上一轮的失败根因（见第九节）。

详见：自适应学习平台失败案例-坟场复盘

二、失败案例坟场：钱多技术强，照样死

案例	投入/规模	怎么死/转的	根因（多为非技术）
Knewton	融资 $182M	2019 以 < $17M 贱卖给 Wiley	过度承诺 + 黑盒算法 + B2B 被大客户(Pearson)自建取代 ✓
AltSchool	融资 $174M	烧光后转型为教育咨询公司	同时办学校(年烧$4000万)+做软件，两头落空；软件对公校太贵；学生被当"试验品"引发伦理信任危机 ✓
Summit Learning	Facebook/CZI 支持	多地(康州/布鲁克林/堪萨斯)学生罢课、家长退出	抗议核心是"消除了人际互动"；与 19 家第三方共享数据，在 FB 数据丑闻背景下政治敏感 ✓
Gates "个性化学习"	$3 亿+	RAND 评估从乐观降到"谨慎"	2017 仅 +3 百分位；区立学校实施后成绩反而下降；"Teach to One" RCT 无显著因果效果 ✓
Alpha School / 2HourLearning	亿万富翁 Liemandt 资助	多州 Charter 申请被拒(PA/AR/NC/UT)	"2.6x"统计方法被批根本错误；"AI"实为 IXL 等现成软件；真实心理健康损害报道 ✓

关键反驳视角（避免"全都失败"的单一叙事）：少数自适应系统作为辅助工具有可复现证据——Carnegie MATHia 高中代数第二年显著(RAND RCT)、ALEKS 补充教学 g≈0.43、DreamBox K-1 数学可能正向(WWC)。规律高度一致：作为补充工具有效，试图替代教师则失败。 ✓

来源：EdSurge: Wiley 收购 Knewton；EdWeek: 布鲁克林学生抗议 Summit；EdWeek: RAND 个性化学习评估

三、纠偏：Khanmigo "关闭"了吗？

结论：没有关闭（✓ 多源交叉验证）。 你记忆中的"Khanmigo 关闭"很可能混淆了两件事：

✓ Khanmigo 正常运营（khanmigo.ai 2026-06 活跃）。变化是商业模式而非关停：消费者个人版 2024 年底从 $4/月转免费（由学区订阅+捐款支撑）；教师版 2024-05 起免费（微软资助），覆盖 180+ 国家；学区付费版持续扩张（SY24-25 约 795 学区、150 万学生）；2026 夏推出"主动介入"重设计。
✓ 真正关闭的是 Quizlet Q-Chat（2023 高调上线"全球首个 ChatGPT AI 导师"，2025-06-30 下线）——单用户生成式辅导在商业定价下计算成本不可持续，这是对所有 AI 辅导创业者的成本警示。

但 Khanmigo 的问题是真实的： - ✓ Sal Khan 承认仅约 15% 有权限的学生真正使用，对多数学生"是个 non-event"。 - ✓ 第三方研究（UWindsor 2025，本科物理小样本）显示 Khanmigo vs Google 搜索学习增益无显著差异。 - ⚠️→✓ 本质局限：苏格拉底辅导只能"贴"在学生已经在做的练习题语境上工作，无法主动生成千人千面的内容路径——这正是"AI 原生生成"vs"AI 贴壳"的分野，是本项目的机会窗口。

来源：Chalkbeat: Sal Khan 反思 AI；EdTech Innovation Hub: 仅 15% 学生使用；Khan 官方: Learning in the Open

详见：Khan Academy & Khanmigo 深度复盘

四、AI 原生自学新尝试（2023–2026）：谁活下来，谁死了

产品	定位	牵引力	现状	关键评价
Duolingo (Max)	AI 语言学习	DAU 52.7M、付费 12.2M、年营收破 $10 亿	✅ 活得最好	最成功的 AI 原生教育消费品；但"参与度"成功，语言≠学科掌握
Speak	AI 口语	$1B 估值、$100M ARR、15M 下载	✅ 独角兽	卖"从不会到会说"的完整旅程，B2B 第二曲线
Synthesis Tutor	错误驱动 AI 数学家教	25,000+ 家庭、$53M 融资、进俄州公校试点	✅ 活着进校	自适应出题是真差异化；被批内容池浅(1–3 月用完)
Google Guided Learning / LearnLM	苏格拉底式引导	塞拉利昂 RCT +0.258 SD	✅ 有 RCT 实证	91.4% 对话用于理解、仅 2% 直接给答案；但发布方利益相关、待独立评审
Khanmigo	贴课程库 AI 答疑	700,000+ 学生	⚠️ 热度大实效小	见第三节；被讽为"学习版 Clippy"
Quizlet Q-Chat	ChatGPT 导师	—	❌ 2025-06 关闭	单用户生成成本不可持续
Sizzle AI	C 端 AI 自学	1.7M 用户、$7.5M 融资	❌ 2025-10 被 Campus.edu 收购	"遇到了市场现实"——纯 AI 自学 C 端独立存活极难
AllHere	学区 AI 助手	$12M VC + LAUSD $6M 合同	❌ 2024-08 破产 + 刑事调查	补贴+政府合同+未成熟技术+管理腐败的极端失败
生成式 UI 实时内容（VideoTutor / Learn Your Way / Oboe）	实时生成交互/视频/课程	种子轮	🧪 探索中	技术可行性初验，规模留存无数据——本项目押注方向，需谨慎验证

后 ChatGPT 时代的普遍困境：裸 LLM 答疑同质化、护栏缺失、留存差、商业模式不清、"包一层 ChatGPT"。活得好的共同点：要么真正改变交互形态(Speak/Synthesis)、要么有护栏(Guided Learning)、要么有强留存设计(Duolingo)。✓

详见：AI 原生自学新尝试 2023-2026 全景，以及并发的 AI Tutor 产品模式

五、核心挑战：为什么学生不会去学

这是本项目最大的隐忧，也是历史上所有自学平台的共同死穴。根因可归为三层：

5.1 自我调节失败 + 辍学

✓ MOOC 完成率中位数 12.6%（221 数据集），且 edX 6 年数据证实零改善，52% 注册者从未开始。
✓ Coursera/edX/Udacity 相继放弃"民主化学习者"路线、转 B2B/职业培训——这是面向普通自学者模式无法成立的结构性信号。

5.2 马太效应（对本项目最危险）

✓ 澳洲 66,451 名高中生 ITS 研究：技术平台放大了社会经济差距；SRL 最低组约 50%"什么都没学到"。
✓ 青少年(12–15 岁)执行功能/延迟满足仍在发育，初中阶段动机显著下滑——无外部结构的纯自学对这个年龄段极为不利。
悖论：最需要个性化帮助的低自律/弱势学生，恰恰从在线自学中获益最少。一个"面向缺资源孩子"的产品若不破解这一点，会复制而非缩小差距。

5.3 动机三需要不满足 + 孤独

✓ 自我决定理论(SDT)元分析(36 RCT, N=11,792)：自主支持干预效果量 g=1.14、胜任感 g=0.48，但归属感最难干预(无显著总体效果)。
✓ 社交临场感 RCT(N=30,317)：被分配讨论者次周完成测验 +4.3%，完成一对一同步讨论者 +10%。
✓ 人类问责是关键乘数：Khan 学区项目(有老师介入)学生达标率是自发用户的 8–14 倍。

5.4 两个留存陷阱

⚠️ 游戏化双刃剑：连续打卡可异化为"为打卡而打卡"；过度外部奖励侵蚀内在动机(overjustification)。高 streak 动机用户 6 个月后留存反低于内在兴趣驱动用户。
✓ 新颖性效应：新工具参与度第 4 周起衰减，持续 2–6 周——会污染 AI 学习产品的早期 RCT 结论，短期亮眼数据不可外推。

根因清单 → 干预清单（均附证据）见：学生为何不学-动机留存辍学学习科学

六、最新学术证据：支持 vs 质疑

论文	年份/样本	结论	证据强度	立场
Bastani et al. PNAS	2025 / N≈1000 高中	无护栏 AI 撤掉后 -17%；有护栏消除负效应	强(田野 RCT)，多源印证	⚖️ 决定性——支撑护栏
Kestin et al. Sci. Reports	2025 / N=194	护栏式 AI 辅导增益是优质课堂 2 倍+	中(单一小样本)	✅ 支持，但脆弱
World Bank 尼日利亚	2025 / 6 周	英语 +0.23 SD（被宣传为"≈2 年"）	中(有教师在场、低基准)	⚠️ 常被夸大引用
Google DeepMind 塞拉利昂	2026 / N=1763	数学 +0.258 SD	中(发布方利益相关，待评审)	⚠️ 有力初步证据
Fan et al. BJET	2024	"元认知懈怠"：依赖 AI 削弱自我调节	中	❗ 质疑
ITS/自适应元分析	2024-25	g=0.27–1.10，高值主要是发表偏差	—	❗ 真实 RCT 仅 0.2–0.3 SD
Reich et al. PNAS	2020 / N=250,000+	行为干预规模化后效果衰减"一个量级"	强	❗ RCT→部署落差

学界共识：护栏是决定性变量；掌握式学习是少数公认基石。主要分歧：效应量分歧巨大(g=0.27 vs 1.1，取决于是否控发表偏差)；低收入国家结果能否迁移到中国初高中存疑；LLM 辅导 vs 传统 ITS 直接比较仍稀缺。

脆弱证据提醒（务必避免在 BP/对外承诺中误用）： - "AI ≈ 2 年学习量"：实为 +0.23 SD vs 极低基准、6 周、有教师在场，不代表无监督自学。 - 元分析 g≈1.1：主要是发表偏差，真实大 RCT 仅 0.2–0.3 SD。 - 知识追踪(DKT)高 AUC：82% 研究只用单一数据集、存在标签泄漏，部署精度显著下降——不应宣称"AI 精准追踪掌握度"。

详见：自适应 AI 自学-最新论文与有效性证据，及并发的学术教学法证据

七、成功案例与可迁移要素

可迁移要素	出现在	证据强度	对本项目适用性
掌握式进阶(90%+ 才进阶)	Bloom、ALEKS、Carnegie、Math Academy	强(元分析 ES≈0.52)	核心，但"掌握"须挂钩真实理解，非答对率
间隔重复(FSRS/SM-2)	Anki、Math Academy	强(SMD≈0.78)	直接采用，固化记忆
即时步骤级反馈	Carnegie MATHia、ALEKS	强(RAND RCT)	护栏式解题流的实现基础
明确目标路径/知识图谱	ALEKS(知识空间理论)、Math Academy	强	消除"不知道学什么"，是 DKT/掌握式的前提
低门槛高频 + 早期留存攻坚	Duolingo	中(参与度强、学习效果弱)	借鉴第 1–7 天机制，警惕 streak 异化
外部问责/社交临场感	Khan 学区、社交临场 RCT	强	家长仪表盘 + 鼓励式问责（已在 v1）
做中学/交互模拟	PhET(31 准实验, g≈0.94)	强	为"生成式交互内容"提供理论与先例

关键辨析：必须区分"参与度成功"(Duolingo 的 DAU)与"学习效果成功"(ALEKS/Carnegie 的 RCT)。把前者当后者，正是 Alpha School 式失败的起点。✓ 另注：实施质量(onboarding、家长看板、教练机制)对效果的影响，往往大于产品本身的差异。

详见：成功案例解构-可迁移成功要素

八、中国市场专题：本土化最关键的现实

✓ 松鼠 AI：RCT 证据真实(八年级数学 g=0.68、勾股定理增益 4.19 倍)，但研究多由公司赞助/关联团队主导，独立性存疑；核心批评是"只是题库路径，不是真自适应"(爱丁堡学者)。
✓ 双减(2021)重创百亿美元行业：在线/线下机构各减 84%，新东方营收 -80%，猿辅导裁员 4 万。但科大讯飞与 AI 学习机硬件成为最大受益者。→ 对本项目：开源非营利、不售卖学科培训 = 绕开双减打压，但 K9 学科内容须注意合规与教育类 App 备案。
✓ AI 学习机热(新淘金热)：2024 销量 592 万台、190.6 亿元(+25.5%)，作业帮第一、学大第二、科大讯飞第三。但"买了吃灰"是普遍现象——家长一路从点读机踩坑到 AI 学习机，孩子"从兴致勃勃到束之高阁"反复上演；教师直言"这不叫 AI，就是大数据刷题"。
✓ 几乎所有中国 AI 教育产品的最大批评：直接给答案、缺乏引导——这恰好与本项目"护栏式解题流"形成正向差异化。
✓ 下沉市场需求最真实、AI 效果最显著(讯飞随机实验：欠发达地区、差生效果更明显)——与本项目公益定位高度契合。

中国市场启示：切入"有自学意愿的初高中生"细分人群，以"苏格拉底式不给答案"为差异化，借开源非营利的政策保护，从下沉城市自学家庭切入，避开与学习机/大模型 App 的正面竞争，把留存 + 掌握度作为双主指标。

详见：中国市场-松鼠AI-学习机-双减专题

九、对本项目的战略启示

9.1 历史失败规避清单（设计护栏，逐条对照）

历史失败根因	本项目的规避设计	状态
过度承诺(2.6x/10x)	不对外宣称未经独立验证的学习倍数；脆弱证据不进 BP	✅ 已纳入本报告纪律
黑盒不透明	开源；设计外部可验证的成效评估	⚠️ 需补成效评估机制
边缘化教师	教师分层共创、L1 不可绕过审核	✅ 已在方案
商业模式不可持续(Q-Chat)	非营利 + 大厂 token 赞助 + 生成结果缓存复用	⚠️ 算力可持续性是 ❓ 待验证假设
伪个性化(松鼠/Alpha 题库分支)	AI 原生实时生成交互内容，而非题库分支	🎯 核心差异化，待 PoC 验证
马太效应(弱势获益最少)	内嵌 SRL 脚手架 + 家长鼓励式问责 + 人工高触点	⚠️ 最大剩余风险，需专项设计
"好用没学会"(Bastani)	AI 永不直接给答案(架构级护栏) + 掌握判定 + 费曼出口 + 符号验答	✅ 已是 D-1 核心决策
把"刷完"当"学会"(Alpha)	掌握标准挂钩真实理解，非答对率；防机械重复	⚠️ 需在掌握判定设计中落实
游戏化反噬	激励透明、不与基本需求挂钩、警惕 streak 异化	⚠️ 留存设计需把关
数据隐私(Alpha 全程监控)	数据最小化、敏感数据严格保护、不做监控式问责	✅ 家长仪表盘定位"鼓励"非"监控"

9.2 三条最强的实证设计原则（均有 PNAS/元分析级证据）

护栏即架构（Bastani PNAS）：尝试→分析错误→给提示→再试→苏格拉底追问→兜底步骤分解；永不直接给答案。
掌握式 + 间隔重复是引擎（ES≈0.52 / SMD≈0.78）：90%+ 掌握才进阶 + FSRS 调度。
人类问责是乘数，不是可选项（Khan 8–14 倍、社交临场 RCT）：家长鼓励式问责 + 社交可见进度，必须设计进 v1。

9.3 最大剩余风险（按优先级）

🔴 学生不来/不持续用（动机-留存-马太效应）：这是历史第一死因，且本项目面向"自学意愿者"虽缓解但不消除。→ 留存与动机应作为独立产品挑战专项立项，而非寄望于"内容够好自然有人用"。
🟡 "生成式 UI 实时内容"的留存未被任何人验证：技术可行≠学生会持续用。→ 先做小 PoC 验证"交互模拟 vs 文字解释能否提升首次答题正确率与留存"，再决定押注深度。
🟡 新颖性效应污染早期数据：v1 上线后的亮眼数据需 3 个月追踪才能判断真实留存。
❓ 算力可持续性（创始人已决定本阶段不纳入考量）。

参考来源

标注 ⭐ 的是被本批多个独立子代理交叉验证、置信度最高的来源。

⭐ Bastani et al. 2025, Generative AI without guardrails can harm learning, PNAS — 无护栏 -17%/有护栏消除；本批 5 个子代理独立引用
Kestin et al. 2025, Scientific Reports — AI 辅导增益 2 倍课堂（单一小样本）
World Bank 2025 Nigeria GPT-4 tutoring — +0.23 SD（"2 年"说法需谨慎）
Google DeepMind 2026 Sierra Leone RCT — 数学 +0.258 SD
⭐ Reich et al. 2020, PNAS — 行为干预规模化衰减 — RCT→部署落差
Reich & Ruipérez-Valiente 2019, The MOOC Pivot, Science — MOOC 完成率零改善 + 转 B2B
Wang et al. 2024 SDT 教育元分析 — 自主/胜任/归属干预效果量
EdSurge: Wiley 收购 Knewton(2019) — Knewton 贱卖
EdWeek: RAND 个性化学习评估(2017) — Gates $3 亿后的"谨慎"
MIT《Failure to Disrupt》(2020) — 炒作循环与马太效应
⭐ Chalkbeat: Sal Khan 反思(2026-04) — 15% 使用率 + 战略转向
EdTech Innovation Hub: 仅 15% 使用 Khanmigo
Campus.edu: Sizzle AI 被收购 — 纯 AI 自学 C 端难存活
The 74: AllHere 破产+刑事调查
Duolingo Q4 2025 IR — 参与度成功数据
ALEKS 元分析 Tandfonline 2021 — g≈0.43
WIRED: Alpha School 调查(2025-10) — IXL 终止/真实体验
404 Media: Alpha School 内部文件(2026-02) — AI 课程"弊大于利"
MIT TR: 松鼠 AI 中国实验(2019)
解放日报: AI 学习机是智商税吗(2024) — "买了吃灰"

各子领域的完整来源清单（含更多反驳来源）见下方 7 份详报各自的"参考来源"章节。

附：本批次调研报告清单

本次（围绕你的提问）新增 7 份详报 + 1 份本综合报告： 1. 自适应学习平台失败案例-坟场复盘（Knewton/AltSchool/Summit/Gates） 2. Khan Academy & Khanmigo 深度复盘（含"是否关闭"核实） 3. 学生为何不学-动机留存辍学学习科学 4. AI 原生自学新尝试 2023-2026 全景 5. 自适应 AI 自学-最新论文与有效性证据 6. 中国市场-松鼠AI-学习机-双减专题 7. 成功案例解构-可迁移成功要素

项目内并发/早前产出、可一并参考（聚焦 Alpha School / Astra Nova）： - Alpha School 实证与争议 - Synthesis/Astra Nova/Alpha School 深度调研 - AI Tutor 产品模式 2024-2026 - 学术教学法证据

↩ 这是原始调研报告。返回综述首页