三、失败模式与风险防御

Knewton/AltSchool/Summit/AllHere 坟场复盘、Khanmigo 参与度危机、学生为何不学、依赖答案与作弊的系统性风险。

三、失败模式与风险防御

本篇汇聚 6 份"坟场复盘"型报告 [1][2][3][4][5][6],专门研究别人是怎么死的:自适应学习平台的资本坟场、学生为何不学的动机科学、Khanmigo 的参与度危机、以及"依赖答案"这一品类级致命陷阱。如果说主题二讲"什么有效",本篇讲"什么会杀死你"。对一个开源公益项目,避开这些坑比追逐亮点更重要。


1. 自适应学习平台坟场:钱多、技术强,照样死

过去十几年,最聪明的人、最多的钱投进"个性化/自适应学习",结果是一座坟场 [2][5]

平台 投入 结局 核心死因
Knewton 融资 $182M(Pearson 等) 2019 被 Wiley 以 <$17M 贱卖 [2][5][6] 技术过度承诺("精确到百分位读懂思维"被斥"卖假药")+ 黑盒不透明失去信任 + B2B 模式假设出版商不自研(Pearson 2017 弃用即致命)[2]
AltSchool 融资 $174M(含扎克伯格) 2021 缩为教育咨询公司 [2][5] 双线并行(年烧 $4000 万办校 + 做软件)+ 学生被当"试验品"伦理困境 + 软件 $150–500/生/年对公校太贵 [2]
Summit Learning CZI 近 $2 亿 多地家长请愿、学生罢课退出 [2][5] 削减人际互动(核心投诉"太多屏幕、太少老师")+ 与 19 家第三方共享数据(Facebook 丑闻背景下政治敏感)+ 实施保真度差 [2]
Gates 个性化学习 逾 $3 亿 + 教育部 i3 约 $14 亿 RAND 2017 仅 +3 个百分点、"谨慎的故事" [2] "资助结束即项目停止",学区从未内化、只是在花外部钱;最难的"能力制进阶"几乎无人真做 [2]
Teach to One: Math 联邦 i3 评估 "无因果证据显示正向或负向效果" [2] 设计较弱的相关性研究(23% 增长)不能归因 [2]

AI 时代的新死亡名单 [3][5]:Quizlet Q-Chat(2025.06.30 关闭——单用户生成式辅导的推理成本在商业定价下不可持续);Sizzle AI(1.7M 用户仍在 2025.10 被收购,纯 AI 自学 C 端独立存活极难);AllHere($12M VC + LAUSD $6M 合同,2024.08 破产 + 刑事调查);Udacity/Coursera/edX(MOOC 三巨头先后转向 B2B/学位,早期完成率仅约 6%)[4]

一条贯穿性反驳(须保留):自适应工具并非"全部失败"。作为补充时有可复现 RCT 证据——Carnegie MATHia 第二年 +0.20 SD、ALEKS 补充 g=0.43、DreamBox g=0.32;但作为替代教师时全部崩溃(ALEKS 替代 g=0.05)[2][5]。统一结论:"作为补充有效,试图替代教师则失败。"


2. 八大共同失败模式

把所有坟场案例抽象,得到八个反复出现的死亡模式 [2][5],本项目应逐条对照自检:

  1. 过度承诺(Over-claim)——承诺技术做不到的事,制造不可及期望,使整个品类失信(Knewton/AltSchool/Summit 皆如此)。
  2. 黑盒算法——不解释"为什么给你这道题",教师和学生无法建立信任,最终弃用。
  3. 教师被边缘化——最核心的失败。多数自适应产品为"减少对教师依赖"而设计,但 Khan 的 20 万人研究证明最大差异来自教师层面的实施而非平台本身。
  4. 商业模式不可持续——VC"快速增长"逻辑与教育"慢、决策周期长、付费能力低"冲突;资金一停模式即崩。
  5. 伪个性化——把"答题分支选下一题"当成"个性化",并未真正建模学习风格/认知/动机/情感。
  6. 马太效应——学习技术最惠及已经在学习的学生,最需要帮助的学生受益最少(Reich《Failure to Disrupt》)。
  7. 实施保真度问题——好产品被劣质实施所杀;Summit 在自有学校运作良好,在缺设备/网络/培训的学校一败涂地。
  8. 数据隐私——结构性政治风险;未成年人数据敏感,足以引发大规模家长恐慌。

对本项目的转译:失败模式 3/6/7 共同指向一条——实施保真度与马太效应是产品问题,不是借口。不能用"学校没按我们说的做"解释失败;降级方案、对弱基础孩子的额外脚手架,必须是产品设计的一部分。


3. 学生为何不学:动机、留存、辍学的科学

这是历史第一死因——比任何技术问题都更致命 [4][5]

辍学的残酷数字 [4]:MOOC 完成率中位数仅 12.6%(范围 0.7–52.1%);52% 注册者从未开始学习(edX 六年无改善)——问题甚至出在"坚持"之前的"启动"阶段。参与度在第一、二周急剧下降后趋平,冷启动窗口是决定性的 [4]

为什么不学——根因清单(证据强度标注) [4][1][6]: 1. 低自我调节(SRL):缺目标设定、时间管理、元认知监控,在无结构环境中迅速放弃(强)。 2. 动机三需要未满足(SDT):感知不到自主/胜任/归属(强)。SDT 元分析显示自主支持干预 g=1.14、胜任 g=0.48,但归属感干预总体不显著(g=0.44)——暗示归属感难以靠简单干预提升 [4]。 3. 社交孤立与无问责:一个人学没有问责闭环,孤独触发倦怠;社交临场感与满意度相关 r=0.56(强)。 4. 青少年认知/元认知尚未成熟:12–16 岁延迟满足、目标坚持等执行功能尚在发育,约 15 岁才基本成熟——要求他们在无人督促下自主持续学习,从神经发育看就是强人所难(强)[4]。 5. 马太效应:高 SRL/高 SES 越学越强,弱势越学越迷失。澳洲 6.6 万高中生研究——贫困农村学生使用 ITS 反而扩大了与优势群体的差距 [4]。 6. 启动失败(52% 从未开始):意图-行为鸿沟(强)。 7. 游戏化反噬:连续打卡(streak)等控制性机制侵蚀内在动机;以维持 streak 为动机的用户六个月后留存显著更低(中-强)[4]。 8. 新颖性效应:初期高参与来自新鲜感,4–10 周内效果减半甚至归零(中)[4]。 9. AI 直接给答案制造学习幻觉:见主题二 Bastani(强)。 10. 行为干预规模化效果衰减 10 倍(中-强)[4]

游戏化的双刃剑(须保留的细节) [4]:过度理由效应——对内在驱动的行为施加外在奖励,会把内在动机替换为外在动机,奖励撤除后动机不复存在。但积极反馈/进度可视化(非竞争性)能增强胜任感、维持内在动机;克服新颖性衰减是可能的(3 年纵向研究第二年参与度反升)。重点是"游戏化什么"和"如何退出"。


4. Khanmigo 参与度危机:最贴近本项目的一面镜子

Khanmigo 是与本项目最像的护栏式 AI 辅导,它的危机是最值钱的一课 [3][5][6]

先澄清一个误解(事实)Khanmigo 没有关闭,仍在运营并扩张学区版(SY24-25 达 795 学区、近 150 万学生);只是个人付费版($4/月)2024 底转免费、教师版微软资助全球免费 [3][5]。"关闭"传言多来自与真正关闭的 Quizlet Q-Chat 混淆 [3]

参与度危机(事实) [3][5]: - 有权限的学生实际使用率仅 15%;Sal Khan 自评"对大多数学生是 non-event(无足轻重)"。 - Khan 官方效果报告:推荐使用量(每周 30 分钟)能带来约 20% 学习增益(effect size 0.36),但实际达标率仅约 9%。 - "5% 问题":早期强效果量(0.26)是仅纳入 5% 高使用量学生后得出,95% 低参与学生被排除——降低门槛后效果缩水 [3]。 - Stanford CEPA:无人监督下使用量在三周后下降 60% [3]

失败根因(多视角,本项目必须吸取) [3]: - 根本悖论:苏格拉底式设计要求学生"知道自己不知道什么"才能提有效问题,但最需要帮助的学生恰恰缺乏这种元认知能力。"仅对本来就会成功的学生有效"(Dan Meyer 等多源印证)。 - 被动工具结构性缺陷:最初设计为"等学生点击图标求助",但初高中生遇困难时不会自发求助 AI。Sal Khan 比喻:"我走进教室坐在后排,等学生来找我——有些人会来,大多数不会。" - "贴在旧课程库上"的局限:苏格拉底辅导只能在既有练习题语境下工作,不能主动生成千人千面的新内容——这正是本项目"AI 原生生成"要超越的根本差异。 - 动机问题被忽视(Khan 本人 2026 承认):"工具再好也没解决为什么学生不想学;我们最大的杠杆是真正投资于人的系统(human systems)。"

2026 重设计的方向(值得直接借鉴) [3]:从"等待召唤"→做题过程中主动可见、答错后自动触发介入;从"通用苏格拉底提问"→区分"答题前/答题后"两种支持;从"不用历史数据"→读取技能掌握度个性化复习。内部 A/B 显示综合优化使"下一题正确率"提升 6.1 个百分点 [3]

Khanmigo 做对的也要记住 [3]:苏格拉底护栏理念正确(Bastani 证据)、Common Sense Media 给 4 星(高于 ChatGPT)、与世界级内容库深度整合、透明的自我批评文化。本项目要学它的护栏与诚实,避它的"被动等待"与"无内容生成"。


5. 依赖答案与作弊:本品类的头号致命陷阱

这是与本项目护栏直接相关、被 6 份报告交叉印证的核心风险 [1][2][3][4][5][6]Bastani PNAS 的完整证据见主题二;这里从"失败模式"角度强调三点:

  1. 学生会把平台当题库/答案机——生成式 AI 在练习中提高当场表现,但无约束使用会损害后续无辅助考试表现,且学生不自知(即使高成就学生也过度乐观)[1][2]
  2. AI 解释制造"流畅感错觉"——AI 讲得流畅,学生容易以为自己懂了,但真正学习需要提取、生成、解释、迁移而非只听懂 [6]
  3. 练习正确率 ≠ 真实掌握——若只看当场正确率,会把"AI 帮出来的表现"误认为学生能力;掌握判定必须区分"辅助下正确"和"独立正确" [1][6]

认知卸载/元认知懈怠:AI 降低心智努力、短期表现更好,但可能形成认知卸载,削弱自我调节 [1]。产品指标因此不能只看"完成时间下降",要监测"独立完成比例、提示层级、复测保持" [1]

个性化兴趣包装的风险:AI 容易把题包装成 Minecraft/篮球,但连接可能牵强、稀释学科结构——兴趣定制必须接"兴趣-学科连接库",无 verified 连接时回退中性严谨内容 [6](对应本项目 FR-10 与决策 D-2)。


6. AI 新风险与"成功证据"的脆弱性

AI 自适应的技术风险 [1][5][6]:黑箱推荐导致不信任、难纠错;冷启动/数据稀疏使弱基础学生易被误分层;AI 幻觉/错误反馈让学生形成错误概念且难判断可靠性(代数题必须接 CAS/规则引擎,LLM 不做最终判分);DKT 高 AUC 不可信(82% 研究只用单一数据集、存在标签泄漏,部署精度显著下降——不应宣称"AI 精准追踪掌握度");指标错配(活跃/做题量/当场正确率掩盖真实学习)。

一个反复出现的警告——别误用"成功证据" [5]: - "AI ≈ 2 年学习量"(World Bank 尼日利亚)实为英语 +0.23 SD vs 极低基准、6 周、有教师全程在场,不代表无监督自学。 - Kestin"2 倍课堂"是单一小样本(N=194),脆弱。 - 元分析高效应量(g≈1.1)主要反映发表偏差,预注册大 RCT 通常只有 0.2–0.3 SD。


7. 有证据支持的缓解机制(正向反证)

坟场之外,也有"确实留住了学生"的设计,证据明确 [1][4]


8. 矛盾与分歧(须保留)

  1. 效应量分歧巨大:ITS/AI 辅导元分析高值 g≈1.1,但高值主要反映发表偏差,预注册大 RCT 仅 0.2–0.3 SD——同一品类证据强度差一个数量级 [2][5]
  2. "全部失败" vs "作为补充有效":坟场叙事与"MATHia/ALEKS/DreamBox 作为补充有效"并存,已自洽为"补充有效、替代失败" [2][5]
  3. Khanmigo "关闭" vs "未关闭":报告一致纠正为误解,但与外部普遍认知存在矛盾 [3][5][6]
  4. 归属感干预有效性:简单/通用干预无效(g=0.44 不显著),但具体/真实/定制化干预有效(Science Advances RCT)[4]
  5. 问责干预的情境依赖:德国 RCT 显著,但 MOOC 问责实验对整体完成率无显著提升——效果具情境依赖性 [4]
  6. 新颖性效应对 AI 产品的适用性:仅为推测,尚无直接 RCT 证据,需 3 个月以上追踪验证 [4][5]
  7. Summit 是"失败"还是"部分反弹":标题"失败案例",正文却给出 93% 续用率作为反驳 [2]

9. 对本项目的设计启示:失败规避清单

把坟场教训翻译成本项目的"不要做"与"必须做",逐条对照现有设计决策。

战略级规避(来自坟场) [2][5]: 1. 永远有护栏、永远不给答案(Bastani PNAS 是铁证,不做妥协)——FR-7。 2. 作为补充不作为替代——所有有效自适应工具都是辅助;本项目定位"自学路径"而非"取代老师"。 3. 透明算法、可解释——给学生家长解释"为什么推送这道题",不做黑盒。 4. 从数学/STEM 做起——可验证科目更适合护栏式 AI(接符号引擎校验),文科幻觉风险更高(呼应 D-4 深挖一条线)。 5. 实施保真度是产品问题——降级方案必须是产品设计的一部分(FR-3→FR-5 优雅降级)。 6. 针对有自学意愿的孩子——马太效应是结构性问题,针对"想自学但缺资源"的孩子更易奏效(呼应 persona 泛人群定位)。 7. 开源 + 非营利是差异化护城河——不受 VC"快速增长"压力、不用数据换商业价值,从根上解决"商业目标 vs 教育目标"冲突 [2][5]。 8. 别承诺"革命"——可承诺"让有自学意愿的孩子以更低成本学到更多",可验证、诚实(不对外宣称未经独立验证的学习倍数)。

最大剩余风险(按优先级) [5]: - 🔴 学生不来/不持续用(动机-留存-马太效应,历史第一死因)——应作为独立产品挑战专项立项,而非附属功能(呼应家长仪表盘 FR-9、留存设计)。 - 🟡 "生成式 UI 实时内容"留存未被任何人验证——先做小 PoC。 - 🟡 新颖性效应污染早期数据——至少追踪 3 个月再下结论。 - ❓ 算力可持续性——创始人已决定本阶段不纳入考量,但留缓存/预生成口子。

掌握判定的硬约束(防"看起来学了但没学会") [6]:掌握判定应至少含 5 项——① 当场独立正确 ② 用提示后能无提示复做 ③ 1/3/7 天后保持 ④ 变式题能迁移 ⑤ 能用自己的话解释;A/B 评估不能只看当日正确率和用时;家长端展示独立完成率/提示依赖度/复习欠账与下一步行动,服务行动而非制造监控羞辱

一句话总结:这座坟场反复教一件事——杀死教育产品的不是"技术不够强",而是"学生不来、来了浅用、浅用还以为学会了、规模化后效果蒸发"。本项目的护栏、双主指标、家长鼓励式问责、对弱基础孩子的额外脚手架,本质都是在正面迎击这四道死因。


来源

  1. 自适应自学平台失败模式(失败模式分类表 + 缓解机制)
  2. 自适应/个性化学习平台失败案例深挖——坟场复盘(Knewton/AltSchool/Summit/Gates)
  3. Khan Academy & Khanmigo 深度复盘(参与度危机/护栏设计)
  4. 学生为何不学——动机、留存、辍学的学习科学(MOOC/SDT/SRL/马太效应)
  5. 自适应/AI 自学平台——挑战、失败与成败综合调研(汇编入口)
  6. 自适应自学平台与 AI Tutor 深度调研综合报告(含 PRD 影响)