三、失败模式与风险防御
Knewton/AltSchool/Summit/AllHere 坟场复盘、Khanmigo 参与度危机、学生为何不学、依赖答案与作弊的系统性风险。
三、失败模式与风险防御
本篇汇聚 6 份"坟场复盘"型报告 [1][2][3][4][5][6],专门研究别人是怎么死的:自适应学习平台的资本坟场、学生为何不学的动机科学、Khanmigo 的参与度危机、以及"依赖答案"这一品类级致命陷阱。如果说主题二讲"什么有效",本篇讲"什么会杀死你"。对一个开源公益项目,避开这些坑比追逐亮点更重要。
1. 自适应学习平台坟场:钱多、技术强,照样死
过去十几年,最聪明的人、最多的钱投进"个性化/自适应学习",结果是一座坟场 [2][5]。
| 平台 | 投入 | 结局 | 核心死因 |
|---|---|---|---|
| Knewton | 融资 $182M(Pearson 等) | 2019 被 Wiley 以 <$17M 贱卖 [2][5][6] | 技术过度承诺("精确到百分位读懂思维"被斥"卖假药")+ 黑盒不透明失去信任 + B2B 模式假设出版商不自研(Pearson 2017 弃用即致命)[2] |
| AltSchool | 融资 $174M(含扎克伯格) | 2021 缩为教育咨询公司 [2][5] | 双线并行(年烧 $4000 万办校 + 做软件)+ 学生被当"试验品"伦理困境 + 软件 $150–500/生/年对公校太贵 [2] |
| Summit Learning | CZI 近 $2 亿 | 多地家长请愿、学生罢课退出 [2][5] | 削减人际互动(核心投诉"太多屏幕、太少老师")+ 与 19 家第三方共享数据(Facebook 丑闻背景下政治敏感)+ 实施保真度差 [2] |
| Gates 个性化学习 | 逾 $3 亿 + 教育部 i3 约 $14 亿 | RAND 2017 仅 +3 个百分点、"谨慎的故事" [2] | "资助结束即项目停止",学区从未内化、只是在花外部钱;最难的"能力制进阶"几乎无人真做 [2] |
| Teach to One: Math | 联邦 i3 评估 | "无因果证据显示正向或负向效果" [2] | 设计较弱的相关性研究(23% 增长)不能归因 [2] |
AI 时代的新死亡名单 [3][5]:Quizlet Q-Chat(2025.06.30 关闭——单用户生成式辅导的推理成本在商业定价下不可持续);Sizzle AI(1.7M 用户仍在 2025.10 被收购,纯 AI 自学 C 端独立存活极难);AllHere($12M VC + LAUSD $6M 合同,2024.08 破产 + 刑事调查);Udacity/Coursera/edX(MOOC 三巨头先后转向 B2B/学位,早期完成率仅约 6%)[4]。
一条贯穿性反驳(须保留):自适应工具并非"全部失败"。作为补充时有可复现 RCT 证据——Carnegie MATHia 第二年 +0.20 SD、ALEKS 补充 g=0.43、DreamBox g=0.32;但作为替代教师时全部崩溃(ALEKS 替代 g=0.05)[2][5]。统一结论:"作为补充有效,试图替代教师则失败。"
2. 八大共同失败模式
把所有坟场案例抽象,得到八个反复出现的死亡模式 [2][5],本项目应逐条对照自检:
- 过度承诺(Over-claim)——承诺技术做不到的事,制造不可及期望,使整个品类失信(Knewton/AltSchool/Summit 皆如此)。
- 黑盒算法——不解释"为什么给你这道题",教师和学生无法建立信任,最终弃用。
- 教师被边缘化——最核心的失败。多数自适应产品为"减少对教师依赖"而设计,但 Khan 的 20 万人研究证明最大差异来自教师层面的实施而非平台本身。
- 商业模式不可持续——VC"快速增长"逻辑与教育"慢、决策周期长、付费能力低"冲突;资金一停模式即崩。
- 伪个性化——把"答题分支选下一题"当成"个性化",并未真正建模学习风格/认知/动机/情感。
- 马太效应——学习技术最惠及已经在学习的学生,最需要帮助的学生受益最少(Reich《Failure to Disrupt》)。
- 实施保真度问题——好产品被劣质实施所杀;Summit 在自有学校运作良好,在缺设备/网络/培训的学校一败涂地。
- 数据隐私——结构性政治风险;未成年人数据敏感,足以引发大规模家长恐慌。
对本项目的转译:失败模式 3/6/7 共同指向一条——实施保真度与马太效应是产品问题,不是借口。不能用"学校没按我们说的做"解释失败;降级方案、对弱基础孩子的额外脚手架,必须是产品设计的一部分。
3. 学生为何不学:动机、留存、辍学的科学
辍学的残酷数字 [4]:MOOC 完成率中位数仅 12.6%(范围 0.7–52.1%);52% 注册者从未开始学习(edX 六年无改善)——问题甚至出在"坚持"之前的"启动"阶段。参与度在第一、二周急剧下降后趋平,冷启动窗口是决定性的 [4]。
为什么不学——根因清单(证据强度标注) [4][1][6]: 1. 低自我调节(SRL):缺目标设定、时间管理、元认知监控,在无结构环境中迅速放弃(强)。 2. 动机三需要未满足(SDT):感知不到自主/胜任/归属(强)。SDT 元分析显示自主支持干预 g=1.14、胜任 g=0.48,但归属感干预总体不显著(g=0.44)——暗示归属感难以靠简单干预提升 [4]。 3. 社交孤立与无问责:一个人学没有问责闭环,孤独触发倦怠;社交临场感与满意度相关 r=0.56(强)。 4. 青少年认知/元认知尚未成熟:12–16 岁延迟满足、目标坚持等执行功能尚在发育,约 15 岁才基本成熟——要求他们在无人督促下自主持续学习,从神经发育看就是强人所难(强)[4]。 5. 马太效应:高 SRL/高 SES 越学越强,弱势越学越迷失。澳洲 6.6 万高中生研究——贫困农村学生使用 ITS 反而扩大了与优势群体的差距 [4]。 6. 启动失败(52% 从未开始):意图-行为鸿沟(强)。 7. 游戏化反噬:连续打卡(streak)等控制性机制侵蚀内在动机;以维持 streak 为动机的用户六个月后留存显著更低(中-强)[4]。 8. 新颖性效应:初期高参与来自新鲜感,4–10 周内效果减半甚至归零(中)[4]。 9. AI 直接给答案制造学习幻觉:见主题二 Bastani(强)。 10. 行为干预规模化效果衰减 10 倍(中-强)[4]。
游戏化的双刃剑(须保留的细节) [4]:过度理由效应——对内在驱动的行为施加外在奖励,会把内在动机替换为外在动机,奖励撤除后动机不复存在。但积极反馈/进度可视化(非竞争性)能增强胜任感、维持内在动机;克服新颖性衰减是可能的(3 年纵向研究第二年参与度反升)。重点是"游戏化什么"和"如何退出"。
4. Khanmigo 参与度危机:最贴近本项目的一面镜子
Khanmigo 是与本项目最像的护栏式 AI 辅导,它的危机是最值钱的一课 [3][5][6]。
先澄清一个误解(事实):Khanmigo 没有关闭,仍在运营并扩张学区版(SY24-25 达 795 学区、近 150 万学生);只是个人付费版($4/月)2024 底转免费、教师版微软资助全球免费 [3][5]。"关闭"传言多来自与真正关闭的 Quizlet Q-Chat 混淆 [3]。
参与度危机(事实) [3][5]: - 有权限的学生实际使用率仅 15%;Sal Khan 自评"对大多数学生是 non-event(无足轻重)"。 - Khan 官方效果报告:推荐使用量(每周 30 分钟)能带来约 20% 学习增益(effect size 0.36),但实际达标率仅约 9%。 - "5% 问题":早期强效果量(0.26)是仅纳入 5% 高使用量学生后得出,95% 低参与学生被排除——降低门槛后效果缩水 [3]。 - Stanford CEPA:无人监督下使用量在三周后下降 60% [3]。
失败根因(多视角,本项目必须吸取) [3]: - 根本悖论:苏格拉底式设计要求学生"知道自己不知道什么"才能提有效问题,但最需要帮助的学生恰恰缺乏这种元认知能力。"仅对本来就会成功的学生有效"(Dan Meyer 等多源印证)。 - 被动工具结构性缺陷:最初设计为"等学生点击图标求助",但初高中生遇困难时不会自发求助 AI。Sal Khan 比喻:"我走进教室坐在后排,等学生来找我——有些人会来,大多数不会。" - "贴在旧课程库上"的局限:苏格拉底辅导只能在既有练习题语境下工作,不能主动生成千人千面的新内容——这正是本项目"AI 原生生成"要超越的根本差异。 - 动机问题被忽视(Khan 本人 2026 承认):"工具再好也没解决为什么学生不想学;我们最大的杠杆是真正投资于人的系统(human systems)。"
2026 重设计的方向(值得直接借鉴) [3]:从"等待召唤"→做题过程中主动可见、答错后自动触发介入;从"通用苏格拉底提问"→区分"答题前/答题后"两种支持;从"不用历史数据"→读取技能掌握度个性化复习。内部 A/B 显示综合优化使"下一题正确率"提升 6.1 个百分点 [3]。
Khanmigo 做对的也要记住 [3]:苏格拉底护栏理念正确(Bastani 证据)、Common Sense Media 给 4 星(高于 ChatGPT)、与世界级内容库深度整合、透明的自我批评文化。本项目要学它的护栏与诚实,避它的"被动等待"与"无内容生成"。
5. 依赖答案与作弊:本品类的头号致命陷阱
这是与本项目护栏直接相关、被 6 份报告交叉印证的核心风险 [1][2][3][4][5][6]。Bastani PNAS 的完整证据见主题二;这里从"失败模式"角度强调三点:
- 学生会把平台当题库/答案机——生成式 AI 在练习中提高当场表现,但无约束使用会损害后续无辅助考试表现,且学生不自知(即使高成就学生也过度乐观)[1][2]。
- AI 解释制造"流畅感错觉"——AI 讲得流畅,学生容易以为自己懂了,但真正学习需要提取、生成、解释、迁移而非只听懂 [6]。
- 练习正确率 ≠ 真实掌握——若只看当场正确率,会把"AI 帮出来的表现"误认为学生能力;掌握判定必须区分"辅助下正确"和"独立正确" [1][6]。
认知卸载/元认知懈怠:AI 降低心智努力、短期表现更好,但可能形成认知卸载,削弱自我调节 [1]。产品指标因此不能只看"完成时间下降",要监测"独立完成比例、提示层级、复测保持" [1]。
个性化兴趣包装的风险:AI 容易把题包装成 Minecraft/篮球,但连接可能牵强、稀释学科结构——兴趣定制必须接"兴趣-学科连接库",无 verified 连接时回退中性严谨内容 [6](对应本项目 FR-10 与决策 D-2)。
6. AI 新风险与"成功证据"的脆弱性
AI 自适应的技术风险 [1][5][6]:黑箱推荐导致不信任、难纠错;冷启动/数据稀疏使弱基础学生易被误分层;AI 幻觉/错误反馈让学生形成错误概念且难判断可靠性(代数题必须接 CAS/规则引擎,LLM 不做最终判分);DKT 高 AUC 不可信(82% 研究只用单一数据集、存在标签泄漏,部署精度显著下降——不应宣称"AI 精准追踪掌握度");指标错配(活跃/做题量/当场正确率掩盖真实学习)。
一个反复出现的警告——别误用"成功证据" [5]: - "AI ≈ 2 年学习量"(World Bank 尼日利亚)实为英语 +0.23 SD vs 极低基准、6 周、有教师全程在场,不代表无监督自学。 - Kestin"2 倍课堂"是单一小样本(N=194),脆弱。 - 元分析高效应量(g≈1.1)主要反映发表偏差,预注册大 RCT 通常只有 0.2–0.3 SD。
7. 有证据支持的缓解机制(正向反证)
坟场之外,也有"确实留住了学生"的设计,证据明确 [1][4]:
- 外部问责(家长/教师/教练轻量监督):K-12 在线参与高度依赖家庭与教师反馈;设计"每周 10 分钟可执行"介入面板(缺席/卡点/复测失败/该问的问题)[1]。
- "高科技 + 高温情"(High Tech, High Touch):在线课加入教学/社交/认知临场感综合重设计,少数族裔学生通过率与次年留存显著提升(Project COMPASS RCT)[4]。
- 冷启动是关键:参与度下滑主要在第一周,留住后趋于平稳;事先填写"何时学习"的学生持续率显著更高(J-PAL)[4]。
- 归属感来自具体而真实的联结:抽象"欢迎语"无效,个人化、连接学生生活经历的周度沟通有效 [4]。
- 掌握式学习的胜任感效应:当学生感到"我真的会了",内在动机被强化——与打卡式"空洞留存"根本不同的良性循环 [4]。
- 自我调节脚手架(SRL):在线/混合场景 ES≈0.69;把计划、监控、反思、求助做成每次学习固定闭环 [1][4]。
- 同伴互动的因果证据:MOOC RCT 显示一对一同步讨论使次周完成率 +10%、讨论版 +4.3%;同伴导师显著提升动机与考试报名 [4]。
- 掌握式 + 间隔重复 + 检索练习 + Productive Failure:稳定有效,但弱基础学生需更短任务、更强脚手架 [1][5]。
8. 矛盾与分歧(须保留)
- 效应量分歧巨大:ITS/AI 辅导元分析高值 g≈1.1,但高值主要反映发表偏差,预注册大 RCT 仅 0.2–0.3 SD——同一品类证据强度差一个数量级 [2][5]。
- "全部失败" vs "作为补充有效":坟场叙事与"MATHia/ALEKS/DreamBox 作为补充有效"并存,已自洽为"补充有效、替代失败" [2][5]。
- Khanmigo "关闭" vs "未关闭":报告一致纠正为误解,但与外部普遍认知存在矛盾 [3][5][6]。
- 归属感干预有效性:简单/通用干预无效(g=0.44 不显著),但具体/真实/定制化干预有效(Science Advances RCT)[4]。
- 问责干预的情境依赖:德国 RCT 显著,但 MOOC 问责实验对整体完成率无显著提升——效果具情境依赖性 [4]。
- 新颖性效应对 AI 产品的适用性:仅为推测,尚无直接 RCT 证据,需 3 个月以上追踪验证 [4][5]。
- Summit 是"失败"还是"部分反弹":标题"失败案例",正文却给出 93% 续用率作为反驳 [2]。
9. 对本项目的设计启示:失败规避清单
把坟场教训翻译成本项目的"不要做"与"必须做",逐条对照现有设计决策。
战略级规避(来自坟场) [2][5]: 1. 永远有护栏、永远不给答案(Bastani PNAS 是铁证,不做妥协)——FR-7。 2. 作为补充不作为替代——所有有效自适应工具都是辅助;本项目定位"自学路径"而非"取代老师"。 3. 透明算法、可解释——给学生家长解释"为什么推送这道题",不做黑盒。 4. 从数学/STEM 做起——可验证科目更适合护栏式 AI(接符号引擎校验),文科幻觉风险更高(呼应 D-4 深挖一条线)。 5. 实施保真度是产品问题——降级方案必须是产品设计的一部分(FR-3→FR-5 优雅降级)。 6. 针对有自学意愿的孩子——马太效应是结构性问题,针对"想自学但缺资源"的孩子更易奏效(呼应 persona 泛人群定位)。 7. 开源 + 非营利是差异化护城河——不受 VC"快速增长"压力、不用数据换商业价值,从根上解决"商业目标 vs 教育目标"冲突 [2][5]。 8. 别承诺"革命"——可承诺"让有自学意愿的孩子以更低成本学到更多",可验证、诚实(不对外宣称未经独立验证的学习倍数)。
最大剩余风险(按优先级) [5]: - 🔴 学生不来/不持续用(动机-留存-马太效应,历史第一死因)——应作为独立产品挑战专项立项,而非附属功能(呼应家长仪表盘 FR-9、留存设计)。 - 🟡 "生成式 UI 实时内容"留存未被任何人验证——先做小 PoC。 - 🟡 新颖性效应污染早期数据——至少追踪 3 个月再下结论。 - ❓ 算力可持续性——创始人已决定本阶段不纳入考量,但留缓存/预生成口子。
掌握判定的硬约束(防"看起来学了但没学会") [6]:掌握判定应至少含 5 项——① 当场独立正确 ② 用提示后能无提示复做 ③ 1/3/7 天后保持 ④ 变式题能迁移 ⑤ 能用自己的话解释;A/B 评估不能只看当日正确率和用时;家长端展示独立完成率/提示依赖度/复习欠账与下一步行动,服务行动而非制造监控羞辱。
一句话总结:这座坟场反复教一件事——杀死教育产品的不是"技术不够强",而是"学生不来、来了浅用、浅用还以为学会了、规模化后效果蒸发"。本项目的护栏、双主指标、家长鼓励式问责、对弱基础孩子的额外脚手架,本质都是在正面迎击这四道死因。