三、失败模式与风险防御

Knewton/AltSchool/Summit/AllHere 坟场复盘、Khanmigo 参与度危机、学生为何不学、依赖答案与作弊的系统性风险。

三、失败模式与风险防御

本篇汇聚 6 份"坟场复盘"型报告 ^[1]^[2]^[3]^[4]^[5]^[6]，专门研究别人是怎么死的：自适应学习平台的资本坟场、学生为何不学的动机科学、Khanmigo 的参与度危机、以及"依赖答案"这一品类级致命陷阱。如果说主题二讲"什么有效"，本篇讲"什么会杀死你"。对一个开源公益项目，避开这些坑比追逐亮点更重要。

1. 自适应学习平台坟场：钱多、技术强，照样死

过去十几年，最聪明的人、最多的钱投进"个性化/自适应学习"，结果是一座坟场 ^[2]^[5]。

平台	投入	结局	核心死因
Knewton	融资 $182M（Pearson 等）	2019 被 Wiley 以 <$17M 贱卖 ^[2]^[5]^[6]	技术过度承诺（"精确到百分位读懂思维"被斥"卖假药"）+ 黑盒不透明失去信任 + B2B 模式假设出版商不自研（Pearson 2017 弃用即致命）^[2]
AltSchool	融资 $174M（含扎克伯格）	2021 缩为教育咨询公司 ^[2]^[5]	双线并行（年烧 $4000 万办校 + 做软件）+ 学生被当"试验品"伦理困境 + 软件 $150–500/生/年对公校太贵 ^[2]
Summit Learning	CZI 近 $2 亿	多地家长请愿、学生罢课退出 ^[2]^[5]	削减人际互动（核心投诉"太多屏幕、太少老师"）+ 与 19 家第三方共享数据（Facebook 丑闻背景下政治敏感）+ 实施保真度差 ^[2]
Gates 个性化学习	逾 $3 亿 + 教育部 i3 约 $14 亿	RAND 2017 仅 +3 个百分点、"谨慎的故事" ^[2]	"资助结束即项目停止"，学区从未内化、只是在花外部钱；最难的"能力制进阶"几乎无人真做 ^[2]
Teach to One: Math	联邦 i3 评估	"无因果证据显示正向或负向效果" ^[2]	设计较弱的相关性研究（23% 增长）不能归因 ^[2]

AI 时代的新死亡名单 ^[3]^[5]：Quizlet Q-Chat（2025.06.30 关闭——单用户生成式辅导的推理成本在商业定价下不可持续）；Sizzle AI（1.7M 用户仍在 2025.10 被收购，纯 AI 自学 C 端独立存活极难）；AllHere（$12M VC + LAUSD $6M 合同，2024.08 破产 + 刑事调查）；Udacity/Coursera/edX（MOOC 三巨头先后转向 B2B/学位，早期完成率仅约 6%）^[4]。

一条贯穿性反驳（须保留）：自适应工具并非"全部失败"。作为补充时有可复现 RCT 证据——Carnegie MATHia 第二年 +0.20 SD、ALEKS 补充 g=0.43、DreamBox g=0.32；但作为替代教师时全部崩溃（ALEKS 替代 g=0.05）^[2]^[5]。统一结论："作为补充有效，试图替代教师则失败。"

2. 八大共同失败模式

把所有坟场案例抽象，得到八个反复出现的死亡模式 ^[2]^[5]，本项目应逐条对照自检：

过度承诺（Over-claim）——承诺技术做不到的事，制造不可及期望，使整个品类失信（Knewton/AltSchool/Summit 皆如此）。
黑盒算法——不解释"为什么给你这道题"，教师和学生无法建立信任，最终弃用。
教师被边缘化——最核心的失败。多数自适应产品为"减少对教师依赖"而设计，但 Khan 的 20 万人研究证明最大差异来自教师层面的实施而非平台本身。
商业模式不可持续——VC"快速增长"逻辑与教育"慢、决策周期长、付费能力低"冲突；资金一停模式即崩。
伪个性化——把"答题分支选下一题"当成"个性化"，并未真正建模学习风格/认知/动机/情感。
马太效应——学习技术最惠及已经在学习的学生，最需要帮助的学生受益最少（Reich《Failure to Disrupt》）。
实施保真度问题——好产品被劣质实施所杀；Summit 在自有学校运作良好，在缺设备/网络/培训的学校一败涂地。
数据隐私——结构性政治风险；未成年人数据敏感，足以引发大规模家长恐慌。

对本项目的转译：失败模式 3/6/7 共同指向一条——实施保真度与马太效应是产品问题，不是借口。不能用"学校没按我们说的做"解释失败；降级方案、对弱基础孩子的额外脚手架，必须是产品设计的一部分。

3. 学生为何不学：动机、留存、辍学的科学

这是历史第一死因——比任何技术问题都更致命 ^[4]^[5]。

辍学的残酷数字 ^[4]：MOOC 完成率中位数仅 12.6%（范围 0.7–52.1%）；52% 注册者从未开始学习（edX 六年无改善）——问题甚至出在"坚持"之前的"启动"阶段。参与度在第一、二周急剧下降后趋平，冷启动窗口是决定性的 ^[4]。

为什么不学——根因清单（证据强度标注） ^[4]^[1]^[6]： 1. 低自我调节（SRL）：缺目标设定、时间管理、元认知监控，在无结构环境中迅速放弃（强）。 2. 动机三需要未满足（SDT）：感知不到自主/胜任/归属（强）。SDT 元分析显示自主支持干预 g=1.14、胜任 g=0.48，但归属感干预总体不显著（g=0.44）——暗示归属感难以靠简单干预提升 ^[4]。 3. 社交孤立与无问责：一个人学没有问责闭环，孤独触发倦怠；社交临场感与满意度相关 r=0.56（强）。 4. 青少年认知/元认知尚未成熟：12–16 岁延迟满足、目标坚持等执行功能尚在发育，约 15 岁才基本成熟——要求他们在无人督促下自主持续学习，从神经发育看就是强人所难（强）^[4]。 5. 马太效应：高 SRL/高 SES 越学越强，弱势越学越迷失。澳洲 6.6 万高中生研究——贫困农村学生使用 ITS 反而扩大了与优势群体的差距 ^[4]。 6. 启动失败（52% 从未开始）：意图-行为鸿沟（强）。 7. 游戏化反噬：连续打卡（streak）等控制性机制侵蚀内在动机；以维持 streak 为动机的用户六个月后留存显著更低（中-强）^[4]。 8. 新颖性效应：初期高参与来自新鲜感，4–10 周内效果减半甚至归零（中）^[4]。 9. AI 直接给答案制造学习幻觉：见主题二 Bastani（强）。 10. 行为干预规模化效果衰减 10 倍（中-强）^[4]。

游戏化的双刃剑（须保留的细节） ^[4]：过度理由效应——对内在驱动的行为施加外在奖励，会把内在动机替换为外在动机，奖励撤除后动机不复存在。但积极反馈/进度可视化（非竞争性）能增强胜任感、维持内在动机；克服新颖性衰减是可能的（3 年纵向研究第二年参与度反升）。重点是"游戏化什么"和"如何退出"。

4. Khanmigo 参与度危机：最贴近本项目的一面镜子

Khanmigo 是与本项目最像的护栏式 AI 辅导，它的危机是最值钱的一课 ^[3]^[5]^[6]。

先澄清一个误解（事实）：Khanmigo 没有关闭，仍在运营并扩张学区版（SY24-25 达 795 学区、近 150 万学生）；只是个人付费版（$4/月）2024 底转免费、教师版微软资助全球免费 ^[3]^[5]。"关闭"传言多来自与真正关闭的 Quizlet Q-Chat 混淆 ^[3]。

参与度危机（事实） ^[3]^[5]： - 有权限的学生实际使用率仅 15%；Sal Khan 自评"对大多数学生是 non-event（无足轻重）"。 - Khan 官方效果报告：推荐使用量（每周 30 分钟）能带来约 20% 学习增益（effect size 0.36），但实际达标率仅约 9%。 - "5% 问题"：早期强效果量（0.26）是仅纳入 5% 高使用量学生后得出，95% 低参与学生被排除——降低门槛后效果缩水 ^[3]。 - Stanford CEPA：无人监督下使用量在三周后下降 60% ^[3]。

失败根因（多视角，本项目必须吸取） ^[3]： - 根本悖论：苏格拉底式设计要求学生"知道自己不知道什么"才能提有效问题，但最需要帮助的学生恰恰缺乏这种元认知能力。"仅对本来就会成功的学生有效"（Dan Meyer 等多源印证）。 - 被动工具结构性缺陷：最初设计为"等学生点击图标求助"，但初高中生遇困难时不会自发求助 AI。Sal Khan 比喻："我走进教室坐在后排，等学生来找我——有些人会来，大多数不会。" - "贴在旧课程库上"的局限：苏格拉底辅导只能在既有练习题语境下工作，不能主动生成千人千面的新内容——这正是本项目"AI 原生生成"要超越的根本差异。 - 动机问题被忽视（Khan 本人 2026 承认）："工具再好也没解决为什么学生不想学；我们最大的杠杆是真正投资于人的系统（human systems）。"

2026 重设计的方向（值得直接借鉴） ^[3]：从"等待召唤"→做题过程中主动可见、答错后自动触发介入；从"通用苏格拉底提问"→区分"答题前/答题后"两种支持；从"不用历史数据"→读取技能掌握度个性化复习。内部 A/B 显示综合优化使"下一题正确率"提升 6.1 个百分点 ^[3]。

Khanmigo 做对的也要记住 ^[3]：苏格拉底护栏理念正确（Bastani 证据）、Common Sense Media 给 4 星（高于 ChatGPT）、与世界级内容库深度整合、透明的自我批评文化。本项目要学它的护栏与诚实，避它的"被动等待"与"无内容生成"。

5. 依赖答案与作弊：本品类的头号致命陷阱

这是与本项目护栏直接相关、被 6 份报告交叉印证的核心风险 ^[1]^[2]^[3]^[4]^[5]^[6]。Bastani PNAS 的完整证据见主题二；这里从"失败模式"角度强调三点：

学生会把平台当题库/答案机——生成式 AI 在练习中提高当场表现，但无约束使用会损害后续无辅助考试表现，且学生不自知（即使高成就学生也过度乐观）^[1]^[2]。
AI 解释制造"流畅感错觉"——AI 讲得流畅，学生容易以为自己懂了，但真正学习需要提取、生成、解释、迁移而非只听懂 ^[6]。
练习正确率 ≠ 真实掌握——若只看当场正确率，会把"AI 帮出来的表现"误认为学生能力；掌握判定必须区分"辅助下正确"和"独立正确" ^[1]^[6]。

认知卸载/元认知懈怠：AI 降低心智努力、短期表现更好，但可能形成认知卸载，削弱自我调节 ^[1]。产品指标因此不能只看"完成时间下降"，要监测"独立完成比例、提示层级、复测保持" ^[1]。

个性化兴趣包装的风险：AI 容易把题包装成 Minecraft/篮球，但连接可能牵强、稀释学科结构——兴趣定制必须接"兴趣-学科连接库"，无 verified 连接时回退中性严谨内容 ^[6]（对应本项目 FR-10 与决策 D-2）。

6. AI 新风险与"成功证据"的脆弱性

AI 自适应的技术风险 ^[1]^[5]^[6]：黑箱推荐导致不信任、难纠错；冷启动/数据稀疏使弱基础学生易被误分层；AI 幻觉/错误反馈让学生形成错误概念且难判断可靠性（代数题必须接 CAS/规则引擎，LLM 不做最终判分）；DKT 高 AUC 不可信（82% 研究只用单一数据集、存在标签泄漏，部署精度显著下降——不应宣称"AI 精准追踪掌握度"）；指标错配（活跃/做题量/当场正确率掩盖真实学习）。

一个反复出现的警告——别误用"成功证据" ^[5]： - "AI ≈ 2 年学习量"（World Bank 尼日利亚）实为英语 +0.23 SD vs 极低基准、6 周、有教师全程在场，不代表无监督自学。 - Kestin"2 倍课堂"是单一小样本（N=194），脆弱。 - 元分析高效应量（g≈1.1）主要反映发表偏差，预注册大 RCT 通常只有 0.2–0.3 SD。

7. 有证据支持的缓解机制（正向反证）

坟场之外，也有"确实留住了学生"的设计，证据明确 ^[1]^[4]：

外部问责（家长/教师/教练轻量监督）：K-12 在线参与高度依赖家庭与教师反馈；设计"每周 10 分钟可执行"介入面板（缺席/卡点/复测失败/该问的问题）^[1]。
"高科技 + 高温情"（High Tech, High Touch）：在线课加入教学/社交/认知临场感综合重设计，少数族裔学生通过率与次年留存显著提升（Project COMPASS RCT）^[4]。
冷启动是关键：参与度下滑主要在第一周，留住后趋于平稳；事先填写"何时学习"的学生持续率显著更高（J-PAL）^[4]。
归属感来自具体而真实的联结：抽象"欢迎语"无效，个人化、连接学生生活经历的周度沟通有效 ^[4]。
掌握式学习的胜任感效应：当学生感到"我真的会了"，内在动机被强化——与打卡式"空洞留存"根本不同的良性循环 ^[4]。
自我调节脚手架（SRL）：在线/混合场景 ES≈0.69；把计划、监控、反思、求助做成每次学习固定闭环 ^[1]^[4]。
同伴互动的因果证据：MOOC RCT 显示一对一同步讨论使次周完成率 +10%、讨论版 +4.3%；同伴导师显著提升动机与考试报名 ^[4]。
掌握式 + 间隔重复 + 检索练习 + Productive Failure：稳定有效，但弱基础学生需更短任务、更强脚手架 ^[1]^[5]。

8. 矛盾与分歧（须保留）

效应量分歧巨大：ITS/AI 辅导元分析高值 g≈1.1，但高值主要反映发表偏差，预注册大 RCT 仅 0.2–0.3 SD——同一品类证据强度差一个数量级 ^[2]^[5]。
"全部失败" vs "作为补充有效"：坟场叙事与"MATHia/ALEKS/DreamBox 作为补充有效"并存，已自洽为"补充有效、替代失败" ^[2]^[5]。
Khanmigo "关闭" vs "未关闭"：报告一致纠正为误解，但与外部普遍认知存在矛盾 ^[3]^[5]^[6]。
归属感干预有效性：简单/通用干预无效（g=0.44 不显著），但具体/真实/定制化干预有效（Science Advances RCT）^[4]。
问责干预的情境依赖：德国 RCT 显著，但 MOOC 问责实验对整体完成率无显著提升——效果具情境依赖性 ^[4]。
新颖性效应对 AI 产品的适用性：仅为推测，尚无直接 RCT 证据，需 3 个月以上追踪验证 ^[4]^[5]。
Summit 是"失败"还是"部分反弹"：标题"失败案例"，正文却给出 93% 续用率作为反驳 ^[2]。

9. 对本项目的设计启示：失败规避清单

把坟场教训翻译成本项目的"不要做"与"必须做"，逐条对照现有设计决策。

战略级规避（来自坟场） ^[2]^[5]： 1. 永远有护栏、永远不给答案（Bastani PNAS 是铁证，不做妥协）——FR-7。 2. 作为补充不作为替代——所有有效自适应工具都是辅助；本项目定位"自学路径"而非"取代老师"。 3. 透明算法、可解释——给学生家长解释"为什么推送这道题"，不做黑盒。 4. 从数学/STEM 做起——可验证科目更适合护栏式 AI（接符号引擎校验），文科幻觉风险更高（呼应 D-4 深挖一条线）。 5. 实施保真度是产品问题——降级方案必须是产品设计的一部分（FR-3→FR-5 优雅降级）。 6. 针对有自学意愿的孩子——马太效应是结构性问题，针对"想自学但缺资源"的孩子更易奏效（呼应 persona 泛人群定位）。 7. 开源 + 非营利是差异化护城河——不受 VC"快速增长"压力、不用数据换商业价值，从根上解决"商业目标 vs 教育目标"冲突 ^[2]^[5]。 8. 别承诺"革命"——可承诺"让有自学意愿的孩子以更低成本学到更多"，可验证、诚实（不对外宣称未经独立验证的学习倍数）。

最大剩余风险（按优先级） ^[5]： - 🔴 学生不来/不持续用（动机-留存-马太效应，历史第一死因）——应作为独立产品挑战专项立项，而非附属功能（呼应家长仪表盘 FR-9、留存设计）。 - 🟡 "生成式 UI 实时内容"留存未被任何人验证——先做小 PoC。 - 🟡 新颖性效应污染早期数据——至少追踪 3 个月再下结论。 - ❓ 算力可持续性——创始人已决定本阶段不纳入考量，但留缓存/预生成口子。

掌握判定的硬约束（防"看起来学了但没学会"） ^[6]：掌握判定应至少含 5 项——① 当场独立正确 ② 用提示后能无提示复做 ③ 1/3/7 天后保持 ④ 变式题能迁移 ⑤ 能用自己的话解释；A/B 评估不能只看当日正确率和用时；家长端展示独立完成率/提示依赖度/复习欠账与下一步行动，服务行动而非制造监控羞辱。

一句话总结：这座坟场反复教一件事——杀死教育产品的不是"技术不够强"，而是"学生不来、来了浅用、浅用还以为学会了、规模化后效果蒸发"。本项目的护栏、双主指标、家长鼓励式问责、对弱基础孩子的额外脚手架，本质都是在正面迎击这四道死因。

三、失败模式与风险防御

三、失败模式与风险防御

1. 自适应学习平台坟场：钱多、技术强，照样死

2. 八大共同失败模式

3. 学生为何不学：动机、留存、辍学的科学

4. Khanmigo 参与度危机：最贴近本项目的一面镜子

5. 依赖答案与作弊：本品类的头号致命陷阱

6. AI 新风险与"成功证据"的脆弱性

7. 有证据支持的缓解机制（正向反证）

8. 矛盾与分歧（须保留）

9. 对本项目的设计启示：失败规避清单

来源