总览:从调研到产品设计的串联

把 36 篇调研的核心结论汇成一条主线,串到 v1 的每一个关键设计决策。

总览:从调研到产品设计的串联

这是整套综述的入口。它把 36 篇调研(约 54 万字)的核心结论汇成一条主线,并逐条串到 AI 版可汗学院 v1 的每一个关键设计决策。读完本篇,你应该能回答:我们为什么这样设计这个产品,每个决策背后站着哪些证据。

七篇主题综述分别深挖一个领域,本篇负责连接它们: 一、竞品与平台 · 二、学习科学证据 · 三、失败模式与风险 · 四、学习者分层与人机边界 · 五、教学法与 AI 原生方法 · 六、人的卷入 · 七、内部素材与共创


1. 六条贯穿全部调研的核心论断

把 36 篇报告读完,有六条结论反复出现、互相印证,构成本项目的"地基判断":

  1. "好玩但没学会"是本品类的头号失败模式,也是本项目最大的护城河机会。 Bastani PNAS 千人 RCT 证明:能直接向 AI 要答案的学生,练习表现提升,但撤掉 AI 后独立考试反而更差,且学生不自知 [5][6]。这把"AI 永不直接给答案"从一条产品偏好升级为架构级护栏

  2. 杀死教育产品的不是"技术不够强",而是"学生不来、来了浅用、浅用还以为学会了、规模化后效果蒸发"。 自适应学习的资本坟场(Knewton $182M、AltSchool $174M、Summit CZI $2 亿)和 Khanmigo 的参与度危机(有权限学生仅 15% 使用)都指向同一点:动机-留存才是历史第一死因,不是算法 [7][8][9]

  3. 内容会被 AI 免费化,胜负手在"动机 / 关系 / 护栏",不在"内容层"。 自学的真正瓶颈是"动机—自我调节—情绪韧性"三层;知识传递可被 AI 近乎免费替代,但"让孩子愿意开始、扛住挫败、坚持到学会"必须靠重建"关系" [10][11][12]

  4. 真正硬的证据指向一套朴素组合,而非花哨的 AI 噱头。 护栏式提示、步骤级反馈、间隔重复(d≈1.0)、提取练习、独立后测、自动验答——这些便宜、稳健、跨学科有效;而 g>1.0 的 AI 元分析高值多半是发表偏差(预注册大 RCT 通常只有 0.2–0.3 SD)[5][6]"用什么 AI 不重要,怎么设计才重要。"

  5. 几乎每个"人的卷入"机制都有正反两面,成败全在设计细节。 家长 nudge 在信息不足的美国家庭有效(挂科 -30%),在高压的中国家庭却可能"反向"(深圳实验成绩下降);排行榜能让 Duolingo 时长 +17%,也能让 Hanus & Fox 的班级内在动机全面下降 [16][17]所以本项目要的不是"做不做",而是"怎么设计"。

  6. 很多关键设计是团队在真实实践中独立得出的,与外部证据互证。 "教学生问 AI 而非替解题""作品导向、去货币去排名""first win"——这些写在冬令营领航员手册里的共识,恰好命中 Bastani 护栏、Deci 内在动机、冷启动窗口等学术结论 [18]外部证据说"该这么做",内部素材说"我们已经在这么做、且知道怎么落地"。


2. 七大主题速览

主题 一句话 对 v1 最关键的输出
一、竞品与平台 Synthesis/Astra Nova/Alpha 同源三平台 + 全球产品地图 + 中国市场 可借鉴(护栏/语气温度/掌握闭环/动机/Conundrums/低成本内容管线)+ 必避坑(AI 名不副实/卡死无人管/摄像头监控/营销式倍数)[1][2][3][4]
二、学习科学证据 哪些机制真有效、效果多大、证据多硬 Bloom 2σ 须祛魅(实际 0.3–0.8σ);护栏/间隔重复/提取练习是铁证;DKT 不可靠须谨慎 [5][6]
三、失败模式与风险 别人是怎么死的 八大失败模式 + 学生为何不学 + Khanmigo 危机;动机-留存是第一死因 [7][8][9]
四、学习者分层与人机边界 哪些必须用人、怎么分层、怎么识别状态 分"可变状态"不分"固定标签";学习风格祛魅;建议型 AI 而非处方型;低成本真人方案 [10][11][12]
五、教学法与 AI 原生方法 七种学习法证据天差地别,须分阶段 费曼/组块/知识图谱已在 v1;概念图/跨学科 v1.x;PBL/拼图 v2;联通主义仅理念 [13][14][15]
六、人的卷入 家长/同伴/社交化/AI 模拟同伴怎么卷入不踩雷 六层卷入模型 + 五条护栏(鼓励非监控/个人进步榜/深度不计时/不开陌生人视频/AI 必标注)[16][17]
七、内部素材与共创 产品在团队脑子里的样子 + 谁供给内容 护栏是内部共识;游戏化照搬冬令营 v5.0;内容供给走 L0–L4 分层委托制 [18][19]

3. 调研如何映射到 v1 的每个设计决策

这是本篇的核心——把现有 PRD/design 的每个关键决策,对回支撑它的调研证据:

v1 设计 调研支撑 来源
FR-7 护栏式解题(AI 永不直接给答案)★ 架构级 Bastani PNAS:无护栏撤 AI 后独立考试更差且学生不自知;护栏消除负效应。内部冬令营手册独立达成同一共识 [5][6][18]
FR-8 数学自动验答(符号引擎挡幻觉) AI 会"自信地"生成错误数学内容(Alpha 出现四选项无一正确);代数题必须接 CAS/规则引擎、LLM 不做最终判分 [1][6]
双主指标(留存 + 掌握判定) 反对"营销式 effect size";掌握判定须含独立后测/延迟复测/迁移/解释,区分"辅助下正确"与"独立正确" [5][6][9]
FR-1/FR-2 知识图谱 + 诊断 + 掌握式进阶 知识点细粒度是掌握式基础设施(松鼠 AI 拆 1 万知识点);但 DKT 不可靠,v1 用"规则+BKT+独立后测",DKT 仅作后台信号 [4][6]
FR-3 AI 生成式高交互内容(心脏) PhET(g≈0.94)证明交互模拟可超越讲授;Generative UI 技术已可行,是最大前沿机会但留存未验证,须 PoC + 优雅降级 [2][3]
FR-6 费曼出口 自我解释 g=0.55、Protégé 效应;"用自己的话 paraphrasing 优于选句子";七法中证据最强、与护栏天然契合 [13][14]
FR-4/FR-10 喜好定制 + 兴趣-学科连接库 AI 擅长识别兴趣但不擅长做有意义连接,常生成牵强类比;须 verified 连接优先、无则回退中性,概念类比必经审核 [1][14]
FR-9 家长仪表盘(鼓励式问责) 外部鼓励显著提升使用量(Khan 仅 ~9% 达推荐用量);但"深圳反向效应"警示——须周摘要而非实时监控、隐藏排名、给认可脚本、激活互惠孝道 [9][16][17]
FR-5 传统视频+题库兜底 不是所有孩子都要生成式交互;也是生成失败的优雅降级目标;坟场教训"作为补充有效、替代教师则失败" [3][7]
FR-14 教师分层共创(L0–L4 + Staging/Canon) 教育内容错误代价极高、需 L1 学科权威不可绕过;方案 C 分层委托制最适合公益项目;审核即生产 AI 训练数据(正向飞轮) [19]
分层 = 可变状态非固定标签 学习风格 meshing 被证伪、MBTI/IQ/成长思维不作分层;按掌握度/SRL/情绪/动机取向动态分层 [10][11]
社交/游戏化设计 个人进步榜 + 小池子 + 团队 PK + 可退出;深度学科不计时;不做全局排行;AI 模拟同伴必须标注(EU AI Act) [16][17]
v1 深挖一条数学主线(D-4) 数学可验证、错因可枚举、最适合护栏;坟场教训"从一个学科闭环做起";内部 MVP 收敛共识 [7][18]
开源非营利定位 是差异化护城河(不受 VC 增长压力、不用数据换商业价值);双减政策对开源公益反而顺风;正面对抗 EdTech 马太效应 [4][7]

4. 证据强弱与诚实边界

本项目的一条质量底线是"事实与推测分离"。把全部调研按证据强度分三档:

诚实边界:本项目可承诺"让有自学意愿的孩子以更低成本学到更多"(可验证),不应对外宣称任何未经独立验证的"学习倍数"。早期数据须警惕新颖性效应(4–10 周衰减),至少追踪 3 个月;试点到放量须做"适应性再设计"而非简单复制 [6][7]


5. 最大的剩余风险与待决问题

按优先级排列的剩余风险 [7]: - 🔴 学生不来/不持续用(动机-留存-马太效应,历史第一死因)——应作为独立产品挑战专项立项。 - 🟡 "生成式 UI 实时内容"的留存未被任何人验证——先做小 PoC。 - 🟡 新颖性效应污染早期数据——至少追踪 3 个月。 - 🟡 社交/同伴缺失盲区——所有竞品的共性短板,需主动设计但避开安全/伦理雷。 - ❓ 算力可持续性——创始人已决定本阶段不纳入考量,但留缓存/预生成口子。

须在 PRD 收口的内部张力 [18][19]:开源边界(完全开源 vs 分层开源)、共创工作流复杂度(完整 L0–L4 vs v1 轻量表单)、掌握判定阈值、诊断题量与首次体验时长、家长可见信息隐私默认值、文科评价方式(不能复用数学正确率逻辑)。


6. 一句话总纲

竞品们证明了"AI + 游戏化能提升参与度与速度",但同样证明了"参与度 ≠ 学会"、"AI 标签 ≠ 真 AI"、"内部数据 ≠ 独立证据"。学术界给出了一套朴素却硬的有效组合——先尝试、不给答案、步骤级反馈、间隔重复、独立后测、自动验答。坟场告诉我们真正的死因是"学生不来、浅用、假学会、规模化蒸发"。本项目的全部设计——护栏式解题 + 数学自动验答 + 双主指标 + 鼓励式家长问责 + 对弱基础孩子的额外脚手架 + 分层教师共创——本质上就是把这些证据产品化,并把"真的学会"做成不可绕过的架构。剩下要做的,是抵抗住"用更花哨的 AI 指标替代真实掌握"的诱惑,先把一条数学主线的闭环跑通、拿到双主指标,再谈扩展。


来源

  1. 三平台深度调研总报告
  2. AI Tutor / AI 原生学习平台产品模式 2024–2026
  3. 成功案例解构——可迁移成功要素
  4. 中国市场——松鼠 AI / 学习机 / 双减专题
  5. 学术界对 AI 自适应/掌握式/游戏化自学的实证证据与批判
  6. 自适应/AI 自学平台最新论文与有效性证据
  7. 自适应/AI 自学平台——挑战、失败与成败综合调研
  8. Khan Academy & Khanmigo 深度复盘
  9. 学生为何不学——动机、留存、辍学的学习科学
  10. 学习者分层与人机边界——设计第一性原理
  11. 学生画像分层与自学路径设计
  12. AI 自学平台中的人机边界与低成本真人协助方案
  13. 四种学习法(联通主义/西蒙/费曼/拼图)AI 实现可行性
  14. 学生主动构建知识图谱 & 跨学科学习的可行性
  15. PBL + 学生上传成果 + AI 评价 + 游戏化可行性
  16. 人在学习系统中如何卷入(家长/同伴/社交化/AI 模拟同伴)
  17. 家长参与循证机制(nudge RCT/深圳反向效应/仪表盘设计)
  18. Get 笔记与飞书内部对话素材整理
  19. 教师共创与内容协作生产模式调研