总览:从调研到产品设计的串联
把 36 篇调研的核心结论汇成一条主线,串到 v1 的每一个关键设计决策。
总览:从调研到产品设计的串联
这是整套综述的入口。它把 36 篇调研(约 54 万字)的核心结论汇成一条主线,并逐条串到 AI 版可汗学院 v1 的每一个关键设计决策。读完本篇,你应该能回答:我们为什么这样设计这个产品,每个决策背后站着哪些证据。
七篇主题综述分别深挖一个领域,本篇负责连接它们: 一、竞品与平台 · 二、学习科学证据 · 三、失败模式与风险 · 四、学习者分层与人机边界 · 五、教学法与 AI 原生方法 · 六、人的卷入 · 七、内部素材与共创
1. 六条贯穿全部调研的核心论断
把 36 篇报告读完,有六条结论反复出现、互相印证,构成本项目的"地基判断":
-
"好玩但没学会"是本品类的头号失败模式,也是本项目最大的护城河机会。 Bastani PNAS 千人 RCT 证明:能直接向 AI 要答案的学生,练习表现提升,但撤掉 AI 后独立考试反而更差,且学生不自知 [5][6]。这把"AI 永不直接给答案"从一条产品偏好升级为架构级护栏。
-
杀死教育产品的不是"技术不够强",而是"学生不来、来了浅用、浅用还以为学会了、规模化后效果蒸发"。 自适应学习的资本坟场(Knewton $182M、AltSchool $174M、Summit CZI $2 亿)和 Khanmigo 的参与度危机(有权限学生仅 15% 使用)都指向同一点:动机-留存才是历史第一死因,不是算法 [7][8][9]。
-
内容会被 AI 免费化,胜负手在"动机 / 关系 / 护栏",不在"内容层"。 自学的真正瓶颈是"动机—自我调节—情绪韧性"三层;知识传递可被 AI 近乎免费替代,但"让孩子愿意开始、扛住挫败、坚持到学会"必须靠重建"关系" [10][11][12]。
-
真正硬的证据指向一套朴素组合,而非花哨的 AI 噱头。 护栏式提示、步骤级反馈、间隔重复(d≈1.0)、提取练习、独立后测、自动验答——这些便宜、稳健、跨学科有效;而 g>1.0 的 AI 元分析高值多半是发表偏差(预注册大 RCT 通常只有 0.2–0.3 SD)[5][6]。"用什么 AI 不重要,怎么设计才重要。"
-
几乎每个"人的卷入"机制都有正反两面,成败全在设计细节。 家长 nudge 在信息不足的美国家庭有效(挂科 -30%),在高压的中国家庭却可能"反向"(深圳实验成绩下降);排行榜能让 Duolingo 时长 +17%,也能让 Hanus & Fox 的班级内在动机全面下降 [16][17]。所以本项目要的不是"做不做",而是"怎么设计"。
-
很多关键设计是团队在真实实践中独立得出的,与外部证据互证。 "教学生问 AI 而非替解题""作品导向、去货币去排名""first win"——这些写在冬令营领航员手册里的共识,恰好命中 Bastani 护栏、Deci 内在动机、冷启动窗口等学术结论 [18]。外部证据说"该这么做",内部素材说"我们已经在这么做、且知道怎么落地"。
2. 七大主题速览
| 主题 | 一句话 | 对 v1 最关键的输出 |
|---|---|---|
| 一、竞品与平台 | Synthesis/Astra Nova/Alpha 同源三平台 + 全球产品地图 + 中国市场 | 可借鉴(护栏/语气温度/掌握闭环/动机/Conundrums/低成本内容管线)+ 必避坑(AI 名不副实/卡死无人管/摄像头监控/营销式倍数)[1][2][3][4] |
| 二、学习科学证据 | 哪些机制真有效、效果多大、证据多硬 | Bloom 2σ 须祛魅(实际 0.3–0.8σ);护栏/间隔重复/提取练习是铁证;DKT 不可靠须谨慎 [5][6] |
| 三、失败模式与风险 | 别人是怎么死的 | 八大失败模式 + 学生为何不学 + Khanmigo 危机;动机-留存是第一死因 [7][8][9] |
| 四、学习者分层与人机边界 | 哪些必须用人、怎么分层、怎么识别状态 | 分"可变状态"不分"固定标签";学习风格祛魅;建议型 AI 而非处方型;低成本真人方案 [10][11][12] |
| 五、教学法与 AI 原生方法 | 七种学习法证据天差地别,须分阶段 | 费曼/组块/知识图谱已在 v1;概念图/跨学科 v1.x;PBL/拼图 v2;联通主义仅理念 [13][14][15] |
| 六、人的卷入 | 家长/同伴/社交化/AI 模拟同伴怎么卷入不踩雷 | 六层卷入模型 + 五条护栏(鼓励非监控/个人进步榜/深度不计时/不开陌生人视频/AI 必标注)[16][17] |
| 七、内部素材与共创 | 产品在团队脑子里的样子 + 谁供给内容 | 护栏是内部共识;游戏化照搬冬令营 v5.0;内容供给走 L0–L4 分层委托制 [18][19] |
3. 调研如何映射到 v1 的每个设计决策
这是本篇的核心——把现有 PRD/design 的每个关键决策,对回支撑它的调研证据:
| v1 设计 | 调研支撑 | 来源 |
|---|---|---|
| FR-7 护栏式解题(AI 永不直接给答案)★ 架构级 | Bastani PNAS:无护栏撤 AI 后独立考试更差且学生不自知;护栏消除负效应。内部冬令营手册独立达成同一共识 | [5][6][18] |
| FR-8 数学自动验答(符号引擎挡幻觉) | AI 会"自信地"生成错误数学内容(Alpha 出现四选项无一正确);代数题必须接 CAS/规则引擎、LLM 不做最终判分 | [1][6] |
| 双主指标(留存 + 掌握判定) | 反对"营销式 effect size";掌握判定须含独立后测/延迟复测/迁移/解释,区分"辅助下正确"与"独立正确" | [5][6][9] |
| FR-1/FR-2 知识图谱 + 诊断 + 掌握式进阶 | 知识点细粒度是掌握式基础设施(松鼠 AI 拆 1 万知识点);但 DKT 不可靠,v1 用"规则+BKT+独立后测",DKT 仅作后台信号 | [4][6] |
| FR-3 AI 生成式高交互内容(心脏) | PhET(g≈0.94)证明交互模拟可超越讲授;Generative UI 技术已可行,是最大前沿机会但留存未验证,须 PoC + 优雅降级 | [2][3] |
| FR-6 费曼出口 | 自我解释 g=0.55、Protégé 效应;"用自己的话 paraphrasing 优于选句子";七法中证据最强、与护栏天然契合 | [13][14] |
| FR-4/FR-10 喜好定制 + 兴趣-学科连接库 | AI 擅长识别兴趣但不擅长做有意义连接,常生成牵强类比;须 verified 连接优先、无则回退中性,概念类比必经审核 | [1][14] |
| FR-9 家长仪表盘(鼓励式问责) | 外部鼓励显著提升使用量(Khan 仅 ~9% 达推荐用量);但"深圳反向效应"警示——须周摘要而非实时监控、隐藏排名、给认可脚本、激活互惠孝道 | [9][16][17] |
| FR-5 传统视频+题库兜底 | 不是所有孩子都要生成式交互;也是生成失败的优雅降级目标;坟场教训"作为补充有效、替代教师则失败" | [3][7] |
| FR-14 教师分层共创(L0–L4 + Staging/Canon) | 教育内容错误代价极高、需 L1 学科权威不可绕过;方案 C 分层委托制最适合公益项目;审核即生产 AI 训练数据(正向飞轮) | [19] |
| 分层 = 可变状态非固定标签 | 学习风格 meshing 被证伪、MBTI/IQ/成长思维不作分层;按掌握度/SRL/情绪/动机取向动态分层 | [10][11] |
| 社交/游戏化设计 | 个人进步榜 + 小池子 + 团队 PK + 可退出;深度学科不计时;不做全局排行;AI 模拟同伴必须标注(EU AI Act) | [16][17] |
| v1 深挖一条数学主线(D-4) | 数学可验证、错因可枚举、最适合护栏;坟场教训"从一个学科闭环做起";内部 MVP 收敛共识 | [7][18] |
| 开源非营利定位 | 是差异化护城河(不受 VC 增长压力、不用数据换商业价值);双减政策对开源公益反而顺风;正面对抗 EdTech 马太效应 | [4][7] |
4. 证据强弱与诚实边界
本项目的一条质量底线是"事实与推测分离"。把全部调研按证据强度分三档:
- 🟢 铁证(可直接作架构约束):护栏式辅导(Bastani PNAS)、间隔重复(d≈1.0)、提取练习、步骤级反馈、掌握式进阶(ES≈0.52)、概念图主动构建(g=0.72)、PBL(d≈0.71–0.88,但需支架)[5][6][13]。
- 🟡 有效但有边界(须谨慎设计):自适应("补充有效、替代无效")、游戏化(小到中效应、对胜任感几乎无帮助、设计不当反噬)、AI Tutor RCT(0.23–1.3 SD 但依赖精心工程化、不可外推)、跨学科(中国刚需但浅层关联牺牲深度)、家长参与(d=0.37 但类型差异极大)[2][3][16]。
- 🔴 脆弱/推测(不可当目标或卖点):Bloom 2σ(实际 0.3–0.8σ)、Alpha"2.6x/10x"(统计游戏)、AIEd 元分析 g>1.0(发表偏差)、DKT"精准追踪"(标签泄漏、跨会话失败)、拼图法(最严格 RCT ES=0.00)、联通主义(无实证)、生成式 UI 留存(未被任何人验证)[5][6][15]。
诚实边界:本项目可承诺"让有自学意愿的孩子以更低成本学到更多"(可验证),不应对外宣称任何未经独立验证的"学习倍数"。早期数据须警惕新颖性效应(4–10 周衰减),至少追踪 3 个月;试点到放量须做"适应性再设计"而非简单复制 [6][7]。
5. 最大的剩余风险与待决问题
按优先级排列的剩余风险 [7]: - 🔴 学生不来/不持续用(动机-留存-马太效应,历史第一死因)——应作为独立产品挑战专项立项。 - 🟡 "生成式 UI 实时内容"的留存未被任何人验证——先做小 PoC。 - 🟡 新颖性效应污染早期数据——至少追踪 3 个月。 - 🟡 社交/同伴缺失盲区——所有竞品的共性短板,需主动设计但避开安全/伦理雷。 - ❓ 算力可持续性——创始人已决定本阶段不纳入考量,但留缓存/预生成口子。
须在 PRD 收口的内部张力 [18][19]:开源边界(完全开源 vs 分层开源)、共创工作流复杂度(完整 L0–L4 vs v1 轻量表单)、掌握判定阈值、诊断题量与首次体验时长、家长可见信息隐私默认值、文科评价方式(不能复用数学正确率逻辑)。
6. 一句话总纲
竞品们证明了"AI + 游戏化能提升参与度与速度",但同样证明了"参与度 ≠ 学会"、"AI 标签 ≠ 真 AI"、"内部数据 ≠ 独立证据"。学术界给出了一套朴素却硬的有效组合——先尝试、不给答案、步骤级反馈、间隔重复、独立后测、自动验答。坟场告诉我们真正的死因是"学生不来、浅用、假学会、规模化蒸发"。本项目的全部设计——护栏式解题 + 数学自动验答 + 双主指标 + 鼓励式家长问责 + 对弱基础孩子的额外脚手架 + 分层教师共创——本质上就是把这些证据产品化,并把"真的学会"做成不可绕过的架构。剩下要做的,是抵抗住"用更花哨的 AI 指标替代真实掌握"的诱惑,先把一条数学主线的闭环跑通、拿到双主指标,再谈扩展。
来源
- 三平台深度调研总报告
- AI Tutor / AI 原生学习平台产品模式 2024–2026
- 成功案例解构——可迁移成功要素
- 中国市场——松鼠 AI / 学习机 / 双减专题
- 学术界对 AI 自适应/掌握式/游戏化自学的实证证据与批判
- 自适应/AI 自学平台最新论文与有效性证据
- 自适应/AI 自学平台——挑战、失败与成败综合调研
- Khan Academy & Khanmigo 深度复盘
- 学生为何不学——动机、留存、辍学的学习科学
- 学习者分层与人机边界——设计第一性原理
- 学生画像分层与自学路径设计
- AI 自学平台中的人机边界与低成本真人协助方案
- 四种学习法(联通主义/西蒙/费曼/拼图)AI 实现可行性
- 学生主动构建知识图谱 & 跨学科学习的可行性
- PBL + 学生上传成果 + AI 评价 + 游戏化可行性
- 人在学习系统中如何卷入(家长/同伴/社交化/AI 模拟同伴)
- 家长参与循证机制(nudge RCT/深圳反向效应/仪表盘设计)
- Get 笔记与飞书内部对话素材整理
- 教师共创与内容协作生产模式调研