总览：从调研到产品设计的串联

把 36 篇调研的核心结论汇成一条主线，串到 v1 的每一个关键设计决策。

总览：从调研到产品设计的串联

这是整套综述的入口。它把 36 篇调研（约 54 万字）的核心结论汇成一条主线，并逐条串到 AI 版可汗学院 v1 的每一个关键设计决策。读完本篇，你应该能回答：我们为什么这样设计这个产品，每个决策背后站着哪些证据。

七篇主题综述分别深挖一个领域，本篇负责连接它们：一、竞品与平台 · 二、学习科学证据 · 三、失败模式与风险 · 四、学习者分层与人机边界 · 五、教学法与 AI 原生方法 · 六、人的卷入 · 七、内部素材与共创

1. 六条贯穿全部调研的核心论断

把 36 篇报告读完，有六条结论反复出现、互相印证，构成本项目的"地基判断"：

"好玩但没学会"是本品类的头号失败模式，也是本项目最大的护城河机会。 Bastani PNAS 千人 RCT 证明：能直接向 AI 要答案的学生，练习表现提升，但撤掉 AI 后独立考试反而更差，且学生不自知 ^[5]^[6]。这把"AI 永不直接给答案"从一条产品偏好升级为架构级护栏。
杀死教育产品的不是"技术不够强"，而是"学生不来、来了浅用、浅用还以为学会了、规模化后效果蒸发"。 自适应学习的资本坟场（Knewton $182M、AltSchool $174M、Summit CZI $2 亿）和 Khanmigo 的参与度危机（有权限学生仅 15% 使用）都指向同一点：动机-留存才是历史第一死因，不是算法 ^[7]^[8]^[9]。
内容会被 AI 免费化，胜负手在"动机 / 关系 / 护栏"，不在"内容层"。 自学的真正瓶颈是"动机—自我调节—情绪韧性"三层；知识传递可被 AI 近乎免费替代，但"让孩子愿意开始、扛住挫败、坚持到学会"必须靠重建"关系" ^[10]^[11]^[12]。
真正硬的证据指向一套朴素组合，而非花哨的 AI 噱头。 护栏式提示、步骤级反馈、间隔重复（d≈1.0）、提取练习、独立后测、自动验答——这些便宜、稳健、跨学科有效；而 g>1.0 的 AI 元分析高值多半是发表偏差（预注册大 RCT 通常只有 0.2–0.3 SD）^[5]^[6]。"用什么 AI 不重要，怎么设计才重要。"
几乎每个"人的卷入"机制都有正反两面，成败全在设计细节。 家长 nudge 在信息不足的美国家庭有效（挂科 -30%），在高压的中国家庭却可能"反向"（深圳实验成绩下降）；排行榜能让 Duolingo 时长 +17%，也能让 Hanus & Fox 的班级内在动机全面下降 ^[16]^[17]。所以本项目要的不是"做不做"，而是"怎么设计"。
很多关键设计是团队在真实实践中独立得出的，与外部证据互证。 "教学生问 AI 而非替解题""作品导向、去货币去排名""first win"——这些写在冬令营领航员手册里的共识，恰好命中 Bastani 护栏、Deci 内在动机、冷启动窗口等学术结论 ^[18]。外部证据说"该这么做"，内部素材说"我们已经在这么做、且知道怎么落地"。

2. 七大主题速览

主题	一句话	对 v1 最关键的输出
一、竞品与平台	Synthesis/Astra Nova/Alpha 同源三平台 + 全球产品地图 + 中国市场	可借鉴（护栏/语气温度/掌握闭环/动机/Conundrums/低成本内容管线）+ 必避坑（AI 名不副实/卡死无人管/摄像头监控/营销式倍数）^[1]^[2]^[3]^[4]
二、学习科学证据	哪些机制真有效、效果多大、证据多硬	Bloom 2σ 须祛魅（实际 0.3–0.8σ）；护栏/间隔重复/提取练习是铁证；DKT 不可靠须谨慎 ^[5]^[6]
三、失败模式与风险	别人是怎么死的	八大失败模式 + 学生为何不学 + Khanmigo 危机；动机-留存是第一死因 ^[7]^[8]^[9]
四、学习者分层与人机边界	哪些必须用人、怎么分层、怎么识别状态	分"可变状态"不分"固定标签"；学习风格祛魅；建议型 AI 而非处方型；低成本真人方案 ^[10]^[11]^[12]
五、教学法与 AI 原生方法	七种学习法证据天差地别，须分阶段	费曼/组块/知识图谱已在 v1；概念图/跨学科 v1.x；PBL/拼图 v2；联通主义仅理念 ^[13]^[14]^[15]
六、人的卷入	家长/同伴/社交化/AI 模拟同伴怎么卷入不踩雷	六层卷入模型 + 五条护栏（鼓励非监控/个人进步榜/深度不计时/不开陌生人视频/AI 必标注）^[16]^[17]
七、内部素材与共创	产品在团队脑子里的样子 + 谁供给内容	护栏是内部共识；游戏化照搬冬令营 v5.0；内容供给走 L0–L4 分层委托制 ^[18]^[19]

3. 调研如何映射到 v1 的每个设计决策

这是本篇的核心——把现有 PRD/design 的每个关键决策，对回支撑它的调研证据：

v1 设计	调研支撑	来源
FR-7 护栏式解题（AI 永不直接给答案）★ 架构级	Bastani PNAS：无护栏撤 AI 后独立考试更差且学生不自知；护栏消除负效应。内部冬令营手册独立达成同一共识	^[5]^[6]^[18]
FR-8 数学自动验答（符号引擎挡幻觉）	AI 会"自信地"生成错误数学内容（Alpha 出现四选项无一正确）；代数题必须接 CAS/规则引擎、LLM 不做最终判分	^[1]^[6]
双主指标（留存 + 掌握判定）	反对"营销式 effect size"；掌握判定须含独立后测/延迟复测/迁移/解释，区分"辅助下正确"与"独立正确"	^[5]^[6]^[9]
FR-1/FR-2 知识图谱 + 诊断 + 掌握式进阶	知识点细粒度是掌握式基础设施（松鼠 AI 拆 1 万知识点）；但 DKT 不可靠，v1 用"规则+BKT+独立后测"，DKT 仅作后台信号	^[4]^[6]
FR-3 AI 生成式高交互内容（心脏）	PhET（g≈0.94）证明交互模拟可超越讲授；Generative UI 技术已可行，是最大前沿机会但留存未验证，须 PoC + 优雅降级	^[2]^[3]
FR-6 费曼出口	自我解释 g=0.55、Protégé 效应；"用自己的话 paraphrasing 优于选句子"；七法中证据最强、与护栏天然契合	^[13]^[14]
FR-4/FR-10 喜好定制 + 兴趣-学科连接库	AI 擅长识别兴趣但不擅长做有意义连接，常生成牵强类比；须 verified 连接优先、无则回退中性，概念类比必经审核	^[1]^[14]
FR-9 家长仪表盘（鼓励式问责）	外部鼓励显著提升使用量（Khan 仅 ~9% 达推荐用量）；但"深圳反向效应"警示——须周摘要而非实时监控、隐藏排名、给认可脚本、激活互惠孝道	^[9]^[16]^[17]
FR-5 传统视频+题库兜底	不是所有孩子都要生成式交互；也是生成失败的优雅降级目标；坟场教训"作为补充有效、替代教师则失败"	^[3]^[7]
FR-14 教师分层共创（L0–L4 + Staging/Canon）	教育内容错误代价极高、需 L1 学科权威不可绕过；方案 C 分层委托制最适合公益项目；审核即生产 AI 训练数据（正向飞轮）	^[19]
分层 = 可变状态非固定标签	学习风格 meshing 被证伪、MBTI/IQ/成长思维不作分层；按掌握度/SRL/情绪/动机取向动态分层	^[10]^[11]
社交/游戏化设计	个人进步榜 + 小池子 + 团队 PK + 可退出；深度学科不计时；不做全局排行；AI 模拟同伴必须标注（EU AI Act）	^[16]^[17]
v1 深挖一条数学主线（D-4）	数学可验证、错因可枚举、最适合护栏；坟场教训"从一个学科闭环做起"；内部 MVP 收敛共识	^[7]^[18]
开源非营利定位	是差异化护城河（不受 VC 增长压力、不用数据换商业价值）；双减政策对开源公益反而顺风；正面对抗 EdTech 马太效应	^[4]^[7]

4. 证据强弱与诚实边界

本项目的一条质量底线是"事实与推测分离"。把全部调研按证据强度分三档：

🟢 铁证（可直接作架构约束）：护栏式辅导（Bastani PNAS）、间隔重复（d≈1.0）、提取练习、步骤级反馈、掌握式进阶（ES≈0.52）、概念图主动构建（g=0.72）、PBL（d≈0.71–0.88，但需支架）^[5]^[6]^[13]。
🟡 有效但有边界（须谨慎设计）：自适应（"补充有效、替代无效"）、游戏化（小到中效应、对胜任感几乎无帮助、设计不当反噬）、AI Tutor RCT（0.23–1.3 SD 但依赖精心工程化、不可外推）、跨学科（中国刚需但浅层关联牺牲深度）、家长参与（d=0.37 但类型差异极大）^[2]^[3]^[16]。
🔴 脆弱/推测（不可当目标或卖点）：Bloom 2σ（实际 0.3–0.8σ）、Alpha"2.6x/10x"（统计游戏）、AIEd 元分析 g>1.0（发表偏差）、DKT"精准追踪"（标签泄漏、跨会话失败）、拼图法（最严格 RCT ES=0.00）、联通主义（无实证）、生成式 UI 留存（未被任何人验证）^[5]^[6]^[15]。

诚实边界：本项目可承诺"让有自学意愿的孩子以更低成本学到更多"（可验证），不应对外宣称任何未经独立验证的"学习倍数"。早期数据须警惕新颖性效应（4–10 周衰减），至少追踪 3 个月；试点到放量须做"适应性再设计"而非简单复制 ^[6]^[7]。

5. 最大的剩余风险与待决问题

按优先级排列的剩余风险 ^[7]： - 🔴 学生不来/不持续用（动机-留存-马太效应，历史第一死因）——应作为独立产品挑战专项立项。 - 🟡 "生成式 UI 实时内容"的留存未被任何人验证——先做小 PoC。 - 🟡 新颖性效应污染早期数据——至少追踪 3 个月。 - 🟡 社交/同伴缺失盲区——所有竞品的共性短板，需主动设计但避开安全/伦理雷。 - ❓ 算力可持续性——创始人已决定本阶段不纳入考量，但留缓存/预生成口子。

须在 PRD 收口的内部张力 ^[18]^[19]：开源边界（完全开源 vs 分层开源）、共创工作流复杂度（完整 L0–L4 vs v1 轻量表单）、掌握判定阈值、诊断题量与首次体验时长、家长可见信息隐私默认值、文科评价方式（不能复用数学正确率逻辑）。

6. 一句话总纲

竞品们证明了"AI + 游戏化能提升参与度与速度"，但同样证明了"参与度 ≠ 学会"、"AI 标签 ≠ 真 AI"、"内部数据 ≠ 独立证据"。学术界给出了一套朴素却硬的有效组合——先尝试、不给答案、步骤级反馈、间隔重复、独立后测、自动验答。坟场告诉我们真正的死因是"学生不来、浅用、假学会、规模化蒸发"。本项目的全部设计——护栏式解题 + 数学自动验答 + 双主指标 + 鼓励式家长问责 + 对弱基础孩子的额外脚手架 + 分层教师共创——本质上就是把这些证据产品化，并把"真的学会"做成不可绕过的架构。剩下要做的，是抵抗住"用更花哨的 AI 指标替代真实掌握"的诱惑，先把一条数学主线的闭环跑通、拿到双主指标，再谈扩展。

总览：从调研到产品设计的串联

总览：从调研到产品设计的串联

1. 六条贯穿全部调研的核心论断

2. 七大主题速览

3. 调研如何映射到 v1 的每个设计决策

4. 证据强弱与诚实边界

5. 最大的剩余风险与待决问题

6. 一句话总纲

来源