二、学习科学与有效性证据

Bloom 2σ、护栏式辅导（Bastani）、掌握式学习、自适应/知识追踪、游戏化元分析——证据强弱与脆弱性提醒。

二、学习科学与有效性证据

本篇汇聚 4 份证据型报告 ^[1]^[2]^[3]^[4]，是整个项目的"证据地基"。它回答的不是"别人做了什么"，而是"哪些教学机制真的有效、效果有多大、证据有多硬"。一个贯穿全篇的态度：区分已验证的事实与被夸大的营销话术——很多看似铁证的数字（Bloom 2σ、Alpha 2.6x、AIEd g=1.10）经不起推敲，而真正硬的证据（护栏、间隔重复、检索练习）反而朴素。

1. Bloom 2-Sigma 问题：必须先祛魅的"圣杯"

"一对一辅导比课堂高 2 个标准差"是整个 AI 教育叙事的起点，但它被严重夸大，必须先校正再使用 ^[1]。

原文：Bloom（1984）的核心数据来自其两名博士生（Anania 1981、Burke 1983）的六项小样本研究，声称一对一辅导高 2.0σ、掌握式学习高约 1.0σ ^[1]。

三层修正（事实） ^[1]： - VanLehn（2011）：Bloom 的高效应量不是辅导单独造成的，而是辅导 + 更高掌握标准（90% vs 课堂 80%）+ 更多练习 + 更频繁测验的混合效果；仅控制掌握标准差异就能解释大部分优势。 - von Hippel（2024）：约一半效果可用"更多测验和反馈"解释——掌握式学习组（无一对一辅导）后测已比传统课堂高约 1.1σ，与测验+反馈元分析（d=0.73–0.96）吻合。 - Slavin（1987）"最佳证据综合"：对 4 周以上 K-12 掌握式学习项目综合——标准化测验上几乎无证据支持效果（效应量约 0.08），仅在研究者自制测验上正向（约 d=0.5）；并提出"覆盖 vs 掌握"内在矛盾（掌握式花更多时间在已学内容上，挤占新内容时间）。 - Christodoulou（2026）：原始研究每组仅数百人，且因找不到足够辅导者被迫把"1 对 1"扩大成"1 对 3"——恰恰说明规模化本身会削弱效果 ^[1]。

结论（带共识）：Bloom 2.0σ 不可靠；可靠的掌握式学习效果约 0.3–0.8σ（标准化测验下 Nintil 估 0.3–0.6σ）^[1]。"达到 Bloom 2σ 效果"应作为营销话术而非产品目标——但 0.5–0.8σ 已相当可观。⚠️ 这里存在一处立场分歧：报告 ^[1] 是批判性"祛魅"立场，报告 ^[4] 则正面表述"Bloom 2σ 终于可扩展"（引 Kestin），口径更乐观、未强调原值不可靠。本项目应采纳祛魅立场，把双主指标而非"X σ"作为目标。

2. 护栏式辅导：本项目最硬的一块证据（Bastani PNAS）

如果说全篇只有一条证据能直接定架构，那就是 Bastani 的 PNAS 实验——它是"AI 永不直接给答案"这条架构级护栏的最强 RCT 因果证据 ^[1]^[2]^[3]。

实验设计（事实）：近千名 9–11 年级数学学生，随机分三组——控制组（无 AI）、GPT Base（可直接要答案）、GPT Tutor（带护栏，只给提示不给完整答案、融入教师知识）^[1]^[2]^[3]。

核心结果：练习阶段两个 AI 组表现都提升，但移除 AI 后的独立考试上，GPT Base 组比从未用 AI 的对照组更差，GPT Tutor 组则无显著负效应（护栏消除了负面效应） ^[1]^[3]。机制是：用 GPT Base 的学生频繁"直接复制答案"（认知卸载），却不意识到自己学习受损（过度自信效应） ^[1]。

对本项目的四条直接约束 ^[1]^[2]：① "AI 永不直接给答案"必须是架构级约束；② 练习正确率不能作为学习效果唯一/主要指标；③ 必须设计"移除 AI 辅助的独立测验"作真实掌握判定；④ 学生自我感知无法替代客观效果测量。

⚠️ 一处必须记录的数字分歧：Bastani 的效应量在不同报告里引述不同——^[1]^[3] 记"练习阶段 GPT Base +48% / GPT Tutor +127%，移除后 GPT Base -17%"；^[4] 记"直接答案组练习 +9% → 期末考 -6.45%，提示组练习 +33% → 无显著负效应"。且样本地点表述不一（土耳其 vs 宾大）。这是同一研究的不同引述版本，引用时须以 PNAS 原文核对（本项目 PRD 现采用 -6.45% 口径）。结论方向高度一致（无护栏有害、护栏消除负效应），但具体数字不要混用。

3. AI Tutor 的强 RCT：有效，但前提苛刻

近两年出现了几项设计精良、效应显著的 AI 辅导 RCT，它们证明 AI 辅导能产生显著正向效果（0.23–1.3 SD），但全部依赖"精心工程化 + 护栏"，绝非裸用 ChatGPT ^[1]^[2]^[3]^[4]。

研究	场景	效果	关键前提/脆弱性
Kestin et al. 2025（哈佛物理，N=194）	工程化 AI tutor vs 主动学习课堂	学习增益翻倍以上，0.63–1.3σ；更高参与与动机 ^[1]^[2]^[3]^[4]	仅大学生/物理、短期、AI 经专家大量脚本约束；复制门槛高 ^[1]^[2]^[3]
World Bank Nigeria 2025（高一，6 周）	GPT-4（Copilot）+ 教师引导	英语 +0.23 SD、综合 +0.31 SD；$100 投入≈3.2 学年增益 ^[1]^[3]	有教师在场（非纯自学）、基线极低、短期；"2 年学习量"是与极低基准比较，易被滥用 ^[3]
DeepMind Sierra Leone 2026（初中，N=1763，8 周）	Gemini Guided Learning（引导提问，不给答案）	整体 +0.258 SD，达标用户 +0.38 SD，教师整合 1.8–2.5 年进度 ^[1]^[3]	成绩好的学生收益更多、弱生较少；有驻校支持、未独立同行评审、Gemini 中途更新 ^[1]^[3]

⚠️ 不要外推：这些低基线、短周期、有教师/驻校支持的 RCT，能否推广到"中国初中生长期独立自学"高度存疑 ^[3]。本项目应把它们当作"方向可行"的证据，而非"效果可保证"的承诺。

4. ITS / 自适应学习元分析：效应量从 0.27 到 1.10 的真相

智能辅导系统（ITS）和自适应学习的平均效果为正，但异质性极大、发表偏差严重 ^[1]^[3]。把主要元分析放在一起看：

VanLehn 2011（最权威）：步骤级 ITS d=0.76 ≈ 人类辅导 d=0.79；答案级（传统 CAI）仅 d=0.31——"步骤级反馈"而非"仅对错"是 ITS 效果的关键机制 ^[1]。
Ma et al. 2014（107 研究/14,321 人）：更保守，ITS 整体 d=0.41，与人类一对一差异小 ^[1]。
ITS K12 元分析 2024/2025：g=0.271，农村学校更低，提供范例的 ITS 更好；发表偏差检验 Orwin fail-safe N 仅 299——发表偏差风险真实存在 ^[3]。
AI 自适应元分析（Wang 2024，45 研究）：g=0.70，且"AI 引擎类型本身不是显著调节变量——用什么 AI 不重要，怎么设计才重要" ^[3]。
AIEd 元分析（2025，N=10,469）：g=1.10，但报告明确判断这很可能反映发表偏差，因为预注册大样本 RCT 通常只有 0.2–0.3 SD ^[3]。
LLM 教育元分析（2025，133 研究）：资质（qualification）维度强（g≈0.75），但社会化与自主发展维度脆弱；"没有参与脚手架的 LLM 只优化了最容易测量的东西" ^[3]。

可操作结论：① 设计 >> 模型选择；② 优先信任预注册大样本 RCT（0.2–0.3 SD），把 g>1.0 的高值当作发表偏差警报；③ 步骤级反馈是必做机制 ^[1]^[3]。

5. AI 会"让人看起来学会了"：认知卸载与元认知退化

本品类最大的风险不是"AI 不能教"，而是"AI 让学生看起来学会了" ^[2]^[3]。一组高度一致的研究刻画了这个陷阱：

认知卸载理论：外部工具承担认知任务时，内部记忆痕迹减弱；"学习效率感强"与"真实长期记忆"之间存在系统性背离 ^[3]。
Barcaui 2024–25（N=120，45 天延迟记忆）：AI 辅助组保留 57.5% vs 传统组 68.5%（d=0.68）^[1]^[3]。
Fan et al. 2024（BJET）："元认知懈怠"——ChatGPT 组短期作文成绩提升，但知识习得和迁移无差异，学生降低了自我监控/规划/评估 ^[3]。
Derner et al. 2024：AI 辅助提升任务表现（+3 分）但自我评估高估（+4 分），Dunning-Kruger 效应在 AI 辅助下消失——所有人一样过度自信，越懂 AI 的人自评越不准 ^[3]。
Messeri & Crockett 2024（Nature）："理解幻觉"——学习者相信自己掌握了实际上只是 AI 代劳的内容，是跨域现象 ^[3]。
Lehmann 2024/2025（编程）：影响取决于用法——生成完整解法伤害学习，解释/辅导式使用更安全；产品应区分"解释提示"与"代做答案"，并在日志中识别认知卸载 ^[2]。

这组证据与 Bastani 互为印证，共同支撑本项目两条设计：护栏（先尝试、最小提示、答案延迟）+ 双主指标（独立后测，不信自我感知）。

6. 学习科学经典：提取练习、间隔重复、生产性失败

这是全篇证据最硬、最该照搬的部分——它们便宜、稳健、跨学科有效 ^[1]^[4]：

Dunlosky et al. 2013（10 种学习技术）：提取练习、间隔练习是仅有的两项"高实用性"技术；而重新阅读、划重点/高亮是"低实用性"（极流行却证据极弱）^[1]。
Bjork & Bjork 2011：间隔重复效应量可达 d=1.0，是认知心理学史上最普遍、最可复制的发现之一；间隔练习短期"感觉进步更慢"（学生不自然采用）但长期保留显著更好 ^[1]。
Kornell, Hays & Bjork 2009：即使提取失败（答不上来），随后看到正确答案的学习效果也优于直接学习——直接支撑"先尝试再反馈"的护栏设计 ^[1]。
Productive Failure：让学生先尝试、即使失败也有证据支持；新加坡高中田野实验把 PF 策略注入 LLM（StratL）有效无副作用 ^[1]^[4]。
Hattie & Donoghue（242 研究/169,179 人）：分布式练习 + 练习测试是所有策略中最强 ^[4]。

可操作：每节强制 3–5 道提取测试（不许看笔记）；实现 FSRS/SM-2 间隔调度；避免"重新阅读/被动观看"作为主要学习方式 ^[1]^[4]。这与本项目"主动生成 > 被动接收"的第一性原理完全一致。

7. 游戏化：真实但有限，边界在"奖励什么"

游戏化的元分析结论高度一致：小到中等正效应，但对"胜任感"几乎无帮助，且设计不当会侵蚀内在动机 ^[1]：

Huang 2020：整体 g=0.464；Cheng 2019：成绩 g=0.504（无发表偏倚）；Sailer & Homner：认知 g=0.49、动机 g=0.36、行为 g=0.25 ^[1]。
Springer ETR&D 2024（游戏化×内在动机）：对自主感 g=0.638、关联感 g=1.776（高），但对胜任感仅 g=0.277——外部积分/排行榜难以替代"真正学会了"的成就感 ^[1]。

SDT 奖励设计"细节正确性清单"（决定外在激励是否侵蚀内在动机）^[1]：① 奖励基本学习行为（练习、坚持）而非测验成绩；② 即时奖励；③ 与具体能力标准挂钩；④ 提供能力信息而非控制行为；⑤ 支持自主性。全部做对，外在激励才不会损害内在动机——这正是 Alpha 的 Fryer 式激励"能起效"的科学解释，也是本项目设计积分/徽章时的红线。

8. 知识追踪（KT/DKT）：别把它当成可靠的"知识雷达"

本项目 v1 需要某种掌握追踪，但证据强烈提示：深度知识追踪（DKT）目前不够可靠，不应作为唯一依据 ^[2]^[3]：

DKT 系统综述 2025（84 研究）：90.5% 仅用 AUC 评估、82.1% 仅用一个数据集、仅 3.6% 评估序列稳定性、仅 11.9% 有面向教师的可解释性——"当前 DKT 不符合负责任 AI 要求，直接部署进真实教学风险很高" ^[3]。
BKT/KT 跨会话失败：主流模型无法捕捉遗忘曲线和间隔效应，"有时没有模型比有差模型表现更好" ^[3]。
标签泄漏：许多 DKT 存在训练时隐式访问测试信息的问题，纠正后性能显著下降——已发表的 DKT 效果数字可能虚高 ^[3]。
DKT 实践评估（EDM 2025）：更擅长预测"学生会答对"而非"找到真正知识漏洞" ^[3]。

⚠️ 这里 ^[4] 相对乐观（积极引入 DKT/RL-DKT），而 ^[2]^[3] 更谨慎。本项目应采纳谨慎立场：v1 掌握判定用"规则 + BKT 概率 + 独立后测"组合，深度 KT 仅作后台排序信号，不要把 AUC 当学习效果、不要在文案中宣称"AI 精准追踪知识点" ^[2]^[3]。

9. RCT 成功 ≠ 规模化成功：被低估的"落差"

一个对公益规模化项目至关重要、却最常被忽略的结论：小样本试点效果在大规模推广后普遍衰减一个量级 ^[3]：

Reich & Ruipérez-Valiente 2020（PNAS，N=25 万+）：小规模成功的行为干预规模化后效果衰减"一个量级"，ML 难以预测何时有效 ^[3]。
MathSpring（ACM L@S 2024）：研究员在场的试点效果显著 → 无研究员的规模化后使用量远低于预期、效果不显著——"研究员在场的试点会严重高估真实部署效果" ^[3]。
District-wide 虚拟辅导 RCT（Robinson 2025）：自上而下强制推广若缺实施能力，效果等于零甚至负（阅读 -0.091 SD）^[3]。
正面反例 Mindspark/Rajasthan：规模化成功的罕见案例，关键在于"专门为规模化重新设计实施方案"（从课后自费→整合进课表），规模化不是"复制"而是"适应性再设计" ^[3]。

对本项目：① 对试点数据"降格预期"；② 关注长期记忆而非短期任务成绩；③ 从试点到放量要主动做"适应性再设计" ^[3]。

10. ed-tech 历史失败与结构性批评：技术绕不过机构变革

AltSchool：融资 1.76 亿美元、每生约 2 万美元/年，"支出 4000 万、收入 700 万——财务灾难配方"，2021 关闭 ^[1]。
Summit Learning（CZI 近 2 亿美元）：2017 CREDO 研究显示阅读小幅下降、数学无显著效果；拒绝独立评估；NEPC 称"没有可靠研究证据支持其声称的成功" ^[1]。
Justin Reich《Failure to Disrupt》四大结构性障碍 ^[1]：① "熟悉的诅咒"（技术被驯化去适应旧系统）；② 例行评估陷阱（机器只能评估机器擅长的事）；③ EdTech 马太效应（免费技术也对有资源学生更有利，加剧不平等）；④ 数据与"优化"叙事的伦理风险。核心论断："没有任何杀手级应用能绕过机构变革的艰难之路。"
Audrey Watters（"ed-tech 的卡桑德拉"）：现代"个性化学习"是 Skinner 行为主义教学机器的现代包装；"教育不是应该被自动化的任务……不是应该被优化或像机器一样被工程化的东西" ^[1]。

这些批评对本项目是清醒剂：公益普惠定位必须主动对抗马太效应（对弱基础/低家长参与的孩子默认给更多脚手架），并守住"AI 是陪练而非替代关系"的人机边界。

11. 生成式 UI（AI 原生）：本项目"心脏"的证据底座

本项目最差异化的"AI 实时生成高交互内容"，已有先行证据 ^[4]：

PhET（20 年实证）：交互模拟在概念教学上可超越传统讲授（Malawi RCT 物理成绩与动机均优于对照）——"AI 原生生成高交互内容"理念的先行验证 ^[4]。
Google Generative UI（Gemini 3，2025-11 起）：实时生成 HTML/CSS/JS，对每个问题生成专属交互界面（如可拖时间轴的分子动画）；"Learn Your Way"实验长期记忆测试高出对照组 11 个百分点 ^[4]。
MAIC-UI：面向课件的 Generative UI 采用"两阶段生成 + 科学正确性校验"——印证本项目"生成必须接验答"的设计 ^[4]。
可教 AI（费曼 AI 化）：Curiosity Notebook 显示"用自己的话 paraphrasing 比选句子学习效果更好且与学习增益正相关"——直接支撑本项目费曼出口（FR-6）^[4]。

但同样要记住边界：AI 优先速度/参与度，会生成"自信的错误信息"，核实困难（Brookings 2026）；欧洲议会简报警告"AI 供应现成输出会绕过产生持久学习的认知努力" ^[4]。这正是本项目坚持数学自动验答（FR-8）+ 护栏的理由。

12. 矛盾与分歧（须保留）

除前文已标注的（Bastani 数字、Bloom 立场、DKT 是否上线、掌握式证据强弱）外 ^[1]^[3]^[4]：

ITS 效应量从 g=0.27 到 g=1.10：纳入标准严格性与发表偏差控制不同所致；应优先信任低值 ^[1]^[3]。
低收入国家 RCT 能否推广到中国中高端用户：^[1] 给出显著正效应，^[3] 明确质疑可推广性 ^[1]^[3]。
自适应效果"来自算法还是实施"：纯算法贡献难以从教师整合、使用剂量中拆出；旁证是"AI 引擎类型非显著调节变量" ^[2]^[3]。
游戏化的两面：认知效应稳健，但动机/行为效应有发表偏倚、长期消退、对胜任感改善有限 ^[1]^[2]。

13. 对本项目的设计启示

把全部证据浓缩成可直接进入 PRD/design 的设计原则。这一簇与本项目 learning-principles.md、requirements-ears.md 直接对应。

有强实证支持（应作架构级约束） ^[1]^[2]^[3]： 1. 学生必须先尝试，AI 不直接给答案（Bastani，最强 RCT）——对应 FR-7。 2. 步骤级反馈优于仅对错（VanLehn）——提示分级、错因诊断。 3. 间隔重复 + 提取练习作核心记忆机制（Dunlosky/Bjork，d≈1.0）——实现 FSRS/SM-2 调度。 4. 定期"无 AI 辅助独立测验"作真实掌握判定（Bastani）——对应双主指标中的迁移测试。 5. 代数自动验答必须由 CAS/规则引擎完成，LLM 不能单独判定数学正确性——对应 FR-8。 6. 高掌握标准（≥90%）优于低标准（Kulik，中强），但要注意"覆盖 vs 掌握"的时间权衡。

有实证但有边界（需谨慎设计） ^[1]^[2]^[3]： 7. 掌握判定至少含三类证据：独立答题正确率 + 无提示后测 + 间隔复习稳定度；记录提示依赖度。 8. 知识追踪 v1 优先可解释（规则 + BKT + 独立后测），DKT 仅作后台信号，不宣称"精准追踪"。 9. 游戏化奖励"基本学习行为"而非测验成绩，提供能力信息而非控制行为，无公开羞辱式排名。 10. 每次反馈只处理一个主要认知冲突（认知负荷），给"我卡住了"出口但不代做。 11. 冷启动用诊断测 + 保守路径，早期不做过度个性化。 12. 公平与隐私默认进入非功能需求：移动端优先、弱网可用、未成年人数据最小化、可导出/删除。 13. A/B 评估不能只看刷题量和当场正确率，必须看延迟后测、无提示迁移题、留存与主观负荷。

需主动防御的风险 ^[3]： - 新颖性效应：初期高参与可能来自新鲜感，须监测 3–6 个月后的效果。 - 元认知退化：默认"学生先尝试、AI 最小提示、答案延迟披露"。 - 规模化衰减：试点到放量做"适应性再设计"，对效果"降格预期"。

一句话总结：真正硬的证据指向一套朴素的组合——先尝试、不给答案、步骤级反馈、间隔重复、独立后测、自动验答。本项目的 v1 闭环（诊断→护栏练习→掌握判定→费曼→延迟复测）几乎就是这套证据的产品化；剩下要做的，是抵抗住"用更花哨的 AI 指标替代真实掌握"的诱惑。

二、学习科学与有效性证据

二、学习科学与有效性证据

1. Bloom 2-Sigma 问题：必须先祛魅的"圣杯"

2. 护栏式辅导：本项目最硬的一块证据（Bastani PNAS）

3. AI Tutor 的强 RCT：有效，但前提苛刻

4. ITS / 自适应学习元分析：效应量从 0.27 到 1.10 的真相

5. AI 会"让人看起来学会了"：认知卸载与元认知退化

6. 学习科学经典：提取练习、间隔重复、生产性失败

7. 游戏化：真实但有限，边界在"奖励什么"

8. 知识追踪（KT/DKT）：别把它当成可靠的"知识雷达"

9. RCT 成功 ≠ 规模化成功：被低估的"落差"

10. ed-tech 历史失败与结构性批评：技术绕不过机构变革

11. 生成式 UI（AI 原生）：本项目"心脏"的证据底座

12. 矛盾与分歧（须保留）

13. 对本项目的设计启示

来源