二、学习科学与有效性证据
Bloom 2σ、护栏式辅导(Bastani)、掌握式学习、自适应/知识追踪、游戏化元分析——证据强弱与脆弱性提醒。
二、学习科学与有效性证据
本篇汇聚 4 份证据型报告 [1][2][3][4],是整个项目的"证据地基"。它回答的不是"别人做了什么",而是"哪些教学机制真的有效、效果有多大、证据有多硬"。一个贯穿全篇的态度:区分已验证的事实与被夸大的营销话术——很多看似铁证的数字(Bloom 2σ、Alpha 2.6x、AIEd g=1.10)经不起推敲,而真正硬的证据(护栏、间隔重复、检索练习)反而朴素。
1. Bloom 2-Sigma 问题:必须先祛魅的"圣杯"
"一对一辅导比课堂高 2 个标准差"是整个 AI 教育叙事的起点,但它被严重夸大,必须先校正再使用 [1]。
原文:Bloom(1984)的核心数据来自其两名博士生(Anania 1981、Burke 1983)的六项小样本研究,声称一对一辅导高 2.0σ、掌握式学习高约 1.0σ [1]。
三层修正(事实) [1]: - VanLehn(2011):Bloom 的高效应量不是辅导单独造成的,而是辅导 + 更高掌握标准(90% vs 课堂 80%)+ 更多练习 + 更频繁测验的混合效果;仅控制掌握标准差异就能解释大部分优势。 - von Hippel(2024):约一半效果可用"更多测验和反馈"解释——掌握式学习组(无一对一辅导)后测已比传统课堂高约 1.1σ,与测验+反馈元分析(d=0.73–0.96)吻合。 - Slavin(1987)"最佳证据综合":对 4 周以上 K-12 掌握式学习项目综合——标准化测验上几乎无证据支持效果(效应量约 0.08),仅在研究者自制测验上正向(约 d=0.5);并提出"覆盖 vs 掌握"内在矛盾(掌握式花更多时间在已学内容上,挤占新内容时间)。 - Christodoulou(2026):原始研究每组仅数百人,且因找不到足够辅导者被迫把"1 对 1"扩大成"1 对 3"——恰恰说明规模化本身会削弱效果 [1]。
结论(带共识):Bloom 2.0σ 不可靠;可靠的掌握式学习效果约 0.3–0.8σ(标准化测验下 Nintil 估 0.3–0.6σ)[1]。"达到 Bloom 2σ 效果"应作为营销话术而非产品目标——但 0.5–0.8σ 已相当可观。⚠️ 这里存在一处立场分歧:报告 [1] 是批判性"祛魅"立场,报告 [4] 则正面表述"Bloom 2σ 终于可扩展"(引 Kestin),口径更乐观、未强调原值不可靠。本项目应采纳祛魅立场,把双主指标而非"X σ"作为目标。
2. 护栏式辅导:本项目最硬的一块证据(Bastani PNAS)
如果说全篇只有一条证据能直接定架构,那就是 Bastani 的 PNAS 实验——它是"AI 永不直接给答案"这条架构级护栏的最强 RCT 因果证据 [1][2][3]。
实验设计(事实):近千名 9–11 年级数学学生,随机分三组——控制组(无 AI)、GPT Base(可直接要答案)、GPT Tutor(带护栏,只给提示不给完整答案、融入教师知识)[1][2][3]。
核心结果:练习阶段两个 AI 组表现都提升,但移除 AI 后的独立考试上,GPT Base 组比从未用 AI 的对照组更差,GPT Tutor 组则无显著负效应(护栏消除了负面效应) [1][3]。机制是:用 GPT Base 的学生频繁"直接复制答案"(认知卸载),却不意识到自己学习受损(过度自信效应) [1]。
对本项目的四条直接约束 [1][2]:① "AI 永不直接给答案"必须是架构级约束;② 练习正确率不能作为学习效果唯一/主要指标;③ 必须设计"移除 AI 辅助的独立测验"作真实掌握判定;④ 学生自我感知无法替代客观效果测量。
⚠️ 一处必须记录的数字分歧:Bastani 的效应量在不同报告里引述不同——[1][3] 记"练习阶段 GPT Base +48% / GPT Tutor +127%,移除后 GPT Base -17%";[4] 记"直接答案组练习 +9% → 期末考 -6.45%,提示组练习 +33% → 无显著负效应"。且样本地点表述不一(土耳其 vs 宾大)。这是同一研究的不同引述版本,引用时须以 PNAS 原文核对(本项目 PRD 现采用 -6.45% 口径)。结论方向高度一致(无护栏有害、护栏消除负效应),但具体数字不要混用。
3. AI Tutor 的强 RCT:有效,但前提苛刻
近两年出现了几项设计精良、效应显著的 AI 辅导 RCT,它们证明 AI 辅导能产生显著正向效果(0.23–1.3 SD),但全部依赖"精心工程化 + 护栏",绝非裸用 ChatGPT [1][2][3][4]。
| 研究 | 场景 | 效果 | 关键前提/脆弱性 |
|---|---|---|---|
| Kestin et al. 2025(哈佛物理,N=194) | 工程化 AI tutor vs 主动学习课堂 | 学习增益翻倍以上,0.63–1.3σ;更高参与与动机 [1][2][3][4] | 仅大学生/物理、短期、AI 经专家大量脚本约束;复制门槛高 [1][2][3] |
| World Bank Nigeria 2025(高一,6 周) | GPT-4(Copilot)+ 教师引导 | 英语 +0.23 SD、综合 +0.31 SD;$100 投入≈3.2 学年增益 [1][3] | 有教师在场(非纯自学)、基线极低、短期;"2 年学习量"是与极低基准比较,易被滥用 [3] |
| DeepMind Sierra Leone 2026(初中,N=1763,8 周) | Gemini Guided Learning(引导提问,不给答案) | 整体 +0.258 SD,达标用户 +0.38 SD,教师整合 1.8–2.5 年进度 [1][3] | 成绩好的学生收益更多、弱生较少;有驻校支持、未独立同行评审、Gemini 中途更新 [1][3] |
⚠️ 不要外推:这些低基线、短周期、有教师/驻校支持的 RCT,能否推广到"中国初中生长期独立自学"高度存疑 [3]。本项目应把它们当作"方向可行"的证据,而非"效果可保证"的承诺。
4. ITS / 自适应学习元分析:效应量从 0.27 到 1.10 的真相
智能辅导系统(ITS)和自适应学习的平均效果为正,但异质性极大、发表偏差严重 [1][3]。把主要元分析放在一起看:
- VanLehn 2011(最权威):步骤级 ITS d=0.76 ≈ 人类辅导 d=0.79;答案级(传统 CAI)仅 d=0.31——"步骤级反馈"而非"仅对错"是 ITS 效果的关键机制 [1]。
- Ma et al. 2014(107 研究/14,321 人):更保守,ITS 整体 d=0.41,与人类一对一差异小 [1]。
- ITS K12 元分析 2024/2025:g=0.271,农村学校更低,提供范例的 ITS 更好;发表偏差检验 Orwin fail-safe N 仅 299——发表偏差风险真实存在 [3]。
- AI 自适应元分析(Wang 2024,45 研究):g=0.70,且"AI 引擎类型本身不是显著调节变量——用什么 AI 不重要,怎么设计才重要" [3]。
- AIEd 元分析(2025,N=10,469):g=1.10,但报告明确判断这很可能反映发表偏差,因为预注册大样本 RCT 通常只有 0.2–0.3 SD [3]。
- LLM 教育元分析(2025,133 研究):资质(qualification)维度强(g≈0.75),但社会化与自主发展维度脆弱;"没有参与脚手架的 LLM 只优化了最容易测量的东西" [3]。
可操作结论:① 设计 >> 模型选择;② 优先信任预注册大样本 RCT(0.2–0.3 SD),把 g>1.0 的高值当作发表偏差警报;③ 步骤级反馈是必做机制 [1][3]。
5. AI 会"让人看起来学会了":认知卸载与元认知退化
本品类最大的风险不是"AI 不能教",而是"AI 让学生看起来学会了" [2][3]。一组高度一致的研究刻画了这个陷阱:
- 认知卸载理论:外部工具承担认知任务时,内部记忆痕迹减弱;"学习效率感强"与"真实长期记忆"之间存在系统性背离 [3]。
- Barcaui 2024–25(N=120,45 天延迟记忆):AI 辅助组保留 57.5% vs 传统组 68.5%(d=0.68)[1][3]。
- Fan et al. 2024(BJET):"元认知懈怠"——ChatGPT 组短期作文成绩提升,但知识习得和迁移无差异,学生降低了自我监控/规划/评估 [3]。
- Derner et al. 2024:AI 辅助提升任务表现(+3 分)但自我评估高估(+4 分),Dunning-Kruger 效应在 AI 辅助下消失——所有人一样过度自信,越懂 AI 的人自评越不准 [3]。
- Messeri & Crockett 2024(Nature):"理解幻觉"——学习者相信自己掌握了实际上只是 AI 代劳的内容,是跨域现象 [3]。
- Lehmann 2024/2025(编程):影响取决于用法——生成完整解法伤害学习,解释/辅导式使用更安全;产品应区分"解释提示"与"代做答案",并在日志中识别认知卸载 [2]。
这组证据与 Bastani 互为印证,共同支撑本项目两条设计:护栏(先尝试、最小提示、答案延迟)+ 双主指标(独立后测,不信自我感知)。
6. 学习科学经典:提取练习、间隔重复、生产性失败
这是全篇证据最硬、最该照搬的部分——它们便宜、稳健、跨学科有效 [1][4]:
- Dunlosky et al. 2013(10 种学习技术):提取练习、间隔练习是仅有的两项"高实用性"技术;而重新阅读、划重点/高亮是"低实用性"(极流行却证据极弱)[1]。
- Bjork & Bjork 2011:间隔重复效应量可达 d=1.0,是认知心理学史上最普遍、最可复制的发现之一;间隔练习短期"感觉进步更慢"(学生不自然采用)但长期保留显著更好 [1]。
- Kornell, Hays & Bjork 2009:即使提取失败(答不上来),随后看到正确答案的学习效果也优于直接学习——直接支撑"先尝试再反馈"的护栏设计 [1]。
- Productive Failure:让学生先尝试、即使失败也有证据支持;新加坡高中田野实验把 PF 策略注入 LLM(StratL)有效无副作用 [1][4]。
- Hattie & Donoghue(242 研究/169,179 人):分布式练习 + 练习测试是所有策略中最强 [4]。
可操作:每节强制 3–5 道提取测试(不许看笔记);实现 FSRS/SM-2 间隔调度;避免"重新阅读/被动观看"作为主要学习方式 [1][4]。这与本项目"主动生成 > 被动接收"的第一性原理完全一致。
7. 游戏化:真实但有限,边界在"奖励什么"
游戏化的元分析结论高度一致:小到中等正效应,但对"胜任感"几乎无帮助,且设计不当会侵蚀内在动机 [1]:
- Huang 2020:整体 g=0.464;Cheng 2019:成绩 g=0.504(无发表偏倚);Sailer & Homner:认知 g=0.49、动机 g=0.36、行为 g=0.25 [1]。
- Springer ETR&D 2024(游戏化×内在动机):对自主感 g=0.638、关联感 g=1.776(高),但对胜任感仅 g=0.277——外部积分/排行榜难以替代"真正学会了"的成就感 [1]。
SDT 奖励设计"细节正确性清单"(决定外在激励是否侵蚀内在动机)[1]:① 奖励基本学习行为(练习、坚持)而非测验成绩;② 即时奖励;③ 与具体能力标准挂钩;④ 提供能力信息而非控制行为;⑤ 支持自主性。全部做对,外在激励才不会损害内在动机——这正是 Alpha 的 Fryer 式激励"能起效"的科学解释,也是本项目设计积分/徽章时的红线。
8. 知识追踪(KT/DKT):别把它当成可靠的"知识雷达"
本项目 v1 需要某种掌握追踪,但证据强烈提示:深度知识追踪(DKT)目前不够可靠,不应作为唯一依据 [2][3]:
- DKT 系统综述 2025(84 研究):90.5% 仅用 AUC 评估、82.1% 仅用一个数据集、仅 3.6% 评估序列稳定性、仅 11.9% 有面向教师的可解释性——"当前 DKT 不符合负责任 AI 要求,直接部署进真实教学风险很高" [3]。
- BKT/KT 跨会话失败:主流模型无法捕捉遗忘曲线和间隔效应,"有时没有模型比有差模型表现更好" [3]。
- 标签泄漏:许多 DKT 存在训练时隐式访问测试信息的问题,纠正后性能显著下降——已发表的 DKT 效果数字可能虚高 [3]。
- DKT 实践评估(EDM 2025):更擅长预测"学生会答对"而非"找到真正知识漏洞" [3]。
⚠️ 这里 [4] 相对乐观(积极引入 DKT/RL-DKT),而 [2][3] 更谨慎。本项目应采纳谨慎立场:v1 掌握判定用"规则 + BKT 概率 + 独立后测"组合,深度 KT 仅作后台排序信号,不要把 AUC 当学习效果、不要在文案中宣称"AI 精准追踪知识点" [2][3]。
9. RCT 成功 ≠ 规模化成功:被低估的"落差"
一个对公益规模化项目至关重要、却最常被忽略的结论:小样本试点效果在大规模推广后普遍衰减一个量级 [3]:
- Reich & Ruipérez-Valiente 2020(PNAS,N=25 万+):小规模成功的行为干预规模化后效果衰减"一个量级",ML 难以预测何时有效 [3]。
- MathSpring(ACM L@S 2024):研究员在场的试点效果显著 → 无研究员的规模化后使用量远低于预期、效果不显著——"研究员在场的试点会严重高估真实部署效果" [3]。
- District-wide 虚拟辅导 RCT(Robinson 2025):自上而下强制推广若缺实施能力,效果等于零甚至负(阅读 -0.091 SD)[3]。
- 正面反例 Mindspark/Rajasthan:规模化成功的罕见案例,关键在于"专门为规模化重新设计实施方案"(从课后自费→整合进课表),规模化不是"复制"而是"适应性再设计" [3]。
对本项目:① 对试点数据"降格预期";② 关注长期记忆而非短期任务成绩;③ 从试点到放量要主动做"适应性再设计" [3]。
10. ed-tech 历史失败与结构性批评:技术绕不过机构变革
- AltSchool:融资 1.76 亿美元、每生约 2 万美元/年,"支出 4000 万、收入 700 万——财务灾难配方",2021 关闭 [1]。
- Summit Learning(CZI 近 2 亿美元):2017 CREDO 研究显示阅读小幅下降、数学无显著效果;拒绝独立评估;NEPC 称"没有可靠研究证据支持其声称的成功" [1]。
- Justin Reich《Failure to Disrupt》四大结构性障碍 [1]:① "熟悉的诅咒"(技术被驯化去适应旧系统);② 例行评估陷阱(机器只能评估机器擅长的事);③ EdTech 马太效应(免费技术也对有资源学生更有利,加剧不平等);④ 数据与"优化"叙事的伦理风险。核心论断:"没有任何杀手级应用能绕过机构变革的艰难之路。"
- Audrey Watters("ed-tech 的卡桑德拉"):现代"个性化学习"是 Skinner 行为主义教学机器的现代包装;"教育不是应该被自动化的任务……不是应该被优化或像机器一样被工程化的东西" [1]。
这些批评对本项目是清醒剂:公益普惠定位必须主动对抗马太效应(对弱基础/低家长参与的孩子默认给更多脚手架),并守住"AI 是陪练而非替代关系"的人机边界。
11. 生成式 UI(AI 原生):本项目"心脏"的证据底座
本项目最差异化的"AI 实时生成高交互内容",已有先行证据 [4]:
- PhET(20 年实证):交互模拟在概念教学上可超越传统讲授(Malawi RCT 物理成绩与动机均优于对照)——"AI 原生生成高交互内容"理念的先行验证 [4]。
- Google Generative UI(Gemini 3,2025-11 起):实时生成 HTML/CSS/JS,对每个问题生成专属交互界面(如可拖时间轴的分子动画);"Learn Your Way"实验长期记忆测试高出对照组 11 个百分点 [4]。
- MAIC-UI:面向课件的 Generative UI 采用"两阶段生成 + 科学正确性校验"——印证本项目"生成必须接验答"的设计 [4]。
- 可教 AI(费曼 AI 化):Curiosity Notebook 显示"用自己的话 paraphrasing 比选句子学习效果更好且与学习增益正相关"——直接支撑本项目费曼出口(FR-6)[4]。
但同样要记住边界:AI 优先速度/参与度,会生成"自信的错误信息",核实困难(Brookings 2026);欧洲议会简报警告"AI 供应现成输出会绕过产生持久学习的认知努力" [4]。这正是本项目坚持数学自动验答(FR-8)+ 护栏的理由。
12. 矛盾与分歧(须保留)
除前文已标注的(Bastani 数字、Bloom 立场、DKT 是否上线、掌握式证据强弱)外 [1][3][4]:
- ITS 效应量从 g=0.27 到 g=1.10:纳入标准严格性与发表偏差控制不同所致;应优先信任低值 [1][3]。
- 低收入国家 RCT 能否推广到中国中高端用户:[1] 给出显著正效应,[3] 明确质疑可推广性 [1][3]。
- 自适应效果"来自算法还是实施":纯算法贡献难以从教师整合、使用剂量中拆出;旁证是"AI 引擎类型非显著调节变量" [2][3]。
- 游戏化的两面:认知效应稳健,但动机/行为效应有发表偏倚、长期消退、对胜任感改善有限 [1][2]。
13. 对本项目的设计启示
把全部证据浓缩成可直接进入 PRD/design 的设计原则。这一簇与本项目
learning-principles.md、requirements-ears.md直接对应。
有强实证支持(应作架构级约束) [1][2][3]: 1. 学生必须先尝试,AI 不直接给答案(Bastani,最强 RCT)——对应 FR-7。 2. 步骤级反馈优于仅对错(VanLehn)——提示分级、错因诊断。 3. 间隔重复 + 提取练习作核心记忆机制(Dunlosky/Bjork,d≈1.0)——实现 FSRS/SM-2 调度。 4. 定期"无 AI 辅助独立测验"作真实掌握判定(Bastani)——对应双主指标中的迁移测试。 5. 代数自动验答必须由 CAS/规则引擎完成,LLM 不能单独判定数学正确性——对应 FR-8。 6. 高掌握标准(≥90%)优于低标准(Kulik,中强),但要注意"覆盖 vs 掌握"的时间权衡。
有实证但有边界(需谨慎设计) [1][2][3]: 7. 掌握判定至少含三类证据:独立答题正确率 + 无提示后测 + 间隔复习稳定度;记录提示依赖度。 8. 知识追踪 v1 优先可解释(规则 + BKT + 独立后测),DKT 仅作后台信号,不宣称"精准追踪"。 9. 游戏化奖励"基本学习行为"而非测验成绩,提供能力信息而非控制行为,无公开羞辱式排名。 10. 每次反馈只处理一个主要认知冲突(认知负荷),给"我卡住了"出口但不代做。 11. 冷启动用诊断测 + 保守路径,早期不做过度个性化。 12. 公平与隐私默认进入非功能需求:移动端优先、弱网可用、未成年人数据最小化、可导出/删除。 13. A/B 评估不能只看刷题量和当场正确率,必须看延迟后测、无提示迁移题、留存与主观负荷。
需主动防御的风险 [3]: - 新颖性效应:初期高参与可能来自新鲜感,须监测 3–6 个月后的效果。 - 元认知退化:默认"学生先尝试、AI 最小提示、答案延迟披露"。 - 规模化衰减:试点到放量做"适应性再设计",对效果"降格预期"。
一句话总结:真正硬的证据指向一套朴素的组合——先尝试、不给答案、步骤级反馈、间隔重复、独立后测、自动验答。本项目的 v1 闭环(诊断→护栏练习→掌握判定→费曼→延迟复测)几乎就是这套证据的产品化;剩下要做的,是抵抗住"用更花哨的 AI 指标替代真实掌握"的诱惑。