调研报告：成功案例深度解构——什么真正奏效

日期：2026-06-15 任务：深度解构真正成功的学习/自学平台，区分"参与度成功"与"学习效果成功"，提炼可迁移要素

核心辨析：本报告严格区分两类成功——参与度成功（用户多、留存高、打开率高）和学习效果成功（有可测量的知识/技能增益证据）。两者可以共存，也可以相互矛盾。

调研摘要

通过对 7 个标杆平台/范式的系统解构，核心发现如下：

掌握式学习（Mastery Learning）是效果的基石：从 Bloom 1984 年的 2-sigma 研究到 ALEKS、Carnegie Learning、Math Academy 的实证，掌握式进阶均带来显著效果量（Cohen d = 0.43–1.1+）。
游戏化可以大幅提升参与度，但不等于学习效果：Duolingo 是参与度极端成功的案例（DAU 51% 年增长），语言学习效果有有限证据，但"为打卡而打卡"是真实陷阱。
间隔重复是自学者坚持的少数范式：元分析（SMD = 0.78）和多项 RCT 证实间隔重复在医学教育中的效果，FSRS 相比 SM-2 减少 20-30% 复习次数。
交互式模拟（PhET）是概念理解的强效工具：31 项准实验研究，效果量加权平均 g = 0.94，尤其对抽象概念有优势。
可汗学院的成功有清晰边界：适合作为补充工具（每周 30 分钟，效果量 +0.085 SD），不适合作为主课程替代，高水平学生受益更多。
"做中学"优于被动观看：Math Academy 的核心哲学——练习比看视频更有效——有认知科学支撑（检索练习效应）。
所有成功平台都有即时反馈机制：这是跨案例最一致的要素。

案例一：Duolingo——参与度的教科书（慎重迁移）

成功维度

参与度成功（强证据）+ 语言学习效果成功（有限证据）

核心数据

2024 年全年 DAU 增长 51%，超过 4000 万 DAU（来源：Duolingo SEC 8-K，2025-02-27）
超 1000 万用户维持 365 天以上的 streak
三分之一 DAU 拥有 Friend Streak
DAU/MAU 比率提升至 34.7%（表明粘性极高）

关键留存机制分析

Streak（连击）机制 - 最重要的留存杠杆：4 年内 CURR（当前用户留存率）提升 21%，DAU 增长 4.5 倍（来源：Lenny's Newsletter，Jorge Mazal，2023-02-28） - 机制路径：streak-saver 通知 → 用户不想"中断" → 形成习惯循环 - 关键洞察：streak 是"成瘾钩子"（habit loop），而非学习质量指标 - "commit to my goal"（相比"continue"）的文案改变显著提升留存——用户需要感受到主动承诺

游戏化 - 排行榜（Leaderboards）+ 好友互动 → 社交问责 - Family Plan 留存高于个人计划，验证"外部问责"机制

A/B 测试文化 - Duolingo 的增长本质是产品研发方法论：Growth Model（Markov 模型）驱动的系统性优化，而非单一功能

学习效果证据

2021 年 Duolingo 内部研究：完成初级西班牙语/法语课程相当于大学 4 学期阅读/听力水平（来源：Foreign Language Annals，Jiang 等，2021）
2026 年 Cambridge Core 研究（n=183）：Duolingo-Only 组与 Classroom-Only 组在法语综合水平上进步相当（来源：Studies in Second Language Acquisition，2026-03）
重要局限：大多数证据来自 Duolingo 内部研究团队；独立研究样本量偏小；主要测量接受性技能（阅读/听力），口语和语用能力证据较弱

批判：什么是陷阱

"打卡陷阱"：streak 机制驱动的是"每天打开 App"，而非"深度学习"。有用户专门用 1 分钟完成最简单的练习维持 streak
学习深度有限：对话、写作、语法深度学习的证据薄弱；词汇系统综述指出"深层词汇参与机会有限"（ResearchGate 系统综述，2024）
学科迁移陷阱：语言学习有天然的碎片化适应性（每天 5 分钟有意义），但数学/物理需要连续深层思考，碎片化游戏化未必有效
游戏化的陷阱：Duolingo XP 系统可能导致"刷分而非学习"——这一问题在 Math Academy 学生中也被观察到

可迁移要素（有条件）

✅ 早期 7 天留存攻坚（第一周是最脆弱的窗口）
✅ 明确目标设定 + 进度可视化
✅ 即时反馈
✅ A/B 测试驱动的产品优化文化
⚠️ Streak 机制：可迁移，但需防止"为打卡而打卡"，需与真实掌握指标绑定
❌ 纯碎片化游戏化不适合深度学科学习

案例二：ALEKS——少数有可复现学习效果证据的自适应系统

成功维度

学习效果成功（中强证据）+ 规模成功

理论基础：知识空间理论（Knowledge Space Theory, KST）

ALEKS 基于 Doignon & Falmagne 1999 年建立的 KST： - 将知识状态建模为布尔格（Boolean lattice）——哪些知识点集合是"可能的"知识状态 - 通过自适应评估精确定位学生当前知识状态，只呈现其"知识准备区"（fringe）内的内容 - 定期重评估防止遗忘，更新知识状态

这是一个数学上严格的自适应框架，与 Duolingo 的工程驱动型自适应有本质区别。

效果证据

元分析（2021）：33 项研究，9238 名学生，K-12 和高等教育；ALEKS 效果与传统教学相当（g=0.05，CI[-0.01, 0.20]）；作为补充教学时效果显著更好（g=0.43，CI[0.02, 0.83]）（来源：Tandfonline，Sun，2021）
社区大学准实验（PSM 匹配）：ALEKS 用户通过率比控制组高 14-19 个百分点（来源：UPenn Learning Analytics，LAK18）
泰国大学研究：KST 工具显著提升后续计算课程成绩，对低水平学生效果更强（来源：PIM Journal，2023）
在线数学课程：前测均值 41.09 → 后测 75.64（p<0.001），掌握度与后测成绩相关 r=0.852（来源：Academia.edu）

核心机制

精准定位：不浪费时间在已知内容，不推送超出准备度的内容
掌握门控：必须达到掌握才能前进
定期重评估：自动检测遗忘并重新评估知识状态
减少数学焦虑：实验组相比对照组数学焦虑下降更明显

局限

作为独立替代课程效果有限（效果量接近 0），需配合传统教学使用
缺乏真正的 RCT 证据（多为准实验）
商业工具，价格不菲
界面较为枯燥，动机维持需外部支撑

可迁移要素

✅ 知识状态精准建模（超越简单"做对/做错"）
✅ 只呈现"可学习区"内容（非 ZPD 内的不推
✅ 掌握门控进阶
✅ 定期重评估防遗忘

案例三：Carnegie Learning MATHia / Cognitive Tutor——最严格 RCT 证据的智能辅导

成功维度

学习效果成功（强证据，RCT 支撑）

RCT 证据（RAND 研究，最大规模之一）

研究规模：7 州 73 所高中 + 74 所初中，18700+ 高中生，随机分配（来源：RAND Corporation，Pane 等，2013-2014）
结果：第 2 年高中实施效果显著（效果量 ~0.2，相当于从第 50 分位提升至第 58 分位）
重要发现：
第 1 年无显著效果（教师适应期）
第 2 年高中显著正效果，初中趋势正向但不显著
违反掌握式学习指导（让学生"跳过"未掌握内容）与较差学生表现相关

What Works Clearinghouse（WWC）评级

2 项 RCT 符合 WWC 最高标准（无保留）
5 项 RCT/准实验符合有保留标准
总体评定：代数和一般数学"混合效果"

核心机制

认知模型（Cognitive Model）： - 对学生代数思维的精细计算建模（知道学生在哪个步骤可能犯哪类错误） - 基于这一模型提供即时、步骤级的反馈（不是只告诉对/错，而是诊断错误原因） - 问题解决导向（learning by doing），不是观看演示

混合学习（Blended Learning）： - 课堂教学 + 计算机辅导，两者相辅相成 - 计算机负责差异化练习，教师负责概念讲授

局限与批判

效果量适中（0.2 SD），非革命性
第 1 年无效果提示实施门槛高（需要教师培训）
Cognitive Tutor 已被 MATHia 取代，新版本 RCT 数据较少
初中效果弱于高中

可迁移要素

✅ 步骤级即时反馈（不只是对/错，而是诊断错误）
✅ 认知模型驱动的差异化
✅ 掌握式进阶（违反掌握导致更差结果）
✅ 混合学习比纯数字化更有效

案例四：Math Academy——2024-2026 自学者圈层口碑爆发

成功维度

参与度成功（中等，自学者圈层口碑强）+ 学习效率（理论主张，RCT 证据尚不充分）

核心主张："4X 速度"

Math Academy 声称比传统课堂快 4 倍，将 180 课时压缩到 20-40 小时（来源：mathacademy.com）
理论依据充分：掌握式 + 间隔重复 + 自适应知识图谱 = 消除低效
重要注意："4X 速度"是基于消除冗余时间，而非单位时间内塞入更多内容

为什么让硬核自学者着迷

Fractional Implicit Repetition（FIRe）：数学知识是分层的，复习高阶知识会隐式复习低阶先决知识，Math Academy 将此纳入调度算法，减少显式复习次数
知识图谱 + 诊断测试：不从头开始，直接找到知识漏洞（"gaps beneath the gaps"）
做中学哲学：练习题占主导，讲解极简（有批评者认为概念解释不足）
多流并行：可以同时推进多个主题流，防止单一瓶颈
无视频无被动内容：几乎全是交互式做题

评价与批判（平衡视角）

正面评价（来自独立评测者）： - "第一次感觉不需要拖着多年忘掉的先决知识往前走"（Substack，Madison Kanna，2025） - 间隔重复调度真实有效，保留率明显高于传统学习（frankhecker.com，2025） - 自学者、补课者、成人学习者的最佳数学工具之一

批评（值得重视）： - "快速进步有些虚幻——只学了如何回答选择题，概念理解浅薄"（Pershan，Substack，2025） - 程序性流利度强，概念深度不足（Oz Nova，newsletter，2025） - 学生压力大，有高辍率报告（Michael Pershan，引用学生评价，2025） - XP 系统导致"为刷分而学"（与 Duolingo 打卡陷阱类似） - 缺乏正式 RCT 证据：目前主要是用户评测和自我报告，缺乏同行评审的控制实验

核心洞察

Math Academy 的自学者口碑爆发根本原因是：为已经有动机学习的用户消除了"效率摩擦"（不需要猜学什么、不需要记住复习什么、知识图谱自动管理先决关系）。它解决的是"高动机、低效率"的痛点，而非"低动机"问题。

可迁移要素

✅ 知识图谱 + 先决关系自动管理
✅ Fractional Implicit Repetition（隐式复习）
✅ 诊断性放置而非从零开始
✅ 做中学（练习题比例 >> 讲解）
⚠️ 极简讲解只适合已有一定基础的学习者

案例五：Anki / 间隔重复（SRS）社区——自学者最持久的成功范式

成功维度

学习效果成功（强证据，医学教育 RCT 支撑）+ 长期自学坚持

为什么间隔重复有效

认知机制：间隔效应（Spacing Effect）由 Ebbinghaus 1885 年发现，遗忘曲线告诉我们：在恰好要忘记前复习，记忆强化效果最大。

定量证据： - 元分析（2025，n=21415，14 项研究）：间隔重复比标准学习的标准化均值差 SMD=0.78（95% CI 0.56-0.99，p<0.0001）（来源：PubMed，2025） - 家庭医生 RCT（n=26258）：间隔重复组 vs 对照组学习得分 58.03% vs 43.20%（Cohen d=0.62）；知识迁移提升同样显著（来源：Academic Medicine，2025） - 医学院队列：Anki 用户相比非用户在 4 门考试中均显著更高（6-13%），且 CBSE 标化考试差距最大（12.9%）（来源：Medical Science Educator，2023）

FSRS vs SM-2

FSRS（Free Spaced Repetition Scheduler）是 Anki 23.10 后的新默认算法
在 6,240,084 次复习记录上基准测试：FSRS-5 在 99% 用户中优于 SM-2，预测准确率远更高（来源：ankitects/fsrs-benchmark，GitHub）
实践效果：相同保留率下复习次数减少 20-30%（来源：RemNote Help Center）
FSRS 基于机器学习个性化参数，而 SM-2 使用固定参数

为什么自学者长期坚持 Anki（而非其他工具）

开源免费：无付费压力
用户控制：可自制卡片，掌控内容质量
跨设备同步：随时随地
社区共建：大量高质量公共牌组（医学、语言、编程……）
算法透明可理解：用户理解"为什么今天要复习这张卡"

局限

高学习门槛：制卡本身是技能，质量良莠不齐
只适合可"原子化"的知识（事实、公式、词汇），不适合过程性技能
需要高度自律，缺乏外部动机支撑时很快放弃
不提供教学内容，只是复习工具

可迁移要素

✅ 间隔重复调度（FSRS 算法）集成进学习流程
✅ 在"恰好快忘记"时触发复习
✅ 检索练习（主动回忆）而非被动重读
⚠️ 需要将间隔复习深度集成进内容，而非让学生手动制卡

案例六：PhET 模拟——20 年实证的交互式概念学习

成功维度

学习效果成功（强准实验证据）+ 免费开源规模化

核心证据（2024 PhET Impact Report & 学术文献）

元分析一（Rutten 等，2012）：15 项准实验，效果量最高 g=1.26，加权平均 g=0.94（来源：National Academies 报告）
元分析二（Banda & Nzabahimana，2021）：31 项准实验（全部使用 PhET），标化增益比对照组高达 37%
Science 发表（Wieman 等，2008）：PhET 在提升概念理解和物理实验教学中的作用，Nobel 奖得主 Carl Wieman 主导

PhET 为何有效——设计原则

真实世界连接：动画直接连接真实物理现象与底层概念
交互探索：学生控制参数，观察结果——主动建构知识
即时可见的反馈：调节变量立刻看到效果（无延迟）
最小文本：减少认知负荷
研究驱动设计：每个模拟都经过 4-6 轮用户访谈迭代，不通过测试不发布
免费开源：零成本大规模部署

适用场景与局限

最有效场景：与主动探究、问题导向教学结合使用
对抽象概念（量子、电磁）比具体操作类实验更有优势
局限：缺乏对"设备操作技能"的支持；需要教师设计有效的引导活动；单独使用效果弱于配合教学策略

对本项目的直接意义

PhET 证明了 AI 实时生成的交互式模拟在概念教学上可以超越传统讲授——这正是"AI 原生生成高交互学习内容"理念的先行验证。

可迁移要素

✅ 生成/呈现可即时调节参数的交互模拟（AI 生成而非预制）
✅ 探索式而非演示式交互
✅ 直观可视化抽象概念
✅ 研究驱动的内容设计迭代

案例七：可汗学院——真正有效的场景与人群

有效的证据

MAP Accelerator 大规模研究（2026，n=200000+）：每周使用 6.6h（约 11min/周）效果 +0.031 SD；推荐用量 30min/周 → +0.085 SD（来源：PNAS，Eames 等，2026）
MAP Accelerator 差异化效果：总体效果量 +0.26（推荐用量下），跨年级、性别、族裔、SES 均有正效果（来源：EDM 2022）
LBUSD 研究：每周 30min+ 用户数学成绩提升 22 分（+0.20 SD），与竞对照组有显著差异（来源：Khan Academy 官方研究报告，2018）

有效的场景边界

补充工具 > 主课程替代：作为补充时效果显著，作为替代时效果有限甚至负面（巴西 RCT 显示 -0.076 SD 当轮换模式实施时）
高成就学生受益更多：高成就学生在平台上花更多时间、推进更多技能，受益更多（Eames 等，2026）——这提示平台自身无法弥合学生动机差异
实施质量是关键变量：教师支持、用量管理、学校文化对效果影响极大；低质量实施抹去所有效果（edworkingpapers，2024）
4-6 周短期研究无显著效果（Kelly & Rutherford，2017）——需要足够用量才出效果

真正有效的原因

掌握式技能树：先决关系清晰，系统性前进
即时反馈：做题即知对错
免费降低门槛：面向无资源者的可及性
视频质量（Sal Khan 的讲解）：直觉化、去焦虑化，特别是对数学害怕的孩子

局限

Bastani 2024 PNAS 已验证：直接给答案损害深度学习，可汗学院在护栏设计上薄弱
视频被动观看是主要形式，检索练习不足
依赖学生外部动机，平台本身动机支撑弱

跨案例分析：可迁移的成功要素清单

要素	出现在哪些成功案例	证据强度	对本项目适用性
掌握式进阶（不达标不前进）	ALEKS、Carnegie Learning、Math Academy、Khan Academy、Bloom 元分析	强（多项 RCT + 元分析，平均 ES=0.52）	极高——本项目已有护栏式理念，需工程化
即时分步骤反馈（非只告知对错）	Carnegie Learning（步骤级）、ALEKS、Math Academy	强（RCT 证据）	极高——AI 可以诊断错误模式而非只判断对错
间隔重复调度	Anki/FSRS、Math Academy（FIRe）、ALEKS（重评估）	强（元分析 SMD=0.78，RCT）	高——AI 可以自动调度复习，比手动制卡更流畅
检索练习（主动回忆）	Anki、Math Academy、Carnegie Learning	强（学习科学基础研究）	高——题目练习优先于内容呈现
知识依赖图谱建模	ALEKS（KST）、Math Academy（知识图谱）	中强	高——AI 生成内容需要知道"前置知识"关系
自适应诊断定位	ALEKS、Math Academy、Carnegie Learning	中强	高——避免浪费时间在已知/未准备好的内容
交互式探索模拟	PhET	强（g=0.94，31 项研究）	高——AI 可实时生成参数可调的交互内容
做中学（练习 >> 看视频）	Math Academy、Carnegie Learning	中强（认知科学）	高——AI 生成练习题比 AI 生成视频成本低且效果更好
早期 7 天留存攻坚	Duolingo	中（A/B 测试数据）	高——第一周是最关键的留存窗口
明确目标 + 进度可视化	Duolingo、Math Academy、Khan Academy	中（工程经验）	中高——学生需要看到自己在走向哪里
A/B 测试驱动优化	Duolingo（最典型）	中（工程文化）	中——MVP 后期需要建立实验体系
低门槛高频接触	Duolingo（移动端，每日习惯）	中（参与度数据）	中——移动端支持、短时会话设计
外部问责/社交压力	Duolingo（Friend Streak）、ALEKS（班级进度）	中（A/B 测试）	中——可引入学习伙伴或家长看板
苏格拉底式追问	本项目核心约束（非现有案例中的主要特征）	中（Bastani 2024 PNAS 护栏研究）	极高——本项目护栏式解题流的差异化优势

成功的隐藏代价与不可迁移警示

1. Duolingo 游戏化的不可迁移性

陷阱：将 Duolingo 的游戏化直接套用到学科学习 - 语言学习天然适合碎片化（每个词汇相对独立），数学/物理需要连续深层推理 - 大量 XP/streak 会驱动"刷任务"行为而非"真学习" - 结论：可以借鉴进度感和习惯培养，但不能以游戏分数替代掌握指标

2. Khan Academy 视频为主的不可迁移性

陷阱：认为"好视频 = 好学习" - 被动观看是低效学习形式 - Bastani 2024 PNAS 证明：AI 直接给答案损害深度学习 - 结论：内容呈现应以交互练习为主，视频/讲解为辅

3. "4X 速度"的幻觉

陷阱：认为 Math Academy 的速度主张意味着压缩学习时间 - 速度来自消除冗余，不来自压缩内容密度 - 强调速度可能导致学生"跑步机模式"——通过测试但缺乏深度理解 - 平衡点：效率 ≠ 快速翻篇，而是精准地花时间在真正需要的地方

4. 实施质量变量不可忽视

所有有 RCT 证据的平台（Carnegie Learning、Khan Academy）都有一个共同发现：实施质量（教师培训、用量目标、支持文化）的影响远大于平台本身差异。 - 对本项目的启示：产品再好，用户（孩子）没有合理引导也会效果大打折扣——需要设计 onboarding、家长看板、学习教练机制

Bloom 2-Sigma 问题与 AI 的机遇

Benjamin Bloom 1984 年发现：一对一辅导比班级教学效果高 2 个标准差（84 分位 → 98 分位）。这一效应来自： - 即时步骤级反馈 - 频繁测试与矫正 - 个性化进度 - 额外时间保障 - 掌握式教学

掌握式学习（无辅导）已能实现约 +1.1 SD（元分析平均 0.52 SD，Bloom 原始研究 1.1 SD）。AI 辅导的机会在于：在不提供真人辅导的前提下，尽可能逼近 2-sigma 效果。现有证据（ALEKS 补充 g=0.43，Carnegie Learning 0.2 SD，Khan Academy 0.085-0.26 SD）显示当前 AI/自适应系统大约实现了 2-sigma 的 1/4 到 1/2。

本项目的差异化机会：AI 苏格拉底式追问（护栏式解题流）+ 即时符号引擎验证 + 生成式个性化内容 = 三重叠加，有潜力更进一步逼近 2-sigma。

实施建议

关键步骤

第一优先：掌握式门控——在工程设计上落实"不达标不前进"，这是效果最有证据的单一要素
第二优先：间隔重复调度——集成 FSRS 或等效算法到知识复习调度，避免让学生手动管理复习
第三优先：步骤级即时反馈——AI 不只判断对错，要诊断错误步骤的认知原因
第四优先：知识图谱管理先决关系——建立学科知识图谱，AI 生成内容时自动考虑前置依赖
MVP 留存设计：第 1-7 天是最脆弱窗口，设计专门的 onboarding 留存漏斗

风险点

游戏化过度导致"刷分不学习"（Duolingo 和 Math Academy 都有此问题）
速度压力导致概念理解浅薄（Math Academy 批评者的核心问题）
实施质量依赖：平台再好，学生缺乏引导会流失（Khan Academy 教训）
缺乏外部问责机制（孤立自学者的共同困境）

依赖项

数学符号计算引擎（验证答案，避免 AI 幻觉）
学科知识图谱（初期可先覆盖初中数学）
用户行为数据基础设施（支持 A/B 测试和间隔重复调度）

参考来源

Duolingo SEC 8-K Q4 2024 Results — 支撑 Duolingo DAU/MAU/streak 数据
How Duolingo Reignited User Growth - Lenny's Newsletter — 支撑 streak 机制、CURR 提升 21% 数据
Behind the Product: Duolingo Streaks - Lenny's Newsletter — 支撑早期 7 天留存窗口、streak 机制细节
Cambridge Core - Comparing Duolingo/Classroom French — 支撑 Duolingo 语言效果与课堂教学相当结论
ALEKS Meta-Analysis - Tandfonline 2021 — 支撑 ALEKS 元分析 g=0.43（补充使用）
RAND - CTAI RCT Research Brief — 支撑 Carnegie Learning RAND RCT 效果量 ~0.2 SD
Pane et al. 2014 - Cognitive Tutor Algebra at Scale — 支撑 Cognitive Tutor 高中显著正效果，初中不显著
Math Academy - The Math Academy Way (ResearchGate) — 支撑 Math Academy 理论框架
Math Academy Critical Review - Michael Pershan Substack — 支撑 Math Academy 批评（表面理解、辍率问题）
Spaced Repetition Meta-Analysis - PubMed 2025 — 支撑间隔重复 SMD=0.78 效果量
Family Physicians Spaced Repetition RCT - Academic Medicine 2025 — 支撑间隔重复 Cohen d=0.62 RCT
FSRS vs SM-2 Benchmark - GitHub ankitects — 支撑 FSRS 在 99% 用户中优于 SM-2
PhET Impact Report 2024 — 支撑 PhET 效果量 g=0.94，37% 增益提升
PhET - National Academies Data — 支撑 PhET 31 项准实验汇总
Khan Academy MAP Accelerator - PNAS 2026 — 支撑 Khan Academy 效果量 +0.031 SD（基础）到 +0.085 SD（推荐用量）
Bloom 2-Sigma - Education Next Analysis — 支撑 2-sigma 问题的现代解读
Mastery Learning Meta-Analysis - Kulik 1990 — 支撑掌握式学习平均 ES=0.52
Khan Academy Implementation Quality - EdWorkingPapers 2024 — 支撑实施质量是效果关键变量