AI 版可汗学院 — 产品需求文档（WHAT）

本文聚焦"做什么"。为什么做见 problem-definition.md，谁在用见 persona.md，怎么用见 scenarios.md。功能需求的可测试形式化见 requirements-ears.md（EARS 格式，供 AI / auto-dev 执行）。本文不重复市场洞察与当前替代方案（那些在 problem-definition.md），引用关键结论时附来源 URL。

执行摘要

一句话（3 秒）：一个开源、非营利、AI 原生的自学平台——AI 实时生成千人千面的高交互内容，并用掌握式学习 + 护栏式辅导，保证孩子"真的学会"。
30 秒：v1 集中把数学一条主线（初中代数：一元一次方程 → 二元一次方程组）从「诊断起点 → AI 生成式交互内容 → 掌握判定 → 费曼出口」整条体验跑通，并配以护栏式解题（AI 永不直接给答案）、数学自动验答、传统视频+题库兜底、家长仪表盘、兴趣-学科连接库。双主指标——用得爽（留存） 与 学得会（掌握判定），缺一不可。英语作为快速跟进。
下文为完整内容（约 5 分钟读完）。

1. 产品目标与非目标

目标（v1）

跑通一条完整学习闭环：让一个没有老师/家教的孩子，能在数学一条主线上独立学完并通过掌握判定，证明"AI 原生自学真能学会"（回应 problem-definition 第 1 节四大缺陷：无路径、不知学什么、无反馈、内容分散）。
做出差异化的"心脏"：AI 实时生成可交互内容（而非贴 AI 答疑），这是与 Khanmigo 的根本差异（见 problem-definition 第 2 节）。
守住品类级护栏：避免"好玩但没学会"这一最大失败模式（Bastani 2024 PNAS：可直接索要答案组撤掉 AI 后期末考 -6.45%。来源：https://hamsabastani.github.io/education_llm.pdf）。
建立留存抓手：家长仪表盘作为外部鼓励/问责机制提升使用量（Khan 仅约 9% 学生达推荐使用量。来源：https://blog.khanacademy.org/khan-academy-efficacy-results-november-2024）。

非目标（v1）

不做完整 K-12 全科——v1 只深挖数学一条主线，英语快速跟进（决策 D-4）。
不做收费的人机协作（真人教练）版本——明确延后。
本阶段不把算力 token 成本纳入考量（创始人决定），但生成内容须支持缓存/预生成以备后续降本。

2. 用户与场景（引用）

核心用户：P1 自学的初高中孩子、P2 焦虑的家长；关键相关方：P3 共创学科老师、算力赞助大厂。完整画像见 persona.md。
核心场景：A 诊断起点 → B 生成式交互学习 → C 喜好定制 → D 护栏式解题 → E 掌握判定解锁 → F 费曼出口，叠加 G 传统兜底、I 家长仪表盘、H 共创自进化。完整叙事见 scenarios.md。

3. 功能需求

编号 FR-x。Must = v1 必做（止痛药测试通过）；Nice = 路线图（标 v1.x+）；Out = 明确不做。每条标注追溯到的场景。

3.1 必须有（Must，v1）

FR-1 固定知识图谱 + 掌握式进阶（数学一条主线） 对齐公开课标，将知识点拆成细粒度"知识原子"，每个原子带唯一节点 ID，并标注前置依赖、年级、难度、课标。掌握式进阶：达标才解锁后续原子。（依据：知识点拆解粒度是 DKT/掌握式学习的基础设施，调研建议拆到 200–500 个知识原子。来源：https://web.stanford.edu/~cpiech/bio/papers/deepKnowledgeTracing.pdf）追溯场景 A/E。
FR-2 诊断式起点 用少量自适应题快速定位孩子的知识漏洞（参考 DKT 知识追踪），动态调整后续题目难度，给出"已掌握 X / 薄弱 Y / 建议从 Z 开始"的起点地图。识别异常作答（乱答/瞎点）并兜底到主线稳妥起点；支持中途退出后继续接上进度。追溯场景 A。
FR-3 AI 生成式高交互内容（核心心脏） 针对某知识原子实时生成可拖拽交互/小游戏式讲解（如拖动两条直线滑块看交点对应方程组解）。热门知识原子的生成结果可缓存/预生成以备降本。生成失败/超时优雅降级到该原子的标准化兜底内容（FR-5），绝不白屏。生成的数学内容须经自动验答（FR-8）把关。（差异化依据：Generative UI 已可行。来源：https://research.google/blog/generative-ui-a-rich-custom-visual-interactive-user-experience-for-any-prompt）追溯场景 B。
FR-4 喜好定制 开场询问孩子兴趣（Minecraft / 王者荣耀 / 第五人格 / 二次元 / 篮球等），据此调整内容呈现风格与类比。喜好定制必须接 FR-10 连接库（不让 AI 自由发挥）。孩子可随时关闭/更换喜好定制。追溯场景 C。
FR-5 视频 + 题库标准化兜底路径 每个知识原子提供标准化讲解视频 + 题库。孩子可主动选择"看视频 + 做题"传统形态，平台不强迫走生成式交互；该路径同时是 FR-3 生成失败的降级目标。即便走兜底路径，护栏（FR-7）与掌握判定（FR-1/FR-6 配套）依然适用。追溯场景 G。
FR-6 费曼出口 孩子用自己的话把知识原子讲给 AI，AI 扮演"听不懂的同学"针对含糊处反问、追问，暴露并弥合理解漏洞，与掌握判定交叉验证（防靠记答案刷过）。v1 为文字输入（语音列入 Nice）。（依据：用自己话 paraphrasing 比选句子学习效果更好且与学习增益正相关。来源：https://link.springer.com/article/10.1007/s40593-025-00461-1）追溯场景 F。
FR-7 护栏式解题流（AI 永不直接给答案）★ 架构级 AI 拒绝直接给答案，按梯度引导：① 分析错误 → ② 给不揭底的方向性提示 → ③ 让孩子再试 → ④ 苏格拉底追问 → ⑤ 实在卡死才兜底步骤分解（但每步仍要求孩子自己完成）。孩子反复索要答案时坚持引导、不妥协。此护栏不可被任何功能开关绕过（决策 D-1）。需设"退出条件"避免追问过长致沮丧（来源：https://arxiv.org/html/2512.23633v1）。追溯场景 D（贯穿 B/E/G）。
FR-8 数学内容自动验答 AI 给出的任何数学判断/提示/答案校验，必须经符号计算引擎校验，挡住 AI 幻觉（自信的错误信息）。校验未通过的生成内容不得呈现给孩子。追溯场景 B/D。
FR-9 家长仪表盘（鼓励式问责） — 详细设计见 §4。追溯场景 I。
FR-10 兴趣-学科连接库 — 详细设计见 §5。追溯场景 C。

3.2 最好有（Nice，路线图）

FR-11 英语学科（v1.1，快速跟进）：把闭环复制到英语一条主线。追溯：problem-definition 第 5 节。
FR-12 苏格拉底动态出题（v1.x）：基于错误实时生成下一题（RL-DKT 主动选最优下一题。来源：https://d-nb.info/1386982970/34）。
FR-13 多模态生成（v1.x）：漫画 / 说唱 / 红石类比等多模态讲解。
FR-14 教师分层共创平台（v1.x）：L0–L4 分层委托制 + Staging/Canon 双区 + 自进化元层（用户/老师提交 Feature Request/Bug → 审核 → AI 自动实现 → 人工 review → 上线）。追溯场景 H。完整论证见 teacher-cocreation 调研。
FR-15 学习者数字孪生（v2）：知识 + 情绪状态建模。
FR-16 语音对话辅导（v2）：费曼出口与辅导支持语音。
FR-17 众包 / 学习者共创（v2）：L4 贡献被验证题解、类比、难度反馈。
FR-18 横向扩科目 / 年级（v2+）。

3.3 明确不做（Out of Scope）

收费的人机协作（真人教练）版本 —— 与开源公益免费定位冲突，明确延后。
完整 K-12 全科一次性铺开 —— v1 深挖一条线（D-4），先证明学习效果再扩展。

4. 重点功能详细设计 A：家长仪表盘（FR-9，v1）

目标：用"说人话"的方式回答家长四问——学到哪了 / 有没有漏 / 在认真学吗 / 卡在哪。定位是 "鼓励式问责" 而非监控。

4.1 模块（v1）

模块	回答家长哪个问题	内容
1. 学习地图进度	学到哪了	孩子在数学主线知识图谱上的位置（已掌握 / 进行中 / 未开始）可视化
2. 掌握度热力图	有没有漏	知识点红黄绿三色，一眼看出薄弱点
3. 投入度	在认真学吗	本周学习时长、连续天数（streak）、活跃趋势
4. AI 周报摘要	卡在哪 / 下一步	每周自动生成"本周学了什么 + 盲点 + 下一步建议"，家长看得懂的自然语言
5. 一键鼓励	（留存抓手）	家长发送鼓励/点赞 → 推送给孩子（外部鼓励提升使用量。来源：https://blog.khanacademy.org/khan-academy-efficacy-results-november-2024）
6. 周报推送	（留存抓手）	微信/邮件主动触达

4.2 设计原则与护栏

说人话：不堆术语，自然语言为主。
鼓励而非监控：默认呈现成长与亮点，弱化监视感（过度监控伤内在动机）。
隐私边界：孩子知情哪些信息对家长可见，尊重青春期自主性。
一屏看懂、轻量。
家长侧只读：不能代替孩子操作学习。

5. 重点功能详细设计 B：兴趣-学科连接库（FR-10，v1）

目的：给喜好定制提供"经审核的高质量连接"，杜绝 AI 即兴编出"现实毫无道理"的牵强情境（决策 D-2；调研警告：AI 擅长识别兴趣但不擅长做有意义连接。来源：https://www.edweek.org/technology/personalized-learning-in-math-has-proved-elusive-and-overhyped-can-ai-offer-a-breakthrough/2026/05）。

5.1 数据结构

每条连接 = { 兴趣领域, 学科知识点(图谱节点ID), 连接类型, 连接内容, 质量状态(verified/pending), 贡献者, 审核者, 适用年级 }。

5.2 三种连接类型

情境包装：题目背景换成兴趣场景。
概念类比：用兴趣机制类比抽象概念（如 Minecraft 红石电路的输入输出类比方程变量关系）。
视觉 / 角色皮肤：呈现层换皮，不改内容逻辑。

5.3 生产（接共创模型）

AI 生成候选 → 学科老师审核（数学正确性 + 是否牵强，按"语义一致性 rubric"）→ verified 入库；L4 学生可贡献类比，审核后入库。（审核行为本身在生产 AI 训练数据，是正向飞轮。来源：https://www.mdpi.com/1099-4300/28/4/377）

5.4 运行时规则

AI 生成内容时优先检索库中 verified 连接。
库中无匹配 → 回退到中性、严谨的呈现（绝不硬编牵强类比）。
质量门：连接须通过"语义一致性"检查（该兴趣情境是否真帮助理解此知识点）。

5.5 冷启动

v1 为数学一条主线 × top 5–8 热门兴趣（Minecraft / 王者荣耀 / 第五人格 / 二次元 / 篮球等）人工 + AI 共建种子连接。

6. 成功指标（双主指标，都要）

两个主指标缺一不可，目的就是避免"好玩但没学会"（Bastani 2024 PNAS。来源：https://hamsabastani.github.io/education_llm.pdf）。

指标一：留存 / 体验（"用得爽"）

次日留存率、7 日留存率；
单次学习时长；
（辅助）连续学习天数 streak、家长一键鼓励触发率。

指标二：掌握（"学会了"）

完成主线的学生中达成掌握判定的比例；
撤掉 AI 后的迁移测试表现（核心抗"好玩但没学会"指标，对照 Bastani 期末考 -6.45% 风险）；
（辅助）平均每知识原子达成掌握所需尝试次数。

7. 范围与里程碑

In scope（v1）：数学一条主线（一元一次方程 → 二元一次方程组）的 FR-1 ~ FR-10 完整闭环。
Out of scope（v1）：英语及其他学科（v1.1+）、共创平台（v1.x）、真人教练版本与全科铺开（不做）。
里程碑建议： 1. M1 知识图谱 + 诊断：数学主线知识原子建模（FR-1）+ 诊断起点（FR-2）+ 自动验答引擎（FR-8）。 2. M2 心脏 + 护栏：生成式交互内容（FR-3）+ 护栏式解题（FR-7）+ 传统兜底（FR-5）+ 连接库种子（FR-10）+ 喜好定制（FR-4）。 3. M3 闭环 + 留存：掌握判定解锁（FR-1 配套）+ 费曼出口（FR-6）+ 家长仪表盘（FR-9）。 4. M4 验证：跑通整条闭环，采集双主指标，启动英语跟进（FR-11）。

8. 依赖与风险

外部依赖

AI 大模型 / Generative UI 能力：实时生成交互内容的引擎。
符号计算引擎：数学自动验答（FR-8）。
算力赞助：免费模式依赖大厂 token 赞助（本阶段不纳入成本考量，但留缓存/预生成口子）。
共创学科老师：内容与连接库审核（假设志愿者供给充足，不纳入本阶段成本考量）。
消息推送通道：微信/邮件（家长周报，FR-9）。

关键约束（写入约束/风险）

AI 永不直接给答案（架构级护栏，不可被开关绕过）——见 FR-7、决策 D-1。
数学自动验答兜底——见 FR-8，挡 AI 幻觉。
算力 token 成本本阶段不纳入考量（创始人决定），但生成内容应支持缓存/预生成以备后续降本。
内容版权：只参考他人知识点/图谱/框架，不直接搬用；教学内容由共创老师原创。
开源公益、志愿者供给充足（假设成立，不纳入成本考量）。

风险

风险	等级	缓解
"好玩但没学会"（参与度掩盖技能缺失）	高	双主指标 + 迁移测试 + 护栏 FR-7 + 费曼出口 FR-6
AI 生成数学内容幻觉	高	FR-8 符号引擎自动验答，校验未过不呈现
喜好定制生成牵强类比	中	FR-10 连接库 verified 优先 + 无匹配回退中性呈现
自驱力不足、留存低	中	FR-9 家长鼓励式问责 + streak + 一键鼓励
苏格拉底追问过长致沮丧	中	FR-7 设退出条件，及时降级到步骤分解
实时生成失败/超时	中	FR-3 优雅降级到 FR-5 标准化兜底

9. 🔴 关键决策点

🔴 需要确认：掌握判定的具体阈值（如"90% 正确且不靠提示独立完成 N 题"）由谁定、定多少？调研建议掌握式学习 90%+ 才进下一节（来源：https://ollo.com/blog/2026/02/blooms-2-sigma-problem-ai-democratization.html），但具体阈值需 L0 知识架构师拍板并在 v1 实测校准。

🔴 需要确认：诊断起点的题量上限与"几分钟"体验目标的平衡——诊断太长伤首次体验，太短定位不准。需在 M1 用真实题库实测。

🔴 需要确认：家长仪表盘"对家长可见信息"的隐私默认值——哪些细节默认可见、哪些需孩子授权？涉及青春期自主性，建议默认偏保守（成长/亮点为主）。

10. 开放问题

problem-definition 第 8 节的 5 个开放问题已大部分拍板（算力不纳入考量、设备暂不深入、审核成本不纳入考量、家长仪表盘进 v1、连接库已设计）。本 PRD 新增的待定项：

掌握判定阈值与"反复不达标换讲法/换题"的具体策略（见 §9 决策点 1）。
诊断题量与首次体验时长平衡（见 §9 决策点 2）。
家长仪表盘隐私默认值（见 §9 决策点 3）。
缓存/预生成的命中策略（哪些知识原子优先预生成）——留到 M2 按真实热度决定，本阶段不纳入成本考量。

验收标准

功能需求的可测试形式化见 requirements-ears.md（EARS 格式，供 AI / auto-dev 执行）。