AI 版可汗学院 — 产品需求文档(WHAT)
本文聚焦"做什么"。为什么做见 problem-definition.md,谁在用见 persona.md,怎么用见 scenarios.md。 功能需求的可测试形式化见 requirements-ears.md(EARS 格式,供 AI / auto-dev 执行)。 本文不重复市场洞察与当前替代方案(那些在 problem-definition.md),引用关键结论时附来源 URL。
执行摘要
- 一句话(3 秒):一个开源、非营利、AI 原生的自学平台——AI 实时生成千人千面的高交互内容,并用掌握式学习 + 护栏式辅导,保证孩子"真的学会"。
- 30 秒:v1 集中把数学一条主线(初中代数:一元一次方程 → 二元一次方程组)从「诊断起点 → AI 生成式交互内容 → 掌握判定 → 费曼出口」整条体验跑通,并配以护栏式解题(AI 永不直接给答案)、数学自动验答、传统视频+题库兜底、家长仪表盘、兴趣-学科连接库。双主指标——用得爽(留存) 与 学得会(掌握判定),缺一不可。英语作为快速跟进。
- 下文为完整内容(约 5 分钟读完)。
1. 产品目标与非目标
目标(v1)
- 跑通一条完整学习闭环:让一个没有老师/家教的孩子,能在数学一条主线上独立学完并通过掌握判定,证明"AI 原生自学真能学会"(回应 problem-definition 第 1 节四大缺陷:无路径、不知学什么、无反馈、内容分散)。
- 做出差异化的"心脏":AI 实时生成可交互内容(而非贴 AI 答疑),这是与 Khanmigo 的根本差异(见 problem-definition 第 2 节)。
- 守住品类级护栏:避免"好玩但没学会"这一最大失败模式(Bastani 2024 PNAS:可直接索要答案组撤掉 AI 后期末考 -6.45%。来源:https://hamsabastani.github.io/education_llm.pdf)。
- 建立留存抓手:家长仪表盘作为外部鼓励/问责机制提升使用量(Khan 仅约 9% 学生达推荐使用量。来源:https://blog.khanacademy.org/khan-academy-efficacy-results-november-2024)。
非目标(v1)
- 不做完整 K-12 全科——v1 只深挖数学一条主线,英语快速跟进(决策 D-4)。
- 不做收费的人机协作(真人教练)版本——明确延后。
- 本阶段不把算力 token 成本纳入考量(创始人决定),但生成内容须支持缓存/预生成以备后续降本。
2. 用户与场景(引用)
- 核心用户:P1 自学的初高中孩子、P2 焦虑的家长;关键相关方:P3 共创学科老师、算力赞助大厂。完整画像见 persona.md。
- 核心场景:A 诊断起点 → B 生成式交互学习 → C 喜好定制 → D 护栏式解题 → E 掌握判定解锁 → F 费曼出口,叠加 G 传统兜底、I 家长仪表盘、H 共创自进化。完整叙事见 scenarios.md。
3. 功能需求
编号 FR-x。Must = v1 必做(止痛药测试通过);Nice = 路线图(标 v1.x+);Out = 明确不做。每条标注追溯到的场景。
3.1 必须有(Must,v1)
-
FR-1 固定知识图谱 + 掌握式进阶(数学一条主线) 对齐公开课标,将知识点拆成细粒度"知识原子",每个原子带唯一节点 ID,并标注前置依赖、年级、难度、课标。掌握式进阶:达标才解锁后续原子。(依据:知识点拆解粒度是 DKT/掌握式学习的基础设施,调研建议拆到 200–500 个知识原子。来源:https://web.stanford.edu/~cpiech/bio/papers/deepKnowledgeTracing.pdf)追溯场景 A/E。
-
FR-2 诊断式起点 用少量自适应题快速定位孩子的知识漏洞(参考 DKT 知识追踪),动态调整后续题目难度,给出"已掌握 X / 薄弱 Y / 建议从 Z 开始"的起点地图。识别异常作答(乱答/瞎点)并兜底到主线稳妥起点;支持中途退出后继续接上进度。追溯场景 A。
-
FR-3 AI 生成式高交互内容(核心心脏) 针对某知识原子实时生成可拖拽交互/小游戏式讲解(如拖动两条直线滑块看交点对应方程组解)。热门知识原子的生成结果可缓存/预生成以备降本。生成失败/超时优雅降级到该原子的标准化兜底内容(FR-5),绝不白屏。生成的数学内容须经自动验答(FR-8)把关。(差异化依据:Generative UI 已可行。来源:https://research.google/blog/generative-ui-a-rich-custom-visual-interactive-user-experience-for-any-prompt)追溯场景 B。
-
FR-4 喜好定制 开场询问孩子兴趣(Minecraft / 王者荣耀 / 第五人格 / 二次元 / 篮球等),据此调整内容呈现风格与类比。喜好定制必须接 FR-10 连接库(不让 AI 自由发挥)。孩子可随时关闭/更换喜好定制。追溯场景 C。
-
FR-5 视频 + 题库标准化兜底路径 每个知识原子提供标准化讲解视频 + 题库。孩子可主动选择"看视频 + 做题"传统形态,平台不强迫走生成式交互;该路径同时是 FR-3 生成失败的降级目标。即便走兜底路径,护栏(FR-7)与掌握判定(FR-1/FR-6 配套)依然适用。追溯场景 G。
-
FR-6 费曼出口 孩子用自己的话把知识原子讲给 AI,AI 扮演"听不懂的同学"针对含糊处反问、追问,暴露并弥合理解漏洞,与掌握判定交叉验证(防靠记答案刷过)。v1 为文字输入(语音列入 Nice)。(依据:用自己话 paraphrasing 比选句子学习效果更好且与学习增益正相关。来源:https://link.springer.com/article/10.1007/s40593-025-00461-1)追溯场景 F。
-
FR-7 护栏式解题流(AI 永不直接给答案)★ 架构级 AI 拒绝直接给答案,按梯度引导:① 分析错误 → ② 给不揭底的方向性提示 → ③ 让孩子再试 → ④ 苏格拉底追问 → ⑤ 实在卡死才兜底步骤分解(但每步仍要求孩子自己完成)。孩子反复索要答案时坚持引导、不妥协。此护栏不可被任何功能开关绕过(决策 D-1)。需设"退出条件"避免追问过长致沮丧(来源:https://arxiv.org/html/2512.23633v1)。追溯场景 D(贯穿 B/E/G)。
-
FR-8 数学内容自动验答 AI 给出的任何数学判断/提示/答案校验,必须经符号计算引擎校验,挡住 AI 幻觉(自信的错误信息)。校验未通过的生成内容不得呈现给孩子。追溯场景 B/D。
-
FR-9 家长仪表盘(鼓励式问责) — 详细设计见 §4。追溯场景 I。
-
FR-10 兴趣-学科连接库 — 详细设计见 §5。追溯场景 C。
3.2 最好有(Nice,路线图)
- FR-11 英语学科(v1.1,快速跟进):把闭环复制到英语一条主线。追溯:problem-definition 第 5 节。
- FR-12 苏格拉底动态出题(v1.x):基于错误实时生成下一题(RL-DKT 主动选最优下一题。来源:https://d-nb.info/1386982970/34)。
- FR-13 多模态生成(v1.x):漫画 / 说唱 / 红石类比等多模态讲解。
- FR-14 教师分层共创平台(v1.x):L0–L4 分层委托制 + Staging/Canon 双区 + 自进化元层(用户/老师提交 Feature Request/Bug → 审核 → AI 自动实现 → 人工 review → 上线)。追溯场景 H。完整论证见 teacher-cocreation 调研。
- FR-15 学习者数字孪生(v2):知识 + 情绪状态建模。
- FR-16 语音对话辅导(v2):费曼出口与辅导支持语音。
- FR-17 众包 / 学习者共创(v2):L4 贡献被验证题解、类比、难度反馈。
- FR-18 横向扩科目 / 年级(v2+)。
3.3 明确不做(Out of Scope)
- 收费的人机协作(真人教练)版本 —— 与开源公益免费定位冲突,明确延后。
- 完整 K-12 全科一次性铺开 —— v1 深挖一条线(D-4),先证明学习效果再扩展。
4. 重点功能详细设计 A:家长仪表盘(FR-9,v1)
目标:用"说人话"的方式回答家长四问——学到哪了 / 有没有漏 / 在认真学吗 / 卡在哪。定位是 "鼓励式问责" 而非监控。
4.1 模块(v1)
| 模块 | 回答家长哪个问题 | 内容 |
|---|---|---|
| 1. 学习地图进度 | 学到哪了 | 孩子在数学主线知识图谱上的位置(已掌握 / 进行中 / 未开始)可视化 |
| 2. 掌握度热力图 | 有没有漏 | 知识点红黄绿三色,一眼看出薄弱点 |
| 3. 投入度 | 在认真学吗 | 本周学习时长、连续天数(streak)、活跃趋势 |
| 4. AI 周报摘要 | 卡在哪 / 下一步 | 每周自动生成"本周学了什么 + 盲点 + 下一步建议",家长看得懂的自然语言 |
| 5. 一键鼓励 | (留存抓手) | 家长发送鼓励/点赞 → 推送给孩子(外部鼓励提升使用量。来源:https://blog.khanacademy.org/khan-academy-efficacy-results-november-2024) |
| 6. 周报推送 | (留存抓手) | 微信/邮件主动触达 |
4.2 设计原则与护栏
- 说人话:不堆术语,自然语言为主。
- 鼓励而非监控:默认呈现成长与亮点,弱化监视感(过度监控伤内在动机)。
- 隐私边界:孩子知情哪些信息对家长可见,尊重青春期自主性。
- 一屏看懂、轻量。
- 家长侧只读:不能代替孩子操作学习。
5. 重点功能详细设计 B:兴趣-学科连接库(FR-10,v1)
目的:给喜好定制提供"经审核的高质量连接",杜绝 AI 即兴编出"现实毫无道理"的牵强情境(决策 D-2;调研警告:AI 擅长识别兴趣但不擅长做有意义连接。来源:https://www.edweek.org/technology/personalized-learning-in-math-has-proved-elusive-and-overhyped-can-ai-offer-a-breakthrough/2026/05)。
5.1 数据结构
每条连接 = { 兴趣领域, 学科知识点(图谱节点ID), 连接类型, 连接内容, 质量状态(verified/pending), 贡献者, 审核者, 适用年级 }。
5.2 三种连接类型
- 情境包装:题目背景换成兴趣场景。
- 概念类比:用兴趣机制类比抽象概念(如 Minecraft 红石电路的输入输出类比方程变量关系)。
- 视觉 / 角色皮肤:呈现层换皮,不改内容逻辑。
5.3 生产(接共创模型)
AI 生成候选 → 学科老师审核(数学正确性 + 是否牵强,按"语义一致性 rubric")→ verified 入库;L4 学生可贡献类比,审核后入库。(审核行为本身在生产 AI 训练数据,是正向飞轮。来源:https://www.mdpi.com/1099-4300/28/4/377)
5.4 运行时规则
- AI 生成内容时优先检索库中 verified 连接。
- 库中无匹配 → 回退到中性、严谨的呈现(绝不硬编牵强类比)。
- 质量门:连接须通过"语义一致性"检查(该兴趣情境是否真帮助理解此知识点)。
5.5 冷启动
v1 为数学一条主线 × top 5–8 热门兴趣(Minecraft / 王者荣耀 / 第五人格 / 二次元 / 篮球等)人工 + AI 共建种子连接。
6. 成功指标(双主指标,都要)
两个主指标缺一不可,目的就是避免"好玩但没学会"(Bastani 2024 PNAS。来源:https://hamsabastani.github.io/education_llm.pdf)。
指标一:留存 / 体验("用得爽")
- 次日留存率、7 日留存率;
- 单次学习时长;
- (辅助)连续学习天数 streak、家长一键鼓励触发率。
指标二:掌握("学会了")
- 完成主线的学生中达成掌握判定的比例;
- 撤掉 AI 后的迁移测试表现(核心抗"好玩但没学会"指标,对照 Bastani 期末考 -6.45% 风险);
- (辅助)平均每知识原子达成掌握所需尝试次数。
7. 范围与里程碑
- In scope(v1):数学一条主线(一元一次方程 → 二元一次方程组)的 FR-1 ~ FR-10 完整闭环。
- Out of scope(v1):英语及其他学科(v1.1+)、共创平台(v1.x)、真人教练版本与全科铺开(不做)。
- 里程碑建议: 1. M1 知识图谱 + 诊断:数学主线知识原子建模(FR-1)+ 诊断起点(FR-2)+ 自动验答引擎(FR-8)。 2. M2 心脏 + 护栏:生成式交互内容(FR-3)+ 护栏式解题(FR-7)+ 传统兜底(FR-5)+ 连接库种子(FR-10)+ 喜好定制(FR-4)。 3. M3 闭环 + 留存:掌握判定解锁(FR-1 配套)+ 费曼出口(FR-6)+ 家长仪表盘(FR-9)。 4. M4 验证:跑通整条闭环,采集双主指标,启动英语跟进(FR-11)。
8. 依赖与风险
外部依赖
- AI 大模型 / Generative UI 能力:实时生成交互内容的引擎。
- 符号计算引擎:数学自动验答(FR-8)。
- 算力赞助:免费模式依赖大厂 token 赞助(本阶段不纳入成本考量,但留缓存/预生成口子)。
- 共创学科老师:内容与连接库审核(假设志愿者供给充足,不纳入本阶段成本考量)。
- 消息推送通道:微信/邮件(家长周报,FR-9)。
关键约束(写入约束/风险)
- AI 永不直接给答案(架构级护栏,不可被开关绕过)——见 FR-7、决策 D-1。
- 数学自动验答兜底——见 FR-8,挡 AI 幻觉。
- 算力 token 成本本阶段不纳入考量(创始人决定),但生成内容应支持缓存/预生成以备后续降本。
- 内容版权:只参考他人知识点/图谱/框架,不直接搬用;教学内容由共创老师原创。
- 开源公益、志愿者供给充足(假设成立,不纳入成本考量)。
风险
| 风险 | 等级 | 缓解 |
|---|---|---|
| "好玩但没学会"(参与度掩盖技能缺失) | 高 | 双主指标 + 迁移测试 + 护栏 FR-7 + 费曼出口 FR-6 |
| AI 生成数学内容幻觉 | 高 | FR-8 符号引擎自动验答,校验未过不呈现 |
| 喜好定制生成牵强类比 | 中 | FR-10 连接库 verified 优先 + 无匹配回退中性呈现 |
| 自驱力不足、留存低 | 中 | FR-9 家长鼓励式问责 + streak + 一键鼓励 |
| 苏格拉底追问过长致沮丧 | 中 | FR-7 设退出条件,及时降级到步骤分解 |
| 实时生成失败/超时 | 中 | FR-3 优雅降级到 FR-5 标准化兜底 |
9. 🔴 关键决策点
🔴 需要确认:掌握判定的具体阈值(如"90% 正确且不靠提示独立完成 N 题")由谁定、定多少? 调研建议掌握式学习 90%+ 才进下一节(来源:https://ollo.com/blog/2026/02/blooms-2-sigma-problem-ai-democratization.html),但具体阈值需 L0 知识架构师拍板并在 v1 实测校准。
🔴 需要确认:诊断起点的题量上限与"几分钟"体验目标的平衡——诊断太长伤首次体验,太短定位不准。需在 M1 用真实题库实测。
🔴 需要确认:家长仪表盘"对家长可见信息"的隐私默认值——哪些细节默认可见、哪些需孩子授权?涉及青春期自主性,建议默认偏保守(成长/亮点为主)。
10. 开放问题
problem-definition 第 8 节的 5 个开放问题已大部分拍板(算力不纳入考量、设备暂不深入、审核成本不纳入考量、家长仪表盘进 v1、连接库已设计)。本 PRD 新增的待定项:
- 掌握判定阈值与"反复不达标换讲法/换题"的具体策略(见 §9 决策点 1)。
- 诊断题量与首次体验时长平衡(见 §9 决策点 2)。
- 家长仪表盘隐私默认值(见 §9 决策点 3)。
- 缓存/预生成的命中策略(哪些知识原子优先预生成)——留到 M2 按真实热度决定,本阶段不纳入成本考量。
验收标准
功能需求的可测试形式化见 requirements-ears.md(EARS 格式,供 AI / auto-dev 执行)。