AI 版可汗学院 — 产品需求文档(PRD)

2026-06-02 prd

AI 版可汗学院 — 产品需求文档(WHAT)

本文聚焦"做什么"。为什么做见 problem-definition.md,谁在用见 persona.md,怎么用见 scenarios.md。 功能需求的可测试形式化见 requirements-ears.md(EARS 格式,供 AI / auto-dev 执行)。 本文不重复市场洞察与当前替代方案(那些在 problem-definition.md),引用关键结论时附来源 URL。


执行摘要

  • 一句话(3 秒):一个开源、非营利、AI 原生的自学平台——AI 实时生成千人千面的高交互内容,并用掌握式学习 + 护栏式辅导,保证孩子"真的学会"。
  • 30 秒:v1 集中把数学一条主线(初中代数:一元一次方程 → 二元一次方程组)从「诊断起点 → AI 生成式交互内容 → 掌握判定 → 费曼出口」整条体验跑通,并配以护栏式解题(AI 永不直接给答案)、数学自动验答、传统视频+题库兜底、家长仪表盘、兴趣-学科连接库。双主指标——用得爽(留存)学得会(掌握判定),缺一不可。英语作为快速跟进。
  • 下文为完整内容(约 5 分钟读完)。

1. 产品目标与非目标

目标(v1)

  1. 跑通一条完整学习闭环:让一个没有老师/家教的孩子,能在数学一条主线上独立学完并通过掌握判定,证明"AI 原生自学真能学会"(回应 problem-definition 第 1 节四大缺陷:无路径、不知学什么、无反馈、内容分散)。
  2. 做出差异化的"心脏":AI 实时生成可交互内容(而非贴 AI 答疑),这是与 Khanmigo 的根本差异(见 problem-definition 第 2 节)。
  3. 守住品类级护栏:避免"好玩但没学会"这一最大失败模式(Bastani 2024 PNAS:可直接索要答案组撤掉 AI 后期末考 -6.45%。来源:https://hamsabastani.github.io/education_llm.pdf)。
  4. 建立留存抓手:家长仪表盘作为外部鼓励/问责机制提升使用量(Khan 仅约 9% 学生达推荐使用量。来源:https://blog.khanacademy.org/khan-academy-efficacy-results-november-2024)。

非目标(v1)

  • 不做完整 K-12 全科——v1 只深挖数学一条主线,英语快速跟进(决策 D-4)。
  • 不做收费的人机协作(真人教练)版本——明确延后。
  • 本阶段不把算力 token 成本纳入考量(创始人决定),但生成内容须支持缓存/预生成以备后续降本。

2. 用户与场景(引用)

  • 核心用户:P1 自学的初高中孩子、P2 焦虑的家长;关键相关方:P3 共创学科老师、算力赞助大厂。完整画像见 persona.md
  • 核心场景:A 诊断起点 → B 生成式交互学习 → C 喜好定制 → D 护栏式解题 → E 掌握判定解锁 → F 费曼出口,叠加 G 传统兜底、I 家长仪表盘、H 共创自进化。完整叙事见 scenarios.md

3. 功能需求

编号 FR-x。Must = v1 必做(止痛药测试通过);Nice = 路线图(标 v1.x+);Out = 明确不做。每条标注追溯到的场景。

3.1 必须有(Must,v1)

  • FR-1 固定知识图谱 + 掌握式进阶(数学一条主线) 对齐公开课标,将知识点拆成细粒度"知识原子",每个原子带唯一节点 ID,并标注前置依赖、年级、难度、课标。掌握式进阶:达标才解锁后续原子。(依据:知识点拆解粒度是 DKT/掌握式学习的基础设施,调研建议拆到 200–500 个知识原子。来源:https://web.stanford.edu/~cpiech/bio/papers/deepKnowledgeTracing.pdf)追溯场景 A/E。

  • FR-2 诊断式起点 用少量自适应题快速定位孩子的知识漏洞(参考 DKT 知识追踪),动态调整后续题目难度,给出"已掌握 X / 薄弱 Y / 建议从 Z 开始"的起点地图。识别异常作答(乱答/瞎点)并兜底到主线稳妥起点;支持中途退出后继续接上进度。追溯场景 A。

  • FR-3 AI 生成式高交互内容(核心心脏) 针对某知识原子实时生成可拖拽交互/小游戏式讲解(如拖动两条直线滑块看交点对应方程组解)。热门知识原子的生成结果可缓存/预生成以备降本。生成失败/超时优雅降级到该原子的标准化兜底内容(FR-5),绝不白屏。生成的数学内容须经自动验答(FR-8)把关。(差异化依据:Generative UI 已可行。来源:https://research.google/blog/generative-ui-a-rich-custom-visual-interactive-user-experience-for-any-prompt)追溯场景 B。

  • FR-4 喜好定制 开场询问孩子兴趣(Minecraft / 王者荣耀 / 第五人格 / 二次元 / 篮球等),据此调整内容呈现风格与类比。喜好定制必须接 FR-10 连接库(不让 AI 自由发挥)。孩子可随时关闭/更换喜好定制。追溯场景 C。

  • FR-5 视频 + 题库标准化兜底路径 每个知识原子提供标准化讲解视频 + 题库。孩子可主动选择"看视频 + 做题"传统形态,平台不强迫走生成式交互;该路径同时是 FR-3 生成失败的降级目标。即便走兜底路径,护栏(FR-7)与掌握判定(FR-1/FR-6 配套)依然适用。追溯场景 G。

  • FR-6 费曼出口 孩子用自己的话把知识原子讲给 AI,AI 扮演"听不懂的同学"针对含糊处反问、追问,暴露并弥合理解漏洞,与掌握判定交叉验证(防靠记答案刷过)。v1 为文字输入(语音列入 Nice)。(依据:用自己话 paraphrasing 比选句子学习效果更好且与学习增益正相关。来源:https://link.springer.com/article/10.1007/s40593-025-00461-1)追溯场景 F。

  • FR-7 护栏式解题流(AI 永不直接给答案)★ 架构级 AI 拒绝直接给答案,按梯度引导:① 分析错误 → ② 给不揭底的方向性提示 → ③ 让孩子再试 → ④ 苏格拉底追问 → ⑤ 实在卡死才兜底步骤分解(但每步仍要求孩子自己完成)。孩子反复索要答案时坚持引导、不妥协。此护栏不可被任何功能开关绕过(决策 D-1)。需设"退出条件"避免追问过长致沮丧(来源:https://arxiv.org/html/2512.23633v1)。追溯场景 D(贯穿 B/E/G)。

  • FR-8 数学内容自动验答 AI 给出的任何数学判断/提示/答案校验,必须经符号计算引擎校验,挡住 AI 幻觉(自信的错误信息)。校验未通过的生成内容不得呈现给孩子。追溯场景 B/D。

  • FR-9 家长仪表盘(鼓励式问责) — 详细设计见 §4。追溯场景 I。

  • FR-10 兴趣-学科连接库 — 详细设计见 §5。追溯场景 C。

3.2 最好有(Nice,路线图)

  • FR-11 英语学科(v1.1,快速跟进):把闭环复制到英语一条主线。追溯:problem-definition 第 5 节。
  • FR-12 苏格拉底动态出题(v1.x):基于错误实时生成下一题(RL-DKT 主动选最优下一题。来源:https://d-nb.info/1386982970/34)。
  • FR-13 多模态生成(v1.x):漫画 / 说唱 / 红石类比等多模态讲解。
  • FR-14 教师分层共创平台(v1.x):L0–L4 分层委托制 + Staging/Canon 双区 + 自进化元层(用户/老师提交 Feature Request/Bug → 审核 → AI 自动实现 → 人工 review → 上线)。追溯场景 H。完整论证见 teacher-cocreation 调研
  • FR-15 学习者数字孪生(v2):知识 + 情绪状态建模。
  • FR-16 语音对话辅导(v2):费曼出口与辅导支持语音。
  • FR-17 众包 / 学习者共创(v2):L4 贡献被验证题解、类比、难度反馈。
  • FR-18 横向扩科目 / 年级(v2+)。

3.3 明确不做(Out of Scope)

  • 收费的人机协作(真人教练)版本 —— 与开源公益免费定位冲突,明确延后。
  • 完整 K-12 全科一次性铺开 —— v1 深挖一条线(D-4),先证明学习效果再扩展。

4. 重点功能详细设计 A:家长仪表盘(FR-9,v1)

目标:用"说人话"的方式回答家长四问——学到哪了 / 有没有漏 / 在认真学吗 / 卡在哪。定位是 "鼓励式问责" 而非监控

4.1 模块(v1)

模块 回答家长哪个问题 内容
1. 学习地图进度 学到哪了 孩子在数学主线知识图谱上的位置(已掌握 / 进行中 / 未开始)可视化
2. 掌握度热力图 有没有漏 知识点红黄绿三色,一眼看出薄弱点
3. 投入度 在认真学吗 本周学习时长、连续天数(streak)、活跃趋势
4. AI 周报摘要 卡在哪 / 下一步 每周自动生成"本周学了什么 + 盲点 + 下一步建议",家长看得懂的自然语言
5. 一键鼓励 (留存抓手) 家长发送鼓励/点赞 → 推送给孩子(外部鼓励提升使用量。来源:https://blog.khanacademy.org/khan-academy-efficacy-results-november-2024
6. 周报推送 (留存抓手) 微信/邮件主动触达

4.2 设计原则与护栏

  1. 说人话:不堆术语,自然语言为主。
  2. 鼓励而非监控:默认呈现成长与亮点,弱化监视感(过度监控伤内在动机)。
  3. 隐私边界:孩子知情哪些信息对家长可见,尊重青春期自主性。
  4. 一屏看懂、轻量
  5. 家长侧只读:不能代替孩子操作学习。

5. 重点功能详细设计 B:兴趣-学科连接库(FR-10,v1)

目的:给喜好定制提供"经审核的高质量连接",杜绝 AI 即兴编出"现实毫无道理"的牵强情境(决策 D-2;调研警告:AI 擅长识别兴趣但不擅长做有意义连接。来源:https://www.edweek.org/technology/personalized-learning-in-math-has-proved-elusive-and-overhyped-can-ai-offer-a-breakthrough/2026/05)。

5.1 数据结构

每条连接 = { 兴趣领域, 学科知识点(图谱节点ID), 连接类型, 连接内容, 质量状态(verified/pending), 贡献者, 审核者, 适用年级 }

5.2 三种连接类型

  1. 情境包装:题目背景换成兴趣场景。
  2. 概念类比:用兴趣机制类比抽象概念(如 Minecraft 红石电路的输入输出类比方程变量关系)。
  3. 视觉 / 角色皮肤:呈现层换皮,不改内容逻辑。

5.3 生产(接共创模型)

AI 生成候选 → 学科老师审核(数学正确性 + 是否牵强,按"语义一致性 rubric")→ verified 入库;L4 学生可贡献类比,审核后入库。(审核行为本身在生产 AI 训练数据,是正向飞轮。来源:https://www.mdpi.com/1099-4300/28/4/377

5.4 运行时规则

  • AI 生成内容时优先检索库中 verified 连接
  • 库中无匹配 → 回退到中性、严谨的呈现(绝不硬编牵强类比)。
  • 质量门:连接须通过"语义一致性"检查(该兴趣情境是否真帮助理解此知识点)。

5.5 冷启动

v1 为数学一条主线 × top 5–8 热门兴趣(Minecraft / 王者荣耀 / 第五人格 / 二次元 / 篮球等)人工 + AI 共建种子连接。


6. 成功指标(双主指标,都要)

两个主指标缺一不可,目的就是避免"好玩但没学会"(Bastani 2024 PNAS。来源:https://hamsabastani.github.io/education_llm.pdf)。

指标一:留存 / 体验("用得爽")

  • 次日留存率7 日留存率
  • 单次学习时长
  • (辅助)连续学习天数 streak、家长一键鼓励触发率。

指标二:掌握("学会了")

  • 完成主线的学生中达成掌握判定的比例
  • 撤掉 AI 后的迁移测试表现(核心抗"好玩但没学会"指标,对照 Bastani 期末考 -6.45% 风险);
  • (辅助)平均每知识原子达成掌握所需尝试次数。

7. 范围与里程碑

  • In scope(v1):数学一条主线(一元一次方程 → 二元一次方程组)的 FR-1 ~ FR-10 完整闭环。
  • Out of scope(v1):英语及其他学科(v1.1+)、共创平台(v1.x)、真人教练版本与全科铺开(不做)。
  • 里程碑建议: 1. M1 知识图谱 + 诊断:数学主线知识原子建模(FR-1)+ 诊断起点(FR-2)+ 自动验答引擎(FR-8)。 2. M2 心脏 + 护栏:生成式交互内容(FR-3)+ 护栏式解题(FR-7)+ 传统兜底(FR-5)+ 连接库种子(FR-10)+ 喜好定制(FR-4)。 3. M3 闭环 + 留存:掌握判定解锁(FR-1 配套)+ 费曼出口(FR-6)+ 家长仪表盘(FR-9)。 4. M4 验证:跑通整条闭环,采集双主指标,启动英语跟进(FR-11)。

8. 依赖与风险

外部依赖

  • AI 大模型 / Generative UI 能力:实时生成交互内容的引擎。
  • 符号计算引擎:数学自动验答(FR-8)。
  • 算力赞助:免费模式依赖大厂 token 赞助(本阶段不纳入成本考量,但留缓存/预生成口子)。
  • 共创学科老师:内容与连接库审核(假设志愿者供给充足,不纳入本阶段成本考量)。
  • 消息推送通道:微信/邮件(家长周报,FR-9)。

关键约束(写入约束/风险)

  1. AI 永不直接给答案(架构级护栏,不可被开关绕过)——见 FR-7、决策 D-1。
  2. 数学自动验答兜底——见 FR-8,挡 AI 幻觉。
  3. 算力 token 成本本阶段不纳入考量(创始人决定),但生成内容应支持缓存/预生成以备后续降本。
  4. 内容版权:只参考他人知识点/图谱/框架,不直接搬用;教学内容由共创老师原创。
  5. 开源公益、志愿者供给充足(假设成立,不纳入成本考量)。

风险

风险 等级 缓解
"好玩但没学会"(参与度掩盖技能缺失) 双主指标 + 迁移测试 + 护栏 FR-7 + 费曼出口 FR-6
AI 生成数学内容幻觉 FR-8 符号引擎自动验答,校验未过不呈现
喜好定制生成牵强类比 FR-10 连接库 verified 优先 + 无匹配回退中性呈现
自驱力不足、留存低 FR-9 家长鼓励式问责 + streak + 一键鼓励
苏格拉底追问过长致沮丧 FR-7 设退出条件,及时降级到步骤分解
实时生成失败/超时 FR-3 优雅降级到 FR-5 标准化兜底

9. 🔴 关键决策点

🔴 需要确认:掌握判定的具体阈值(如"90% 正确且不靠提示独立完成 N 题")由谁定、定多少? 调研建议掌握式学习 90%+ 才进下一节(来源:https://ollo.com/blog/2026/02/blooms-2-sigma-problem-ai-democratization.html),但具体阈值需 L0 知识架构师拍板并在 v1 实测校准。

🔴 需要确认:诊断起点的题量上限与"几分钟"体验目标的平衡——诊断太长伤首次体验,太短定位不准。需在 M1 用真实题库实测。

🔴 需要确认:家长仪表盘"对家长可见信息"的隐私默认值——哪些细节默认可见、哪些需孩子授权?涉及青春期自主性,建议默认偏保守(成长/亮点为主)。


10. 开放问题

problem-definition 第 8 节的 5 个开放问题已大部分拍板(算力不纳入考量、设备暂不深入、审核成本不纳入考量、家长仪表盘进 v1、连接库已设计)。本 PRD 新增的待定项:

  1. 掌握判定阈值与"反复不达标换讲法/换题"的具体策略(见 §9 决策点 1)。
  2. 诊断题量与首次体验时长平衡(见 §9 决策点 2)。
  3. 家长仪表盘隐私默认值(见 §9 决策点 3)。
  4. 缓存/预生成的命中策略(哪些知识原子优先预生成)——留到 M2 按真实热度决定,本阶段不纳入成本考量。

验收标准

功能需求的可测试形式化见 requirements-ears.md(EARS 格式,供 AI / auto-dev 执行)。