AI 版可汗学院 — 问题定义(WHY)
本文聚焦"为什么要做"。用户画像见 persona.md,具体使用场景见 scenarios.md,功能清单与成功指标将在后续
prd.md展开。本文不重复功能列表。
一句话
为想自学、却对"家教/补课"不满意(太贵,或效果不好)的初高中孩子(泛人群),做一个开源、非营利、AI 原生的自学平台——AI 实时生成千人千面的高交互内容,并用掌握式学习保证"真的学会"。它对所有人免费,因此也让缺资源的孩子第一次拥有接近一对一辅导的学习体验。
1. 问题陈述
中国有一大批初高中孩子,对"家教/补课"这条传统路径并不满意:
- 他们对补课的不满来自两端——有的请不起一对一、负担不起优质网校;有的付得起,却觉得太贵不划算、或试过觉得效果不好/效率低;
- 他们当中有走 homeschool 路线的、有走国际路线的、有体制内想课外自主补强的,也有"付得起但主动选择自学"的;
- 他们有强烈的自学意愿,但缺乏一条可靠的、能学得会的路径。
今天这群孩子真正能依靠的,几乎只剩"B 站找网课自学"这一条土办法。而这条路有四个结构性缺陷:
- 内容分散 —— 知识散落在无数 UP 主、无数视频里,质量参差;
- 不知道该看什么 —— 没有人帮他判断"你现在卡在哪、下一步该学什么";
- 没有学习路径 —— 看完一个视频不知道下一个是什么,更没有从诊断到掌握的闭环;
- 没有反馈 —— 做错了不知道为什么错,学完了不知道学没学会,孤独且容易放弃。
可汗学院(Khan Academy)本是这类问题的全球标杆,但对中国这群孩子而言并不解渴:内容是英文的、不对齐国内教材、体验形态陈旧。即使是它引入 AI 后的 Khanmigo,也仍然停留在"在旧课程库上贴一个 AI 答疑助手"的形态——AI 是问答工具,而不是内容的生成者。
核心判断:现有方案的天花板,是因为它们把 AI 当作"旧教育产品上的一个插件"。我们要解决的问题,是用 AI 原生的方式重新构造自学体验本身。
2. 动机与价值
一条比补课更好的自学路径 + 教育公平(双重价值)
目标用户是泛人群——只要对"家教/补课"不满意(太贵、或效果不好)、愿意自学,都是我们要服务的人。homeschool 只是其中起点而非边界。
在这条价值之上,叠加教育公平的使命:正因为它开源、非营利、对所有人免费,那些以前只有"有钱请一对一"的孩子才享有的东西,也第一次普惠地交给了缺资源的孩子。两件以前稀缺的东西现在免费给到每个人:
- 免费普惠:开源、非营利,算力由大厂赞助 token 支撑,孩子零付费;
- 真正学得会:不是"看了很多课",而是"独立学完一条知识线并通过掌握判定"。
两年愿景
两年后,帮助到很多自学的孩子,让缺资源的孩子也能获得接近一对一辅导的学习体验。
为什么是现在(市场洞察 · 已验证事实)
以下为调研得出的已验证事实,来源见链接。详见
../research/ai-native-learning-experience-2026-06-02.md。
- Bloom 2σ 问题:一对一辅导相比传统课堂能带来约 2 个标准差的成绩提升,但人力一对一无法规模化——这是教育领域 40 年的未解之题,也是 AI 的最大机会窗口。
- Harvard 2025 RCT:精心设计的 AI 辅导带来的学习增益,是优质课堂的 2 倍多。来源:https://pmc.ncbi.nlm.nih.gov/articles/PMC12179260/
- Generative UI 技术已可行:Google Gemini 3 已能为任意 prompt 实时生成富交互可视化界面,但主流教育产品尚未将其用于"实时生成学习内容"——这是当前的差异化空白。来源:https://research.google/blog/generative-ui-a-rich-custom-visual-interactive-user-experience-for-any-prompt
- 自适应学习有中国本土实证:松鼠 AI 的中国 RCT 中,自适应组效应量 g=0.68。来源:https://www.researchgate.net/publication/344010541
我们与 Khanmigo 的根本差异
| 维度 | Khanmigo(贴 AI 答疑) | 本项目(AI 原生生成) |
|---|---|---|
| AI 的角色 | 旧课程库上的问答助手 | 实时生成学习内容本身 |
| 内容形态 | 固定视频 + 习题 | 当场生成的可拖拽交互/小游戏,千人千面 |
| 学习保证 | 靠固定课程 | 掌握式学习 + 护栏式辅导 + 自动验答 |
举例:学"二元一次方程",孩子看到的不是一段视频,而是 AI 当场为他生成的可拖拽交互网页/小游戏,并根据他的兴趣(如 Minecraft、二次元)调整呈现与类比。
3. 当前替代方案
| 类型 | 方案 | 评价 |
|---|---|---|
| 正式方案 | 优质网校 / 一对一补课 | 有效,但贵(不少家庭负担不起或觉得不划算),且效果因人而异(不少家庭试过觉得低效) |
| 正式方案 | 可汗学院 / Khanmigo | 免费且优质,但英文、不对齐国内教材、体验陈旧、AI 仅作答疑 |
| 土办法 ★ | B 站找网课自学 | 目标群体当前的主要依靠:内容分散、无路径、无反馈、靠意志力硬撑 |
| 土办法 ★ | 买教辅刷题 + 网上搜题对答案 | 容易演变成"抄答案",无人讲解错因 |
| 忍着 | 跟不上就放弃某些科目 | 资源差距固化为学习差距 |
★ 标记的"笨办法"是需求真实性的最强证据:孩子们已经在用 B 站+搜题硬扛,说明自学需求真实存在、且现有工具远未满足。
4. 方案取向(内容供给与共创模型 · 简述)
这里只交代方向,避免与功能清单重复。完整论证见
../research/teacher-cocreation-collaboration-models-2026-06-02.md。
- 版权立场:不直接搬用他人内容,只参考知识点 / 知识图谱 / 框架;教学内容由共创学科老师原创。
- 共创采用分层委托制(推荐方案 C):
- L0 知识架构师——核心团队定义知识图谱与质量标准;基础教学方法由核心老师设计,不下放;
- L1 学科负责人——每学科可多名,全国招募顶尖老师,审核与 Merge 决策不可绕过;
- L2 内容贡献者——AI 辅助草稿 + 人工精修;
- L3 审核志愿者;
- L4 学习者社区——勘误 / 难度反馈 / 题解。
- 质量门控:学生只看"已审核稳定版",在制内容进 Staging;作者不审自己内容;强制元数据(知识点 ID / 年级 / 难度 / 课标 / 贡献者 / 审核者)。
- 自进化元层:用户/老师可在网站直接提交 Feature Request / Bug Report → 审核批准 → AI 自动实现 → 人工 review → 上线。
- 落地节奏:先做雏形/基本原型(内容由创始团队 + AI 先铺)→ 再发帖全国招募顶尖学科老师转入分层共创。
- 政策顺风:教育部 2026《人工智能+教育》政策鼓励将开源贡献纳入教师成果认定,为共创激励(署名 / 社群 / 证书)提供制度依据。来源:https://www.edu.cn/xxh/focus/zc/zc/202604/t20260413_2727796.shtml
5. 范围(Must / Nice / Out · 概要)
详细功能编号将在
prd.md展开,这里只定边界。v1 范围 = 深挖一条线:先做数学一条完整知识主线(如初中代数:一元一次 → 二元一次方程组),把"诊断起点 → AI 生成式交互内容 → 掌握判定 → 费曼出口"整条体验跑通,证明孩子真能学会。英语作为快速跟进。
必须有(v1,止痛药)
- 固定知识图谱 + 掌握式进阶的一条数学主线(对齐公开课标)
- 诊断式起点
- AI 生成式高交互内容(核心心脏)
- 喜好定制
- 视频 + 题库标准化兜底路径
- 费曼出口
- 护栏式解题流(AI 永不直接给答案)
- 数学内容自动验答(符号计算引擎挡 AI 幻觉)
- 家长仪表盘(学习进展 + 掌握度盲点 + 鼓励式问责 + AI 周报)—— 已从 Nice 提前进 v1,作为留存抓手。形态见
prd.md。 - 兴趣-学科连接库(支撑喜好定制不牵强)—— 喜好定制的质量基础设施,v1 需有种子库。形态见
prd.md。
最好有(路线图)
- 英语学科、苏格拉底动态出题、多模态生成(漫画/说唱/红石类比)、教师分层共创平台、学习者数字孪生、语音对话辅导、众包/学习者共创、横向扩科目年级。
明确不做(Out)
- 收费的人机协作(真人教练)版本——明确延后;
- 完整 K-12 全科一次性铺开。
成功指标(双主指标)将在
prd.md细化:① 留存/体验(用得爽)② 掌握判定(学会了)。两者缺一不可——目的就是避免"好玩但没学会"。
6. 约束
- 公益与开源:非营利、开源,财务上不能依赖向学生收费。
- 算力依赖:AI 实时生成交互内容很烧 token,免费模式强依赖大厂赞助;需要降级/省钱方案(生成结果缓存复用、热门知识点预生成)。
- 内容正确性:AI 生成内容存在幻觉风险,数学必须有自动验答兜底,且需人工审核。
- 版权:不得直接搬用他人受版权保护的内容。
- 审核不可绕过:学生侧只能看到经 L1 学科负责人审核的稳定版。
7. 关键假设(事实/推测分离 · 三级标注)
标注规则:✓ 已验证 / ⚠️ 合理假设 / ❓ 待验证
| 级别 | 假设 | 说明 / 验证方式 |
|---|---|---|
| ✓ | 核心技术可行 | Generative UI、知识追踪(DKT)、护栏式辅导均有 2025–2026 实证(见第 2 节来源) |
| ⚠️ | AI 生成内容正确性可控、人工审核成本可承受 | 合理但需通过 v1 一条数学主线实测审核工作量与错误率 |
| ⚠️ | 自驱力不足会拉低留存,需粘性 + 外部问责机制 | 有旁证:Khan 仅约 9% 学生达到推荐使用量(https://blog.khanacademy.org/khan-academy-efficacy-results-november-2024);需在 v1 验证留存设计是否有效 |
| ❓ | 算力(token)赞助能持续支撑免费实时生成 | 本阶段不纳入考量(创始人决定);后续再谈大厂赞助与降本 |
| ⚠️ | 泛人群的设备与上网条件足以承载交互内容 | 暂不深入;泛人群定位下设备约束减弱,留作轻量降级版参考 |
| ⚠️ | 开源公益模式可招募到足够志愿者与合适的共创老师 | 创始人判断成立;不纳入本阶段成本考量 |
8. 开放问题
更新(2026-06-02 与创始人确认):原 5 个开放问题已大部分拍板,状态如下。
- ~~算力赞助方如何锁定、token 成本上限?~~ → 本阶段不纳入考量(创始人决定,先不操心算力成本)。
- ⚠️ 目标群体的真实设备/网络画像 → 暂不深入(用户为泛人群,设备/网络不再是核心约束);留作后续轻量降级版的参考。
- ~~人工审核成本 / L1 招募留存机制?~~ → 不纳入考量:作为开源公益项目,假设可招募到足够多的志愿者与合适的人。
- ~~家长仪表盘是否提前到 v1?~~ → 已确定纳入 v1(Must #9),形态见
prd.md。 - ~~兴趣-学科连接库如何建设?~~ → 已设计(Must #10),形态见
prd.md,运行时优先检索 verified 连接、无则回退中性呈现(见 D-2)。
9. 决策记录
D-1 ★ 核心架构护栏:AI 永不直接给答案
背景(必须作为品类级护栏写入):Bastani 2024 PNAS 千人实验发现——能直接向 AI 索要答案的实验组,练习阶段表现 +9%,但撤掉 AI 后的期末考成绩 -6.45%。来源:https://hamsabastani.github.io/education_llm.pdf
含义:"好玩但没学会"是本品类最大的失败模式。学生用得越爽却越学不会,等于产品反向有害。
决策:"AI 永不直接给答案"作为架构级护栏,不可由功能开关绕过。解题流必须是:分析错误 → 给提示 → 再试 → 苏格拉底追问 → 兜底步骤分解。掌握判定与费曼出口共同确保"真的学会"。
D-2 喜好定制的边界:防牵强情境
背景:调研警告 AI 在做兴趣个性化时常生成"现实上毫无道理"的牵强类比情境。来源:EdWeek 2026 https://www.edweek.org/technology/personalized-learning-in-math-has-proved-elusive-and-overhyped-can-ai-offer-a-breakthrough/2026/05
决策:兴趣定制必须依托"兴趣-学科连接库" + 人工审核,而非让 AI 自由发挥。
D-3 必须保留传统兜底路径
背景:并非所有孩子都想要生成式交互;有的孩子就想"看讲解视频 + 做几道题"。
决策:平台必须尊重并提供标准化视频 + 题库路径,不强迫所有人走生成式交互。
D-4 v1 深挖一条线,而非铺开全科
决策:v1 集中资源把数学一条主线的完整体验(诊断 → 生成式交互 → 掌握判定 → 费曼出口)跑通并验证学习效果,再横向扩展。