AI 版可汗学院 — 问题定义

2026-06-02 problem-definition

AI 版可汗学院 — 问题定义(WHY)

本文聚焦"为什么要做"。用户画像见 persona.md,具体使用场景见 scenarios.md,功能清单与成功指标将在后续 prd.md 展开。本文不重复功能列表。

一句话

为想自学、却对"家教/补课"不满意(太贵,或效果不好)的初高中孩子(泛人群),做一个开源、非营利、AI 原生的自学平台——AI 实时生成千人千面的高交互内容,并用掌握式学习保证"真的学会"。它对所有人免费,因此也让缺资源的孩子第一次拥有接近一对一辅导的学习体验。


1. 问题陈述

中国有一大批初高中孩子,对"家教/补课"这条传统路径并不满意:

  • 他们对补课的不满来自两端——有的请不起一对一、负担不起优质网校;有的付得起,却觉得太贵不划算、或试过觉得效果不好/效率低
  • 他们当中有走 homeschool 路线的、有走国际路线的、有体制内想课外自主补强的,也有"付得起但主动选择自学"的;
  • 他们有强烈的自学意愿,但缺乏一条可靠的、能学得会的路径。

今天这群孩子真正能依靠的,几乎只剩"B 站找网课自学"这一条土办法。而这条路有四个结构性缺陷:

  1. 内容分散 —— 知识散落在无数 UP 主、无数视频里,质量参差;
  2. 不知道该看什么 —— 没有人帮他判断"你现在卡在哪、下一步该学什么";
  3. 没有学习路径 —— 看完一个视频不知道下一个是什么,更没有从诊断到掌握的闭环;
  4. 没有反馈 —— 做错了不知道为什么错,学完了不知道学没学会,孤独且容易放弃。

可汗学院(Khan Academy)本是这类问题的全球标杆,但对中国这群孩子而言并不解渴:内容是英文的、不对齐国内教材、体验形态陈旧。即使是它引入 AI 后的 Khanmigo,也仍然停留在"在旧课程库上贴一个 AI 答疑助手"的形态——AI 是问答工具,而不是内容的生成者。

核心判断:现有方案的天花板,是因为它们把 AI 当作"旧教育产品上的一个插件"。我们要解决的问题,是用 AI 原生的方式重新构造自学体验本身


2. 动机与价值

一条比补课更好的自学路径 + 教育公平(双重价值)

目标用户是泛人群——只要对"家教/补课"不满意(太贵、或效果不好)、愿意自学,都是我们要服务的人。homeschool 只是其中起点而非边界。

在这条价值之上,叠加教育公平的使命:正因为它开源、非营利、对所有人免费,那些以前只有"有钱请一对一"的孩子才享有的东西,也第一次普惠地交给了缺资源的孩子。两件以前稀缺的东西现在免费给到每个人:

  1. 免费普惠:开源、非营利,算力由大厂赞助 token 支撑,孩子零付费;
  2. 真正学得会:不是"看了很多课",而是"独立学完一条知识线并通过掌握判定"。

两年愿景

两年后,帮助到很多自学的孩子,让缺资源的孩子也能获得接近一对一辅导的学习体验。

为什么是现在(市场洞察 · 已验证事实)

以下为调研得出的已验证事实,来源见链接。详见 ../research/ai-native-learning-experience-2026-06-02.md

我们与 Khanmigo 的根本差异

维度 Khanmigo(贴 AI 答疑) 本项目(AI 原生生成)
AI 的角色 旧课程库上的问答助手 实时生成学习内容本身
内容形态 固定视频 + 习题 当场生成的可拖拽交互/小游戏,千人千面
学习保证 靠固定课程 掌握式学习 + 护栏式辅导 + 自动验答

举例:学"二元一次方程",孩子看到的不是一段视频,而是 AI 当场为他生成的可拖拽交互网页/小游戏,并根据他的兴趣(如 Minecraft、二次元)调整呈现与类比。


3. 当前替代方案

类型 方案 评价
正式方案 优质网校 / 一对一补课 有效,但(不少家庭负担不起或觉得不划算),且效果因人而异(不少家庭试过觉得低效)
正式方案 可汗学院 / Khanmigo 免费且优质,但英文、不对齐国内教材、体验陈旧、AI 仅作答疑
土办法 ★ B 站找网课自学 目标群体当前的主要依靠:内容分散、无路径、无反馈、靠意志力硬撑
土办法 ★ 买教辅刷题 + 网上搜题对答案 容易演变成"抄答案",无人讲解错因
忍着 跟不上就放弃某些科目 资源差距固化为学习差距

★ 标记的"笨办法"是需求真实性的最强证据:孩子们已经在用 B 站+搜题硬扛,说明自学需求真实存在、且现有工具远未满足。


4. 方案取向(内容供给与共创模型 · 简述)

这里只交代方向,避免与功能清单重复。完整论证见 ../research/teacher-cocreation-collaboration-models-2026-06-02.md

  • 版权立场:不直接搬用他人内容,只参考知识点 / 知识图谱 / 框架;教学内容由共创学科老师原创。
  • 共创采用分层委托制(推荐方案 C):
  • L0 知识架构师——核心团队定义知识图谱与质量标准;基础教学方法由核心老师设计,不下放
  • L1 学科负责人——每学科可多名,全国招募顶尖老师,审核与 Merge 决策不可绕过
  • L2 内容贡献者——AI 辅助草稿 + 人工精修;
  • L3 审核志愿者
  • L4 学习者社区——勘误 / 难度反馈 / 题解。
  • 质量门控:学生只看"已审核稳定版",在制内容进 Staging;作者不审自己内容;强制元数据(知识点 ID / 年级 / 难度 / 课标 / 贡献者 / 审核者)。
  • 自进化元层:用户/老师可在网站直接提交 Feature Request / Bug Report → 审核批准 → AI 自动实现 → 人工 review → 上线。
  • 落地节奏:先做雏形/基本原型(内容由创始团队 + AI 先铺)→ 再发帖全国招募顶尖学科老师转入分层共创。
  • 政策顺风:教育部 2026《人工智能+教育》政策鼓励将开源贡献纳入教师成果认定,为共创激励(署名 / 社群 / 证书)提供制度依据。来源:https://www.edu.cn/xxh/focus/zc/zc/202604/t20260413_2727796.shtml

5. 范围(Must / Nice / Out · 概要)

详细功能编号将在 prd.md 展开,这里只定边界。v1 范围 = 深挖一条线:先做数学一条完整知识主线(如初中代数:一元一次 → 二元一次方程组),把"诊断起点 → AI 生成式交互内容 → 掌握判定 → 费曼出口"整条体验跑通,证明孩子真能学会。英语作为快速跟进。

必须有(v1,止痛药)

  1. 固定知识图谱 + 掌握式进阶的一条数学主线(对齐公开课标)
  2. 诊断式起点
  3. AI 生成式高交互内容(核心心脏
  4. 喜好定制
  5. 视频 + 题库标准化兜底路径
  6. 费曼出口
  7. 护栏式解题流(AI 永不直接给答案)
  8. 数学内容自动验答(符号计算引擎挡 AI 幻觉)
  9. 家长仪表盘(学习进展 + 掌握度盲点 + 鼓励式问责 + AI 周报)—— 已从 Nice 提前进 v1,作为留存抓手。形态见 prd.md
  10. 兴趣-学科连接库(支撑喜好定制不牵强)—— 喜好定制的质量基础设施,v1 需有种子库。形态见 prd.md

最好有(路线图)

  • 英语学科、苏格拉底动态出题、多模态生成(漫画/说唱/红石类比)、教师分层共创平台、学习者数字孪生、语音对话辅导、众包/学习者共创、横向扩科目年级。

明确不做(Out)

  • 收费的人机协作(真人教练)版本——明确延后;
  • 完整 K-12 全科一次性铺开。

成功指标(双主指标)将在 prd.md 细化:① 留存/体验(用得爽)② 掌握判定(学会了)。两者缺一不可——目的就是避免"好玩但没学会"。


6. 约束

  • 公益与开源:非营利、开源,财务上不能依赖向学生收费。
  • 算力依赖:AI 实时生成交互内容很烧 token,免费模式强依赖大厂赞助;需要降级/省钱方案(生成结果缓存复用、热门知识点预生成)。
  • 内容正确性:AI 生成内容存在幻觉风险,数学必须有自动验答兜底,且需人工审核。
  • 版权:不得直接搬用他人受版权保护的内容。
  • 审核不可绕过:学生侧只能看到经 L1 学科负责人审核的稳定版。

7. 关键假设(事实/推测分离 · 三级标注)

标注规则:✓ 已验证 / ⚠️ 合理假设 / ❓ 待验证

级别 假设 说明 / 验证方式
核心技术可行 Generative UI、知识追踪(DKT)、护栏式辅导均有 2025–2026 实证(见第 2 节来源)
⚠️ AI 生成内容正确性可控、人工审核成本可承受 合理但需通过 v1 一条数学主线实测审核工作量与错误率
⚠️ 自驱力不足会拉低留存,需粘性 + 外部问责机制 有旁证:Khan 仅约 9% 学生达到推荐使用量(https://blog.khanacademy.org/khan-academy-efficacy-results-november-2024);需在 v1 验证留存设计是否有效
算力(token)赞助能持续支撑免费实时生成 本阶段不纳入考量(创始人决定);后续再谈大厂赞助与降本
⚠️ 泛人群的设备与上网条件足以承载交互内容 暂不深入;泛人群定位下设备约束减弱,留作轻量降级版参考
⚠️ 开源公益模式可招募到足够志愿者与合适的共创老师 创始人判断成立;不纳入本阶段成本考量

8. 开放问题

更新(2026-06-02 与创始人确认):原 5 个开放问题已大部分拍板,状态如下。

  1. ~~算力赞助方如何锁定、token 成本上限?~~ → 本阶段不纳入考量(创始人决定,先不操心算力成本)。
  2. ⚠️ 目标群体的真实设备/网络画像 → 暂不深入(用户为泛人群,设备/网络不再是核心约束);留作后续轻量降级版的参考。
  3. ~~人工审核成本 / L1 招募留存机制?~~ → 不纳入考量:作为开源公益项目,假设可招募到足够多的志愿者与合适的人。
  4. ~~家长仪表盘是否提前到 v1?~~ → 已确定纳入 v1(Must #9),形态见 prd.md
  5. ~~兴趣-学科连接库如何建设?~~ → 已设计(Must #10),形态见 prd.md,运行时优先检索 verified 连接、无则回退中性呈现(见 D-2)。

9. 决策记录

D-1 ★ 核心架构护栏:AI 永不直接给答案

背景(必须作为品类级护栏写入):Bastani 2024 PNAS 千人实验发现——能直接向 AI 索要答案的实验组,练习阶段表现 +9%,但撤掉 AI 后的期末考成绩 -6.45%。来源:https://hamsabastani.github.io/education_llm.pdf

含义"好玩但没学会"是本品类最大的失败模式。学生用得越爽却越学不会,等于产品反向有害。

决策"AI 永不直接给答案"作为架构级护栏,不可由功能开关绕过。解题流必须是:分析错误 → 给提示 → 再试 → 苏格拉底追问 → 兜底步骤分解。掌握判定与费曼出口共同确保"真的学会"。

D-2 喜好定制的边界:防牵强情境

背景:调研警告 AI 在做兴趣个性化时常生成"现实上毫无道理"的牵强类比情境。来源:EdWeek 2026 https://www.edweek.org/technology/personalized-learning-in-math-has-proved-elusive-and-overhyped-can-ai-offer-a-breakthrough/2026/05

决策:兴趣定制必须依托"兴趣-学科连接库" + 人工审核,而非让 AI 自由发挥。

D-3 必须保留传统兜底路径

背景:并非所有孩子都想要生成式交互;有的孩子就想"看讲解视频 + 做几道题"。

决策:平台必须尊重并提供标准化视频 + 题库路径,不强迫所有人走生成式交互。

D-4 v1 深挖一条线,而非铺开全科

决策:v1 集中资源把数学一条主线的完整体验(诊断 → 生成式交互 → 掌握判定 → 费曼出口)跑通并验证学习效果,再横向扩展。