AI 自学 / AI Tutor / AI 原生学习平台产品模式调研

2026-06-15

AI 自学 / AI Tutor / AI 原生学习平台产品模式调研

调研问题

面向「AI 版可汗学院」:AI 不只是旧课程库上的答疑窗口,而是能实时生成高交互、游戏化、千人千面的学习内容,并通过护栏式解题和掌握式学习保证真实掌握。

本轮核查重点:2024-2026 公开产品、官方发布、论文和权威报道,覆盖 Khanmigo、Google Guided Learning / LearnLM、OpenAI ChatGPT Study Mode、Duolingo Max、Synthesis Tutor、Quizlet、MagicSchool、Brisk、Carnegie Learning、Squirrel AI、Rori、Microsoft Reading Coach、NotebookLM、Coursera / edX / Pearson 等。

核心结论

  1. 2024-2026 的主流 AI 学习产品仍以「聊天导师 + 学习材料增强」为主,真正「AI 原生」的少数共性是:活动结构内嵌 AI、每一步有学习目标、反馈闭环和掌握信号,而不是把通用聊天框接到内容库。OpenAI Study Mode、Google Guided Learning、Khanmigo 都强调苏格拉底式追问和脚手架,但多数仍是文本/多模态对话形态。来源:https://openai.com/index/chatgpt-study-mode/ ; https://blog.google/outreach-initiatives/education/guided-learning-gemini/ ; https://blog.khanacademy.org/learning-in-the-open-what-ai-is-and-isnt-changing
  2. 目前最接近「AI 原生学习体验」的方向不是单纯 AI 聊天,而是三类组合:生成式交互/仿真、结构化自适应题目路径、受护栏约束的提示式辅导。Synthesis Tutor 强调基于学生错误即时生成可视化和微评估;Google 的 Generative UI / Guided Learning 方向显示未来会把答案变成交互页面;PhET 证明交互模拟是长期有效范式。来源:https://www.synthesis.com/tutor ; https://research.google/blog/generative-ui-a-rich-custom-visual-interactive-user-experience-for-any-prompt ; https://phet.colorado.edu/publications/PhET_Impact_Report_2024.pdf
  3. 公开效果证据强弱差异很大。Squirrel AI、自适应 ITS、部分 RCT 和 PhET 有较强学习效果证据;Khanmigo 等生成式 AI tutor 的公开证据仍混合,Khan Academy 也承认早期结果不一致,并开始用 2026 年的更强评估方式检验 learning gain。来源:https://pmc.ncbi.nlm.nih.gov/articles/PMC12078640/ ; https://blog.khanacademy.org/learning-in-the-open-what-ai-is-and-isnt-changing
  4. 最大陷阱是「练习表现变好但真实学习变差」。Bastani 等 2024 PNAS/工作论文发现,无护栏 AI 可提升练习表现,但在撤掉 AI 后的考试中表现下降;只有「不给答案、给提示」的 tutor 版本避免了明显负效应。来源:https://hamsabastani.github.io/education_llm.pdf ; https://knowledge.wharton.upenn.edu/article/without-guardrails-generative-ai-can-harm-education
  5. 对本项目而言,优先借鉴的是「护栏式提示流 + 掌握追踪 + 交互仿真生成 + 间隔复习」;应避免的是「先做一个万能聊天老师」「把正确率当学习效果」「让 AI 直接生成未经校验的数学答案」。

产品地图表

产品 / 机构 当前形态 AI 原生程度 公开证据与局限 适合年龄/科目 对本项目启示
Khanmigo / Khan Academy Khan Academy 内的 AI tutor + teacher assistant;强调不会直接给答案、引导学生思考。来源:https://blog.khanacademy.org/khanmigo-ai-guide-launches/ 2026 Khan Academy 称早期效果「mixed」,正在用 learnings/cost per learning gain 评估;2024 efficacy 报告显示推荐用量达成率是挑战。来源:https://blog.khanacademy.org/learning-in-the-open-what-ai-is-and-isnt-changing ; https://blog.khanacademy.org/khan-academy-efficacy-results-november-2024 K-12 到大学,数学、阅读、科学等 可借鉴护栏式对话、教师侧报告;不要只复制聊天窗,要把 AI 放进掌握路径。
Google Guided Learning / LearnLM Gemini 内的 Guided Learning,用追问、分步、多模态材料帮助理解;LearnLM 是面向学习优化的模型能力。来源:https://blog.google/outreach-initiatives/education/guided-learning-gemini/ ; https://blog.google/technology/ai/google-learnlm-gemini-generative-ai/ 中高 官方学习科学白皮书强调主动学习、认知负荷、元认知、好奇心等原则;但公开学习效果多为内部评估/偏好评测,不等同长期掌握。来源:https://storage.googleapis.com/gweb-uniblog-publish-prod/documents/LearnLM_Learning_Science_Principles.pdf 通用学科,偏高中/大学/成人自学 可借鉴模型行为原则:少给答案、多提问、多模态、知识检查;仍需项目自有掌握指标。
OpenAI ChatGPT Study Mode ChatGPT 的学习模式,包含苏格拉底提示、脚手架、知识检查、个性化上下文;官方称先从大学学习者开始。来源:https://openai.com/index/chatgpt-study-mode/ 产品级发布,未看到公开 RCT 学习效果;用户可退出 Study Mode,护栏强度依赖模式持续性。来源:https://openai.com/index/chatgpt-study-mode/ 广泛,当前更偏高中以上和大学 借鉴「学习模式」作为系统级约束;本项目需要不可轻易绕开的题目级护栏。
Duolingo Max Explain My Answer、Roleplay、Video Call 等生成式语言练习,嵌入 Duolingo 课程路径。来源:https://blog.duolingo.com/duolingo-max/ ; https://blog.duolingo.com/duolingo-on-ice-announcement/ 高(语言学习内) 强产品化,天然与课程、游戏化、连胜机制结合;公开学习效果主要来自 Duolingo 大盘研究,Max 单独效果证据有限。来源:https://blog.duolingo.com/duolingo-max/ 语言学习,青少年到成人 角色扮演/情境对话是 AI 原生高价值场景;要与课程进度和反馈闭环绑定。
Synthesis Tutor K-5 数学 AI tutor;强调从错误中即时生成解释、交互可视化、微评估。来源:https://www.synthesis.com/tutor 官方披露产品机制,第三方独立效果证据有限;外部评测多为体验评价。来源:https://www.synthesis.com/tutor 小学数学 最值得借鉴的产品模式:错误驱动、可视化、即时微评估,而不是自由聊天。
Quizlet Q-Chat / AI features Q-Chat 曾是基于 OpenAI API 的 AI tutor;Quizlet 后续强化 Magic Notes、AI flashcards、practice tests 等学习材料生成。来源:https://www.prnewswire.com/news-releases/quizlet-launches-q-chat-ai-tutor-built-with-openai-api-301759014.html ; https://quizlet.com/features/magic-notes 低到中 Q-Chat 是典型聊天导师;后续功能更偏学习材料自动化。Q-Chat 当前可用性需再次核查,官方公开信息不够清晰。 中学/大学通用记忆类学习 借鉴「上传材料 -> 自动生成卡片/测验」;但这不等于 AI 原生学习闭环。
MagicSchool 教师 AI 工具平台,生成教案、改写、IEP、rubric、学生工具等。来源:https://www.magicschool.ai/ 低(对学生学习)/中(教师工作流) 官方称覆盖大量教师和工具;学习效果不是核心证据,主要是教师提效。来源:https://www.magicschool.ai/ 教师备课和课堂支持 可借鉴教师共创、审核、rubric 生成;不应把教师工具误当学生自学平台。
Brisk Teaching 浏览器扩展式教师 AI:反馈、材料生成、阅读水平调整、检测学生写作过程等。来源:https://www.briskteaching.com/ 低(学生自学)/中(教师工作流) 公开案例多为教师节省时间和反馈效率;学习效果证据有限。来源:https://www.briskteaching.com/resources/case-study K-12 教师 可借鉴「低摩擦嵌入现有工作流」和反馈模板;学生端仍需独立学习闭环。
Carnegie Learning / MATHia 成熟认知 tutor / 自适应数学系统,AI 辅导和学习科学长期积累。来源:https://www.carnegielearning.com/solutions/math/mathia/ 中高(传统 ITS 原生) 有长期 ITS 和数学学习证据;生成式 AI 不是核心差异。来源:https://www.carnegielearning.com/research/ 中学数学 借鉴知识组件拆解、逐步提示、掌握追踪;生成式 AI 应服务于 ITS 结构。
Squirrel AI 中国自适应学习系统,知识点细颗粒拆分、诊断、个性化路径。来源:https://squirrelai.com/ 高(自适应路径) 多篇研究显示 ITS/自适应系统有效;需注意商业披露与独立复现范围。来源:https://pmc.ncbi.nlm.nih.gov/articles/PMC12078640/ ; https://link.springer.com/article/10.1007/s10639-025-13646-x K-12,数学等 强烈借鉴知识图谱 + 诊断 + 掌握路径;不要只做 LLM 前端。
Rori 低成本 WhatsApp/SMS 数学 tutor,面向资源受限地区。来源:https://rori.ai/ ; https://arxiv.org/abs/2402.09809 研究关注撒哈拉以南非洲的可扩展 AI tutor,强调低成本与可及性;科目/地区外推需谨慎。来源:https://arxiv.org/abs/2402.09809 中小学数学,低带宽场景 对中国低资源学生有启发:移动端、低门槛、可持续成本。
Microsoft Reading Coach AI 阅读教练,支持个性化故事、发音/流利度练习、Immersive Reader。来源:https://educationblog.microsoft.com/en-us/2024/01/reading-coach-preview-free-ai-tool 中高(阅读训练内) 强在口语朗读反馈和阅读流利度;不是全学科 tutor。来源:https://educationblog.microsoft.com/en-us/2024/01/reading-coach-preview-free-ai-tool K-12 阅读/英语 可借鉴语音反馈、可选角色/场景生成、流利度指标。
NotebookLM 基于用户资料的学习助手,支持摘要、音频概览、FAQ、Study Guide、quiz 等。来源:https://support.google.com/notebooklm/answer/16234170 适合资料理解和复习,但依赖用户上传材料;缺少学科掌握路径与题目级护栏。来源:https://blog.google/technology/ai/notebooklm-audio-overviews/ 高中以上、大学、成人 可借鉴「材料 -> 学习包」能力;不能替代课程图谱和掌握式路径。
Coursera Coach / AI features 课程内 AI Coach、翻译、总结、作业反馈等。来源:https://blog.coursera.org/coursera-coach/ ; https://blog.coursera.org/new-products-tools-and-features-announced-at-coursera-conference-2024/ 适合成人/职业课程;平台以课程库为中心,AI 是增强层。 大学/职业教育 借鉴课程内嵌式 AI 和作业反馈;本项目要避免回到「旧课程库 + AI 问答」。
edX / 2U AI learning tools AI tutor/coach、作业和课程支持方向。来源:https://www.edx.org/ 低到中 公开信息偏平台功能和合作,具体学习效果证据有限。 高等教育/职业教育 参考成人课程场景,不是核心模板。
Pearson AI Study Tools 在 Pearson+ 和 Mastering/MyLab 中加入 AI study tool、summary、practice 等。来源:https://www.pearson.com/en-us/news-and-research/announcements/2024/pearson-launches-new-ai-study-tools.html 强内容库和教材版权绑定;AI 多是学习辅助与练习生成。 高中/大学教材场景 说明内容资产 + AI 练习很有价值,但公益项目需避免版权依赖。

产品形态分类

1. 聊天导师

代表:Khanmigo、ChatGPT Study Mode、Google Guided Learning、Quizlet Q-Chat。

优势:启动快、覆盖面广、能解释错误和追问。局限:如果没有题目状态、知识图谱和护栏,很容易变成「答案外包」。Bastani 等研究显示,无护栏生成式 AI 会让练习表现提升但真实考试表现下降。来源:https://hamsabastani.github.io/education_llm.pdf

2. 生成式交互 / 仿真

代表:Synthesis Tutor、Google Generative UI、PhET 作为非生成式但成熟的模拟标杆。

优势:把抽象概念变成可操作对象,尤其适合数学、物理、化学、生物。局限:正确性和边界条件难,生成式 UI 必须有学科校验与模板约束。来源:https://www.synthesis.com/tutor ; https://research.google/blog/generative-ui-a-rich-custom-visual-interactive-user-experience-for-any-prompt ; https://phet.colorado.edu/publications/PhET_Impact_Report_2024.pdf

3. 智能题目推荐 / 自适应路径

代表:Squirrel AI、Carnegie Learning MATHia、传统 ITS。

优势:最接近掌握式学习基础设施;有知识组件、诊断、下一题推荐、掌握概率。局限:建设成本高,需长期打磨知识图谱和题库。来源:https://www.carnegielearning.com/solutions/math/mathia/ ; https://pmc.ncbi.nlm.nih.gov/articles/PMC12078640/

4. AI 反馈 / 批改

代表:Brisk、MagicSchool、Coursera、Pearson、Google Classroom 生态。

优势:教师提效明显,适合作文、开放题、rubric 反馈。局限:对自学平台而言只是局部能力,不构成完整学习路径。来源:https://www.briskteaching.com/ ; https://www.magicschool.ai/ ; https://blog.coursera.org/new-products-tools-and-features-announced-at-coursera-conference-2024/

5. 学习教练

代表:ChatGPT Study Mode、NotebookLM、Coursera Coach。

优势:帮助制定计划、整理材料、测验复习、元认知提示。局限:动机和持续使用是独立产品难题;Khan Academy 2024 报告提示推荐使用量达成率不容易。来源:https://blog.khanacademy.org/khan-academy-efficacy-results-november-2024

6. 教师工具

代表:MagicSchool、Brisk、Khanmigo teacher tools。

优势:供给侧杠杆大,能生成教案、题目、rubric、差异化材料。局限:教师工具不能直接证明学生自学有效。来源:https://www.magicschool.ai/ ; https://www.briskteaching.com/ ; https://blog.khanacademy.org/khanmigo-ai-guide-launches/

7. 同伴 / 角色扮演

代表:Duolingo Max Roleplay / Video Call、Khanmigo 历史人物/写作角色、语言学习类 AI companion。

优势:语言、历史、表达训练天然适合 AI 角色;游戏化强。局限:数学和科学不能只靠角色扮演,必须落到可校验任务。来源:https://blog.duolingo.com/duolingo-max/

AI 原生程度判断

真正更接近 AI 原生

  1. Synthesis Tutor:根据学生错误即时生成解释、可视化和微评估,核心体验不是课程视频后的聊天框。来源:https://www.synthesis.com/tutor
  2. Duolingo Max:AI 被嵌进课程路径的角色扮演和即时反馈,尤其语言学习场景强。来源:https://blog.duolingo.com/duolingo-max/
  3. Squirrel AI / Carnegie MATHia:虽然很多机制早于生成式 AI,但知识追踪、自适应路径和掌握式学习是学习系统原生能力。来源:https://squirrelai.com/ ; https://www.carnegielearning.com/solutions/math/mathia/
  4. Microsoft Reading Coach:围绕朗读、发音、流利度和生成故事组织训练,属于特定能力的 AI 原生练习。来源:https://educationblog.microsoft.com/en-us/2024/01/reading-coach-preview-free-ai-tool

更像「内容库/通用工具 + AI 增强」

  1. ChatGPT Study Mode:学习模式很重要,但仍是通用聊天产品中的模式;缺少项目级知识图谱和强制掌握路径。来源:https://openai.com/index/chatgpt-study-mode/
  2. NotebookLM:资料学习能力强,但主要围绕用户上传资料,不负责完整学科路径。来源:https://support.google.com/notebooklm/answer/16234170
  3. Quizlet AI features:能自动生成学习材料,但多数是材料生产和复习工具。来源:https://quizlet.com/features/magic-notes
  4. MagicSchool / Brisk:主要是教师生产力工具,不是学生端 AI 原生自学平台。来源:https://www.magicschool.ai/ ; https://www.briskteaching.com/

介于两者之间

  1. Khanmigo:有护栏、课程上下文和教师侧整合,比普通聊天强;但核心仍以对话 tutor 为主,生成式交互/仿真不足。来源:https://blog.khanacademy.org/khanmigo-ai-guide-launches/
  2. Google Guided Learning / LearnLM:学习科学原则嵌进模型和产品,方向先进;但对外形态仍主要是 Gemini 内的指导式对话与多模态回答。来源:https://blog.google/outreach-initiatives/education/guided-learning-gemini/
  3. Coursera / Pearson:课程内嵌 AI,适合已有内容资产;但容易停在「课程库 + AI 辅助」。来源:https://blog.coursera.org/coursera-coach/ ; https://www.pearson.com/en-us/news-and-research/announcements/2024/pearson-launches-new-ai-study-tools.html

可复用机制

  1. 护栏式解题流:默认要求学生先尝试,再诊断错误,再给提示,再要求重试;只有在多次失败后给步骤分解。Bastani 研究支持「hint-only tutor」比直接答案更安全。来源:https://hamsabastani.github.io/education_llm.pdf
  2. 每题都有状态机:题目不是 prompt,而是 attempt、misconception、hint level、retry、mastery update 的状态流。Khanmigo、OpenAI Study Mode、Guided Learning 都在向结构化追问靠近。来源:https://openai.com/index/chatgpt-study-mode/ ; https://blog.google/outreach-initiatives/education/guided-learning-gemini/
  3. 知识原子 + 掌握概率:借鉴 Squirrel AI / MATHia,把知识拆到可诊断颗粒,再用正确率、错误类型、提示使用量、间隔后表现更新掌握状态。来源:https://pmc.ncbi.nlm.nih.gov/articles/PMC12078640/ ; https://www.carnegielearning.com/solutions/math/mathia/
  4. 错误驱动生成交互:学生错在哪里,就生成对应的数轴、几何拖拽、变量滑块、化学结构、物理仿真,而不是再解释一段文字。Synthesis Tutor 和 Google Generative UI 是方向信号。来源:https://www.synthesis.com/tutor ; https://research.google/blog/generative-ui-a-rich-custom-visual-interactive-user-experience-for-any-prompt
  5. 生成前先检索/规划,生成后校验:数学必须接符号计算或规则校验;科学仿真必须有参数边界。否则会出现自信但错误的内容。来源:https://www.brookings.edu/articles/ais-future-for-students-is-in-our-hands
  6. 学习材料自动生成只是入口:NotebookLM、Quizlet、Pearson 证明「材料 -> 卡片/测验/摘要」有价值,但本项目应把它接入掌握路径,而不是停在资料助手。来源:https://support.google.com/notebooklm/answer/16234170 ; https://quizlet.com/features/magic-notes
  7. 教师共创/审核后台:MagicSchool、Brisk 说明教师工具有高采用潜力;公益项目可以让老师审核知识图谱、题目、误区库、交互模板。来源:https://www.magicschool.ai/ ; https://www.briskteaching.com/
  8. 语音/角色练习用于高匹配学科:语言、阅读、口语表达可借鉴 Duolingo Max 和 Reading Coach;数学科学应谨慎使用角色扮演,防止热闹但不掌握。来源:https://blog.duolingo.com/duolingo-max/ ; https://educationblog.microsoft.com/en-us/2024/01/reading-coach-preview-free-ai-tool

风险与陷阱

  1. 直接给答案会制造「流畅感错觉」。Bastani 等发现无护栏 AI 可能让练习表现上升、真实考试下降。来源:https://hamsabastani.github.io/education_llm.pdf
  2. 把留存当学习效果。游戏化和聊天粘性可能提高使用时长,但项目的双主指标必须是留存 + 掌握判定。Khan Academy 公开讨论了 learnings/cost per learning gain,而不是只看活跃。来源:https://blog.khanacademy.org/learning-in-the-open-what-ai-is-and-isnt-changing
  3. 兴趣情境化容易胡编。AI 能快速把题目包装成游戏/偶像/运动场景,但学科连接可能无意义,需要教师审核的「兴趣-知识连接库」。来源:https://www.edweek.org/technology/personalized-learning-in-math-has-proved-elusive-and-overhyped-can-ai-offer-a-breakthrough/2026/05
  4. 教师工具和学生自学平台混淆。MagicSchool/Brisk 有价值,但解决的是供给侧效率,不自动解决学生掌握。来源:https://www.magicschool.ai/ ; https://www.briskteaching.com/
  5. 生成式交互的正确性风险高。越是动态生成 UI/仿真,越需要模板、规则校验、符号计算、人工抽检。来源:https://research.google/blog/generative-ui-a-rich-custom-visual-interactive-user-experience-for-any-prompt ; https://www.brookings.edu/articles/ais-future-for-students-is-in-our-hands
  6. 缺少外部问责会导致使用衰减。Khan Academy efficacy 报告提示,推荐使用量本身是很难的产品问题。来源:https://blog.khanacademy.org/khan-academy-efficacy-results-november-2024
  7. 成人/大学产品不能直接外推到中国初高中。OpenAI Study Mode、Coursera Coach、NotebookLM 更偏大学/成人自学,本项目要重做年龄适配、家长沟通和学习节奏。来源:https://openai.com/index/chatgpt-study-mode/ ; https://blog.coursera.org/coursera-coach/

对本项目的建议

推荐产品方向

  1. 第一优先级:做「题目状态机 + 护栏式 AI tutor + 掌握追踪」。这是避免 AI 伤害学习的底盘。
  2. 第二优先级:做「错误驱动的交互生成」。先从数学高频概念开始,如数轴、函数图像、几何证明、物理受力。
  3. 第三优先级:做「教师共创后台」。老师贡献知识原子、误区库、提示模板、交互模板和审核规则。
  4. 第四优先级:做「材料到学习包」。允许老师/学生上传材料,自动生成知识点、卡片、测验,但必须接入掌握追踪。

不推荐起手式

  1. 不要先做一个「万能 AI 老师聊天框」。
  2. 不要用「回答满意度」替代学习效果。
  3. 不要让 AI 即兴生成数学答案而没有符号校验。
  4. 不要把教师工具当成学生自学 MVP。
  5. 不要把「个性化兴趣包装」当核心差异化,除非有学科连接审核机制。

Top 10 来源 URL

  1. OpenAI ChatGPT Study Mode: https://openai.com/index/chatgpt-study-mode/
  2. Google Guided Learning: https://blog.google/outreach-initiatives/education/guided-learning-gemini/
  3. Google LearnLM learning science principles: https://storage.googleapis.com/gweb-uniblog-publish-prod/documents/LearnLM_Learning_Science_Principles.pdf
  4. Khan Academy on AI learning evidence: https://blog.khanacademy.org/learning-in-the-open-what-ai-is-and-isnt-changing
  5. Bastani et al. generative AI education paper: https://hamsabastani.github.io/education_llm.pdf
  6. Synthesis Tutor: https://www.synthesis.com/tutor
  7. Google Generative UI: https://research.google/blog/generative-ui-a-rich-custom-visual-interactive-user-experience-for-any-prompt
  8. Squirrel AI / ITS study: https://pmc.ncbi.nlm.nih.gov/articles/PMC12078640/
  9. Duolingo Max: https://blog.duolingo.com/duolingo-max/
  10. Microsoft Reading Coach: https://educationblog.microsoft.com/en-us/2024/01/reading-coach-preview-free-ai-tool

不确定项

  1. Quizlet Q-Chat 当前产品状态需要继续核查。公开材料可确认 2023 发布与后续 Quizlet AI features,但 Q-Chat 是否仍作为独立入口稳定存在,官方信息不够清晰。
  2. Synthesis Tutor、MagicSchool、Brisk 等产品的学习效果大多来自官方叙述、案例或体验评测,缺少跨地区、跨年级、独立 RCT。
  3. Google Guided Learning、OpenAI Study Mode 的产品发布很新,公开长期掌握效果证据不足。
  4. 中国场景下的使用动机、家长参与、低资源学生设备条件,需要单独用户研究,不能直接套用美国/成人教育数据。
  5. 生成式 UI 用于教育的公开工程细节仍少,正确性校验、成本和延迟需要 PoC 验证。