AI 自学 / AI Tutor / AI 原生学习平台产品模式调研

调研问题

面向「AI 版可汗学院」：AI 不只是旧课程库上的答疑窗口，而是能实时生成高交互、游戏化、千人千面的学习内容，并通过护栏式解题和掌握式学习保证真实掌握。

本轮核查重点：2024-2026 公开产品、官方发布、论文和权威报道，覆盖 Khanmigo、Google Guided Learning / LearnLM、OpenAI ChatGPT Study Mode、Duolingo Max、Synthesis Tutor、Quizlet、MagicSchool、Brisk、Carnegie Learning、Squirrel AI、Rori、Microsoft Reading Coach、NotebookLM、Coursera / edX / Pearson 等。

核心结论

2024-2026 的主流 AI 学习产品仍以「聊天导师 + 学习材料增强」为主，真正「AI 原生」的少数共性是：活动结构内嵌 AI、每一步有学习目标、反馈闭环和掌握信号，而不是把通用聊天框接到内容库。OpenAI Study Mode、Google Guided Learning、Khanmigo 都强调苏格拉底式追问和脚手架，但多数仍是文本/多模态对话形态。来源：https://openai.com/index/chatgpt-study-mode/ ; https://blog.google/outreach-initiatives/education/guided-learning-gemini/ ; https://blog.khanacademy.org/learning-in-the-open-what-ai-is-and-isnt-changing
目前最接近「AI 原生学习体验」的方向不是单纯 AI 聊天，而是三类组合：生成式交互/仿真、结构化自适应题目路径、受护栏约束的提示式辅导。Synthesis Tutor 强调基于学生错误即时生成可视化和微评估；Google 的 Generative UI / Guided Learning 方向显示未来会把答案变成交互页面；PhET 证明交互模拟是长期有效范式。来源：https://www.synthesis.com/tutor ; https://research.google/blog/generative-ui-a-rich-custom-visual-interactive-user-experience-for-any-prompt ; https://phet.colorado.edu/publications/PhET_Impact_Report_2024.pdf
公开效果证据强弱差异很大。Squirrel AI、自适应 ITS、部分 RCT 和 PhET 有较强学习效果证据；Khanmigo 等生成式 AI tutor 的公开证据仍混合，Khan Academy 也承认早期结果不一致，并开始用 2026 年的更强评估方式检验 learning gain。来源：https://pmc.ncbi.nlm.nih.gov/articles/PMC12078640/ ; https://blog.khanacademy.org/learning-in-the-open-what-ai-is-and-isnt-changing
最大陷阱是「练习表现变好但真实学习变差」。Bastani 等 2024 PNAS/工作论文发现，无护栏 AI 可提升练习表现，但在撤掉 AI 后的考试中表现下降；只有「不给答案、给提示」的 tutor 版本避免了明显负效应。来源：https://hamsabastani.github.io/education_llm.pdf ; https://knowledge.wharton.upenn.edu/article/without-guardrails-generative-ai-can-harm-education
对本项目而言，优先借鉴的是「护栏式提示流 + 掌握追踪 + 交互仿真生成 + 间隔复习」；应避免的是「先做一个万能聊天老师」「把正确率当学习效果」「让 AI 直接生成未经校验的数学答案」。

产品地图表

产品 / 机构	当前形态	AI 原生程度	公开证据与局限	适合年龄/科目	对本项目启示
Khanmigo / Khan Academy	Khan Academy 内的 AI tutor + teacher assistant；强调不会直接给答案、引导学生思考。来源：https://blog.khanacademy.org/khanmigo-ai-guide-launches/	中	2026 Khan Academy 称早期效果「mixed」，正在用 learnings/cost per learning gain 评估；2024 efficacy 报告显示推荐用量达成率是挑战。来源：https://blog.khanacademy.org/learning-in-the-open-what-ai-is-and-isnt-changing ; https://blog.khanacademy.org/khan-academy-efficacy-results-november-2024	K-12 到大学，数学、阅读、科学等	可借鉴护栏式对话、教师侧报告；不要只复制聊天窗，要把 AI 放进掌握路径。
Google Guided Learning / LearnLM	Gemini 内的 Guided Learning，用追问、分步、多模态材料帮助理解；LearnLM 是面向学习优化的模型能力。来源：https://blog.google/outreach-initiatives/education/guided-learning-gemini/ ; https://blog.google/technology/ai/google-learnlm-gemini-generative-ai/	中高	官方学习科学白皮书强调主动学习、认知负荷、元认知、好奇心等原则；但公开学习效果多为内部评估/偏好评测，不等同长期掌握。来源：https://storage.googleapis.com/gweb-uniblog-publish-prod/documents/LearnLM_Learning_Science_Principles.pdf	通用学科，偏高中/大学/成人自学	可借鉴模型行为原则：少给答案、多提问、多模态、知识检查；仍需项目自有掌握指标。
OpenAI ChatGPT Study Mode	ChatGPT 的学习模式，包含苏格拉底提示、脚手架、知识检查、个性化上下文；官方称先从大学学习者开始。来源：https://openai.com/index/chatgpt-study-mode/	中	产品级发布，未看到公开 RCT 学习效果；用户可退出 Study Mode，护栏强度依赖模式持续性。来源：https://openai.com/index/chatgpt-study-mode/	广泛，当前更偏高中以上和大学	借鉴「学习模式」作为系统级约束；本项目需要不可轻易绕开的题目级护栏。
Duolingo Max	Explain My Answer、Roleplay、Video Call 等生成式语言练习，嵌入 Duolingo 课程路径。来源：https://blog.duolingo.com/duolingo-max/ ; https://blog.duolingo.com/duolingo-on-ice-announcement/	高（语言学习内）	强产品化，天然与课程、游戏化、连胜机制结合；公开学习效果主要来自 Duolingo 大盘研究，Max 单独效果证据有限。来源：https://blog.duolingo.com/duolingo-max/	语言学习，青少年到成人	角色扮演/情境对话是 AI 原生高价值场景；要与课程进度和反馈闭环绑定。
Synthesis Tutor	K-5 数学 AI tutor；强调从错误中即时生成解释、交互可视化、微评估。来源：https://www.synthesis.com/tutor	高	官方披露产品机制，第三方独立效果证据有限；外部评测多为体验评价。来源：https://www.synthesis.com/tutor	小学数学	最值得借鉴的产品模式：错误驱动、可视化、即时微评估，而不是自由聊天。
Quizlet Q-Chat / AI features	Q-Chat 曾是基于 OpenAI API 的 AI tutor；Quizlet 后续强化 Magic Notes、AI flashcards、practice tests 等学习材料生成。来源：https://www.prnewswire.com/news-releases/quizlet-launches-q-chat-ai-tutor-built-with-openai-api-301759014.html ; https://quizlet.com/features/magic-notes	低到中	Q-Chat 是典型聊天导师；后续功能更偏学习材料自动化。Q-Chat 当前可用性需再次核查，官方公开信息不够清晰。	中学/大学通用记忆类学习	借鉴「上传材料 -> 自动生成卡片/测验」；但这不等于 AI 原生学习闭环。
MagicSchool	教师 AI 工具平台，生成教案、改写、IEP、rubric、学生工具等。来源：https://www.magicschool.ai/	低（对学生学习）/中（教师工作流）	官方称覆盖大量教师和工具；学习效果不是核心证据，主要是教师提效。来源：https://www.magicschool.ai/	教师备课和课堂支持	可借鉴教师共创、审核、rubric 生成；不应把教师工具误当学生自学平台。
Brisk Teaching	浏览器扩展式教师 AI：反馈、材料生成、阅读水平调整、检测学生写作过程等。来源：https://www.briskteaching.com/	低（学生自学）/中（教师工作流）	公开案例多为教师节省时间和反馈效率；学习效果证据有限。来源：https://www.briskteaching.com/resources/case-study	K-12 教师	可借鉴「低摩擦嵌入现有工作流」和反馈模板；学生端仍需独立学习闭环。
Carnegie Learning / MATHia	成熟认知 tutor / 自适应数学系统，AI 辅导和学习科学长期积累。来源：https://www.carnegielearning.com/solutions/math/mathia/	中高（传统 ITS 原生）	有长期 ITS 和数学学习证据；生成式 AI 不是核心差异。来源：https://www.carnegielearning.com/research/	中学数学	借鉴知识组件拆解、逐步提示、掌握追踪；生成式 AI 应服务于 ITS 结构。
Squirrel AI	中国自适应学习系统，知识点细颗粒拆分、诊断、个性化路径。来源：https://squirrelai.com/	高（自适应路径）	多篇研究显示 ITS/自适应系统有效；需注意商业披露与独立复现范围。来源：https://pmc.ncbi.nlm.nih.gov/articles/PMC12078640/ ; https://link.springer.com/article/10.1007/s10639-025-13646-x	K-12，数学等	强烈借鉴知识图谱 + 诊断 + 掌握路径；不要只做 LLM 前端。
Rori	低成本 WhatsApp/SMS 数学 tutor，面向资源受限地区。来源：https://rori.ai/ ; https://arxiv.org/abs/2402.09809	中	研究关注撒哈拉以南非洲的可扩展 AI tutor，强调低成本与可及性；科目/地区外推需谨慎。来源：https://arxiv.org/abs/2402.09809	中小学数学，低带宽场景	对中国低资源学生有启发：移动端、低门槛、可持续成本。
Microsoft Reading Coach	AI 阅读教练，支持个性化故事、发音/流利度练习、Immersive Reader。来源：https://educationblog.microsoft.com/en-us/2024/01/reading-coach-preview-free-ai-tool	中高（阅读训练内）	强在口语朗读反馈和阅读流利度；不是全学科 tutor。来源：https://educationblog.microsoft.com/en-us/2024/01/reading-coach-preview-free-ai-tool	K-12 阅读/英语	可借鉴语音反馈、可选角色/场景生成、流利度指标。
NotebookLM	基于用户资料的学习助手，支持摘要、音频概览、FAQ、Study Guide、quiz 等。来源：https://support.google.com/notebooklm/answer/16234170	中	适合资料理解和复习，但依赖用户上传材料；缺少学科掌握路径与题目级护栏。来源：https://blog.google/technology/ai/notebooklm-audio-overviews/	高中以上、大学、成人	可借鉴「材料 -> 学习包」能力；不能替代课程图谱和掌握式路径。
Coursera Coach / AI features	课程内 AI Coach、翻译、总结、作业反馈等。来源：https://blog.coursera.org/coursera-coach/ ; https://blog.coursera.org/new-products-tools-and-features-announced-at-coursera-conference-2024/	中	适合成人/职业课程；平台以课程库为中心，AI 是增强层。	大学/职业教育	借鉴课程内嵌式 AI 和作业反馈；本项目要避免回到「旧课程库 + AI 问答」。
edX / 2U AI learning tools	AI tutor/coach、作业和课程支持方向。来源：https://www.edx.org/	低到中	公开信息偏平台功能和合作，具体学习效果证据有限。	高等教育/职业教育	参考成人课程场景，不是核心模板。
Pearson AI Study Tools	在 Pearson+ 和 Mastering/MyLab 中加入 AI study tool、summary、practice 等。来源：https://www.pearson.com/en-us/news-and-research/announcements/2024/pearson-launches-new-ai-study-tools.html	中	强内容库和教材版权绑定；AI 多是学习辅助与练习生成。	高中/大学教材场景	说明内容资产 + AI 练习很有价值，但公益项目需避免版权依赖。

产品形态分类

1. 聊天导师

代表：Khanmigo、ChatGPT Study Mode、Google Guided Learning、Quizlet Q-Chat。

优势：启动快、覆盖面广、能解释错误和追问。局限：如果没有题目状态、知识图谱和护栏，很容易变成「答案外包」。Bastani 等研究显示，无护栏生成式 AI 会让练习表现提升但真实考试表现下降。来源：https://hamsabastani.github.io/education_llm.pdf

2. 生成式交互 / 仿真

代表：Synthesis Tutor、Google Generative UI、PhET 作为非生成式但成熟的模拟标杆。

优势：把抽象概念变成可操作对象，尤其适合数学、物理、化学、生物。局限：正确性和边界条件难，生成式 UI 必须有学科校验与模板约束。来源：https://www.synthesis.com/tutor ; https://research.google/blog/generative-ui-a-rich-custom-visual-interactive-user-experience-for-any-prompt ; https://phet.colorado.edu/publications/PhET_Impact_Report_2024.pdf

3. 智能题目推荐 / 自适应路径

代表：Squirrel AI、Carnegie Learning MATHia、传统 ITS。

优势：最接近掌握式学习基础设施；有知识组件、诊断、下一题推荐、掌握概率。局限：建设成本高，需长期打磨知识图谱和题库。来源：https://www.carnegielearning.com/solutions/math/mathia/ ; https://pmc.ncbi.nlm.nih.gov/articles/PMC12078640/

4. AI 反馈 / 批改

代表：Brisk、MagicSchool、Coursera、Pearson、Google Classroom 生态。

优势：教师提效明显，适合作文、开放题、rubric 反馈。局限：对自学平台而言只是局部能力，不构成完整学习路径。来源：https://www.briskteaching.com/ ; https://www.magicschool.ai/ ; https://blog.coursera.org/new-products-tools-and-features-announced-at-coursera-conference-2024/

5. 学习教练

代表：ChatGPT Study Mode、NotebookLM、Coursera Coach。

优势：帮助制定计划、整理材料、测验复习、元认知提示。局限：动机和持续使用是独立产品难题；Khan Academy 2024 报告提示推荐使用量达成率不容易。来源：https://blog.khanacademy.org/khan-academy-efficacy-results-november-2024

6. 教师工具

代表：MagicSchool、Brisk、Khanmigo teacher tools。

优势：供给侧杠杆大，能生成教案、题目、rubric、差异化材料。局限：教师工具不能直接证明学生自学有效。来源：https://www.magicschool.ai/ ; https://www.briskteaching.com/ ; https://blog.khanacademy.org/khanmigo-ai-guide-launches/

7. 同伴 / 角色扮演

代表：Duolingo Max Roleplay / Video Call、Khanmigo 历史人物/写作角色、语言学习类 AI companion。

优势：语言、历史、表达训练天然适合 AI 角色；游戏化强。局限：数学和科学不能只靠角色扮演，必须落到可校验任务。来源：https://blog.duolingo.com/duolingo-max/

AI 原生程度判断

真正更接近 AI 原生

Synthesis Tutor：根据学生错误即时生成解释、可视化和微评估，核心体验不是课程视频后的聊天框。来源：https://www.synthesis.com/tutor
Duolingo Max：AI 被嵌进课程路径的角色扮演和即时反馈，尤其语言学习场景强。来源：https://blog.duolingo.com/duolingo-max/
Squirrel AI / Carnegie MATHia：虽然很多机制早于生成式 AI，但知识追踪、自适应路径和掌握式学习是学习系统原生能力。来源：https://squirrelai.com/ ; https://www.carnegielearning.com/solutions/math/mathia/
Microsoft Reading Coach：围绕朗读、发音、流利度和生成故事组织训练，属于特定能力的 AI 原生练习。来源：https://educationblog.microsoft.com/en-us/2024/01/reading-coach-preview-free-ai-tool

更像「内容库/通用工具 + AI 增强」

ChatGPT Study Mode：学习模式很重要，但仍是通用聊天产品中的模式；缺少项目级知识图谱和强制掌握路径。来源：https://openai.com/index/chatgpt-study-mode/
NotebookLM：资料学习能力强，但主要围绕用户上传资料，不负责完整学科路径。来源：https://support.google.com/notebooklm/answer/16234170
Quizlet AI features：能自动生成学习材料，但多数是材料生产和复习工具。来源：https://quizlet.com/features/magic-notes
MagicSchool / Brisk：主要是教师生产力工具，不是学生端 AI 原生自学平台。来源：https://www.magicschool.ai/ ; https://www.briskteaching.com/

介于两者之间

Khanmigo：有护栏、课程上下文和教师侧整合，比普通聊天强；但核心仍以对话 tutor 为主，生成式交互/仿真不足。来源：https://blog.khanacademy.org/khanmigo-ai-guide-launches/
Google Guided Learning / LearnLM：学习科学原则嵌进模型和产品，方向先进；但对外形态仍主要是 Gemini 内的指导式对话与多模态回答。来源：https://blog.google/outreach-initiatives/education/guided-learning-gemini/
Coursera / Pearson：课程内嵌 AI，适合已有内容资产；但容易停在「课程库 + AI 辅助」。来源：https://blog.coursera.org/coursera-coach/ ; https://www.pearson.com/en-us/news-and-research/announcements/2024/pearson-launches-new-ai-study-tools.html

可复用机制

护栏式解题流：默认要求学生先尝试，再诊断错误，再给提示，再要求重试；只有在多次失败后给步骤分解。Bastani 研究支持「hint-only tutor」比直接答案更安全。来源：https://hamsabastani.github.io/education_llm.pdf
每题都有状态机：题目不是 prompt，而是 attempt、misconception、hint level、retry、mastery update 的状态流。Khanmigo、OpenAI Study Mode、Guided Learning 都在向结构化追问靠近。来源：https://openai.com/index/chatgpt-study-mode/ ; https://blog.google/outreach-initiatives/education/guided-learning-gemini/
知识原子 + 掌握概率：借鉴 Squirrel AI / MATHia，把知识拆到可诊断颗粒，再用正确率、错误类型、提示使用量、间隔后表现更新掌握状态。来源：https://pmc.ncbi.nlm.nih.gov/articles/PMC12078640/ ; https://www.carnegielearning.com/solutions/math/mathia/
错误驱动生成交互：学生错在哪里，就生成对应的数轴、几何拖拽、变量滑块、化学结构、物理仿真，而不是再解释一段文字。Synthesis Tutor 和 Google Generative UI 是方向信号。来源：https://www.synthesis.com/tutor ; https://research.google/blog/generative-ui-a-rich-custom-visual-interactive-user-experience-for-any-prompt
生成前先检索/规划，生成后校验：数学必须接符号计算或规则校验；科学仿真必须有参数边界。否则会出现自信但错误的内容。来源：https://www.brookings.edu/articles/ais-future-for-students-is-in-our-hands
学习材料自动生成只是入口：NotebookLM、Quizlet、Pearson 证明「材料 -> 卡片/测验/摘要」有价值，但本项目应把它接入掌握路径，而不是停在资料助手。来源：https://support.google.com/notebooklm/answer/16234170 ; https://quizlet.com/features/magic-notes
教师共创/审核后台：MagicSchool、Brisk 说明教师工具有高采用潜力；公益项目可以让老师审核知识图谱、题目、误区库、交互模板。来源：https://www.magicschool.ai/ ; https://www.briskteaching.com/
语音/角色练习用于高匹配学科：语言、阅读、口语表达可借鉴 Duolingo Max 和 Reading Coach；数学科学应谨慎使用角色扮演，防止热闹但不掌握。来源：https://blog.duolingo.com/duolingo-max/ ; https://educationblog.microsoft.com/en-us/2024/01/reading-coach-preview-free-ai-tool

风险与陷阱

直接给答案会制造「流畅感错觉」。Bastani 等发现无护栏 AI 可能让练习表现上升、真实考试下降。来源：https://hamsabastani.github.io/education_llm.pdf
把留存当学习效果。游戏化和聊天粘性可能提高使用时长，但项目的双主指标必须是留存 + 掌握判定。Khan Academy 公开讨论了 learnings/cost per learning gain，而不是只看活跃。来源：https://blog.khanacademy.org/learning-in-the-open-what-ai-is-and-isnt-changing
兴趣情境化容易胡编。AI 能快速把题目包装成游戏/偶像/运动场景，但学科连接可能无意义，需要教师审核的「兴趣-知识连接库」。来源：https://www.edweek.org/technology/personalized-learning-in-math-has-proved-elusive-and-overhyped-can-ai-offer-a-breakthrough/2026/05
教师工具和学生自学平台混淆。MagicSchool/Brisk 有价值，但解决的是供给侧效率，不自动解决学生掌握。来源：https://www.magicschool.ai/ ; https://www.briskteaching.com/
生成式交互的正确性风险高。越是动态生成 UI/仿真，越需要模板、规则校验、符号计算、人工抽检。来源：https://research.google/blog/generative-ui-a-rich-custom-visual-interactive-user-experience-for-any-prompt ; https://www.brookings.edu/articles/ais-future-for-students-is-in-our-hands
缺少外部问责会导致使用衰减。Khan Academy efficacy 报告提示，推荐使用量本身是很难的产品问题。来源：https://blog.khanacademy.org/khan-academy-efficacy-results-november-2024
成人/大学产品不能直接外推到中国初高中。OpenAI Study Mode、Coursera Coach、NotebookLM 更偏大学/成人自学，本项目要重做年龄适配、家长沟通和学习节奏。来源：https://openai.com/index/chatgpt-study-mode/ ; https://blog.coursera.org/coursera-coach/

对本项目的建议

不推荐起手式

不要先做一个「万能 AI 老师聊天框」。
不要用「回答满意度」替代学习效果。
不要让 AI 即兴生成数学答案而没有符号校验。
不要把教师工具当成学生自学 MVP。
不要把「个性化兴趣包装」当核心差异化，除非有学科连接审核机制。

Top 10 来源 URL

OpenAI ChatGPT Study Mode: https://openai.com/index/chatgpt-study-mode/
Google Guided Learning: https://blog.google/outreach-initiatives/education/guided-learning-gemini/
Google LearnLM learning science principles: https://storage.googleapis.com/gweb-uniblog-publish-prod/documents/LearnLM_Learning_Science_Principles.pdf
Khan Academy on AI learning evidence: https://blog.khanacademy.org/learning-in-the-open-what-ai-is-and-isnt-changing
Bastani et al. generative AI education paper: https://hamsabastani.github.io/education_llm.pdf
Synthesis Tutor: https://www.synthesis.com/tutor
Google Generative UI: https://research.google/blog/generative-ui-a-rich-custom-visual-interactive-user-experience-for-any-prompt
Squirrel AI / ITS study: https://pmc.ncbi.nlm.nih.gov/articles/PMC12078640/
Duolingo Max: https://blog.duolingo.com/duolingo-max/
Microsoft Reading Coach: https://educationblog.microsoft.com/en-us/2024/01/reading-coach-preview-free-ai-tool

不确定项

Quizlet Q-Chat 当前产品状态需要继续核查。公开材料可确认 2023 发布与后续 Quizlet AI features，但 Q-Chat 是否仍作为独立入口稳定存在，官方信息不够清晰。
Synthesis Tutor、MagicSchool、Brisk 等产品的学习效果大多来自官方叙述、案例或体验评测，缺少跨地区、跨年级、独立 RCT。
Google Guided Learning、OpenAI Study Mode 的产品发布很新，公开长期掌握效果证据不足。
中国场景下的使用动机、家长参与、低资源学生设备条件，需要单独用户研究，不能直接套用美国/成人教育数据。
生成式 UI 用于教育的公开工程细节仍少，正确性校验、成本和延迟需要 PoC 验证。