学习者分层与人机边界 —— AI 自学平台设计第一性原理

0. 你问题背后的本质（先讲这个）

把你前后两组问题叠在一起，内核是同一句：

自学的瓶颈从来不是"知识传递"，而是"动机—元认知/自我调节—情绪韧性"这三层。 AI + 自适应能把知识传递做到近乎免费、近乎无限耐心（这一层基本可被技术替代）；但能否让一个没人盯、请不起补课的孩子持续自己学下去，取决于产品能否重建过去靠"一段人际关系"才能提供的那部分功能。

你问"哪些必须用人" = 在问：人际关系里哪部分功能不可被技术替代。
你问"要不要分层、怎么辨别" = 在担心："一套自学流程喂所有孩子"会失败——因为决定成败的不是知识点难度，而是孩子的自我调节能力、动机取向和情绪倾向，而这些千差万别。

这两个直觉都对，并且被证据支持。下面逐层展开。贯穿全文的一个判断：分层要按"可变的状态"（掌握度、情绪、自我调节、动机取向），不要按"固定的标签"（学习风格、性格型、聪明与否）——后者在学习科学里基本是 null 结果甚至有害。

1. 第一性原理：自学真正的瓶颈在哪

用四个"如果…那么…"把本质钉死：

如果知识传递（讲解、出题、判对错、调难度、安排复习）能被 AI 低成本无限供给，那么它就不再是稀缺资源，也不再是产品的护城河。证据：智能辅导系统（ITS）效果已≈人类一对一辅导（d≈0.76 vs 0.79，VanLehn 2011）。
如果真正稀缺的是"让孩子愿意开始、扛住挫败、坚持到学会"，那么产品的核心竞争力必须放在动机层与情绪层，而非内容层。证据：自我调节能力（SRL）效应 d=0.52（Hattie 汇总 1897 项研究），是决定能否用好自学平台的头号变量。
如果自我调节能力是"能不能自学"的分水岭，而它不是天生有、需要被训练（元认知训练效果最好但需显式教学），那么平台不能假设孩子会自我管理，必须把"自我调节"当成要培养的能力，而不是前提。
如果AI 直接给答案会让"练习好看、真实学习受损"（Bastani 2024/2025 PNAS：无护栏练习+48% 但撤掉 AI 后独立考试−17%），那么护栏式引导不是风格选择，而是架构级强约束。

结论（本质）：内容免费化之后，AI 自学平台的胜负手在三件事—— ① 重建"关系"以承载动机与情绪；② 主动培养自我调节而非假设它存在；③ 用护栏保护"真实学习"不被效率幻觉吞掉。

2. 人 vs 技术：能力可外包，关系难外包

不要问"老师能不能被替代"，要问"老师这束功能里，哪一根能被技术承载"。把"老师"拆成功能再分配：

功能	谁来做	证据 / 依据
知识讲解、出题、即时判对错、自适应难度、间隔复习	技术完全可替代，且常更优	ITS≈人类辅导（VanLehn 2011 d≈0.76）；间隔重复/提取练习是最强证据策略（Dunlosky 2013）
护栏式引导（不直接给答案、苏格拉底追问、错误分析、分步提示）	技术可做，但必须架构级强约束	Bastani 2025 PNAS：无护栏反而损害真实学习；护栏式是有学习效果证据的教学法（VanLehn 步骤级反馈）
卡住时兜底、情绪安抚、"我相信你能行"的关系	拟人 AI 日常 + 真人/同伴关键节点（纯自适应做不了）	Alpha 反面案例：孩子被系统卡 20+ 次哭崩无人介入（WIRED 2025）
价值判断、伦理、模糊情境下的判断力培养	人主导 / Conundrums 式情境设计	Astra Nova"教问题而非工具"
点燃志向、提供榜样、归属感、同伴压力	人 / 同伴社群（所有纯 AI 平台共同盲区）	三平台家长都提"社交缺失"

2.1 什么情况下"人"是必要的（判据）

【理论框架 + 已验证】综合 Peng & Wan (2023)、SDT 归属感干预、情绪支持研究，人的必要性随以下维度升高：

问题越复杂、越开放、越无标准答案 → 越需要人（AI 在收敛性问题上够用，发散性判断上不够）。
情绪强度越高（强烈挫败/羞耻/想放弃） → 越需要人或强拟人关系。值得注意：Peng & Wan 发现社交焦虑高的学生反而偏好 AI（AI 提供非评判的心理安全感）——这对我们"请不起补课、可能自卑"的目标用户是利好，意味着日常陪伴用 AI 是可行甚至更优的。
归属感/志向点燃 → 技术最难替代（Wang 2024 元分析：自主感干预 g=1.14、胜任感 g=0.48–0.58，但归属感干预 g=0.44 不显著——归属是结构化技术手段最难造出来的，必须靠真人/同伴/社区）。
自我调节能力极低、或有真正的情绪/学习障碍 → 必须有真人，产品应能识别并转介，而不是硬留在纯自学里。

2.2 什么可以靠学生自学（判据）

结构良好、有明确对错的领域（数学程序性技能是最佳场景）+ 学生已有基本自我调节能力 → 可高度自学。
反过来，开放性创作、需要价值判断、或学生自我调节极弱 → 不能纯靠自学。

一句话：知识层可无人化；动机层与情绪层必须有"关系"在场——但这个关系可以是"有温度的 AI 日常 + 真人/同伴在关键节点兜底"的混合，而非真人全程。 这正是三家竞品都没做好、我们可以做成护城河的位置。

3. 自适应学习到底多重要——重要，但不是"算法多聪明"那种重要

【已验证】自适应的价值不在算法炫技，而在它消除自学的两个头号杀手：①一直太难→挫败退出；②一直太简单→无聊退出。它把孩子稳定在"会一点努力就够得着"的甜区。

机制证据 = expertise reversal effect（2025 元分析，60 实验/5924 人）：低先验知识者从"高辅助/详解"中受益 d=0.50；高先验知识者被同样的详解拖累 d=−0.43。所以自适应的真身是"按当前掌握水平动态调支架密度"，不是"把人分到不同班"。
重要的边界：自适应≠学会。Alpha 的教训是把"答对率达标"当成掌握，造出刷题焦虑。自适应必须配真掌握判定：撤掉提示后能独立做 + 能解释原理。
关键洞察：前知识预测"谁考得高"很强（r=.53，Simonsmeier 2022），但预测"谁学得更多"几乎为零（r=−.06）。别假设"基础好=学得快"，每个知识点都要现测现调。

对产品：自适应是"留住人"的基础设施（守住心流甜区 70–85% 正确率），但它只是入场券，不是护城河——护城河在第 1、2 节说的动机/关系/护栏。

4. 学习体验各要素的重要度（含一个必须纠偏的前提）

4.1 ⚠️ 必须纠偏：视觉/听觉/动觉"学习风格"是已被证伪的神话

【已验证 / 强证据】"按孩子的学习风格匹配教学方式能提升学习"（meshing 假说）几乎没有任何实验证据，少数严格设计的研究直接反驳它（Pashler et al. 2008，四位认知科学家联署的权威综述；Riener & Willingham 2010）。讽刺的是 76% 教育者仍相信它。

危害：若按风格把孩子贴成"视觉型/动觉型"再喂对应内容，等于①违背有效做法、②浪费测评成本、③制造标签效应（"我是动觉型所以读不进书"）。
正确替代 = 双重编码 / 多模态对全员上（Paivio；Cuevas 2017 实验：视觉条件下所有人记忆量翻倍，与所谓风格无关）。所以我们要做的是"同一内容用图+文+语音+动手对所有孩子上"，而不是"先分型再喂单一模态"。

这一条是产品架构级决定：不要建"学习风格诊断 → 风格化路径"这条线，会把产品建在伪科学上。

4.2 各要素的真实作用与效应量

要素	真实作用	效应量 / 证据	设计含义
多模态（图+文+语音）	对所有人有效，尤其抽象概念	多媒体原则 d=1.67；通道原则 d=0.72（Mayer 2017）	默认全员多模态，不分型
图文/时空邻近、去冗余	降低外在认知负荷	空间邻近 d=0.79、冗余 d=0.87、一致性 d=0.70	公式与图同屏；删无关装饰
视频	有效但有强边界	参与度中位仅 6 分钟（edX 690 万次观看，Guo 2014）；流畅感幻觉：讲得生动→自评高但实测无差 d≈0（Carpenter 2013, Jaeger 2017）	视频<6 分钟、分段、嵌入测验；别用"生动"替代"检测"
游戏化	对"愿不愿开始/坚持"作用大，对"是否真学会"作用小	认知 g≈0.46–0.49 但 20 周后衰减到 0.30；行为参与最弱 g=0.25（Sailer & Homner 2020）	当动机助推，不当学习主引擎
外在奖励（积分/徽章/金钱）	⚠️侵蚀内在动机	Deci 1999 元分析 d=−0.34~−0.44；但信息性正反馈"你掌握了X"提升动机 d=+0.33	用"掌握反馈"，慎用积分/排行榜/发钱（Alpha 发钱是危险示范）
诱人细节（无关趣味元素）	⚠️损害学习	g≈−0.16~−0.41（Rey 2012；2026 元分析）	连贯性 > 吸引力；AI 生成内容要"诱人细节守门"
老师生动讲解	起作用的是教学方法不是媒介	Clark 1983/1994："媒介不影响学习，方法才影响"	老师不可替代的是情绪支持/社会临场/复杂判断，不是"讲得好听"

要素重要度排序（对真实学习而言）：护栏式教学法 + 主动检索 + 间隔复习 + 多模态 + 难度自适应 ≫ 视频精美度、游戏化外壳、积分奖励。后者影响"愿不愿学"，前者影响"是否学会"——两者都要，但别把次序搞反。

5. 注意力如何培养与维持

【理论框架 + 已验证】注意力不是靠"更刺激"，而是靠降负荷 + 守甜区 + 防干扰 + 给锚点：

降外在认知负荷（Sweller）：每屏一个核心概念；图文集成不分离；新手先给完整范例（worked example）再让其解题。工作记忆≈4 项，堆信息=赶走注意力。
守心流甜区（Csikszentmihalyi + ZPD）：实时把正确率维持在 70–85%（注：这个具体数字是 mastery 阈值 80% 与心流理论的整合推演，【理论框架，单一数字直接 RCT 证据弱】，但"太易→无聊、太难→焦虑"方向证据强）。
优化时长与分段：初中生单次约 25–35 分钟、高中 35–45 分钟，内置自然断点；间隔复习（d≈0.6–0.7）由系统自动安排、且不要标"复习"二字。
防数字干扰：媒体多任务与学习结果稳定负相关；学习开始时建议（不强制，保自主）开"专注模式"（全屏/关通知）。
给注意力锚点：每完成一小步即时反馈；系统提示只在自然暂停点出现，不在解题中途打断。
⚠️ 不要造成瘾循环：streak/连续登录奖励短期有效但损长期内在动机——这是注意力的"高利贷"。

【已验证】情绪是注意力的前哨：无聊是最危险信号（持续性最强、与"乱点蒙混"高度相关、对学习负面最大），挫败反而较短暂。可纯靠交互行为（无需摄像头）预测：挫败可提前 ~40 秒、无聊提前 ~50 秒预测（Zambrano 2024，AUC≈0.64–0.73）——给主动干预留了时间窗。

6. 自主性如何培养

【已验证】用 SDT 三需要作骨架（Wang 2024 干预元分析）：

自主感（Autonomy，干预 g=1.14 最强）：给真实路径选择（学什么顺序、哪种解法、跳过已掌握）、解释"为什么学这个"、允许"先试自己的方法再看示例"。但选项 ≤3–4 个，防选择疲劳。
胜任感（Competence，g=0.48–0.58）：掌握式学习（不过关不强推）+ 可见的"你掌握了X技能" + 有意义的错误分析。
归属感（Relatedness，g=0.44 不显著=最难）：靠 AI persona 的"在场感"（有名字/人格/记得过往交互）做伪社会连接，叠加真人/同伴社区——这块结构化技术造不出，必须有人。

自我调节（SRL）要脚手架化再逐步撤掉（Fading）： - 早期高支架（AI 建议目标→学生确认；每 5 题提示"你现在掌握多少"；强制完成小结）→ 中期减少 → 后期学生自主。 - 撤脚手架有证据（Bar-Ilan RCT：Faded 组元认知与长期保留显著优于 Fixed）。触发撤除的信号：连续 N 次主动用某 SRL 策略而无需提示。 - ⚠️ 但提示别太频繁，掌握目标型学生会反感（MetaTutor 经验）。

Productive Failure（先挣扎再讲，Kapur）：新概念先给一道"你现在可能解不出，但试试看"的探索题，收集学生思路（哪怕错），再基于其思路讲解——比直接上例题效果好（Sinha & Kapur 2021 元分析 g=0.36，校偏后可达 0.87）。边界：仅初一及以上（小学低年级反而宜先给示例）；必须有后续整合讲解，光挣扎没讲解 = 有害。

⚠️ Personalization Paradox（自适应悖论）：处方型 AI（全帮你决定）短期分数更高，但自主性显著下降（−0.42）；建议型 AI（元认知脚手架、学生做决定）分数略低但自主性上升（+0.85）。对策：透明（让学生看到推荐了什么、为什么）、可拒绝/覆盖推荐、元认知反馈优于直接答案、控制权随 SRL 成长渐进移交、系统优化目标不能只盯下一次测验分。

7. 学生要不要分层、按什么分

要分，但分的是"可变状态"，不是"固定标签"。 这是本主题最关键的设计抉择。

7.1 该分的维度（动态、可干预、有证据）

维度	为什么	证据	怎么用
① 当前掌握水平（按知识点，非按人）	最有设计价值的分层	expertise reversal d=0.50/−0.43	动态调支架密度：新手多详解+例题+引导；准专家去冗余、给应用挑战。同一孩子对"一次函数"是专家、对"二次函数"是新手——按主题粒度分，不给人贴层
② 自我调节能力（SRL）	自学成败头号变量	d=0.52（1897 研究）	用行为识别低 SRL（乱答、不复盘错题、学习时间无规律），给强外部结构（计划提醒、进度追踪、引导反思），再逐步松开
③ 实时情绪/动机状态	决定此刻要不要干预	无聊负面最大、可提前 ~50s 预测	优先盯"无聊"和"持续无解的困惑"，触发干预（换形式/降难度/鼓励）
④ 动机取向（掌握 vs 回避）	影响策略与韧性	成就目标元分析（预测效度弱 r≈.13，但对策略/内在动机影响显著）	对"怕犯错/回避型"用安全失败设计；激活掌握目标、淡化排名
⑤ 年龄段（粗粒度）	调表达方式与游戏化强度	游戏化×年龄：初中 SMD=1.12>小学 0.80；低龄更吃即时奖励但撤奖后崩	初中：多可视化/故事/短任务/即时反馈；高中：真实关联/自主选路/有意义目标

7.2 ⚠️ 不该当固定标签分层的维度（弱证据 / 已证伪 / 有害）

维度	结论	原因
学习风格（视/听/动觉）	不做	meshing 假说被证伪；ATI null
MBTI 性格型	不做	重测信度低（4–5 周约半数改型）、无预测效度
成长型思维水平	不做分层依据	干预效应 d≈0.02–0.05，近零；只当反馈语气用
一般智力 / IQ	不做教法分配依据	ATI 60 年未找到稳定交互；测量成本与伦理问题
Big Five 儿童自评	慎用	儿童自评效度低；若用只取"尽责性"且宜教师评定或行为代理

7.3 你列的那些维度，应该这样重新归类

你提到的"主动/被动、敢试错/怕犯错、有兴趣/没兴趣、亲子关系"——真实且重要，但它们是"状态/情境"，不是"这孩子就是这型"，应作为可被设计改变的变量来处理：

主动 vs 被动 → 本质是 SRL 水平 + 动机取向。对策：给被动者更多外部结构与引导，而非判定"他就是被动"。
敢试错 vs 怕犯错 → 本质是低安全感 + 表现-回避目标。对策：降低犯错代价、把错误重定义为信息（"这次错=你在学更难的东西"），而不是把他归进"怕错组"。
有兴趣 vs 没兴趣 → 兴趣是可被点燃的状态（情境兴趣→个人兴趣）。对策：用兴趣做"情境包装/动机入口"，但不改知识目标、不滥用牵强类比（homebase 已定的质量门）。
亲子关系 → 是重要的环境变量（见第 9 节，你只提了没展开）。

8. 怎么辨别孩子的初始状态——少靠问卷，多靠交互

你问"能否通过问卷、性格测试、游戏化、早期 AI 交互、或一个 AI 持续分析对话/交互模式"——方向判断对了：持续交互分析 > 一次性问卷。 证据如下：

8.1 问卷/性格测试：只做最轻量的"先验"，不当"定性"

【已验证】儿童（尤其 <12 岁）自我报告效度系统性偏低（元认知准确性不足、社会期望偏差；Gascoine 2016）。元认知问卷在 12 岁以上才较可靠。 - 可用：3–5 题的兴趣/动机/自信自评（仅初中以上）+ 年级/学科。当"先验"，可被后续行为推翻。 - 不可用：拿问卷/性格测试评估能力或学习风格、并据此定路径。MBTI 直接弃用。

8.2 更优解：隐形评估（Stealth Assessment）+ 行为画像

【已验证 / 强证据】Valerie Shute 的 Stealth Assessment（基于 Evidence-Centered Design）把评估无缝嵌进游戏化交互，不打断心流、不引发测试焦虑，已验证可测知识掌握、创造力、坚持性、协作。做法：先定"要测什么"（掌握度/坚持性/求助策略）→ 设计能暴露这些行为的关卡 → 把行为 log 映射到能力节点（初期用规则，后期贝叶斯网络）→ 每次交互实时更新后验概率。

可纯从行为推断的信号（无需摄像头）：

掌握/不会：首答用时、连续错误数、提示后是否仍错
无聊（最危险）：极短作答 + 不看提示直接交 + 多次跳过 + 正确率突降(在蒙)
挫败：连错 + 求助频增 + 用时突增
脱离：长时间 idle、"乱点提示蒙混过关"(gaming the system)
心流：稳定节奏 + 正确率 70–85% + 偶用提示 + 重做率高
自我调节：主动用提示 vs 等超时、是否自发回看/复盘错题

行为情感检测器已达 AUC≈0.64–0.73（挫败/困惑/无聊），且能提前 40–50 秒预测。

8.3 冷启动：第一次见面怎么办

【已验证】所有知识追踪模型（BKT/DKT/SAKT）在新生前 10 次交互都接近随机，约 10–50 次后才稳。破法： - 方案 A（推荐）：onboarding 先做 8–15 题自适应诊断（CAT/IRT），题目难度锚点跨度大、伪装成游戏关卡，快速估初始水平区间，再交给知识追踪接管。 - 方案 B：LLM 辅助知识追踪（CLST 2025），在 <100 名学生数据时优于传统 KT，缓解冷启动。 - 方案 C（兜底）：前 3 关故意覆盖易/中/难锚点，不依赖模型也能快速区分层次。 - 冷启动期的体验目标：既不能用难题吓跑、又要快速估到水平——所以诊断要"包装成好玩的探索"，且先给一两道一定能成功的，建立胜任感。

8.4 "一个 AI 持续分析她的交互" —— 可行，且是对的方向

【已验证】持续学习者建模技术上已成立（ASSISTments、MetaTutor、PREPARE、CIKT 2025 用 LLM 持续生成结构化学生画像驱动预测）。比一次性问卷可靠得多。隐私边界必须设好：

遵守儿童数据法规（COPPA/GDPR/中国 2023 儿童网络保护条例），<13 岁需监护人明确同意。
透明（Open Learner Model）：让学生/家长能看到系统推断了什么，不做黑盒。
最小必要：只存教学必需的行为数据，不存原始视频/音频。
推断≠永久标签：今天"挫败"是实时可推翻的概率估计，不是给孩子盖章。

9. 你还没问、但同样关键的问题

亲子关系怎么进产品（你提了没展开）：家长是助力也可能是压力源。仪表盘要给家长"今天最适合做的一件事（鼓励/陪复述/让他休息）"，而不是排名和扣分；默认显示成长与建议、不展示羞辱性细节；家长只读不能代操作。这关系到归属感这一最难的需要由谁补。
画像会变、人会翻身：孩子是发展中的人，今天怕犯错≠永远。画像必须可更新、可"摘帽"，绝不能一次定终身——否则就是给孩子判刑。
贴错标签 / 算法把人框死（personalization paradox 的伦理面）：系统越"懂你"越容易把你关进信息茧房和能力预言里。必须保留学生的覆盖权与探索权。
谁不适合纯自学：极低 SRL、强烈情绪/学习障碍的孩子，无论内容多好都会失败。产品要能识别并转介到真人，而不是硬留着刷留存——这既是效果问题也是伦理问题（Alpha"either works or it doesn't"是反面）。
本土性：中国初高中生的考试压力、家长期待、"不能输"的羞耻文化，与美国样本不同。怕犯错、表现-回避目标可能更强，"安全失败"设计的重要性更高。
真实学习 vs 应试：掌握式学习有"覆盖范围 vs 真掌握"的内在权衡（Kulik 1990：掌握式在标化测验上效应仅 0.08）。在有中考/高考压力的现实里，要明确产品在"真懂"和"提分"之间怎么取舍、怎么对家长沟通。
健康边界：注意力设计不能滑向成瘾设计（streak/可变奖励），否则我们会复制短视频的注意力剥削，与公益初心相悖。

10. 综合设计原则总表（可直接进 design.md）

维度	做什么（有证据）	不做什么（无证据/有害）
人机分工	知识层 AI 化；动机/情绪层"有温度 AI 日常 + 真人/同伴关键兜底"	让纯自适应独自承担情绪兜底（Alpha 之坑）
自适应	按知识点动态调支架；守 70–85% 甜区；配真掌握判定	把答对率当掌握；按人分固定层
学习风格	多模态对全员上（双重编码）	风格诊断→风格化路径（伪科学）
视频	<6 分钟、分段、嵌测验	用"生动感"替代主动检测
游戏化	当动机助推；用"掌握反馈"d=+0.33	积分/排行榜/发钱主导（侵蚀内在动机）；加无关诱人细节
注意力	降外在负荷、给即时锚点、自然断点、专注模式（建议非强制）	成瘾式 streak/可变奖励
自主性	SDT 三需要 + SRL 脚手架渐撤 + Productive Failure（初中+）	处方型 AI 全包办（损自主）
分层维度	掌握度 / SRL / 实时情绪 / 动机取向 / 粗年龄段	学习风格 / MBTI / 成长思维水平 / IQ / 儿童自评 Big Five
初始状态辨别	隐形评估 + 行为画像 + CAT 冷启动 + 持续建模	靠问卷/性格测试定能力与路径
护栏	永不直接给答案：提示→再试→苏格拉底→步骤分解	无护栏聊天式答疑（−17% 真实学习）
数据伦理	Open Learner Model、最小必要、推断可推翻、可转介真人	黑盒画像、永久标签、摄像头监控（Alpha 之坑）

11. 与项目现有约束的呼应

本文档为 PRD/Design 既定四约束提供了实证地基与延伸： - 护栏式解题（约束1）：Bastani PNAS 直接支撑；并补充"自主性悖论"层面的理由。 - 数学自动验答（约束2）：呼应"自适应≠学会"，防 LLM 幻觉与假掌握。 - 留存 + 掌握双指标（约束3）：留存对应动机/情绪/SDT 层；掌握对应"撤提示后独立做+能解释"，反对营销式 effect size。 - 内容共创/版权（约束4）：多模态与护栏式教学法可由学科老师以低成本内容管线产出（呼应 Synthesis 的 Sheets→JSON 思路）。

新增建议（待决策）：是否把"学生模型/分层维度"单列一个设计模块或 ADR；是否在 v1 就内置隐形评估 + 行为情感检测，还是 v1.x 再上。

学习者分层与人机边界 —— AI 自学平台设计第一性原理

学习者分层与人机边界 —— AI 自学平台设计第一性原理

0. 你问题背后的本质（先讲这个）

1. 第一性原理：自学真正的瓶颈在哪

2. 人 vs 技术：能力可外包，关系难外包

2.1 什么情况下"人"是必要的（判据）

2.2 什么可以靠学生自学（判据）

3. 自适应学习到底多重要——重要，但不是"算法多聪明"那种重要

4. 学习体验各要素的重要度（含一个必须纠偏的前提）

4.1 ⚠️ 必须纠偏：视觉/听觉/动觉"学习风格"是已被证伪的神话

4.2 各要素的真实作用与效应量

5. 注意力如何培养与维持

6. 自主性如何培养

7. 学生要不要分层、按什么分

7.1 该分的维度（动态、可干预、有证据）

7.2 ⚠️ 不该当固定标签分层的维度（弱证据 / 已证伪 / 有害）

7.3 你列的那些维度，应该这样重新归类

8. 怎么辨别孩子的初始状态——少靠问卷，多靠交互

8.1 问卷/性格测试：只做最轻量的"先验"，不当"定性"

8.2 更优解：隐形评估（Stealth Assessment）+ 行为画像

8.3 冷启动：第一次见面怎么办

8.4 "一个 AI 持续分析她的交互" —— 可行，且是对的方向

9. 你还没问、但同样关键的问题

10. 综合设计原则总表（可直接进 design.md）

11. 与项目现有约束的呼应

参考来源（按主题）

人机边界 / 关系 / 护栏

分层维度的实证

学习体验要素 / 学习风格神话

注意力 / 认知负荷 / 心流

自主性 / 自我调节 / Productive Failure

初始状态辨别 / 隐形评估 / 知识追踪 / 情感检测