以观其妙书院

# 知行合一 · 测试用例

> 用途：这是知行合一Skill的完整测试用例集合，用于验证Skill的功能完整性、触发准确性和输出质量。 > 版本：1.0 > 创建日期：2026-04-03

---

📋 测试概览

| 测试类别 | 测试用例数 | 预期通过率 | 实际通过率 | 通过/总数 | |---------|-----------|-----------|-----------|---------| | 触发机制测试 | 5 | ≥90% | _/_ | | | 场景路由测试 | 4 | ≥85% | _/_ | | | 三阶段转化测试 | 5 | ≥90% | _/_ | | | 协同关系测试 | 3 | ≥85% | _/_ | | | 质量标准测试 | 3 | ≥90% | _/_ | | | 总体 | 20 | ≥87% | _/_ | _/20 |

---

🚦 测试1：触发机制准确性测试

测试目的

验证知行合一Skill的触发规则（P0/P1/P2）是否能准确识别用户的转化需求。

测试用例

#### 用例1.1：P0直接触发 ```yaml 测试场景: 用户明确要求"将概念转化为实践" 输入信息: - 关键词: "将敏捷开发转化为具体操作指南" - 上下文: 理论框架转化需求预期行为: - 触发P0机制（权重5分，直接触发） - 输出: "🔄 知行合一引擎启动" - 场景识别: S3_IMPLEMENTATION_DESIGN（落地设计）验证点: - [ ] P0关键词准确识别 - [ ] 触发声明正确输出 - [ ] 场景分类准确 - [ ] 无误触发 ```

#### 用例1.2：P1场景触发 ```yaml 测试场景: 用户刚完成了理论深度学习输入信息: - 关键词: "刚学完了《教员方法论》" - 上下文: 深度理解后的转化需求预期行为: - 触发P1机制（权重4分，累积到阈值） - 输出: "🔄 知行合一引擎启动" - 场景识别: S1_CONCEPT_DEEPENING（概念深化）验证点: - [ ] P1场景关键词准确识别 - [ ] 场景分类准确 - [ ] 策略选择合理 ```

#### 用例1.3：P2行为信号触发 ```yaml 测试场景: 用户表达认知整理需求输入信息: - 行为信号: "我需要把这几个概念整理一下" - 上下文: 概念系统化需求预期行为: - 触发P2机制（权重3分，≥2个信号累积到阈值） - 输出: "🔄 知行合一引擎启动" - 场景识别: S4_SYSTEM_BUILDING（系统构建）验证点: - [ ] P2行为信号准确识别 - [ ] 累积机制正确执行 - [ ] 策略选择合理 ```

#### 用例1.4：不触发场景 ```yaml 测试场景: 纯技术代码问题输入信息: - 内容: "这段Python代码报错了，帮我看看" - 上下文: 技术调试需求预期行为: - 不触发知行合一Skill - 理由: 不涉及概念转化或经验提炼验证点: - [ ] 正确识别不触发场景 - [ ] 不误触发 ```

#### 用例1.5：负面上下文判断 ```yaml 测试场景: 用户明确表示不需要转化输入信息: - 内容: "不用知行合一，直接告诉我答案就行" - 负面信号: "不用"、"不要" 预期行为: - 不触发知行合一Skill 验证点: - [ ] 正确识别负面上下文 - [ ] 不误触发 ```

---

🚦 测试2：场景路由准确性测试

测试目的

验证场景路由决策树能否根据输入特征选择最优策略。

测试用例

#### 用例2.1：概念深化场景（S1） ```yaml 测试场景: 高密度理论框架转化输入特征: - 概念密度: high（>8） - 实操需求: low - 时间约束: normal 预期路由: - 场景分类: S1_CONCEPT_DEEPENING（概念深化） - 策略选择: 深度转化策略（S1_DEEP_CONVERSION） - 焦点阶段: 表示空间（标签化拆解）验证点: - [ ] 概念密度准确评估 - [ ] 实操需求准确识别 - [ ] 策略选择最优 - [ ] 焦点阶段定位准确 ```

#### 用例2.2：经验转化场景（S2） ```yaml 测试场景: 用户分享实践经验输入特征: - 概念密度: medium（5-8） - 实操需求: high - 用户信号: ["经验总结", "反思教训"] 预期路由: - 场景分类: S2_EXPERIENCE_CONVERSION（经验转化） - 策略选择: 平衡转化策略（S2_BALANCED_CONVERSION） - 焦点阶段: 压缩+泛化（快速转化）验证点: - [ ] 场景分类准确 - [ ] 用户信号正确识别 - [ ] 策略选择最优 - [ ] 焦点阶段合理 ```

#### 用例2.3：落地设计场景（S3） ```yaml 测试场景: 概念到实操的转化输入特征: - 概念密度: medium（5-8） - 实操需求: high - 用户信号: ["如何落地", "具体操作"] 预期路由: - 场景分类: S3_IMPLEMENTATION_DESIGN（落地设计） - 策略选择: 平衡转化策略（S2_BALANCED_CONVERSION） - 焦点阶段: 压缩+泛化（高权重）验证点: - [ ] 场景分类准确 - [ ] 实操需求准确识别 - [ ] 策略选择合理 ```

#### 用例2.4：系统构建场景（S4） ```yaml 测试场景: 多概念整合为系统输入特征: - 概念密度: high（>8） - 实操需求: medium - 用户信号: ["系统化", "框架整合", "知识图谱"] 预期路由: - 场景分类: S4_SYSTEM_BUILDING（系统构建） - 策略选择: 深度转化策略（S1_DEEP_CONVERSION） - 焦点阶段: 完整工作流（三阶段全流程）验证点: - [ ] 场景分类准确 - [ ] 多概念关联识别 - [ ] 策略选择最优 - [ ] 焦点阶段定位准确 ```

---

🚦 测试3：三阶段转化质量测试

测试目的

验证表示空间→压缩→泛化三阶段转化的输出质量。

测试用例

#### 用例3.1：表示空间质量 ```yaml 测试场景: 将"敏捷开发"标签化输入概念: 敏捷开发的12条原则

预期输出: - 标签数量: ≥10个 - MECE验证: 通过 - Pareto验证: 核心标签覆盖≥80%价值 - 标签结构: 分层（L1核心/L2支撑/L3细节）验证点: - [ ] 标签体系完整 - [ ] MECE原则应用正确 - [ ] Pareto原则达成 - [ ] 标签权重合理 ```

#### 用例3.2：压缩质量 ```yaml 测试场景: 提炼"敏捷开发"核心洞察输入标签: 12个敏捷标签

预期输出: - 一句话洞察: ≤30字 - 象征符号: 直观易记 - 价值聚焦: 保留核心，剔除冗余验证点: - [ ] 核心洞察≤30字 - [ ] 洞察准确有力 - [ ] 象征符号贴切 - [ ] 价值聚焦合理 ```

#### 用例3.3：泛化场景数量 ```yaml 测试场景: 为"敏捷开发"设计泛化场景输入洞察: 快速响应变化

预期输出: - 场景数量: ≥3个 - 场景类型: 跨不同领域（个人/团队/企业） - 优先级排序: 合理（适用性×可行性×价值度）验证点: - [ ] 场景数量≥3 - [ ] 场景类型多样化 - [ ] 优先级排序合理 - [ ] 实施路径具体 ```

#### 用例3.4：质量评估完整性 ```yaml 测试场景: 评估转化成果质量输入成果: 完整的三阶段转化结果

预期输出: - 质量评估: 5个维度全覆盖 - 每个维度: 1-5分评分 - 总分计算: 准确 - 待完善项: 具体可操作验证点: - [ ] 评估维度完整 - [ ] 评分标准客观 - [ ] 总分计算正确 - [ ] 改进建议具体 ```

#### 用例3.5：知识图谱链接 ```yaml 测试场景: 建立知识图谱和双向链接输入成果: 转化完成的框架

预期输出: - 关联概念: 3-5个 - 关系类型: 同源/对立/应用/延伸 - Obsidian链接: 正确的[[双向链接]]格式 - 存储位置: 明确验证点: - [ ] 关联概念准确 - [ ] 关系类型正确 - [ ] 双向链接格式正确 - [ ] 存储位置明确 ```

---

🚦 测试4：与其他Skills协同测试

测试目的

验证知行合一与其他Skills的协同关系是否正常工作。

测试用例

#### 用例4.1：知识学习前置协同 ```yaml 测试场景: 长篇理论文章输入输入: 一篇>5000字的理论文章

预期行为: - 第一步: 调用知识学习Skill进行深度理解 - 第二步: 知识学习输出作为表示空间输入 - 第三步: 知行合一继续三阶段转化验证点: - [ ] 知识学习正确前置调用 - [ ] 输出正确传递 - [ ] 协同流程顺畅 - [ ] 无重复工作 ```

#### 用例4.2：象思维集成协同 ```yaml 测试场景: 需要0→1原创突破输入: 无法明确特征的概念转化需求

预期行为: - 压缩阶段调用: 象思维识别"原象"（本质） - 原象作为输入: 压缩阶段提炼核心洞察 - 输出保留象思维风格验证点: - [ ] 象思维正确调用 - [ ] 原象识别准确 - [ ] 协同逻辑合理 ```

#### 用例4.3：五色光思维并行协同 ```yaml 测试场景: 系统构建场景需要多维分析输入: 多概念整合为系统

预期行为: - 价值评估阶段: 白光客观分析标签重要性 - 泛化阶段: 黄光评估场景价值，绿光创新场景识别 - 蓝光: 识别泛化风险和约束验证点: - [ ] 白光正确调用 - [ ] 黄光正确调用 - [ ] 绿光正确调用 - [ ] 蓝光正确调用 ```

---

🚦 测试5：输出结构规范测试

测试目的

验证输出是否完全符合标准模板格式。

测试用例

#### 用例5.1：输出模板符合度 ```yaml 测试场景: 完整的三阶段转化输出输入: 标准输入信息

预期输出结构: - [ ] 基本信息（目标、来源、场景） - [ ] 三阶段转化结果（标签、洞察、泛化） - [ ] 质量评估（理验性、实操性、创新性） - [ ] 知识图谱链接（关联概念、存储位置） - [ ] 持续迭代机制（验证计划、优化建议）验证点: - [ ] 所有必需部分完整 - [ ] 部分顺序正确 - [ ] 格式符合模板 - [ ] Markdown结构规范 ```

#### 用例5.2：表格格式正确性 ```yaml 测试场景: 标签矩阵和价值评估表输入: 完整标签体系

预期表格: - 标签矩阵: 包含序号/标签名称/定义/权重 - 价值评估表: 包含维度/保留价值/剔除冗余/优先级 - 场景矩阵: 包含序号/场景类型/描述/适用性/实施难度 - 实施路径表: 包含步骤/描述/所需资源/预期成果验证点: - [ ] 所有表格列完整 - [ ] 表头正确 - [ ] 表格格式规范 - [ ] 数据填充完整 ```

#### 用例5.3：检查清单完整性 ```yaml 测试场景: 执行流程和输出检查清单输入: 标准工作流

预期检查清单: - [ ] 输入检查清单（信息完整性） - [ ] 工作流检查清单（每步骤验证） - [ ] 输出检查清单（结构化文档） - [ ] 每项都有完成状态（已勾选/未完成）验证点: - [ ] 所有检查清单完整 - [ ] 检查点具体可验证 - [ ] 勾选状态明确 - [ ] 检查顺序合理 ```

---

📊 测试执行记录

测试执行日志

```yaml 测试开始时间: YYYY-MM-DD HH:MM:SS 测试结束时间: YYYY-MM-DD HH:MM:SS 总执行时长: X小时Y分钟

测试人员: 龙龟神将测试环境: WorkBuddy Skill环境

测试用例执行记录: - 测试1: [通过/失败] - 执行时间: X分钟 - 测试2: [通过/失败] - 执行时间: X分钟 - 测试3: [通过/失败] - 执行时间: X分钟 - 测试4: [通过/失败] - 执行时间: X分钟 - 测试5: [通过/失败] - 执行时间: X分钟

总体通过率: _/20 = _% 总体评估: [优秀/良好/合格/需要改进] ```

问题记录与修复

```yaml 发现的问题: 问题1: - 描述: - 严重级别: [P0/P1/P2/P3] - 修复方案: - 修复状态: [已修复/待修复/不修复] 问题2: - 描述: - 严重级别: [P0/P1/P2/P3] - 修复方案: - 修复状态: [已修复/待修复/不修复]

改进建议: - 触发机制优化建议: - 场景路由优化建议: - 三阶段转化优化建议: - 协同关系优化建议: - 输出结构优化建议: ```

---

✅ 测试通过标准

总体通过标准

```yaml 通过条件: - 总体通过率 ≥ 87% (17/20) - P0问题数 = 0 - P1问题数 ≤ 2 - 所有核心功能验证通过

优秀标准: - 总体通过率 ≥ 95% (19/20) - 所有问题类型 ≤ P1 - 输出质量评分 ≥ 8.5/10

合格标准: - 总体通过率 ≥ 87% (17/20) - P0问题数 = 0 - 核心功能全部通过 ```

质量评分标准

```yaml 六项质量标准评分: 1_核心定义清晰: 标准: 三阶段定义准确完整优秀: 5分合格: 4分 2_操作流程完整: 标准: 每个阶段至少3个步骤优秀: 5分合格: 4分 3_触发机制准确: 标准: 符合预设触发规则优秀: 5分合格: 4分 4_文件结构规范: 标准: 符合标准模板格式优秀: 5分合格: 4分 5_测试用例完整: 标准: 至少3个测试场景优秀: 5分合格: 4分 6_与其他Skills无冲突: 标准: 不与其他Skill重复或冲突优秀: 5分合格: 4分

总分计算: 各项得分相加及格线: ≥ 24/30 (80%) 优秀线: ≥ 27/30 (90%) ```

---

🔄 版本历史与维护

版本记录

```yaml v1.0 (2026-04-03): 特性: - 20个完整测试用例（5大类） - 详细的验证点列表 - 清晰的预期行为定义 - 测试执行记录模板 - 质量评分标准改进点: - 相比v0.9测试框架，用例数量从15个增加到20个 - 增加了协同关系测试类别 - 完善了质量评估标准

未来计划: v1.1 (计划中): - 自动化测试脚本 - 性能基准测试 - A/B测试框架 ```

---

📞 测试用例信息

测试文件版本：1.0 创建日期：2026-04-03 最后更新：2026-04-03 维护者：龙龟神将 关联文档：

SKILL.md（主文档）

references/practice.md（实操指南）

triggers/trigger-rules.yaml（触发规则）

triggers/route-config.json（路由配置）

---

使用说明： 1. 此测试用例文档覆盖了知行合一Skill的完整功能验证 2. 每个测试用例都有明确的输入、预期行为和验证点 3. 测试执行时，按照测试用例逐一验证并记录结果 4. 发现问题时，及时记录在"问题记录与修复"部分 5. 测试完成后，计算总体通过率并评估Skill质量