# 知行合一 · 测试用例
> 用途:这是知行合一Skill的完整测试用例集合,用于验证Skill的功能完整性、触发准确性和输出质量。 > 版本:1.0 > 创建日期:2026-04-03
---
📋 测试概览
| 测试类别 | 测试用例数 | 预期通过率 | 实际通过率 | 通过/总数 | |---------|-----------|-----------|-----------|---------| | 触发机制测试 | 5 | ≥90% | _/_ | | | 场景路由测试 | 4 | ≥85% | _/_ | | | 三阶段转化测试 | 5 | ≥90% | _/_ | | | 协同关系测试 | 3 | ≥85% | _/_ | | | 质量标准测试 | 3 | ≥90% | _/_ | | | 总体 | 20 | ≥87% | _/_ | _/20 |
---
🚦 测试1:触发机制准确性测试
测试目的
验证知行合一Skill的触发规则(P0/P1/P2)是否能准确识别用户的转化需求。测试用例
#### 用例1.1:P0直接触发 ```yaml 测试场景: 用户明确要求"将概念转化为实践" 输入信息: - 关键词: "将敏捷开发转化为具体操作指南" - 上下文: 理论框架转化需求 预期行为: - 触发P0机制(权重5分,直接触发) - 输出: "🔄 知行合一引擎启动" - 场景识别: S3_IMPLEMENTATION_DESIGN(落地设计) 验证点: - [ ] P0关键词准确识别 - [ ] 触发声明正确输出 - [ ] 场景分类准确 - [ ] 无误触发 ```
#### 用例1.2:P1场景触发 ```yaml 测试场景: 用户刚完成了理论深度学习 输入信息: - 关键词: "刚学完了《教员方法论》" - 上下文: 深度理解后的转化需求 预期行为: - 触发P1机制(权重4分,累积到阈值) - 输出: "🔄 知行合一引擎启动" - 场景识别: S1_CONCEPT_DEEPENING(概念深化) 验证点: - [ ] P1场景关键词准确识别 - [ ] 场景分类准确 - [ ] 策略选择合理 ```
#### 用例1.3:P2行为信号触发 ```yaml 测试场景: 用户表达认知整理需求 输入信息: - 行为信号: "我需要把这几个概念整理一下" - 上下文: 概念系统化需求 预期行为: - 触发P2机制(权重3分,≥2个信号累积到阈值) - 输出: "🔄 知行合一引擎启动" - 场景识别: S4_SYSTEM_BUILDING(系统构建) 验证点: - [ ] P2行为信号准确识别 - [ ] 累积机制正确执行 - [ ] 策略选择合理 ```
#### 用例1.4:不触发场景 ```yaml 测试场景: 纯技术代码问题 输入信息: - 内容: "这段Python代码报错了,帮我看看" - 上下文: 技术调试需求 预期行为: - 不触发知行合一Skill - 理由: 不涉及概念转化或经验提炼 验证点: - [ ] 正确识别不触发场景 - [ ] 不误触发 ```
#### 用例1.5:负面上下文判断 ```yaml 测试场景: 用户明确表示不需要转化 输入信息: - 内容: "不用知行合一,直接告诉我答案就行" - 负面信号: "不用"、"不要" 预期行为: - 不触发知行合一Skill 验证点: - [ ] 正确识别负面上下文 - [ ] 不误触发 ```
---
🚦 测试2:场景路由准确性测试
测试目的
验证场景路由决策树能否根据输入特征选择最优策略。测试用例
#### 用例2.1:概念深化场景(S1) ```yaml 测试场景: 高密度理论框架转化 输入特征: - 概念密度: high(>8) - 实操需求: low - 时间约束: normal 预期路由: - 场景分类: S1_CONCEPT_DEEPENING(概念深化) - 策略选择: 深度转化策略(S1_DEEP_CONVERSION) - 焦点阶段: 表示空间(标签化拆解) 验证点: - [ ] 概念密度准确评估 - [ ] 实操需求准确识别 - [ ] 策略选择最优 - [ ] 焦点阶段定位准确 ```
#### 用例2.2:经验转化场景(S2) ```yaml 测试场景: 用户分享实践经验 输入特征: - 概念密度: medium(5-8) - 实操需求: high - 用户信号: ["经验总结", "反思教训"] 预期路由: - 场景分类: S2_EXPERIENCE_CONVERSION(经验转化) - 策略选择: 平衡转化策略(S2_BALANCED_CONVERSION) - 焦点阶段: 压缩+泛化(快速转化) 验证点: - [ ] 场景分类准确 - [ ] 用户信号正确识别 - [ ] 策略选择最优 - [ ] 焦点阶段合理 ```
#### 用例2.3:落地设计场景(S3) ```yaml 测试场景: 概念到实操的转化 输入特征: - 概念密度: medium(5-8) - 实操需求: high - 用户信号: ["如何落地", "具体操作"] 预期路由: - 场景分类: S3_IMPLEMENTATION_DESIGN(落地设计) - 策略选择: 平衡转化策略(S2_BALANCED_CONVERSION) - 焦点阶段: 压缩+泛化(高权重) 验证点: - [ ] 场景分类准确 - [ ] 实操需求准确识别 - [ ] 策略选择合理 ```
#### 用例2.4:系统构建场景(S4) ```yaml 测试场景: 多概念整合为系统 输入特征: - 概念密度: high(>8) - 实操需求: medium - 用户信号: ["系统化", "框架整合", "知识图谱"] 预期路由: - 场景分类: S4_SYSTEM_BUILDING(系统构建) - 策略选择: 深度转化策略(S1_DEEP_CONVERSION) - 焦点阶段: 完整工作流(三阶段全流程) 验证点: - [ ] 场景分类准确 - [ ] 多概念关联识别 - [ ] 策略选择最优 - [ ] 焦点阶段定位准确 ```
---
🚦 测试3:三阶段转化质量测试
测试目的
验证表示空间→压缩→泛化三阶段转化的输出质量。测试用例
#### 用例3.1:表示空间质量 ```yaml 测试场景: 将"敏捷开发"标签化 输入概念: 敏捷开发的12条原则
预期输出: - 标签数量: ≥10个 - MECE验证: 通过 - Pareto验证: 核心标签覆盖≥80%价值 - 标签结构: 分层(L1核心/L2支撑/L3细节) 验证点: - [ ] 标签体系完整 - [ ] MECE原则应用正确 - [ ] Pareto原则达成 - [ ] 标签权重合理 ```
#### 用例3.2:压缩质量 ```yaml 测试场景: 提炼"敏捷开发"核心洞察 输入标签: 12个敏捷标签
预期输出: - 一句话洞察: ≤30字 - 象征符号: 直观易记 - 价值聚焦: 保留核心,剔除冗余 验证点: - [ ] 核心洞察≤30字 - [ ] 洞察准确有力 - [ ] 象征符号贴切 - [ ] 价值聚焦合理 ```
#### 用例3.3:泛化场景数量 ```yaml 测试场景: 为"敏捷开发"设计泛化场景 输入洞察: 快速响应变化
预期输出: - 场景数量: ≥3个 - 场景类型: 跨不同领域(个人/团队/企业) - 优先级排序: 合理(适用性×可行性×价值度) 验证点: - [ ] 场景数量≥3 - [ ] 场景类型多样化 - [ ] 优先级排序合理 - [ ] 实施路径具体 ```
#### 用例3.4:质量评估完整性 ```yaml 测试场景: 评估转化成果质量 输入成果: 完整的三阶段转化结果
预期输出: - 质量评估: 5个维度全覆盖 - 每个维度: 1-5分评分 - 总分计算: 准确 - 待完善项: 具体可操作 验证点: - [ ] 评估维度完整 - [ ] 评分标准客观 - [ ] 总分计算正确 - [ ] 改进建议具体 ```
#### 用例3.5:知识图谱链接 ```yaml 测试场景: 建立知识图谱和双向链接 输入成果: 转化完成的框架
预期输出: - 关联概念: 3-5个 - 关系类型: 同源/对立/应用/延伸 - Obsidian链接: 正确的[[双向链接]]格式 - 存储位置: 明确 验证点: - [ ] 关联概念准确 - [ ] 关系类型正确 - [ ] 双向链接格式正确 - [ ] 存储位置明确 ```
---
🚦 测试4:与其他Skills协同测试
测试目的
验证知行合一与其他Skills的协同关系是否正常工作。测试用例
#### 用例4.1:知识学习前置协同 ```yaml 测试场景: 长篇理论文章输入 输入: 一篇>5000字的理论文章
预期行为: - 第一步: 调用知识学习Skill进行深度理解 - 第二步: 知识学习输出作为表示空间输入 - 第三步: 知行合一继续三阶段转化 验证点: - [ ] 知识学习正确前置调用 - [ ] 输出正确传递 - [ ] 协同流程顺畅 - [ ] 无重复工作 ```
#### 用例4.2:象思维集成协同 ```yaml 测试场景: 需要0→1原创突破 输入: 无法明确特征的概念转化需求
预期行为: - 压缩阶段调用: 象思维识别"原象"(本质) - 原象作为输入: 压缩阶段提炼核心洞察 - 输出保留象思维风格 验证点: - [ ] 象思维正确调用 - [ ] 原象识别准确 - [ ] 协同逻辑合理 ```
#### 用例4.3:五色光思维并行协同 ```yaml 测试场景: 系统构建场景需要多维分析 输入: 多概念整合为系统
预期行为: - 价值评估阶段: 白光客观分析标签重要性 - 泛化阶段: 黄光评估场景价值,绿光创新场景识别 - 蓝光: 识别泛化风险和约束 验证点: - [ ] 白光正确调用 - [ ] 黄光正确调用 - [ ] 绿光正确调用 - [ ] 蓝光正确调用 ```
---
🚦 测试5:输出结构规范测试
测试目的
验证输出是否完全符合标准模板格式。测试用例
#### 用例5.1:输出模板符合度 ```yaml 测试场景: 完整的三阶段转化输出 输入: 标准输入信息
预期输出结构: - [ ] 基本信息(目标、来源、场景) - [ ] 三阶段转化结果(标签、洞察、泛化) - [ ] 质量评估(理验性、实操性、创新性) - [ ] 知识图谱链接(关联概念、存储位置) - [ ] 持续迭代机制(验证计划、优化建议) 验证点: - [ ] 所有必需部分完整 - [ ] 部分顺序正确 - [ ] 格式符合模板 - [ ] Markdown结构规范 ```
#### 用例5.2:表格格式正确性 ```yaml 测试场景: 标签矩阵和价值评估表 输入: 完整标签体系
预期表格: - 标签矩阵: 包含序号/标签名称/定义/权重 - 价值评估表: 包含维度/保留价值/剔除冗余/优先级 - 场景矩阵: 包含序号/场景类型/描述/适用性/实施难度 - 实施路径表: 包含步骤/描述/所需资源/预期成果 验证点: - [ ] 所有表格列完整 - [ ] 表头正确 - [ ] 表格格式规范 - [ ] 数据填充完整 ```
#### 用例5.3:检查清单完整性 ```yaml 测试场景: 执行流程和输出检查清单 输入: 标准工作流
预期检查清单: - [ ] 输入检查清单(信息完整性) - [ ] 工作流检查清单(每步骤验证) - [ ] 输出检查清单(结构化文档) - [ ] 每项都有完成状态(已勾选/未完成) 验证点: - [ ] 所有检查清单完整 - [ ] 检查点具体可验证 - [ ] 勾选状态明确 - [ ] 检查顺序合理 ```
---
📊 测试执行记录
测试执行日志
```yaml 测试开始时间: YYYY-MM-DD HH:MM:SS 测试结束时间: YYYY-MM-DD HH:MM:SS 总执行时长: X小时Y分钟
测试人员: 龙龟神将 测试环境: WorkBuddy Skill环境
测试用例执行记录: - 测试1: [通过/失败] - 执行时间: X分钟 - 测试2: [通过/失败] - 执行时间: X分钟 - 测试3: [通过/失败] - 执行时间: X分钟 - 测试4: [通过/失败] - 执行时间: X分钟 - 测试5: [通过/失败] - 执行时间: X分钟
总体通过率: _/20 = _% 总体评估: [优秀/良好/合格/需要改进] ```
问题记录与修复
```yaml 发现的问题: 问题1: - 描述: - 严重级别: [P0/P1/P2/P3] - 修复方案: - 修复状态: [已修复/待修复/不修复] 问题2: - 描述: - 严重级别: [P0/P1/P2/P3] - 修复方案: - 修复状态: [已修复/待修复/不修复]
改进建议: - 触发机制优化建议: - 场景路由优化建议: - 三阶段转化优化建议: - 协同关系优化建议: - 输出结构优化建议: ```
---
✅ 测试通过标准
总体通过标准
```yaml 通过条件: - 总体通过率 ≥ 87% (17/20) - P0问题数 = 0 - P1问题数 ≤ 2 - 所有核心功能验证通过
优秀标准: - 总体通过率 ≥ 95% (19/20) - 所有问题类型 ≤ P1 - 输出质量评分 ≥ 8.5/10
合格标准: - 总体通过率 ≥ 87% (17/20) - P0问题数 = 0 - 核心功能全部通过 ```
质量评分标准
```yaml 六项质量标准评分: 1_核心定义清晰: 标准: 三阶段定义准确完整 优秀: 5分 合格: 4分 2_操作流程完整: 标准: 每个阶段至少3个步骤 优秀: 5分 合格: 4分 3_触发机制准确: 标准: 符合预设触发规则 优秀: 5分 合格: 4分 4_文件结构规范: 标准: 符合标准模板格式 优秀: 5分 合格: 4分 5_测试用例完整: 标准: 至少3个测试场景 优秀: 5分 合格: 4分 6_与其他Skills无冲突: 标准: 不与其他Skill重复或冲突 优秀: 5分 合格: 4分
总分计算: 各项得分相加 及格线: ≥ 24/30 (80%) 优秀线: ≥ 27/30 (90%) ```
---
🔄 版本历史与维护
版本记录
```yaml v1.0 (2026-04-03): 特性: - 20个完整测试用例(5大类) - 详细的验证点列表 - 清晰的预期行为定义 - 测试执行记录模板 - 质量评分标准 改进点: - 相比v0.9测试框架,用例数量从15个增加到20个 - 增加了协同关系测试类别 - 完善了质量评估标准
未来计划: v1.1 (计划中): - 自动化测试脚本 - 性能基准测试 - A/B测试框架 ```
---
📞 测试用例信息
测试文件版本:1.0 创建日期:2026-04-03 最后更新:2026-04-03 维护者:龙龟神将 关联文档:---
使用说明: 1. 此测试用例文档覆盖了知行合一Skill的完整功能验证 2. 每个测试用例都有明确的输入、预期行为和验证点 3. 测试执行时,按照测试用例逐一验证并记录结果 4. 发现问题时,及时记录在"问题记录与修复"部分 5. 测试完成后,计算总体通过率并评估Skill质量