AI Coding 工作流

本文总结一套面向 xLLM 开发者的实践工作流，用于 NPU 推理优化、回归定位，以及为 PR 准备可复现的验证证据。

完整 workflow 知识库维护在 xllm-workflow。当你需要可直接加载的 agent skills、Prompt 模板、artifact schemas 或模型优化历史时，可以使用该仓库。

xLLM AI Coding 工作流

什么时候使用

当改动需要普通代码 review 之外的证据时，建议使用这套工作流：

不要把一次 smoke run 当作正式结论。正式的性能和精度结论应包含精确命令、环境、 workload、原始 artifacts 和归一化 summary。

对性能优化和 correctness-sensitive 改动，推荐遵循下面的闭环：

target -> baseline -> profiling -> patch -> accuracy -> performance -> record

核心原则是把 benchmark、profiling 和 accuracy 证据分开。Profiling 用于解释瓶颈，不能替代 warmed-up before/after 性能对比。

完整优化任务可以按下面阶段推进：

阶段	目的	产物
目标与环境	定义目标、模型、框架 commit、硬件、CANN/runtime 版本、workload 和 SLA。	Run manifest
历史知识	查询历史模型 PR、失败尝试和已知风险路径。	History notes
公平基线	改代码或参数前先跑 warmed-up baseline。	原始 metrics 和 summary
证据采集	根据症状采集 profiling、capacity、pipeline、compute 或 accuracy 证据。	诊断报告
Patch	每轮尽量只做一个有意义、可 review 的改动。	Code diff
验证	根据改动重新运行 accuracy、performance、build 和 UT 检查。	验证表
沉淀	保存命令、指标、失败尝试、风险说明和后续工作。	可复用经验

在提交或更新 NPU 优化 PR 前，PR 描述应能回答这些问题：

workflow 仓库包含面向任务的 skills，可由 Codex、Claude Code、opencode 或其他本地 agent runtime 加载：

这些 skills 是工程纪律的辅助工具。最终结论仍应基于可复现的 xLLM artifacts 和可 review 的代码改动。