Skip to content

Qwen 3.6 27B — 面向 Coding Agent 的开源模型

Qwen 3.6 27B 是阿里通义推出的面向 Agentic Coding(代理式编码)和长上下文推理优化的开源模型。相比通用对话模型,它在代码推理、仓库级理解和长对话任务保持方面表现更强。本文整理了模型特性、部署方案及与主流 Agent 框架的集成方式。


目录


模型核心定位

Qwen 3.6 27B 的核心卖点:

特性 说明
Agentic Coding(代理式编码) 针对真实编码工作流优化,不只是 benchmark 好看
Thinking Preservation(思维保持) 长对话中不丢上下文,不会中途"迷路"
Repository-level Reasoning(仓库级推理) 能理解整个代码库的结构和依赖关系
Tool Use(工具调用) 模型原生支持工具调用,不是"描述工具使用"而是真正调用
传统模型 vs Qwen 3.6 27B 在 Agent 场景的对比
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

传统模型                     Qwen 3.6 27B
┌──────────────┐           ┌──────────────┐
│ 对话还行      │           │ 对话可用      │
│ 长对话丢上下文│    ──→    │ 保持任务线程   │
│ 描述工具使用  │           │ 真正调用工具   │
│ 容易过度解释  │           │ 行动导向       │
│ 中途改变目标  │           │ 聚焦原始任务   │
└──────────────┘           └──────────────┘

部署方案对比

截至 2026-04-23 的可用方案:

方案 27B 支持 难度 推荐场景
Ollama ❌ 仅 35B A3B1 ⭐ 简单 快速尝鲜,不执着 27B
vLLM ✅ 完整支持 ⭐⭐ 中等 正式 Agent 工作流
MLX (Mac) ⏳ 即将支持 ⭐⭐ 中等 Apple Silicon 本地部署

关键结论:如果目标是 27B + Agent 工作流,vLLM 是当前最佳选择。


vLLM 部署指南

环境准备

# 1. 确保 Python + UV 已安装
# 2. 创建独立环境
uv venv .venv
source .venv/bin/activate

# 3. 安装 vLLM
uv pip install vllm

启动服务

vllm serve Qwen/Qwen3-27B \
  --port 8000 \
  --tensor-parallel-size 1 \
  --max-model-len 32768 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3

关键参数说明

参数 推荐值 说明
--port 8000 默认端口
--tensor-parallel-size 按 GPU 数量 多 GPU 设为对应数量
--max-model-len 硬件允许的最大值 越长越好,这是 Qwen 3.6 的核心优势
--enable-auto-tool-choice 必须开启 否则模型只会"描述"工具调用而非真正调用
--tool-call-parser qwen3 匹配模型版本的 parser

⚠️ 常见坑

❌ 忘记开启 auto-tool-choice → 模型变成"话痨",描述工具但不调用
❌ max-model-len 设太小 → 浪费了长上下文优势
❌ 未设置正确的 parser → 工具调用格式不匹配

为什么适合 Coding Agent

编码 Agent 的常见痛点:

                    编码 Agent 失败模式
                           │
          ┌────────────────┼────────────────┐
          ▼               ▼                ▼
    过度解释        丢失任务线程       工具使用错误
    (over-explain)   (lose thread)     (bad tool use)
          │               │                │
    "说了很多       "做了别的        "描述调用
    但不做"         事情"           但不执行"
          │               │                │
          ▼               ▼                ▼
    太谨慎/太啰嗦    中途改目标      忘记用户原始需求

Qwen 3.6 27B 的设计方向正好针对这些问题: - 行动导向 而非过度解释 - 任务线程保持 在长对话中不迷路 - 原生工具调用 支持,格式正确


工具集成

Hermes Agent(推荐)

最完整的集成方案,支持本地部署 + Agent 编排 + 记忆 + 消息集成。

方式一:交互式配置

hermes model
# 选择 "custom endpoint"
# Base URL: http://localhost:8000/v1
# Model: Qwen/Qwen3-27B
# API Key: (本地可留空)

方式二:配置文件

编辑 ~/.hermes/config.yaml

provider:
  base_url: http://localhost:8000/v1
  default_model: Qwen/Qwen3-27B
  # 显式设置上下文限制,避免被默认值限制
  max_context_tokens: 32768

关键配置项

配置 说明
base_url vLLM 的 OpenAI 兼容端点
default_model 模型 ID,与 vLLM 启动时一致
max_context_tokens 显式设置,防止被默认小窗口限制
子 Agent 继承 父 Agent 的模型配置自动传递给子 Agent

工具使用行为调优

如果模型过于"描述性"而非"行动性",检查 Hermes 的 tool use enforcement 设置,确保模型被正确引导。

Kilo CLI

适合 VS Code 集成场景:

# 安装
npm install -g @kilocode/cli

# 配置
# 1. 打开 Kilo → Provider Setup
# 2. 选择 "OpenAI-compatible"
# 3. Base URL: http://localhost:8000/v1
# 4. Model: Qwen/Qwen3-27B

KiloClaw

托管式 Agent 体验,无需自建基础设施。等待 Qwen 3.6 27B 出现在模型列表中即可直接使用。


决策指南

                    我该用什么方案?
                           │
               ┌───────────┼───────────┐
               ▼           ▼           ▼
           快速尝鲜     正式工作流    Mac 用户
               │           │           │
               ▼           ▼           ▼
            Ollama      vLLM +      关注 MLX
          (35B A3B1)   Hermes Agent  (即将支持)
                          │
                   ┌──────┴──────┐
                   ▼             ▼
               本地部署       托管方案
                   │             │
                   ▼             ▼
              Hermes Agent    KiloClaw
              (最完整)       (最省心)

一句话总结

需求 方案
最快上手 Ollama (35B A3B1)
27B + Agent 工作流 vLLM + Hermes Agent
VS Code 集成 vLLM + Kilo CLI
托管方案 等 KiloClaw 支持
Mac 本地体验 等 MLX 支持

参考资料

相关笔记

  • [[Hermes Agent 架构笔记]]
  • [[本地 LLM 部署方案对比]]