
我的 AI 账单变化 #
2025-12: $52.30 😱
2026-01: $38.15 😰
2026-02: $15.80 🙂
2026-03: $7.95 😊三个月,成本降低 85%。
但效率没降,反而提升了。
怎么做到的?
第一步:搞清楚钱花在哪了 #
账单分析 #
打开 LLM 提供商的后台,查看详细用量:
2025-12 账单明细:
├─ Claude Opus: $35.20 (67%) ← 最贵
├─ GPT-4: $12.10 (23%)
├─ 本地模型: $0.00 (0%)
└─ 其他: $5.00 (10%)问题:
- 67% 的钱花在 Claude Opus(最贵的模型)
- 但很多任务其实不需要这么强的模型
Token 用量分析 #
按任务类型:
├─ 写代码: 45% ← 最多
├─ 写文档: 25%
├─ 数据分析: 15%
├─ 日常聊天: 10%
└─ 其他: 5%洞察:
- 写代码占 45%,但真的需要 Opus 吗?
- 日常聊天占 10%,完全可以用便宜模型
第二步:模型分级策略 #
核心思想 #
不是所有任务都需要最强的模型。
就像你不会用法拉利送外卖一样。
我的模型分级 #
| 级别 | 模型 | 用途 | 成本 |
|---|---|---|---|
| L1 - 简单任务 | Claude Haiku / GPT-3.5 | 日常聊天、简单问答、格式转换 | $0.25/百万 tokens |
| L2 - 中等任务 | Claude Sonnet / GPT-4o | 写代码、写文档、数据分析 | $3.00/百万 tokens |
| L3 - 复杂任务 | Claude Opus / GPT-4 | 复杂推理、架构设计、深度分析 | $15.00/百万 tokens |
| L4 - 本地模型 | Llama 3 / Qwen | 敏感数据、批量处理、测试 | $0(一次性硬件投入) |
实施方法 #
在 OpenClaw 配置:
{
"models": {
"default": "claude-sonnet",
"routing": {
"simple_tasks": "claude-haiku",
"coding": "claude-sonnet",
"complex_reasoning": "claude-opus",
"batch_processing": "local-qwen"
}
}
}在工作流中指定:
# 简单任务(便宜)
- name: format-data
model: claude-haiku
prompt: "把这个 JSON 格式化"
# 中等任务(适中)
- name: write-function
model: claude-sonnet
prompt: "写一个 Python 函数,要求..."
# 复杂任务(贵,但值得)
- name: architecture-design
model: claude-opus
prompt: "设计一个高并发系统架构..."效果:
优化前:全部用 Opus → $50/月
优化后:分级使用 → $15/月
节省:70%第三步:Token 优化 #
问题:Token 是怎么浪费的? #
场景 1:过长的上下文
你:[粘贴 1000 行代码] 帮我看看有什么问题?
AI:[分析代码]
实际:AI 只需要看相关的 50 行
浪费:950 行的 Token场景 2:重复的背景信息
对话 1:
你:我在开发一个电商网站,用 Python...
AI:好的...
对话 2:
你:我在开发一个电商网站,用 Python...(重复)
AI:...
实际:第二次不需要重复背景
浪费:背景信息的 Token场景 3:不精确的问题
❌ "帮我分析一下这个数据"
→ AI:[输出 2000 字的通用分析]
✅ "用 3 句话总结关键发现"
→ AI:[输出 50 字的精准回答]优化方法 #
1. 精简上下文 #
# ❌ 浪费
prompt: |
这是我的代码:
[粘贴整个文件 1000 行]
帮我看看第 50 行有什么问题?
# ✅ 节省
prompt: |
这是我的代码(相关部分):
```python
# 第 45-55 行
def calculate_total(items):
total = 0
for item in items:
total += item.price # 第 50 行
return total第 50 行有什么问题?
**节省**:95% 的输入 Token
#### 2. 使用上下文管理
```yaml
# 工作流配置
context:
max_tokens: 50000 # 限制最大上下文
prune_strategy: "oldest_first" # 删除最早的对话
keep_system_prompt: true # 保留系统提示3. 精确提问 #
❌ "帮我写一个网站"
→ 输出 5000 字,花费 $0.15
✅ "用 HTML 写一个登录页面,包含用户名、密码、登录按钮"
→ 输出 500 字,花费 $0.015节省:90%
第四步:缓存策略 #
核心思想 #
同样的问题,不要问两次。
实施方法 #
1. 输出缓存 #
# workflows/daily-report.yml
name: daily-report
cache:
enabled: true
ttl: 86400 # 缓存 24 小时
key: "daily-report-{{ date }}"
steps:
- name: generate
type: ai
model: claude-sonnet
prompt: "生成今日报告..."
cache: true # 缓存 AI 输出效果:
无缓存:每天执行 1 次 × 30 天 = 30 次调用
有缓存:第 1 次调用 + 29 次缓存命中 = 1 次调用
节省:97%2. API 响应缓存 #
- name: fetch-data
type: api
url: "https://api.example.com/data"
cache:
enabled: true
ttl: 3600 # 缓存 1 小时效果:减少 API 调用,降低延迟。
3. Prompt 模板缓存 #
# 缓存常用 Prompt 模板
templates:
code_review: |
请 Review 这段代码,关注:
1. 性能问题
2. 安全隐患
3. 代码风格
代码:{{ code }}第五步:本地模型 #
什么时候用本地模型? #
| 场景 | 推荐 | 理由 |
|---|---|---|
| 敏感数据 | ✅ 本地 | 数据不出内网 |
| 批量处理 | ✅ 本地 | 成本几乎为 0 |
| 测试开发 | ✅ 本地 | 无限次调用 |
| 复杂推理 | ❌ 云端 | 本地模型能力有限 |
| 生产环境 | ❌ 云端 | 稳定性和准确性更重要 |
我的配置 #
# 硬件配置
CPU: AMD Ryzen 9 7950X ($500)
GPU: RTX 4090 24GB ($1600) ← 一次性投入
RAM: 64GB DDR5 ($200)
# 模型
- Qwen 2.5 72B(主力)
- Llama 3 70B(备选)
- DeepSeek Coder(代码专用)部署方法 #
# 使用 Ollama(最简单)
curl -fsSL https://ollama.com/install.sh | sh
ollama pull qwen2.5:72b
ollama pull llama3:70b
# OpenClaw 配置
{
"models": {
"local": {
"provider": "ollama",
"endpoint": "http://localhost:11434",
"models": ["qwen2.5:72b", "llama3:70b"]
}
}
}成本对比 #
云端(Claude Opus):
- 每月 100 万 tokens × $15 = $15/月
- 批量处理 1000 万次 tokens = $150
本地(RTX 4090):
- 硬件成本:$2300(一次性)
- 电费:$10/月
- 边际成本:$0/百万 tokens
回本周期:$2300 ÷ $15/月 ≈ 153 个月(12 年)
但本地模型可以:
- 无限次调用(测试、开发)
- 处理敏感数据
- 批量处理不心疼
我的建议:
- 日常任务用云端(便宜、准确)
- 批量/测试用本地(免费、无限)第六步:监控和告警 #
配置预算告警 #
# config.json
{
"budget": {
"monthly_limit": 50, # 每月$50
"alert_at": [50, 80, 100], # 50%、80%、100% 时告警
"alert_channel": "#alerts"
}
}用量监控 #
# workflows/budget-monitor.yml
name: budget-monitor
trigger:
schedule: "0 9 * * *" # 每天早上 9 点
steps:
- name: check-usage
type: api
url: "https://api.anthropic.com/usage"
- name: alert
type: slack
channel: "#alerts"
message: |
AI 用量告警:
- 本月已用:${{ usage }}
- 预算剩余:${{ remaining }}
- 预计超支:${{ overage }}
when: "usage > budget * 0.8"最终成果 #
成本对比 #
| 项目 | 优化前 | 优化后 | 节省 |
|---|---|---|---|
| Claude Opus | $35.20 | $8.00 | 77% |
| GPT-4 | $12.10 | $0.00 | 100% |
| 本地模型 | $0.00 | $0.00 | - |
| 总计 | $52.30 | $7.95 | 85% |
效率对比 #
| 指标 | 优化前 | 优化后 | 变化 |
|---|---|---|---|
| 响应时间 | 3.2s | 1.8s | -44% |
| 准确率 | 92% | 94% | +2% |
| 满意度 | 8/10 | 9/10 | +12% |
成本降了 85%,效率反而提升了。
行动清单 #
今天就可以开始:
- 分析你的账单,找出最贵的 3 个任务
- 配置模型分级(简单任务用便宜模型)
- 精简 Prompt,减少不必要的上下文
- 开启输出缓存(重复任务不重复调用)
- 设置预算告警(超支前通知)
下周:
- 部署本地模型(Ollama 最简单)
- 批量任务迁移到本地
- 优化工作流,减少 Token 浪费
下个月:
- 回顾账单,对比优化效果
- 调整模型分级策略
- 分享你的省钱经验
工具推荐 #
| 工具 | 用途 | 成本 |
|---|---|---|
| OpenClaw | 工作流管理 | 免费 |
| Ollama | 本地模型部署 | 免费 |
| LM Studio | 本地模型 GUI | 免费 |
| Token 计数器 | 估算 Token 用量 | 免费 |
总结 #
核心策略:
- ✅ 模型分级(简单任务用便宜模型)
- ✅ Token 优化(精简上下文、精确提问)
- ✅ 缓存策略(同样的问题不问两次)
- ✅ 本地模型(批量处理、敏感数据)
- ✅ 监控告警(超支前通知)
最终效果:$50/月 → $8/月,节省 85%。
最后一句:
省钱不是不用 AI,而是聪明地用 AI。
把贵的模型用在刀刃上,便宜的地方用便宜模型。
这样既能享受 AI 带来的效率提升,又不会被账单吓到。