本文摘要
手把手教你使用 LMStudio 在本地搭建 LLM 和 Embedding 服务,实现离线 AI 能力。
运行本地 LLM 可以保护隐私、降低延迟且无 API 费用。以下是如何将 LMStudio 设置为 AI 助手框架的本地推理服务器。
硬件
在 Apple Silicon(M 系列 Mac)上运行。LMStudio 支持 Metal 加速,使本地推理非常高效。
安装
从官网下载 LMStudio 并安装。服务器模式启动一个 OpenAI 兼容的 API 端点。
模型
安装后,从内置模型中心下载模型:
| 模型 | 用途 | 备注 |
|---|---|---|
qwen3-vl-32b-instruct |
视觉 + 文本任务 | @q5_k_xl 量化 |
gpt-oss-safeguard-20b |
健康检查 | 小而快 |
| text-embedding-bge-large-zh-v1.5 | 嵌入向量(1024 维) | 中英文效果都很好 |
启动服务器
启动 LMStudio,加载模型,启动本地服务器。它暴露一个 OpenAI 兼容的 API:
# 服务器地址
http://your-local-ip:1234/v1
# 测试
curl http://your-local-ip:1234/v1/models
# 聊天补全
curl http://your-local-ip:1234/v1/chat/completions
-H "Content-Type: application/json"
-d '{"model":"gpt-oss-safeguard-20b",
"messages":[{"role":"user","content":"你好"}]}'
与 AI 框架集成
大多数 AI agent 框架支持 OpenAI 兼容端点。配置 base URL 指向你的 LMStudio 服务器:
# 示例框架配置
llm:
provider: openai
baseUrl: "http://your-local-ip:1234/v1"
model: "qwen3-vl-32b-instruct@q5_k_xl"
embedding:
provider: openai
baseUrl: "http://your-local-ip:1234/v1"
model: "text-embedding-bge-large-zh-v1.5"
dimensions: 1024
语义搜索的嵌入向量
嵌入模型可以对笔记和文档进行语义搜索。1024 维的 bge-large-zh-v1.5 对中英文文本都提供出色的质量:
# 生成嵌入向量
curl http://your-local-ip:1234/v1/embeddings
-H "Content-Type: application/json"
-d '{"model":"text-embedding-bge-large-zh-v1.5",
"input":"你的查询文本"}'
性能建议
- 使用量化模型 — Q4/Q5 量化减少 60-75% 内存使用,质量损失极小。
- 为任务选择合适的模型 — 简单的健康检查不要用 32B 模型,20B 模型就够了。
- 保持服务器运行 — 冷启动很慢;将 LMStudio 作为后台服务保持运行。
- 网络可访问性 — 确保服务器绑定到
0.0.0.0,如果其他机器需要访问,防火墙规则要允许流量。
成本对比
运行本地 LLM 完全消除 API 费用。对于每天处理数千个请求(健康检查、嵌入向量、轻量任务)的设置,与云 API 相比可以节省大量费用。权衡的是硬件成本和维护,但对于始终在线的服务,投资回报率是明确的。
Full-Stack Developer with 10+ years of experience, specializing in QT C++ desktop application development and AI Agent systems.


