使用 LMStudio 搭建本地 LLM 和 Embedding 服务

本文摘要

手把手教你使用 LMStudio 在本地搭建 LLM 和 Embedding 服务，实现离线 AI 能力。

运行本地 LLM 可以保护隐私、降低延迟且无 API 费用。以下是如何将 LMStudio 设置为 AI 助手框架的本地推理服务器。

硬件

在 Apple Silicon（M 系列 Mac）上运行。LMStudio 支持 Metal 加速，使本地推理非常高效。

安装

从官网下载 LMStudio 并安装。服务器模式启动一个 OpenAI 兼容的 API 端点。

模型

安装后，从内置模型中心下载模型：

模型	用途	备注
`qwen3-vl-32b-instruct`	视觉 + 文本任务	@q5_k_xl 量化
`gpt-oss-safeguard-20b`	健康检查	小而快
text-embedding-bge-large-zh-v1.5	嵌入向量（1024 维）	中英文效果都很好

启动服务器

启动 LMStudio，加载模型，启动本地服务器。它暴露一个 OpenAI 兼容的 API：

# 服务器地址
http://your-local-ip:1234/v1

# 测试
curl http://your-local-ip:1234/v1/models

# 聊天补全
curl http://your-local-ip:1234/v1/chat/completions 
  -H "Content-Type: application/json" 
  -d '{"model":"gpt-oss-safeguard-20b",
       "messages":[{"role":"user","content":"你好"}]}'

与 AI 框架集成

大多数 AI agent 框架支持 OpenAI 兼容端点。配置 base URL 指向你的 LMStudio 服务器：

# 示例框架配置
llm:
  provider: openai
  baseUrl: "http://your-local-ip:1234/v1"
  model: "qwen3-vl-32b-instruct@q5_k_xl"

embedding:
  provider: openai
  baseUrl: "http://your-local-ip:1234/v1"
  model: "text-embedding-bge-large-zh-v1.5"
  dimensions: 1024

语义搜索的嵌入向量

嵌入模型可以对笔记和文档进行语义搜索。1024 维的 bge-large-zh-v1.5 对中英文文本都提供出色的质量：

# 生成嵌入向量
curl http://your-local-ip:1234/v1/embeddings 
  -H "Content-Type: application/json" 
  -d '{"model":"text-embedding-bge-large-zh-v1.5",
       "input":"你的查询文本"}'