LM Studio 教學

Author: Kelvin Huang

LM Studio 是一套本地端大型語言模型 ( LLM ) 的應用程式，讓使用者能下載、管理、運行 LLM，並透過 GUI 或 API 來與模型互動。像是可離線使用的本地版 ChatGPT 並且支援多種開源模型。

模型管理

LM Studio 內建模型市集（連接 Hugging Face 等來源）

一鍵下載常見模型（ Llama 3、Mistral、Phi、Qwen、Gemma… ）

支援 GGUF 格式，模型可以存多個版本，使用者可隨時切換

對話介面

LM Studio 內建 Chat UI，像 ChatGPT 的對話框

支援多個對話會話，並可保存對話的歷史紀錄

可設定系統提示詞（ System prompt ）、角色指令

支援多語言輸入與輸出

硬體加速

NVIDIA CUDA GPU → 自動偵測並加速。

AMD GPU (ROCm) → 支援部分平台。

Apple Silicon (M1/M2/M3) → 使用 Metal + MLX 引擎。

Intel iGPU (Arc / Iris Xe) → 透過 Vulkan 加速，讓沒有獨顯的筆電或掌機提供加速。

技術細節

推理引擎：基於 llama.cpp 與其他後端（CUDA、Metal、Vulkan、ROCm）。

模型格式：GGUF（最常見的量化格式，支援幾乎所有熱門開源模型）。

效能表現

在 NVIDIA GPU 上，效能接近 Ollama（因為底層一樣是 llama.cpp）。

在 macOS M 系列晶片，使用 MLX 引擎，效能甚至優於 Ollama。

在 Intel iGPU/AMD 環境，LM Studio 的 Vulkan 支援比 Ollama 完整。

首先前往 LM Stusio 官方網站下載需要的版本，目前支援 Windows,macOS, Linux 作業系統。

LM Studio 安裝

安裝完成後，啟動 LM Studio 軟體。

可選擇 User / Power User / Developer 等級，稍後可以改變設定。

取得第一個模型，系統會偵測您的硬體，自動選擇適合的模型，以下教學使用 OpenAI 的 gpt-oss-20b 模型。

模型下載完成後，即可按下 Start a New Chat 開始聊天！

選擇 Start a New Chat 或 Dismiss 皆可。

別急！您需要先選擇模型。

選擇已下載的 LLM 模型。

對話時可以按下迴紋針圖示 ( Attach a file ) …

使用 Retrieval Augmented Generation ( RAG ) 或上傳檔案 ( 最多 5 個 PDF, DOC, TXT, CSV 檔案 )

RAG（Retrieval-Augmented Generation）= 檢索 + 生成。先用檢索從您提供的文件中找出資料，接著將這些資料連同您的提問一起餵給模型，讓模型生成更正確、可引用資料的回答。因此能夠補充模型在訓練截止、或是缺少資料的缺點。

Connect Plugins and MCP servers to LM Studio

Integrations 讓 LM Studio 接上 2 種可擴充能力：

MCP servers（ Model Context Protocol ）

LM Studio 0.3.17 起能當 MCP Host，可把外部的 MCP 伺服器接進來，讓本機模型能安全地「呼叫外部工具 / 讀取外部資料」，例如存取檔案、資料庫、或做即時網路搜尋等。把它想成「AI 的 USB-C 介面」：一旦接好，模型就能用標準協定呼叫多種工具，而不必每家各寫一份整合程式碼。

Plugins （ LM Studio 外掛）

這是 LM Studio 自家的外掛機制，用 JavaScript/TypeScript 撰寫，在特定生命週期掛鉤（ hooks ）擴充 App 的功能；

它和 MCP 不同，屬於擴充 LM Studio 本身的行為，而 MCP 是讓模型透過協定去連外部工具/資料。

把現成 MCP 伺服器接進來（如網頁搜尋、雲端文件、Docker 工具組等），讓本機模型會用工具，而不只產生文字。

在自己的專案裡寫一個 MCP server（例如把公司知識庫、內網工具），LM Studio 連上後，聊天時模型就能直接呼叫。

安全建議：別從不明來源安裝 MCP。部分 MCP 具備讀檔、上網、執行程式碼能力，務必審核來源、權限與帳密管理。

Reasoning Effort

App Settings

軟體串接設定

LM Studio 對話的內容，可以在 [ C:\Users\使用者名稱\.lmstudio\conversations ] 資料夾找到類似 1234567890000.conversation.json

的檔案（前面數字不同），備份這些 json 檔案即可備份對話，而刪除這些 json 檔案，聊天記錄也隨之刪除。

啟用本地端伺服器

LM Studio 在啟用本地端伺服器後，等於把它變成一個可以「對外提供 API 的模型服務」。原本 LM Studio 只是在電腦上打開，手動輸入文字、得到回覆的桌面程式，當開啟伺服器功能，它就能模擬成像 OpenAI 或 Ollama 那樣的 API 介面，讓其他程式透過 HTTP 請求去呼叫你載入的本地模型。

這麼做的意義在於，模型不再只侷限於你在 LM Studio 介面裡用，而是能被整合進各種應用。您可以在 Python、Node.js、PHP 或 Unity 裡寫程式，透過 POST/GET 的方式把 prompt 丟給 LM Studio，本地模型處理後再把輸出回傳，這樣就能像用 OpenAI API 一樣使用，只是運算全在自己的電腦，不需要連線到外部伺服器。這對隱私、速度、或是想在封閉環境裡測試都特別有用。

以下教學將使用 Python 開發 AI 對話的應用程式：

載入大語言模型

設定後按下 Load Model 載入模型。

顯示 Status: Running 表示本地端伺服器已經啟用。

開啟網頁瀏覽器，輸入網址 http://127.0.0.1:1234/ 若出現以下訊息表示已經正常執行。

撰寫 Python 程式，使用 client.models.list ( ) .data 列出語言模型的名稱，測試連線是否正常！

使用 from openai import OpenAI 不是因為在用 OpenAI 的雲端，而是因為 LM Studio 提供了「OpenAI 相容的 API」。也就是說 LM Studio 本機伺服器會模仿 OpenAI 的 API 介面（路徑與參數格式），所以可以直接用 OpenAI 官方的 Python SDK，只要把 base_url 指到 LM Studio 的本機端點（通常 http://localhost:1234/v1）就行了，不需要另外安裝 LM Studio 專用的 Python 套件。官方文件就直接示範用 from openai import OpenAI 連到 LM Studio。

執行，出現沒有 openai 模組的錯誤，按下 Install Package 安裝包。

安裝完成後再執行一次！

接著，撰寫一個簡單的程式串接 LM Studio 本地伺服器，例如使用 openai 的 gpt-oss-20b 模型。

執行測試！

使用 Python 開發 OpenAI / LM Studio 的應用程式，請參閱本站相關教學 [ https://www.cg.com.tw/Python-LM-Studio/ ]

Ollama vs LM Studio 如何選擇？

選擇上的建議

自動化、程式串接、同台機器跑多服務 > 建議選 Ollama（像系統服務）
需要桌面 GUI 管理、可視化調整參數、臨場觀測吞吐 > 建議選 LM Studio
執行效能在 Mac （ Metal ）上兩者差不多 / 在 Windows （ NVIDIA CUDA ）上也差不多
在 Windows / AMD （ DirectML ）上兩者差不多，但是效能普遍低於 Metal / CUDA 架構

LLM 語言模型相關報導

2025-10-08 Google 微型模型 Gemma 3 270M 功能特色 [ https://www.sogi.com.tw/articles/google/6266244 ]

2025-09-22 Meta 開源參數小於10億的 MobileLLM-R1 推理模型 [ https://www.ithome.com.tw/news/171320 ]

2025-09-16 Google 釋出 VaultGemma 語言模型開放下載 [ https://www.ithome.com.tw/news/171225 ]

2025-08-05 OpenAI 釋出 gpt-oss 模型開放下載 [ https://openai.com/zh-Hant/index/introducing-gpt-oss/ ]