LM Studio 教學

Author: Kelvin Huang

LM Studio 是一套本地端大型語言模型 ( LLM ) 的應用程式,讓使用者能 下載、管理、運行 LLM,並透過 GUI 或 API 來與模型互動。 像是可離線使用的 本地版 ChatGPT 並且支援多種開源模型。

 

模型管理

LM Studio 內建模型市集(連接 Hugging Face 等來源)

一鍵下載常見模型 ( Llama 3、Mistral、Phi、Qwen、Gemma… )

支援 GGUF 格式, 模型可以存多個版本,使用者可隨時切換

 

對話介面

LM Studio 內建 Chat UI,像 ChatGPT 的對話框

支援多個對話會話,並可保存對話的歷史紀錄

可設定系統提示詞 ( System prompt )、角色指令

支援多語言輸入與輸出

 

硬體加速

NVIDIA CUDA GPU → 自動偵測並加速。

AMD GPU (ROCm) → 支援部分平台。

Apple Silicon (M1/M2/M3) → 使用 Metal + MLX 引擎。

Intel iGPU (Arc / Iris Xe) → 透過 Vulkan 加速,讓沒有獨顯的筆電或掌機提供加速。

 

技術細節

推理引擎:基於 llama.cpp 與其他後端(CUDA、Metal、Vulkan、ROCm)。

模型格式:GGUF(最常見的量化格式,支援幾乎所有熱門開源模型)。

 

效能表現

在 NVIDIA GPU 上,效能接近 Ollama(因為底層一樣是 llama.cpp)。

在 macOS M 系列晶片,使用 MLX 引擎,效能甚至優於 Ollama。

在 Intel iGPU/AMD 環境,LM Studio 的 Vulkan 支援比 Ollama 完整。

 

首先前往 LM Stusio 官方網站下載需要的版本,目前支援 Windows,macOS, Linux 作業系統。

LM Studio 安裝

安裝完成後,啟動 LM Studio 軟體。

可選擇 User / Power User / Developer 等級,稍後可以改變設定。

取得第一個模型,系統會偵測您的硬體,自動選擇適合的模型,以下教學使用 OpenAI 的 gpt-oss-20b 模型。

模型下載完成後,即可按下 Start a New Chat 開始聊天!

選擇 Start a New Chat 或 Dismiss 皆可。

別急!您需要先選擇模型。

選擇已下載的 LLM 模型。

 

對話時可以按下迴紋針圖示 ( Attach a file ) …

使用 Retrieval Augmented Generation ( RAG ) 或上傳檔案 ( 最多 5 個 PDF, DOC, TXT, CSV 檔案 )

RAG(Retrieval-Augmented Generation)= 檢索 + 生成。先用檢索從您提供的文件中找出資料,接著將這些資料連同您的提問一起餵給模型,讓模型生成更正確、可引用資料的回答。因此能夠補充模型在訓練截止、或是缺少資料的缺點。

 

Connect Plugins and MCP servers to LM Studio

Integrations 讓 LM Studio 接上 2 種可擴充能力:

MCP servers( Model Context Protocol )

LM Studio 0.3.17 起能當 MCP Host,可把外部的 MCP 伺服器 接進來,讓本機模型能安全地「呼叫外部工具 / 讀取外部資料」,例如存取檔案、資料庫、或做即時網路搜尋等。把它想成「AI 的 USB-C 介面」:一旦接好,模型就能用標準協定呼叫多種工具,而不必每家各寫一份整合程式碼。

Plugins ( LM Studio 外掛 )

這是 LM Studio 自家的外掛機制,用 JavaScript/TypeScript 撰寫,在特定生命週期掛鉤 ( hooks ) 擴充 App 的功能;

它和 MCP 不同,屬於擴充 LM Studio 本身的行為,而 MCP 是讓模型透過協定去連外部工具/資料。

 

把現成 MCP 伺服器接進來 ( 如網頁搜尋、雲端文件、Docker 工具組等 ) ,讓本機模型會用工具,而不只產生文字。

在自己的專案裡寫一個 MCP server(例如把公司知識庫、內網 工具),LM Studio 連上後,聊天時模型就能直接呼叫。

 

安全建議:別從不明來源安裝 MCP。部分 MCP 具備讀檔、上網、執行程式碼能力,務必審核來源、權限與帳密管理。

 

Reasoning Effort

 

App Settings

 

 

軟體串接設定

 

LM Studio 對話的內容,可以在 [ C:\Users\使用者名稱\.lmstudio\conversations ] 資料夾找到類似 1234567890000.conversation.json

的檔案(前面數字不同),備份這些 json 檔案即可備份對話,而刪除這些 json 檔案,聊天記錄也隨之刪除。

 

啟用本地端伺服器

LM Studio 在啟用本地端伺服器後,等於把它變成一個可以「對外提供 API 的模型服務」。原本 LM Studio 只是在電腦上打開,手動輸入文字、得到回覆的桌面程式,當開啟伺服器功能,它就能模擬成像 OpenAI 或 Ollama 那樣的 API 介面,讓其他程式透過 HTTP 請求去呼叫你載入的本地模型。

這麼做的意義在於,模型不再只侷限於你在 LM Studio 介面裡用,而是能被整合進各種應用。您可以在 Python、Node.js、PHP 或 Unity 裡寫程式,透過 POST/GET 的方式把 prompt 丟給 LM Studio,本地模型處理後再把輸出回傳,這樣就能像用 OpenAI API 一樣使用,只是運算全在自己的電腦,不需要連線到外部伺服器。這對隱私、速度、或是想在封閉環境裡測試都特別有用。

以下教學將使用 Python 開發 AI 對話的應用程式:

載入大語言模型

設定後按下 Load Model 載入模型。

顯示 Status: Running 表示本地端伺服器已經啟用。

開啟網頁瀏覽器,輸入網址 http://127.0.0.1:1234/ 若出現以下訊息表示已經正常執行。

撰寫 Python 程式,使用 client.models.list ( ) .data 列出語言模型的名稱,測試連線是否正常!

使用 from openai import OpenAI 不是因為在用 OpenAI 的雲端,而是因為 LM Studio 提供了「OpenAI 相容的 API」。也就是說 LM Studio 本機伺服器會模仿 OpenAI 的 API 介面(路徑與參數格式),所以可以直接用 OpenAI 官方的 Python SDK,只要把 base_url 指到 LM Studio 的本機端點(通常 http://localhost:1234/v1)就行了,不需要另外安裝 LM Studio 專用的 Python 套件 。官方文件就直接示範用 from openai import OpenAI 連到 LM Studio。

執行,出現沒有 openai 模組的錯誤,按下 Install Package 安裝包。

安裝完成後再執行一次 !

接著,撰寫一個簡單的程式串接 LM Studio 本地伺服器,例如使用 openai 的 gpt-oss-20b 模型。

執行測試!

使用 Python 開發 OpenAI / LM Studio 的應用程式,請參閱本站相關教學 [ https://www.cg.com.tw/Python-LM-Studio/ ]

 

Ollama vs LM Studio 如何選擇?

選擇上的建議

  • 自動化、程式串接、同台機器跑多服務 > 建議選 Ollama( 像系統服務 )

  • 需要桌面 GUI 管理、可視化調整參數、臨場觀測吞吐 > 建議選 LM Studio

  • 執行效能在 Mac ( Metal ) 上兩者差不多 / 在 Windows ( NVIDIA CUDA ) 上也差不多

  • 在 Windows / AMD ( DirectML ) 上兩者差不多,但是效能普遍低於 Metal / CUDA 架構

 

LLM 語言模型相關報導

2025-10-08 Google 微型模型 Gemma 3 270M 功能特色 [ https://www.sogi.com.tw/articles/google/6266244 ]

2025-09-22 Meta 開源參數小於10億的 MobileLLM-R1 推理模型 [ https://www.ithome.com.tw/news/171320 ]

2025-09-16 Google 釋出 VaultGemma 語言模型開放下載 [ https://www.ithome.com.tw/news/171225 ]

2025-08-05 OpenAI 釋出 gpt-oss 模型開放下載 [ https://openai.com/zh-Hant/index/introducing-gpt-oss/ ]

 

 

Copyright © 2025 CG Digital Corp. All rights reserved.