跳到主要內容

本地 AI

喺裝置上運行支援嘅本地 AI 模型,並同佢哋對話(可用性因裝置而異)。

本地 AI:對話畫面配合簡潔控制欄。

概覽

本地 AI 提供一個裝置上運行嘅對話介面,有兩個後端選擇:

  • Apple Foundation(當你嘅作業系統/裝置支援時)
  • LLM.swift(使用本地儲存嘅模型檔案)

同時會即時顯示 CPU 同記憶體用量,方便你觀察載入同運行模型時嘅資源消耗。

目錄

快速開始

  1. 開啟 工具 -> 本地 AI
  2. 揀選一個後端(Apple Foundation 或 LLM.swift)。
  3. 點擊 載入
  4. 輸入提示並發送。

控制欄

喺對話畫面頂部,控制欄有三個展開狀態:

簡潔(預設)

顯示:

  • 模型狀態(未載入/載入中/已載入/不可用)
  • 後端選擇選單
  • 模型選擇器(只限 LLM.swift)
  • 載入卸載 按鈕

中度展開

點擊控制欄可以展開,顯示更多指標:

  • 即時 CPU 用量 指示器
  • 即時 記憶體用量 指示器

完全展開

再點一次會打開完整詳細畫面,有三張卡片:

  • 模型狀態卡 —— 顯示後端名稱、模型名稱同檔案大小(LLM.swift 模型適用)。包括後端選擇同模型選擇選單。
  • 效能卡 —— 顯示「基準值」同「目前」CPU 及記憶體用量對比。點擊 擷取基準值 可以記錄當前數值,然後觀察載入及運行模型時資源消耗變化。
  • 動作卡 —— 包含 載入模型卸載模型新對話(清除訊息並重新載入)、管理模型(打開模型庫)、同 匯出對話

控制欄會記住上次展開狀態,下次開啟時自動還原。

點擊載入以載入所選後端/模型。
載入後,控制欄會顯示已載入狀態,並可選擇卸載。

後端

Apple Foundation

Apple Foundation 使用 Apple 內建嘅 FoundationModels 框架。需要 iOS 26.0+ 或 visionOS 26.0+ 及支援硬件。如果你裝置唔支援,Lirum 會顯示不可用訊息。每次應用程式返回前景時都會重新檢查可用性。

LLM.swift

LLM.swift 會喺你裝置本地運行 GGUF 模型檔案。佢用 ChatML 訊息模板,並以逐個 token 串流方式回應。

技術細節:

  • 對話歷史有 8 輪限制 —— 舊訊息會被移除,以保持上下文可管理。
  • 回應有 2 分鐘時限。如果模型喺限時內無回應,會顯示錯誤。
  • 特殊模型 token(例如 <|...|> 標記)會自動從回應中移除。
  • 如果發生 KV cache 錯誤,Lirum 會顯示專屬診斷訊息。

模型庫

可以喺工具列選單打開模型庫,下載、管理同選擇模型。模型庫分三個部分:

已安裝模型

列出所有已下載模型資料夾,包括名稱、檔案數量及總大小。你可以:

  • 選擇模型以配合 LLM.swift 使用。
  • 匯入 GGUF 檔案(來自 iOS 檔案 app)。
  • 進入選擇模式,可一次性批量匯出或刪除多個模型。

目錄

一份由應用程式內置嘅精選模型清單。每個項目會顯示模型名稱、參數數量及彩色標籤,標示特性:

標籤意義
Chat通用對話模型
Instructions針對指令跟隨調校
Reasoning設計用於逐步推理
Coding優化生成程式碼
Recommended已測試,裝置上表現良好
Fast回應速度快
Slow某些裝置上可能較慢
Tested已於 Lirum 驗證可用
Experimental可能結果不穩定
Untested尚未驗證

可按 預設字母順序日期(新/舊)、或 參數數量(多/少) 排序。

下載中

顯示目前下載中嘅模型,包括:

  • 下載進度(百分比、速度 MB/s、預計剩餘時間)
  • 中止繼續控制

手動新增模型

你亦可以用兩種方式手動加入模型:

  • 從檔案匯入 —— 開啟 iOS 檔案選擇器,選擇 GGUF 檔案並顯示進度。
  • 手動輸入網址下載 —— 輸入直接下載網址、模型名稱、量化方式及參數數量。欄位可自動從目錄帶入或由檔名解析。
模型庫:管理及選擇 LLM.swift 後端用嘅本地模型。
模型詳情及操作(視乎模型/後端而異)。

載入與卸載

  • 載入會初始化所選後端/模型。
  • 卸載會釋放模型並清除當前對話。

大型模型載入需時,如裝置可用記憶體不足,可能會載入失敗。

對話

主要介面係標準對話畫面:

  • 輸入提示並發送。
  • 回應串流期間可隨時停止生成。
喺對話編輯器輸入提示。
發送後,助手會開始生成回應。
對話歷史中顯示回應範例。

效能快照

本地 AI 會追蹤你使用工具時嘅 CPU 同記憶體用量。

喺展開控制(AI 模型面板)中,你可以擷取基準值快照,並比較基準同目前 CPU/記憶體用量。

匯出對話

匯出對話 可以分享目前對話歷史。對話會以 Markdown 文字匯出,每則訊息前有角色前綴(User:Assistant:)。你可以用任何標準 iOS 分享方式分享。

注意事項與限制

  • 裝置上運行模型會大量使用 CPU 同記憶體。
  • 模型可用性、下載選項及效能會因裝置及作業系統而異。
  • Apple Foundation 需要 iOS 26.0+ 或 visionOS 26.0+ 及支援硬件。
  • LLM.swift 唔支援 macOS Catalyst 版本。
  • 大型模型如裝置可用記憶體不足,可能無法載入。
  • LLM.swift 後端對話歷史有 8 輪限制,回應有 2 分鐘時限。