跳至主要内容

本機 AI

在裝置上執行支援的本機 AI 模型並與其對話(可用性因裝置而異)。

本機 AI:聊天視圖與精簡控制列。

概覽

本機 AI 提供裝置端的聊天介面,支援兩種後端:

  • Apple Foundation(當您的作業系統/裝置可用時)
  • LLM.swift(使用本機儲存的模型檔案)

它還會顯示即時 CPU 和記憶體使用量,讓您了解載入和執行模型的資源消耗。

目錄

快速開始

  1. 開啟 工具 -> 本機 AI
  2. 選擇後端(Apple Foundation 或 LLM.swift)。
  3. 點擊 載入
  4. 輸入提示詞並發送。

控制列

在聊天畫面頂部,控制列有三種展開狀態:

精簡(預設)

顯示:

  • 模型狀態(未載入/載入中/已載入/不可用)
  • 後端選擇選單
  • 模型選擇器(僅限 LLM.swift)
  • 載入 / 卸載 按鈕

中等展開

點擊控制列展開以顯示額外指標:

  • 即時 CPU 使用量 儀表
  • 即時 記憶體使用量 儀表

完全展開

再次點擊以開啟完整詳細畫面,包含三張卡片:

  • 模型狀態卡片 —— 顯示後端名稱、模型名稱和檔案大小(適用於 LLM.swift 模型)。包含後端選擇和模型選擇器選單。
  • 效能卡片 —— 顯示 CPU 和記憶體使用量的「基準」與「目前」比較。點擊 擷取基準 以快照目前數值,然後觀察載入和執行模型如何改變資源消耗。
  • 操作卡片 —— 包含 載入模型 / 卸載模型新對話(清除訊息並重新載入)、管理模型(開啟模型庫)和 匯出對話

控制列會在工作階段之間記住其展開狀態。

點擊「載入」以載入選定的後端/模型。
載入後,控制列顯示已載入狀態並顯示「卸載」選項。

後端

Apple Foundation

Apple Foundation 使用 Apple 內建的 FoundationModels 框架。需要 iOS 26.0+ 或 visionOS 26.0+ 以及支援的硬體。如果您的裝置不可用,Lirum Device Info 會顯示不可用訊息。每當應用程式進入前景時都會重新檢查可用性。

LLM.swift

LLM.swift 在您的裝置上本機執行 GGUF 模型檔案。它使用 ChatML 訊息範本,並在生成時逐個 token 串流回應。

技術細節:

  • 對話歷史記錄維持 8 輪限制 —— 較舊的訊息會被丟棄以保持上下文可管理。
  • 回應有 2 分鐘逾時。如果模型在該時間內未產生輸出,則會顯示錯誤。
  • 特殊模型 token(例如 <|...|> 標記)會自動從回應中移除。
  • 如果發生 KV 快取錯誤,Lirum Device Info 會顯示特定的診斷訊息。

模型庫

從工具列選單開啟模型庫以下載、管理和選擇模型。模型庫有三個區段:

已安裝模型

列出所有已下載的模型資料夾,包含名稱、檔案數量和總大小。您可以:

  • 選擇 模型以搭配 LLM.swift 使用。
  • 從 iOS 檔案 app 匯入 GGUF 檔案。
  • 進入 選擇模式 以批次匯出或批次刪除多個模型。

目錄

應用程式內建的精選模型清單。每個項目顯示模型名稱、參數數量和表示特性的彩色標籤:

標籤意義
Chat通用對話模型
Instructions針對遵循指令進行調整
Reasoning專為逐步推理設計
Coding針對程式碼生成最佳化
Recommended經測試在裝置上運作良好
Fast快速生成回應
Slow在某些裝置上可能較慢
Tested已驗證可在 Lirum Device Info 中運作
Experimental可能產生不一致的結果
Untested尚未驗證

預設字母順序日期(最新/最舊優先)參數(最大/最小優先) 排序目錄。

進行中的下載

顯示任何目前正在下載的模型,包含:

  • 下載進度(百分比、速度 MB/s、預估剩餘時間)
  • 中止繼續 控制項

手動輸入模型

您也可以透過兩種方式手動新增模型:

  • 從檔案匯入 —— 開啟 iOS 檔案選擇器選擇 GGUF 檔案,並顯示進度進行複製。
  • 手動 URL 下載 —— 輸入直接下載 URL 以及模型名稱、量化和參數數量。欄位可從目錄自動填入或從檔名解析。
模型庫:管理和選擇 LLM.swift 後端的本機模型。
模型詳細資訊和操作(因模型/後端而異)。

載入與卸載

  • 載入 初始化選定的後端/模型。
  • 卸載 釋放模型並清除目前對話。

大型模型可能需要時間載入,如果裝置沒有足夠的可用記憶體可能會失敗。

聊天

主介面是標準聊天視圖:

  • 輸入提示詞並發送。
  • 當回應正在串流時,您可以停止生成。
在聊天輸入框中輸入提示詞。
發送後,助理開始生成回應。
聊天歷史記錄中顯示的範例回應。

效能快照

本機 AI 會在您使用此工具時追蹤 CPU 和記憶體使用量。

在展開的控制項(AI 模型面板)中,您可以擷取 基準 快照並比較基準與目前的 CPU/記憶體。

匯出對話

使用 匯出對話 分享目前的聊天歷史記錄。對話會匯出為 Markdown 文字,每則訊息帶有角色前綴(User:Assistant:)。然後您可以透過任何標準 iOS 分享方式分享它。

注意事項與限制

  • 裝置端模型可能會使用大量 CPU 和記憶體。
  • 模型可用性、下載選項和效能因裝置和作業系統而異。
  • Apple Foundation 需要 iOS 26.0+ 或 visionOS 26.0+ 以及支援的硬體。
  • LLM.swift 在 macOS Catalyst 版本中不可用。
  • 如果裝置沒有足夠的可用記憶體,大型模型可能無法載入。
  • LLM.swift 後端有 8 輪對話歷史記錄限制和 2 分鐘回應逾時。