本地 AI

在设备上运行支持的本地 AI 模型并与其对话（可用性因设备而异）。

概览

本地 AI 提供设备端聊天界面，支持两种后端：

Apple Foundation（在您的操作系统/设备支持时可用）
LLM.swift（使用本地存储的模型文件）

它还会显示实时 CPU 和内存使用情况，让您了解加载和运行模型的资源消耗。

快速入门

打开 工具 -> 本地 AI。
选择后端（Apple Foundation 或 LLM.swift）。
点击加载。
输入提示词并发送。

控制栏

在聊天界面顶部，控制栏有三种展开状态：

紧凑模式（默认）

显示：

模型状态（未加载/加载中/已加载/不可用）
后端选择菜单
模型选择器（仅限 LLM.swift）
加载 / 卸载按钮

中等展开

点击控制栏可展开并显示额外指示器：

实时 CPU 使用率 仪表
实时 内存使用率 仪表

完全展开

再次点击可打开完整详情界面，包含三张卡片：

模型状态卡片 -- 显示后端名称、模型名称和文件大小（针对 LLM.swift 模型）。包含后端选择和模型选择器菜单。
性能卡片 -- 显示 CPU 和内存使用的"基准值"与"当前值"对比。点击 捕获基准值 可快照当前数值，然后观察加载和运行模型如何改变资源消耗。
操作卡片 -- 包含 加载模型 / 卸载模型、新建对话（清除消息并重新加载）、管理模型（打开模型库）和 导出对话。

控制栏会在会话之间记住其展开状态。

后端

Apple Foundation

Apple Foundation 使用 Apple 内置的 FoundationModels 框架。需要 iOS 26.0+ 或 visionOS 26.0+ 及支持的硬件。如果您的设备不支持，Lirum 会显示不可用消息。每当应用回到前台时都会重新检查可用性。

LLM.swift

LLM.swift 在您的设备上本地运行 GGUF 模型文件。它使用 ChatML 消息模板，并在生成时逐个 token 流式输出响应。

技术细节：

对话历史保持 8 轮限制 -- 较早的消息会被删除以保持上下文可管理性。
响应有 2 分钟超时。如果模型在该时间内没有产生输出，将显示错误。
特殊模型标记（如 <|...|> 标记）会自动从响应中移除。
如果发生 KV 缓存错误，Lirum 会显示特定的诊断消息。

模型库

从工具栏菜单打开模型库以下载、管理和选择模型。模型库有三个部分：

已安装模型

列出所有已下载的模型文件夹，包括名称、文件数量和总大小。您可以：

选择模型以在 LLM.swift 中使用。
从 iOS 文件应用导入 GGUF 文件。
进入 选择模式 以批量导出或批量删除多个模型。

标签	含义
Chat	通用对话模型
Instructions	针对遵循指令进行调优
Reasoning	专为逐步推理设计
Coding	针对代码生成优化
Recommended	经测试在设备上运行良好
Fast	快速生成响应
Slow	在某些设备上可能较慢
Tested	已验证在 Lirum 中可用
Experimental	可能产生不一致的结果
Untested	尚未验证

按默认、字母顺序、日期（最新/最早优先） 或 参数数量（最大/最小优先） 对目录排序。

活动下载

显示当前正在下载的模型，包括：

下载进度（百分比、速度 MB/s、预计剩余时间）
中止和恢复控件

手动添加模型

您也可以通过两种方式手动添加模型：

从文件导入 -- 打开 iOS 文件选择器选择 GGUF 文件并带进度显示复制。
手动 URL 下载 -- 输入直接下载 URL 以及模型名称、量化方式和参数数量。字段可从目录自动填充或从文件名解析。

加载与卸载

加载初始化所选的后端/模型。
卸载释放模型并清除当前对话。

大型模型可能需要一些时间来加载，如果设备没有足够的可用内存可能会加载失败。

聊天

主界面是标准的聊天视图：

输入提示词并发送。
在响应流式生成时，您可以停止生成。

性能快照

本地 AI 在您使用工具时跟踪 CPU 和内存使用情况。

在展开的控件（AI 模型面板）中，您可以捕获 基准值 快照并比较基准与当前的 CPU/内存使用情况。

导出对话

使用 导出对话 来分享当前的聊天历史。对话将导出为 Markdown 文本，每条消息带有角色前缀（User: 和 Assistant:）。然后您可以通过任何标准的 iOS 分享方式进行分享。

注意事项与限制

设备端模型可能会使用大量 CPU 和内存。
模型可用性、下载选项和性能因设备和操作系统而异。
Apple Foundation 需要 iOS 26.0+ 或 visionOS 26.0+ 及支持的硬件。
LLM.swift 在 macOS Catalyst 构建中不可用。
如果设备没有足够的可用内存，大型模型可能加载失败。
LLM.swift 后端有 8 轮对话历史限制和 2 分钟响应超时。

概览​

目录​

快速入门​

控制栏​

紧凑模式（默认）​

中等展开​

完全展开​

后端​

Apple Foundation​

LLM.swift​

模型库​

已安装模型​

目录​

活动下载​

手动添加模型​

加载与卸载​

聊天​

性能快照​

导出对话​

注意事项与限制​

概览

目录