跳到主要内容

本地 AI

在设备上运行支持的本地 AI 模型并与其对话(可用性因设备而异)。

本地 AI:带有紧凑控制栏的聊天视图。

概览

本地 AI 提供设备端聊天界面,支持两种后端:

  • Apple Foundation(在您的操作系统/设备支持时可用)
  • LLM.swift(使用本地存储的模型文件)

它还会显示实时 CPU 和内存使用情况,让您了解加载和运行模型的资源消耗。

目录

快速入门

  1. 打开 工具 -> 本地 AI
  2. 选择后端(Apple Foundation 或 LLM.swift)。
  3. 点击 加载
  4. 输入提示词并发送。

控制栏

在聊天界面顶部,控制栏有三种展开状态:

紧凑模式(默认)

显示:

  • 模型状态(未加载/加载中/已加载/不可用)
  • 后端选择菜单
  • 模型选择器(仅限 LLM.swift)
  • 加载 / 卸载 按钮

中等展开

点击控制栏可展开并显示额外指示器:

  • 实时 CPU 使用率 仪表
  • 实时 内存使用率 仪表

完全展开

再次点击可打开完整详情界面,包含三张卡片:

  • 模型状态卡片 -- 显示后端名称、模型名称和文件大小(针对 LLM.swift 模型)。包含后端选择和模型选择器菜单。
  • 性能卡片 -- 显示 CPU 和内存使用的"基准值"与"当前值"对比。点击 捕获基准值 可快照当前数值,然后观察加载和运行模型如何改变资源消耗。
  • 操作卡片 -- 包含 加载模型 / 卸载模型新建对话(清除消息并重新加载)、管理模型(打开模型库)和 导出对话

控制栏会在会话之间记住其展开状态。

点击加载以加载所选的后端/模型。
加载后,控制栏显示已加载状态并显示卸载选项。

后端

Apple Foundation

Apple Foundation 使用 Apple 内置的 FoundationModels 框架。需要 iOS 26.0+ 或 visionOS 26.0+ 及支持的硬件。如果您的设备不支持,Lirum 会显示不可用消息。每当应用回到前台时都会重新检查可用性。

LLM.swift

LLM.swift 在您的设备上本地运行 GGUF 模型文件。它使用 ChatML 消息模板,并在生成时逐个 token 流式输出响应。

技术细节:

  • 对话历史保持 8 轮限制 -- 较早的消息会被删除以保持上下文可管理性。
  • 响应有 2 分钟超时。如果模型在该时间内没有产生输出,将显示错误。
  • 特殊模型标记(如 <|...|> 标记)会自动从响应中移除。
  • 如果发生 KV 缓存错误,Lirum 会显示特定的诊断消息。

模型库

从工具栏菜单打开模型库以下载、管理和选择模型。模型库有三个部分:

已安装模型

列出所有已下载的模型文件夹,包括名称、文件数量和总大小。您可以:

  • 选择 模型以在 LLM.swift 中使用。
  • 从 iOS 文件应用 导入 GGUF 文件。
  • 进入 选择模式 以批量导出或批量删除多个模型。

目录

应用内置的精选模型列表。每个条目显示模型名称、参数数量和表示特性的彩色标签:

标签含义
Chat通用对话模型
Instructions针对遵循指令进行调优
Reasoning专为逐步推理设计
Coding针对代码生成优化
Recommended经测试在设备上运行良好
Fast快速生成响应
Slow在某些设备上可能较慢
Tested已验证在 Lirum 中可用
Experimental可能产生不一致的结果
Untested尚未验证

默认字母顺序日期(最新/最早优先)参数数量(最大/最小优先) 对目录排序。

活动下载

显示当前正在下载的模型,包括:

  • 下载进度(百分比、速度 MB/s、预计剩余时间)
  • 中止恢复 控件

手动添加模型

您也可以通过两种方式手动添加模型:

  • 从文件导入 -- 打开 iOS 文件选择器选择 GGUF 文件并带进度显示复制。
  • 手动 URL 下载 -- 输入直接下载 URL 以及模型名称、量化方式和参数数量。字段可从目录自动填充或从文件名解析。
模型库:管理和选择 LLM.swift 后端的本地模型。
模型详情和操作(因模型/后端而异)。

加载与卸载

  • 加载 初始化所选的后端/模型。
  • 卸载 释放模型并清除当前对话。

大型模型可能需要一些时间来加载,如果设备没有足够的可用内存可能会加载失败。

聊天

主界面是标准的聊天视图:

  • 输入提示词并发送。
  • 在响应流式生成时,您可以停止生成。
在聊天输入框中输入提示词。
发送后,助手开始生成响应。
聊天历史中显示的示例响应。

性能快照

本地 AI 在您使用工具时跟踪 CPU 和内存使用情况。

在展开的控件(AI 模型面板)中,您可以捕获 基准值 快照并比较基准与当前的 CPU/内存使用情况。

导出对话

使用 导出对话 来分享当前的聊天历史。对话将导出为 Markdown 文本,每条消息带有角色前缀(User:Assistant:)。然后您可以通过任何标准的 iOS 分享方式进行分享。

注意事项与限制

  • 设备端模型可能会使用大量 CPU 和内存。
  • 模型可用性、下载选项和性能因设备和操作系统而异。
  • Apple Foundation 需要 iOS 26.0+ 或 visionOS 26.0+ 及支持的硬件。
  • LLM.swift 在 macOS Catalyst 构建中不可用。
  • 如果设备没有足够的可用内存,大型模型可能加载失败。
  • LLM.swift 后端有 8 轮对话历史限制和 2 分钟响应超时。