Local AI
対応するローカルAIモデルをデバイス上で実行し、チャットできます(利用可能性は異なります)。
Overview
Local AIは、2つのバックエンドを備えたデバイス上のチャットUIを提供します:
- Apple Foundation(OS/デバイスで利用可能な場合)
- LLM.swift(ローカルに保存されたモデルファイルを使用)
また、モデルの読み込みと実行にかかるコストを確認できるように、リアルタイムのCPUおよびメモリ使用量も表示します。
Table Of Contents
- Quick Start
- Control Bar
- Backends
- Model Library
- Loading And Unloading
- Chat
- Performance Snapshot
- Export Conversation
- Notes And Limitations
Quick Start
- ツール -> Local AI を開きます。
- バックエ ンド(Apple Foundation または LLM.swift)を選択します。
- Load をタップします。
- プロンプトを入力して送信します。
Control Bar
チャット画面の上部にあるコントロールバーは、3つの展開状態があります:
Compact (Default)
表示内容:
- モデルの状態(未読み込み/読み込み中/読み込み済み/利用不可)
- バックエンド選択メニュー
- モデルピッカー(LLM.swiftのみ)
- Load / Unload ボタン
Middle Expanded
コントロールバーをタップすると展開し、追加のインジケーターが表示されます:
- リアルタイムのCPU使用率ゲージ
- リアルタイムのメモリ使用率ゲージ
Full Expanded
さらにタップすると、3つのカードを備えた詳細画面が開きます:
- モデルステータスカード — バックエンド名、モデル名、ファイルサイズ(LLM.swiftモデルの場合)を表示。バックエンド選択とモデルピッカーメニューを含みます。
- パフォーマンスカード — CPUとメモリ使用量の「ベースライン」と「現在」の比較を表示。Capture Baseline をタップして現在の値をスナップショットし、モデルの読み込みと実行によるリソース消費の変化を確認できます。
- アクションカード — Load Model / Unload Model、New Conversation(メッセージをクリアして再読み込み)、Manage Models(モデルライブラリを開く)、Export Conversation を含みます。
コントロールバーはセッション間で展開状態を記憶します。
Backends
Apple Foundation
Apple FoundationはAppleの組み込みFoundationModelsフレームワークを使用します。iOS 26.0+またはvisionOS 26.0+と対応ハードウェアが必要です。デバイスで利用できない場合、Lirumは利用不可メッセージを表示します。利用可能性はアプリがフォアグラウンドに来るたびに再確認されます。
LLM.swift
LLM.swiftはGGUFモデルファイルをデバイス上でローカルに実行します。ChatMLメッセージテンプレートを使用し、生成されるトークンごとにレスポンスをストリーミングします。
技術的詳細:
- 会話履歴は8ターンの制限で管理され、古いメッセージはコンテキストを管理しやすくするために削除されます。
- レスポンスには2分のタイムアウトがあります。モデルがその時間内に出力を生成しない場合、エラーが表示されます。
- 特殊なモデルトークン(例:
<|...|>マーカー)はレスポンスから自動的に除去されます。 - KVキャッシュエラーが発生した場合、Lirumは特定の診断メッセージを表示します。
Model Library
ツールバーのメニューからモデルライブラリを開き、モデルのダウンロード、管理、選択ができます。ライブラリは3つのセクションに分かれています:
Installed Models
ダウンロード済みのモデルフォルダを名前、ファイル数、合計サイズとともに一覧表示します。以下が可能です:
- モデルを選択してLLM.swiftで使用
- iOSのファイルアプリからGGUFファイルをインポート
- 選択モードに入り、複数モデルの一括エクスポートまたは一括削除
Catalog
アプリにバンドルされた厳選モデルのリストです。各エントリはモデル名、パラメータ数、特徴を示す色付きタグを表示します:
| タグ | 意味 |
|---|---|
| Chat | 汎用会話モデル |
| Instructions | 指示に従うよう調整されたモデル |
| Reasoning | ステップバイステップ推論向けモデル |
| Coding | コード生成に最適化されたモデル |
| Recommended | テスト済みでデバイス上で良好に動作 |
| Fast | 迅速にレスポンスを生成 |
| Slow | 一部デバイスで遅い可能性あり |
| Tested | Lirumで動作確認済み |
| Experimental | 結果が不安定な場合あり |
| Untested | 未検証 |
カタログはデフォルト、アルファベット順、日付(新しい順/古い順)、**パラメータ数(大きい順/小さい順)**で並べ替え可能です。
Active Downloads
現在ダウンロード中のモデルを表示し、以下を示します:
- ダウンロード進捗(パーセンテージ、MB/sの速度、推定残り時間)
- 中止および再開コントロール
Manual Model Entry
モデルを手動で追加する方法も2つあります:
- ファイルからインポート — iOSのファイルピッカーを開き、GGUFファイルをコピー(進捗表示あり)
- 手動URLダウンロード — 直接ダウンロードURL、モデル名、量子化、パラメータ数を入力。カタログから自動入力やファイル名からの解析も可能。
Loading And Unloading
- Load は選択したバックエンド/モデルを初期化します。
- Unload はモデルを解放し、現在の会話をクリアします。
大きなモデルは読み込みに時間がかかる場合があり、デバイスの空きメモリが不足していると失敗することがあります。
Chat
メインUIは標準的なチャットビューです:
- プロンプトを入力して送信します。
- レスポンスがストリ ーミング中に生成を停止できます。
Performance Snapshot
Local AIはツール使用中のCPUおよびメモリ使用量を追跡します。
展開されたコントロール(AIモデルパネル)でベースラインのスナップショットを取得し、ベースラインと現在のCPU/メモリを比 較できます。
Export Conversation
Export Conversation を使って現在のチャット履歴を共有できます。会話はMarkdownテキストとしてエクスポートされ、各メッセージに役割のプレフィックス(User: と Assistant:)が付きます。その後、標準的なiOSの共有方法で共有可能です。
Notes And Limitations
- デバイス上のモデルはCPUおよびメモリを大幅に使用する場合があります。
- モデルの利用可能性、ダウンロードオプション、パフォーマンスはデバイスとOSによって異なります。
- Apple FoundationはiOS 26.0+またはvisionOS 26.0+と対応ハードウェアが必要です。
- LLM.swiftはmacOS Catalystビルドでは利用できません。
- 大きなモデルはデバイスの空きメモリが不足していると読み込みに失敗することがあります。
- LLM.swiftバックエンドは8ターンの会話履歴制限と2分のレスポンスタイムアウトがあります。