メインコンテンツまでスキップ

Local AI

対応するローカルAIモデルをデバイス上で実行し、チャットできます(利用可能性は異なります)。

Local AI:コンパクトなコントロールバー付きチャットビュー。

Overview

Local AIは、2つのバックエンドを備えたデバイス上のチャットUIを提供します:

  • Apple Foundation(OS/デバイスで利用可能な場合)
  • LLM.swift(ローカルに保存されたモデルファイルを使用)

また、モデルの読み込みと実行にかかるコストを確認できるように、リアルタイムのCPUおよびメモリ使用量も表示します。

Table Of Contents

Quick Start

  1. ツール -> Local AI を開きます。
  2. バックエンド(Apple Foundation または LLM.swift)を選択します。
  3. Load をタップします。
  4. プロンプトを入力して送信します。

Control Bar

チャット画面の上部にあるコントロールバーは、3つの展開状態があります:

Compact (Default)

表示内容:

  • モデルの状態(未読み込み/読み込み中/読み込み済み/利用不可)
  • バックエンド選択メニュー
  • モデルピッカー(LLM.swiftのみ)
  • Load / Unload ボタン

Middle Expanded

コントロールバーをタップすると展開し、追加のインジケーターが表示されます:

  • リアルタイムのCPU使用率ゲージ
  • リアルタイムのメモリ使用率ゲージ

Full Expanded

さらにタップすると、3つのカードを備えた詳細画面が開きます:

  • モデルステータスカード — バックエンド名、モデル名、ファイルサイズ(LLM.swiftモデルの場合)を表示。バックエンド選択とモデルピッカーメニューを含みます。
  • パフォーマンスカード — CPUとメモリ使用量の「ベースライン」と「現在」の比較を表示。Capture Baseline をタップして現在の値をスナップショットし、モデルの読み込みと実行によるリソース消費の変化を確認できます。
  • アクションカードLoad Model / Unload ModelNew Conversation(メッセージをクリアして再読み込み)、Manage Models(モデルライブラリを開く)、Export Conversation を含みます。

コントロールバーはセッション間で展開状態を記憶します。

選択したバックエンド/モデルを読み込むにはLoadをタップします。
読み込み完了時、コントロールバーは読み込み済み状態を表示し、Unloadを表示します。

Backends

Apple Foundation

Apple FoundationはAppleの組み込みFoundationModelsフレームワークを使用します。iOS 26.0+またはvisionOS 26.0+と対応ハードウェアが必要です。デバイスで利用できない場合、Lirumは利用不可メッセージを表示します。利用可能性はアプリがフォアグラウンドに来るたびに再確認されます。

LLM.swift

LLM.swiftはGGUFモデルファイルをデバイス上でローカルに実行します。ChatMLメッセージテンプレートを使用し、生成されるトークンごとにレスポンスをストリーミングします。

技術的詳細:

  • 会話履歴は8ターンの制限で管理され、古いメッセージはコンテキストを管理しやすくするために削除されます。
  • レスポンスには2分のタイムアウトがあります。モデルがその時間内に出力を生成しない場合、エラーが表示されます。
  • 特殊なモデルトークン(例:<|...|>マーカー)はレスポンスから自動的に除去されます。
  • KVキャッシュエラーが発生した場合、Lirumは特定の診断メッセージを表示します。

Model Library

ツールバーのメニューからモデルライブラリを開き、モデルのダウンロード、管理、選択ができます。ライブラリは3つのセクションに分かれています:

Installed Models

ダウンロード済みのモデルフォルダを名前、ファイル数、合計サイズとともに一覧表示します。以下が可能です:

  • モデルを選択してLLM.swiftで使用
  • iOSのファイルアプリからGGUFファイルをインポート
  • 選択モードに入り、複数モデルの一括エクスポートまたは一括削除

Catalog

アプリにバンドルされた厳選モデルのリストです。各エントリはモデル名、パラメータ数、特徴を示す色付きタグを表示します:

タグ意味
Chat汎用会話モデル
Instructions指示に従うよう調整されたモデル
Reasoningステップバイステップ推論向けモデル
Codingコード生成に最適化されたモデル
Recommendedテスト済みでデバイス上で良好に動作
Fast迅速にレスポンスを生成
Slow一部デバイスで遅い可能性あり
TestedLirumで動作確認済み
Experimental結果が不安定な場合あり
Untested未検証

カタログはデフォルトアルファベット順日付(新しい順/古い順)、**パラメータ数(大きい順/小さい順)**で並べ替え可能です。

Active Downloads

現在ダウンロード中のモデルを表示し、以下を示します:

  • ダウンロード進捗(パーセンテージ、MB/sの速度、推定残り時間)
  • 中止および再開コントロール

Manual Model Entry

モデルを手動で追加する方法も2つあります:

  • ファイルからインポート — iOSのファイルピッカーを開き、GGUFファイルをコピー(進捗表示あり)
  • 手動URLダウンロード — 直接ダウンロードURL、モデル名、量子化、パラメータ数を入力。カタログから自動入力やファイル名からの解析も可能。
モデルライブラリ:LLM.swiftバックエンド用のローカルモデルを管理・選択します。
モデルの詳細とアクション(モデル/バックエンドにより異なります)。

Loading And Unloading

  • Load は選択したバックエンド/モデルを初期化します。
  • Unload はモデルを解放し、現在の会話をクリアします。

大きなモデルは読み込みに時間がかかる場合があり、デバイスの空きメモリが不足していると失敗することがあります。

Chat

メインUIは標準的なチャットビューです:

  • プロンプトを入力して送信します。
  • レスポンスがストリーミング中に生成を停止できます。
チャット作成画面にプロンプトを入力します。
送信後、アシスタントがレスポンスの生成を開始します。
チャット履歴に表示されたレスポンスの例。

Performance Snapshot

Local AIはツール使用中のCPUおよびメモリ使用量を追跡します。

展開されたコントロール(AIモデルパネル)でベースラインのスナップショットを取得し、ベースラインと現在のCPU/メモリを比較できます。

Export Conversation

Export Conversation を使って現在のチャット履歴を共有できます。会話はMarkdownテキストとしてエクスポートされ、各メッセージに役割のプレフィックス(User:Assistant:)が付きます。その後、標準的なiOSの共有方法で共有可能です。

Notes And Limitations

  • デバイス上のモデルはCPUおよびメモリを大幅に使用する場合があります。
  • モデルの利用可能性、ダウンロードオプション、パフォーマンスはデバイスとOSによって異なります。
  • Apple FoundationはiOS 26.0+またはvisionOS 26.0+と対応ハードウェアが必要です。
  • LLM.swiftはmacOS Catalystビルドでは利用できません。
  • 大きなモデルはデバイスの空きメモリが不足していると読み込みに失敗することがあります。
  • LLM.swiftバックエンドは8ターンの会話履歴制限と2分のレスポンスタイムアウトがあります。