Local AI

Exécutez des modèles d'IA locaux pris en charge directement sur l'appareil et discutez avec eux (disponibilité variable).

Vue d'ensemble

Local AI fournit une interface de chat sur l'appareil avec deux moteurs :

Apple Foundation (lorsqu'il est disponible sur votre OS/appareil)
LLM.swift (utilise des fichiers de modèles stockés localement)

Il affiche également l'utilisation en temps réel du CPU et de la mémoire pour que vous puissiez voir le coût de chargement et d'exécution d'un modèle.

Démarrage rapide

Ouvrez Outils -> Local AI.
Choisissez un moteur (Apple Foundation ou LLM.swift).
Appuyez sur Charger.
Tapez une invite et envoyez-la.

Barre de contrôle

En haut de l'écran de chat, la barre de contrôle a trois états d'expansion :

Compact (par défaut)

Affiche :

Statut du modèle (non chargé/en cours de chargement/chargé/indisponible)
Menu de sélection du moteur
Sélecteur de modèle (LLM.swift uniquement)
Bouton Charger / Décharger

Expansion moyenne

Touchez la barre de contrôle pour l'agrandir et révéler des indicateurs supplémentaires :

Jauge d'utilisation CPU en temps réel
Jauge d'utilisation mémoire en temps réel

Pleine expansion

Touchez de nouveau pour ouvrir l'écran détaillé complet avec trois cartes :

Carte de statut du modèle — affiche le nom du moteur, le nom du modèle et la taille du fichier (pour les modèles LLM.swift). Comprend les menus de sélection du moteur et du modèle.
Carte de performance — montre une comparaison « Référence » vs « Maintenant » pour l'utilisation CPU et mémoire. Appuyez sur Capturer la référence pour prendre un instantané des valeurs actuelles, puis observez comment le chargement et l'exécution d'un modèle modifient la consommation des ressources.
Carte d'actions — contient Charger le modèle / Décharger le modèle, Nouvelle conversation (efface les messages et recharge), Gérer les modèles (ouvre la bibliothèque de modèles) et Exporter la conversation.

La barre de contrôle mémorise son état d'expansion entre les sessions.

Local AI avec le bouton Charger appuyé dans la barre de contrôle — Appuyez sur Charger pour charger le moteur/modèle sélectionné.

Local AI affichant l'état chargé — Une fois chargé, la barre de contrôle affiche un état chargé et expose Décharger.

Moteurs

Apple Foundation

Apple Foundation utilise le framework intégré FoundationModels d'Apple. Il nécessite iOS 26.0+ ou visionOS 26.0+ et un matériel compatible. S'il n'est pas disponible sur votre appareil, Lirum affiche un message d'indisponibilité. La disponibilité est vérifiée à chaque retour de l'application au premier plan.

LLM.swift

LLM.swift exécute localement des fichiers de modèles GGUF sur votre appareil. Il utilise le modèle de message ChatML et diffuse les réponses token par token au fur et à mesure de leur génération.

Détails techniques :

L'historique de conversation est maintenu avec une limite de 8 tours — les messages plus anciens sont supprimés pour garder un contexte gérable.
Les réponses ont un délai d'attente de 2 minutes. Si un modèle ne produit pas de sortie dans ce délai, une erreur est affichée.
Les tokens spéciaux du modèle (comme les marqueurs <|...|>) sont automatiquement supprimés des réponses.
En cas d'erreur de cache KV, Lirum affiche un message de diagnostic spécifique.

Bibliothèque de modèles

Ouvrez la bibliothèque de modèles depuis le menu de la barre d'outils pour télécharger, gérer et sélectionner des modèles. La bibliothèque comporte trois sections :

Modèles installés

Liste tous les dossiers de modèles téléchargés avec leur nom, nombre de fichiers et taille totale. Vous pouvez :

Sélectionner un modèle pour l'utiliser avec LLM.swift.
Importer un fichier GGUF depuis l'application Fichiers iOS.
Entrer en mode sélection pour exporter ou supprimer en lot plusieurs modèles à la fois.

Catalogue

Une liste sélectionnée de modèles fournis avec l'application. Chaque entrée affiche le nom du modèle, le nombre de paramètres et des étiquettes colorées indiquant les caractéristiques :

Étiquette	Signification
Chat	Modèle conversationnel polyvalent
Instructions	Optimisé pour suivre des instructions
Reasoning	Conçu pour un raisonnement étape par étape
Coding	Optimisé pour la génération de code
Recommended	Testé et fonctionne bien sur l'appareil
Fast	Génère des réponses rapidement
Slow	Peut être lent sur certains appareils
Tested	Vérifié pour fonctionner dans Lirum
Experimental	Peut produire des résultats incohérents
Untested	Pas encore vérifié

Triez le catalogue par Par défaut, Alphabétique, Date (du plus récent au plus ancien / inversement), ou Paramètres (du plus grand au plus petit / inversement).

Téléchargements actifs

Affiche les modèles en cours de téléchargement avec :

Progression du téléchargement (pourcentage, vitesse en Mo/s, temps estimé restant)
Contrôles Annuler et Reprendre

Saisie manuelle de modèle

Vous pouvez aussi ajouter des modèles manuellement de deux façons :

Importer depuis Fichiers — ouvre le sélecteur de fichiers iOS pour les fichiers GGUF et les copie avec affichage de progression.
Téléchargement manuel par URL — saisissez une URL de téléchargement directe ainsi que le nom du modèle, la quantification et le nombre de paramètres. Les champs peuvent être préremplis depuis le catalogue ou extraits du nom de fichier.

Feuille de la bibliothèque de modèles — Bibliothèque de modèles : gérer et sélectionner des modèles locaux pour le moteur LLM.swift.

Écran des détails du modèle Local AI — Détails et actions du modèle (varie selon le modèle/moteur).

Chargement et déchargement

Charger initialise le moteur/modèle sélectionné.
Décharger libère le modèle et efface la conversation en cours.

Les modèles volumineux peuvent prendre du temps à charger et peuvent échouer si l'appareil ne dispose pas de suffisamment de mémoire libre.

Chat

L'interface principale est une vue de chat standard :

Tapez une invite et envoyez-la.
Pendant la diffusion d'une réponse, vous pouvez arrêter la génération.

Invite saisie dans le chat Local AI — Saisissez une invite dans le composeur de chat.

Invite envoyée dans le chat Local AI — Après l'envoi, l'assistant commence à générer une réponse.

Réponse reçue dans le chat Local AI — Exemple de réponse affichée dans l'historique du chat.

Instantané de performance

Local AI suit l'utilisation du CPU et de la mémoire pendant que vous utilisez l'outil.

Dans les contrôles étendus (panneau Modèle IA), vous pouvez capturer un instantané de référence et comparer la référence avec l'utilisation CPU/mémoire actuelle.

Exporter la conversation

Utilisez Exporter la conversation pour partager l'historique du chat actuel. La conversation est exportée au format texte Markdown avec des préfixes de rôle (User : et Assistant :) pour chaque message. Vous pouvez ensuite la partager via n'importe quelle méthode standard de partage iOS.

Notes et limitations

Les modèles sur appareil peuvent utiliser une quantité importante de CPU et de mémoire.
La disponibilité des modèles, les options de téléchargement et les performances varient selon l'appareil et l'OS.
Apple Foundation nécessite iOS 26.0+ ou visionOS 26.0+ et un matériel compatible.
LLM.swift n'est pas disponible sur les builds macOS Catalyst.
Les modèles volumineux peuvent échouer à se charger si l'appareil ne dispose pas de suffisamment de mémoire libre.
Le moteur LLM.swift a une limite d'historique de conversation de 8 tours et un délai d'attente de réponse de 2 minutes.

Vue d'ensemble​

Table des matières​

Démarrage rapide​

Barre de contrôle​

Compact (par défaut)​

Expansion moyenne​

Pleine expansion​

Moteurs​

Apple Foundation​

LLM.swift​

Bibliothèque de modèles​

Modèles installés​

Catalogue​

Téléchargements actifs​

Saisie manuelle de modèle​

Chargement et déchargement​

Chat​

Instantané de performance​

Exporter la conversation​

Notes et limitations​