Local AI
Exécutez des modèles d'IA locaux pris en charge directement sur l'appareil et discutez avec eux (disponibilité variable).
Vue d'ensemble
Local AI fournit une interface de chat sur l'appareil avec deux moteurs :
- Apple Foundation (lorsqu'il est disponible sur votre OS/appareil)
- LLM.swift (utilise des fichiers de modèles stockés localement)
Il affiche également l'utilisation en temps réel du CPU et de la mémoire pour que vous puissiez voir le coût de chargement et d'exécution d'un modèle.
Table des matières
- Démarrage rapide
- Barre de contrôle
- Moteurs
- Bibliothèque de modèles
- Chargement et déchargement
- Chat
- Instantané de performance
- Exporter la conversation
- Notes et limitations
Démarrage rapide
- Ouvrez Outils -> Local AI.
- Choisissez un moteur (Apple Foundation ou LLM.swift).
- Appuyez sur Charger.
- Tapez une invite et envoyez-la.
Barre de contrôle
En haut de l'écran de chat, la barre de contrôle a trois états d'expansion :
Compact (par défaut)
Affiche :
- Statut du modèle (non chargé/en cours de chargement/chargé/indisponible)
- Menu de sélection du moteur
- Sélecteur de modèle (LLM.swift uniquement)
- Bouton Charger / Décharger
Expansion moyenne
Touchez la barre de contrôle pour l'agrandir et révéler des indicateurs supplémentaires :
- Jauge d'utilisation CPU en temps réel
- Jauge d'utilisation mémoire en temps réel
Pleine expansion
Touchez de nouveau pour ouvrir l'écran détaillé complet avec trois cartes :
- Carte de statut du modèle — affiche le nom du moteur, le nom du modèle et la taille du fichier (pour les modèles LLM.swift). Comprend les menus de sélection du moteur et du modèle.
- Carte de performance — montre une comparaison « Référence » vs « Maintenant » pour l'utilisation CPU et mémoire. Appuyez sur Capturer la référence pour prendre un instantané des valeurs actuelles, puis observez comment le chargement et l'exécution d'un modèle modifient la consommation des ressources.
- Carte d'actions — contient Charger le modèle / Décharger le modèle, Nouvelle conversation (efface les messages et recharge), Gérer les modèles (ouvre la bibliothèque de modèles) et Exporter la conversation.
La barre de contrôle mémorise son état d'expansion entre les sessions.
Moteurs
Apple Foundation
Apple Foundation utilise le framework intégré FoundationModels d'Apple. Il nécessite iOS 26.0+ ou visionOS 26.0+ et un matériel compatible. S'il n'est pas disponible sur votre appareil, Lirum affiche un message d'indisponibilité. La disponibilité est vérifiée à chaque retour de l'application au premier plan.
LLM.swift
LLM.swift exécute localement des fichiers de modèles GGUF sur votre appareil. Il utilise le modèle de message ChatML et diffuse les réponses token par token au fur et à mesure de leur génération.
Détails techniques :
- L'historique de conversation est maintenu avec une limite de 8 tours — les messages plus anciens sont supprimés pour garder un contexte gérable.
- Les réponses ont un délai d'attente de 2 minutes. Si un modèle ne produit pas de sortie dans ce délai, une erreur est affichée.
- Les tokens spéciaux du modèle (comme les marqueurs
<|...|>) sont automatiquement supprimés des réponses. - En cas d'erreur de cache KV, Lirum affiche un message de diagnostic spécifique.
Bibliothèque de modèles
Ouvrez la bibliothèque de modèles depuis le menu de la barre d'outils pour télécharger, gérer et sélectionner des modèles. La bibliothèque comporte trois sections :
Modèles installés
Liste tous les dossiers de modèles téléchargés avec leur nom, nombre de fichiers et taille totale. Vous pouvez :
- Sélectionner un modèle pour l'utiliser avec LLM.swift.
- Importer un fichier GGUF depuis l'application Fichiers iOS.
- Entrer en mode sélection pour exporter ou supprimer en lot plusieurs modèles à la fois.
Catalogue
Une liste sélectionnée de modèles fournis avec l'application. Chaque entrée affiche le nom du modèle, le nombre de paramètres et des étiquettes colorées indiquant les caractéristiques :
| Étiquette | Signification |
|---|---|
| Chat | Modèle conversationnel polyvalent |
| Instructions | Optimisé pour suivre des instructions |
| Reasoning | Conçu pour un raisonnement étape par étape |
| Coding | Optimisé pour la génération de code |
| Recommended | Testé et fonctionne bien sur l'appareil |
| Fast | Génère des réponses rapidement |
| Slow | Peut être lent sur certains appareils |
| Tested | Vérifié pour fonctionner dans Lirum |
| Experimental | Peut produire des résultats incohérents |
| Untested | Pas encore vérifié |
Triez le catalogue par Par défaut, Alphabétique, Date (du plus récent au plus ancien / inversement), ou Paramètres (du plus grand au plus petit / inversement).
Téléchargements actifs
Affiche les modèles en cours de téléchargement avec :
- Progression du téléchargement (pourcentage, vitesse en Mo/s, temps estimé restant)
- Contrôles Annuler et Reprendre
Saisie manuelle de modèle
Vous pouvez aussi ajouter des modèles manuellement de deux façons :
- Importer depuis Fichiers — ouvre le sélecteur de fichiers iOS pour les fichiers GGUF et les copie avec affichage de progression.
- Téléchargement manuel par URL — saisissez une URL de téléchargement directe ainsi que le nom du modèle, la quantification et le nombre de paramètres. Les champs peuvent être préremplis depuis le catalogue ou extraits du nom de fichier.
Chargement et déchargement
- Charger initialise le moteur/modèle sélectionné.
- Décharger libère le modèle et efface la conversation en cours.
Les modèles volumineux peuvent prendre du temps à charger et peuvent échouer si l'appareil ne dispose pas de suffisamment de mémoire libre.
Chat
L'interface principale est une vue de chat standard :
- Tapez une invite et envoyez-la.
- Pendant la diffusion d'une réponse, vous pouvez arrêter la génération.
Instantané de performance
Local AI suit l'utilisation du CPU et de la mémoire pendant que vous utilisez l'outil.
Dans les contrôles étendus (panneau Modèle IA), vous pouvez capturer un instantané de référence et comparer la référence avec l'utilisation CPU/mémoire actuelle.
Exporter la conversation
Utilisez Exporter la conversation pour partager l'historique du chat actuel. La conversation est exportée au format texte Markdown avec des préfixes de rôle (User : et Assistant :) pour chaque message. Vous pouvez ensuite la partager via n'importe quelle méthode standard de partage iOS.
Notes et limitations
- Les modèles sur appareil peuvent utiliser une quantité importante de CPU et de mémoire.
- La disponibilité des modèles, les options de téléchargement et les performances varient selon l'appareil et l'OS.
- Apple Foundation nécessite iOS 26.0+ ou visionOS 26.0+ et un matériel compatible.
- LLM.swift n'est pas disponible sur les builds macOS Catalyst.
- Les modèles volumineux peuvent échouer à se charger si l'appareil ne dispose pas de suffisamment de mémoire libre.
- Le moteur LLM.swift a une limite d'historique de conversation de 8 tours et un délai d'attente de réponse de 2 minutes.