Local AI
Esegui modelli AI locali supportati direttamente sul dispositivo e chatta con essi (la disponibilità può variare).
Panoramica
Local AI offre un'interfaccia chat sul dispositivo con due backend:
- Apple Foundation (quando disponibile su sistema operativo/dispositivo)
- LLM.swift (utilizza file modello archiviati localmente)
Mostra inoltre l'utilizzo in tempo reale di CPU e memoria, così puoi vedere il costo di caricamento ed esecuzione di un modello.
Indice
- Avvio rapido
- Barra di controllo
- Backend
- Libreria modelli
- Caricamento e scaricamento
- Chat
- Snapshot prestazioni
- Esporta conversazione
- Note e limitazioni
Avvio rapido
- Apri Strumenti -> Local AI.
- Scegli un backend (Apple Foundation o LLM.swift).
- Tocca Carica.
- Digita un prompt e invialo.
Barra di controllo
Nella parte superiore della schermata chat, la barra di controllo ha tre stati di espansione:
Compatta (Predefinita)
Mostra:
- Stato del modello (non caricato/in caricamento/caricato/non disponibile)
- Menu di selezione backend
- Selettore modello (solo LLM.swift)
- Pulsante Carica / Scarica
Espansa intermedia
Tocca la barra di controllo per espanderla e visualizzare indicatori aggiuntivi:
- Indicatore in tempo reale di utilizzo CPU
- Indicatore in tempo reale di utilizzo memoria
Espansa completa
Tocca nuovamente per aprire la schermata dettagliata con tre schede:
- Scheda stato modello -- mostra il nome del backend, il nome del modello e la dimensione del file (per modelli LLM.swift). Include i menu di selezione backend e selettore modello.
- Scheda prestazioni -- mostra un confronto "Baseline" vs "Attuale" per utilizzo di CPU e memoria. Tocca Cattura baseline per salvare uno snapshot dei valori correnti, poi osserva come il caricamento e l'esecuzione del modello modificano il consumo di risorse.
- Scheda azioni -- contiene Carica modello / Scarica modello, Nuova conversazione (cancella i messaggi e ricarica), Gestisci modelli (apre la Libreria modelli) ed Esporta conversazione.
La barra di controllo ricorda lo stato di espansione tra una sessione e l'altra.
Backend
Apple Foundation
Apple Foundation utilizza il framework integrato di Apple FoundationModels. Richiede iOS 26.0+ o visionOS 26.0+ e hardware supportato. Se non è disponibile sul tuo dispositivo, Lirum mostra un messaggio di non disponibilit à. La disponibilità viene ricontrollata ogni volta che l'app torna in primo piano.
LLM.swift
LLM.swift esegue file modello GGUF localmente sul dispositivo. Utilizza il template messaggi ChatML e trasmette le risposte token per token man mano che vengono generate.
Dettagli tecnici:
- La cronologia della conversazione è mantenuta con un limite di 8 turni -- i messaggi più vecchi vengono eliminati per mantenere il contesto gestibile.
- Le risposte hanno un timeout di 2 minuti. Se un modello non produce output entro tale tempo, viene mostrato un errore.
- I token speciali del modello (come i marcatori
<|...|>) vengono automaticamente rimossi dalle risposte. - In caso di errore KV cache, Lirum mostra un messaggio diagnostico specifico.
Libreria modelli
Apri la Libreria modelli dal menu della barra degli strumenti per scaricare, gestire e selezionare i modelli. La libreria è suddivisa in tre sezioni:
Modelli installati
Elenca tutte le cartelle modello scaricate con nome, numero di file e dimensione totale. Puoi:
- Selezionare un modello per usarlo con LLM.swift.
- Importare un file GGUF dall'app File di iOS.
- Entrare in modalità selezione per esportare o eliminare in batch più modelli contemporaneamente.
Catalogo
Un elenco curato di modelli inclusi nell'app. Ogni voce mostra il nome del modello, il numero di parametri e tag colorati che indicano le caratteristiche:
| Tag | Significato |
|---|---|
| Chat | Modello conversazionale generico |
| Instructions | Ottimizzato per seguire istruzioni |
| Reasoning | Progettato per ragionamento step-by-step |
| Coding | Ottimizzato per generazione di codice |
| Recommended | Testato e funziona bene sul dispositivo |
| Fast | Genera risposte rapidamente |
| Slow | Potrebbe essere lento su alcuni dispositivi |
| Tested | Verificato per funzionare in Lirum |
| Experimental | Potrebbe produrre risultati incoerenti |
| Untested | Non ancora verificato |
Ordina il catalogo per Predefinito, Alfabetico, Data (più recente/più vecchio) o Parametri (più grande/più piccolo).
Download attivi
Mostra eventuali modelli in fase di download con:
- Avanzamento download (percentuale, velocità in MB/s, tempo stimato rimanente)
- Controlli Annulla e Riprendi
Inserimento manuale modello
Puoi anche aggiungere modelli manualmente in due modi:
- Importa da File -- apre il selettore file di iOS per file GGUF e li copia mostrando l'avanzamento.
- Download manuale da URL -- inserisci un URL di download diretto insieme a nome modello, quantizzazione e numero di parametri. I campi possono essere compilati automaticamente dal catalogo o analizzati dal nome file.
Caricamento e scaricamento
- Carica inizializza il backend/modello selezionato.
- Scarica rilascia il modello e cancella la conversazione corrente.
I modelli di grandi dimensioni possono richiedere tempo per essere caricati e potrebbero non caricarsi se il dispositivo non ha memoria libera sufficiente.
Chat
L'interfaccia principale è una classica vista chat:
- Digita un prompt e invialo.
- Durante la generazione della risposta, puoi interrompere la generazione.
Snapshot prestazioni
Local AI monitora l'utilizzo di CPU e memoria mentre utilizzi lo strumento.
Nei controlli espansi (pannello Modello AI), puoi catturare uno snapshot baseline e confrontare baseline e valori attuali di CPU/memoria.
Esporta conversazione
Utilizza Esporta conversazione per condividere la cronologia chat corrente. La conversazione viene esportata come testo Markdown con prefissi di ruolo (Utente: e Assistente:) per ogni messaggio. Puoi poi condividerla tramite qualsiasi metodo di condivisione standard di iOS.
Note e limitazioni
- I modelli sul dispositivo possono utilizzare quantità significative di CPU e memoria.
- Disponibilità dei modelli, opzioni di download e prestazioni variano in base a dispositivo e sistema operativo.
- Apple Foundation richiede iOS 26.0+ o visionOS 26.0+ e hardware supportato.
- LLM.swift non è disponibile nelle build macOS Catalyst.
- I modelli di grandi dimensioni potrebbero non caricarsi se il dispositivo non ha memoria libera sufficiente.
- Il backend LLM.swift ha un limite di 8 turni nella cronologia conversazione e un timeout di risposta di 2 minuti.