Local AI

Esegui modelli AI locali supportati direttamente sul dispositivo e chatta con essi (la disponibilità può variare).

Panoramica

Local AI offre un'interfaccia chat sul dispositivo con due backend:

Apple Foundation (quando disponibile su sistema operativo/dispositivo)
LLM.swift (utilizza file modello archiviati localmente)

Mostra inoltre l'utilizzo in tempo reale di CPU e memoria, così puoi vedere il costo di caricamento ed esecuzione di un modello.

Avvio rapido

Apri Strumenti -> Local AI.
Scegli un backend (Apple Foundation o LLM.swift).
Tocca Carica.
Digita un prompt e invialo.

Barra di controllo

Nella parte superiore della schermata chat, la barra di controllo ha tre stati di espansione:

Compatta (Predefinita)

Mostra:

Stato del modello (non caricato/in caricamento/caricato/non disponibile)
Menu di selezione backend
Selettore modello (solo LLM.swift)
Pulsante Carica / Scarica

Espansa intermedia

Tocca la barra di controllo per espanderla e visualizzare indicatori aggiuntivi:

Indicatore in tempo reale di utilizzo CPU
Indicatore in tempo reale di utilizzo memoria

Espansa completa

Tocca nuovamente per aprire la schermata dettagliata con tre schede:

Scheda stato modello -- mostra il nome del backend, il nome del modello e la dimensione del file (per modelli LLM.swift). Include i menu di selezione backend e selettore modello.
Scheda prestazioni -- mostra un confronto "Baseline" vs "Attuale" per utilizzo di CPU e memoria. Tocca Cattura baseline per salvare uno snapshot dei valori correnti, poi osserva come il caricamento e l'esecuzione del modello modificano il consumo di risorse.
Scheda azioni -- contiene Carica modello / Scarica modello, Nuova conversazione (cancella i messaggi e ricarica), Gestisci modelli (apre la Libreria modelli) ed Esporta conversazione.

La barra di controllo ricorda lo stato di espansione tra una sessione e l'altra.

Local AI con Carica selezionato nella barra di controllo — Tocca Carica per caricare il backend/modello selezionato.

Local AI che mostra lo stato caricato — Quando caricato, la barra di controllo mostra lo stato caricato e consente Scarica.

Backend

Apple Foundation

Apple Foundation utilizza il framework integrato di Apple FoundationModels. Richiede iOS 26.0+ o visionOS 26.0+ e hardware supportato. Se non è disponibile sul tuo dispositivo, Lirum mostra un messaggio di non disponibilità. La disponibilità viene ricontrollata ogni volta che l'app torna in primo piano.

LLM.swift

LLM.swift esegue file modello GGUF localmente sul dispositivo. Utilizza il template messaggi ChatML e trasmette le risposte token per token man mano che vengono generate.

Dettagli tecnici:

La cronologia della conversazione è mantenuta con un limite di 8 turni -- i messaggi più vecchi vengono eliminati per mantenere il contesto gestibile.
Le risposte hanno un timeout di 2 minuti. Se un modello non produce output entro tale tempo, viene mostrato un errore.
I token speciali del modello (come i marcatori <|...|>) vengono automaticamente rimossi dalle risposte.
In caso di errore KV cache, Lirum mostra un messaggio diagnostico specifico.

Libreria modelli

Apri la Libreria modelli dal menu della barra degli strumenti per scaricare, gestire e selezionare i modelli. La libreria è suddivisa in tre sezioni:

Modelli installati

Elenca tutte le cartelle modello scaricate con nome, numero di file e dimensione totale. Puoi:

Selezionare un modello per usarlo con LLM.swift.
Importare un file GGUF dall'app File di iOS.
Entrare in modalità selezione per esportare o eliminare in batch più modelli contemporaneamente.

Catalogo

Un elenco curato di modelli inclusi nell'app. Ogni voce mostra il nome del modello, il numero di parametri e tag colorati che indicano le caratteristiche:

Tag	Significato
Chat	Modello conversazionale generico
Instructions	Ottimizzato per seguire istruzioni
Reasoning	Progettato per ragionamento step-by-step
Coding	Ottimizzato per generazione di codice
Recommended	Testato e funziona bene sul dispositivo
Fast	Genera risposte rapidamente
Slow	Potrebbe essere lento su alcuni dispositivi
Tested	Verificato per funzionare in Lirum
Experimental	Potrebbe produrre risultati incoerenti
Untested	Non ancora verificato

Ordina il catalogo per Predefinito, Alfabetico, Data (più recente/più vecchio) o Parametri (più grande/più piccolo).

Download attivi

Mostra eventuali modelli in fase di download con:

Avanzamento download (percentuale, velocità in MB/s, tempo stimato rimanente)
Controlli Annulla e Riprendi

Inserimento manuale modello

Puoi anche aggiungere modelli manualmente in due modi:

Importa da File -- apre il selettore file di iOS per file GGUF e li copia mostrando l'avanzamento.
Download manuale da URL -- inserisci un URL di download diretto insieme a nome modello, quantizzazione e numero di parametri. I campi possono essere compilati automaticamente dal catalogo o analizzati dal nome file.

Finestra Libreria modelli — Libreria modelli: gestisci e seleziona modelli locali per il backend LLM.swift.

Schermata dettagli modello Local AI — Dettagli e azioni del modello (variano in base a modello/backend).

Caricamento e scaricamento

Carica inizializza il backend/modello selezionato.
Scarica rilascia il modello e cancella la conversazione corrente.

I modelli di grandi dimensioni possono richiedere tempo per essere caricati e potrebbero non caricarsi se il dispositivo non ha memoria libera sufficiente.

Chat

L'interfaccia principale è una classica vista chat:

Digita un prompt e invialo.
Durante la generazione della risposta, puoi interrompere la generazione.

Prompt inserito nella chat di Local AI — Inserisci un prompt nel compositore della chat.

Prompt inviato nella chat di Local AI — Dopo l'invio, l'assistente inizia a generare una risposta.

Risposta ricevuta nella chat di Local AI — Esempio di risposta mostrata nella cronologia chat.

Snapshot prestazioni

Local AI monitora l'utilizzo di CPU e memoria mentre utilizzi lo strumento.

Nei controlli espansi (pannello Modello AI), puoi catturare uno snapshot baseline e confrontare baseline e valori attuali di CPU/memoria.

Esporta conversazione

Utilizza Esporta conversazione per condividere la cronologia chat corrente. La conversazione viene esportata come testo Markdown con prefissi di ruolo (Utente: e Assistente:) per ogni messaggio. Puoi poi condividerla tramite qualsiasi metodo di condivisione standard di iOS.

Note e limitazioni

I modelli sul dispositivo possono utilizzare quantità significative di CPU e memoria.
Disponibilità dei modelli, opzioni di download e prestazioni variano in base a dispositivo e sistema operativo.
Apple Foundation richiede iOS 26.0+ o visionOS 26.0+ e hardware supportato.
LLM.swift non è disponibile nelle build macOS Catalyst.
I modelli di grandi dimensioni potrebbero non caricarsi se il dispositivo non ha memoria libera sufficiente.
Il backend LLM.swift ha un limite di 8 turni nella cronologia conversazione e un timeout di risposta di 2 minuti.

Panoramica​

Indice​

Avvio rapido​

Barra di controllo​

Compatta (Predefinita)​

Espansa intermedia​

Espansa completa​

Backend​

Apple Foundation​

LLM.swift​

Libreria modelli​

Modelli installati​

Catalogo​

Download attivi​

Inserimento manuale modello​

Caricamento e scaricamento​

Chat​

Snapshot prestazioni​

Esporta conversazione​

Note e limitazioni​