Passa al contenuto principale

Local AI

Esegui modelli AI locali supportati direttamente sul dispositivo e chatta con essi (la disponibilità può variare).

Local AI: vista chat con una barra di controllo compatta.

Panoramica

Local AI offre un'interfaccia chat sul dispositivo con due backend:

  • Apple Foundation (quando disponibile su sistema operativo/dispositivo)
  • LLM.swift (utilizza file modello archiviati localmente)

Mostra inoltre l'utilizzo in tempo reale di CPU e memoria, così puoi vedere il costo di caricamento ed esecuzione di un modello.

Indice

Avvio rapido

  1. Apri Strumenti -> Local AI.
  2. Scegli un backend (Apple Foundation o LLM.swift).
  3. Tocca Carica.
  4. Digita un prompt e invialo.

Barra di controllo

Nella parte superiore della schermata chat, la barra di controllo ha tre stati di espansione:

Compatta (Predefinita)

Mostra:

  • Stato del modello (non caricato/in caricamento/caricato/non disponibile)
  • Menu di selezione backend
  • Selettore modello (solo LLM.swift)
  • Pulsante Carica / Scarica

Espansa intermedia

Tocca la barra di controllo per espanderla e visualizzare indicatori aggiuntivi:

  • Indicatore in tempo reale di utilizzo CPU
  • Indicatore in tempo reale di utilizzo memoria

Espansa completa

Tocca nuovamente per aprire la schermata dettagliata con tre schede:

  • Scheda stato modello -- mostra il nome del backend, il nome del modello e la dimensione del file (per modelli LLM.swift). Include i menu di selezione backend e selettore modello.
  • Scheda prestazioni -- mostra un confronto "Baseline" vs "Attuale" per utilizzo di CPU e memoria. Tocca Cattura baseline per salvare uno snapshot dei valori correnti, poi osserva come il caricamento e l'esecuzione del modello modificano il consumo di risorse.
  • Scheda azioni -- contiene Carica modello / Scarica modello, Nuova conversazione (cancella i messaggi e ricarica), Gestisci modelli (apre la Libreria modelli) ed Esporta conversazione.

La barra di controllo ricorda lo stato di espansione tra una sessione e l'altra.

Tocca Carica per caricare il backend/modello selezionato.
Quando caricato, la barra di controllo mostra lo stato caricato e consente Scarica.

Backend

Apple Foundation

Apple Foundation utilizza il framework integrato di Apple FoundationModels. Richiede iOS 26.0+ o visionOS 26.0+ e hardware supportato. Se non è disponibile sul tuo dispositivo, Lirum mostra un messaggio di non disponibilità. La disponibilità viene ricontrollata ogni volta che l'app torna in primo piano.

LLM.swift

LLM.swift esegue file modello GGUF localmente sul dispositivo. Utilizza il template messaggi ChatML e trasmette le risposte token per token man mano che vengono generate.

Dettagli tecnici:

  • La cronologia della conversazione è mantenuta con un limite di 8 turni -- i messaggi più vecchi vengono eliminati per mantenere il contesto gestibile.
  • Le risposte hanno un timeout di 2 minuti. Se un modello non produce output entro tale tempo, viene mostrato un errore.
  • I token speciali del modello (come i marcatori <|...|>) vengono automaticamente rimossi dalle risposte.
  • In caso di errore KV cache, Lirum mostra un messaggio diagnostico specifico.

Libreria modelli

Apri la Libreria modelli dal menu della barra degli strumenti per scaricare, gestire e selezionare i modelli. La libreria è suddivisa in tre sezioni:

Modelli installati

Elenca tutte le cartelle modello scaricate con nome, numero di file e dimensione totale. Puoi:

  • Selezionare un modello per usarlo con LLM.swift.
  • Importare un file GGUF dall'app File di iOS.
  • Entrare in modalità selezione per esportare o eliminare in batch più modelli contemporaneamente.

Catalogo

Un elenco curato di modelli inclusi nell'app. Ogni voce mostra il nome del modello, il numero di parametri e tag colorati che indicano le caratteristiche:

TagSignificato
ChatModello conversazionale generico
InstructionsOttimizzato per seguire istruzioni
ReasoningProgettato per ragionamento step-by-step
CodingOttimizzato per generazione di codice
RecommendedTestato e funziona bene sul dispositivo
FastGenera risposte rapidamente
SlowPotrebbe essere lento su alcuni dispositivi
TestedVerificato per funzionare in Lirum
ExperimentalPotrebbe produrre risultati incoerenti
UntestedNon ancora verificato

Ordina il catalogo per Predefinito, Alfabetico, Data (più recente/più vecchio) o Parametri (più grande/più piccolo).

Download attivi

Mostra eventuali modelli in fase di download con:

  • Avanzamento download (percentuale, velocità in MB/s, tempo stimato rimanente)
  • Controlli Annulla e Riprendi

Inserimento manuale modello

Puoi anche aggiungere modelli manualmente in due modi:

  • Importa da File -- apre il selettore file di iOS per file GGUF e li copia mostrando l'avanzamento.
  • Download manuale da URL -- inserisci un URL di download diretto insieme a nome modello, quantizzazione e numero di parametri. I campi possono essere compilati automaticamente dal catalogo o analizzati dal nome file.
Libreria modelli: gestisci e seleziona modelli locali per il backend LLM.swift.
Dettagli e azioni del modello (variano in base a modello/backend).

Caricamento e scaricamento

  • Carica inizializza il backend/modello selezionato.
  • Scarica rilascia il modello e cancella la conversazione corrente.

I modelli di grandi dimensioni possono richiedere tempo per essere caricati e potrebbero non caricarsi se il dispositivo non ha memoria libera sufficiente.

Chat

L'interfaccia principale è una classica vista chat:

  • Digita un prompt e invialo.
  • Durante la generazione della risposta, puoi interrompere la generazione.
Inserisci un prompt nel compositore della chat.
Dopo l'invio, l'assistente inizia a generare una risposta.
Esempio di risposta mostrata nella cronologia chat.

Snapshot prestazioni

Local AI monitora l'utilizzo di CPU e memoria mentre utilizzi lo strumento.

Nei controlli espansi (pannello Modello AI), puoi catturare uno snapshot baseline e confrontare baseline e valori attuali di CPU/memoria.

Esporta conversazione

Utilizza Esporta conversazione per condividere la cronologia chat corrente. La conversazione viene esportata come testo Markdown con prefissi di ruolo (Utente: e Assistente:) per ogni messaggio. Puoi poi condividerla tramite qualsiasi metodo di condivisione standard di iOS.

Note e limitazioni

  • I modelli sul dispositivo possono utilizzare quantità significative di CPU e memoria.
  • Disponibilità dei modelli, opzioni di download e prestazioni variano in base a dispositivo e sistema operativo.
  • Apple Foundation richiede iOS 26.0+ o visionOS 26.0+ e hardware supportato.
  • LLM.swift non è disponibile nelle build macOS Catalyst.
  • I modelli di grandi dimensioni potrebbero non caricarsi se il dispositivo non ha memoria libera sufficiente.
  • Il backend LLM.swift ha un limite di 8 turni nella cronologia conversazione e un timeout di risposta di 2 minuti.