Local AI

Execute modelos de IA locais suportados no dispositivo e converse com eles (a disponibilidade varia).

Visão geral

Local AI fornece uma interface de chat no dispositivo com dois backends:

Apple Foundation (quando disponível no seu SO/dispositivo)
LLM.swift (utiliza ficheiros de modelo armazenados localmente)

Mostra também o uso em tempo real da CPU e da memória para que possa ver o custo de carregar e executar um modelo.

Início rápido

Abra Ferramentas -> Local AI.
Escolha um backend (Apple Foundation ou LLM.swift).
Toque em Carregar.
Escreva um prompt e envie-o.

Barra de controlo

No topo do ecrã de chat, a barra de controlo tem três estados de expansão:

Compacta (Predefinida)

Mostra:

Estado do modelo (não carregado/carregando/carregado/indisponível)
Menu de seleção do backend
Seletor de modelo (apenas LLM.swift)
Botão Carregar / Descarregar

Médio expandido

Toque na barra de controlo para a expandir e revelar indicadores adicionais:

Medidor em tempo real do uso da CPU
Medidor em tempo real do uso da memória

Totalmente expandido

Toque novamente para abrir o ecrã de detalhes completo com três cartões:

Cartão de estado do modelo — mostra o nome do backend, nome do modelo e tamanho do ficheiro (para modelos LLM.swift). Inclui menus de seleção do backend e do modelo.
Cartão de desempenho — mostra uma comparação "Base" vs "Agora" para uso da CPU e memória. Toque em Capturar base para tirar um instantâneo dos valores atuais e depois observe como o carregamento e execução do modelo alteram o consumo de recursos.
Cartão de ações — contém Carregar modelo / Descarregar modelo, Nova conversa (limpa mensagens e recarrega), Gerir modelos (abre a Biblioteca de modelos) e Exportar conversa.

A barra de controlo lembra o seu estado de expansão entre sessões.

Local AI com Carregar selecionado na barra de controlo — Toque em Carregar para carregar o backend/modelo selecionado.

Local AI mostrando estado carregado — Quando carregado, a barra de controlo mostra o estado carregado e expõe Descarregar.

Backends

Apple Foundation

Apple Foundation utiliza o framework integrado FoundationModels da Apple. Requer iOS 26.0+ ou visionOS 26.0+ e hardware suportado. Se não estiver disponível no seu dispositivo, o Lirum mostra uma mensagem de indisponibilidade. A disponibilidade é verificada sempre que a app passa para o primeiro plano.

LLM.swift

LLM.swift executa ficheiros de modelo GGUF localmente no seu dispositivo. Utiliza o template de mensagens ChatML e transmite respostas token a token à medida que são geradas.

Detalhes técnicos:

O histórico da conversa é mantido com um limite de 8 turnos — mensagens mais antigas são descartadas para manter o contexto gerível.
As respostas têm um tempo limite de 2 minutos. Se um modelo não produzir saída nesse tempo, é exibido um erro.
Tokens especiais do modelo (como marcadores <|...|>) são automaticamente removidos das respostas.
Se ocorrer um erro de cache KV, o Lirum mostra uma mensagem de diagnóstico específica.

Biblioteca de modelos

Abra a Biblioteca de modelos a partir do menu da barra de ferramentas para descarregar, gerir e selecionar modelos. A biblioteca tem três secções:

Modelos instalados

Lista todas as pastas de modelos descarregados com o seu nome, contagem de ficheiros e tamanho total. Pode:

Selecionar um modelo para o usar com LLM.swift.
Importar um ficheiro GGUF a partir da app Ficheiros do iOS.
Entrar em modo de seleção para exportar ou eliminar vários modelos em lote.

Catálogo

Uma lista selecionada de modelos incluídos na app. Cada entrada mostra o nome do modelo, contagem de parâmetros e etiquetas coloridas indicando características:

Etiqueta	Significado
Chat	Modelo conversacional de uso geral
Instructions	Ajustado para seguir instruções
Reasoning	Projetado para raciocínio passo a passo
Coding	Otimizado para geração de código
Recommended	Testado e funciona bem no dispositivo
Fast	Gera respostas rapidamente
Slow	Pode ser lento em alguns dispositivos
Tested	Verificado para funcionar no Lirum
Experimental	Pode produzir resultados inconsistentes
Untested	Ainda não verificado

Ordene o catálogo por Predefinido, Alfabético, Data (Mais recente/mais antigo primeiro) ou Parâmetros (Maior/menor primeiro).

Descarregamentos ativos

Mostra quaisquer modelos a descarregar atualmente com:

Progresso do descarregamento (percentagem, velocidade em MB/s, tempo estimado restante)
Controlo de Abortar e Retomar

Entrada manual de modelo

Também pode adicionar modelos manualmente de duas formas:

Importar a partir de Ficheiros — abre o seletor de ficheiros iOS para ficheiros GGUF e copia-os com uma exibição de progresso.
Descarregamento manual por URL — insira uma URL direta de descarregamento juntamente com nome do modelo, quantização e contagem de parâmetros. Os campos podem ser preenchidos automaticamente a partir do catálogo ou analisados a partir do nome do ficheiro.

Folha da Biblioteca de modelos — Biblioteca de modelos: gerir e selecionar modelos locais para o backend LLM.swift.

Ecrã de detalhes do modelo Local AI — Detalhes e ações do modelo (varia consoante modelo/backend).

Carregamento e descarregamento

Carregar inicializa o backend/modelo selecionado.
Descarregar liberta o modelo e limpa a conversa atual.

Modelos grandes podem demorar a carregar e podem falhar se o dispositivo não tiver memória livre suficiente.

Chat

A interface principal é uma vista de chat padrão:

Escreva um prompt e envie-o.
Enquanto uma resposta está a ser transmitida, pode parar a geração.

Prompt inserido no chat Local AI — Insira um prompt no compositor de chat.

Prompt enviado no chat Local AI — Após enviar, o assistente começa a gerar uma resposta.

Resposta recebida no chat Local AI — Exemplo de resposta mostrada no histórico do chat.

Instantâneo de desempenho

Local AI acompanha o uso da CPU e da memória enquanto utiliza a ferramenta.

Nos controlos expandidos (painel Modelo AI), pode capturar um instantâneo de base e comparar a base com o uso atual da CPU/memória.

Exportar conversa

Use Exportar conversa para partilhar o histórico atual do chat. A conversa é exportada como texto Markdown com prefixos de papel (Utilizador: e Assistente:) para cada mensagem. Pode depois partilhá-la através de qualquer método padrão de partilha iOS.

Notas e limitações

Modelos no dispositivo podem usar CPU e memória significativas.
A disponibilidade do modelo, opções de descarregamento e desempenho variam consoante o dispositivo e SO.
Apple Foundation requer iOS 26.0+ ou visionOS 26.0+ e hardware suportado.
LLM.swift não está disponível em builds macOS Catalyst.
Modelos grandes podem falhar ao carregar se o dispositivo não tiver memória livre suficiente.
O backend LLM.swift tem um limite de histórico de conversa de 8 turnos e um tempo limite de resposta de 2 minutos.

Visão geral​

Índice​

Início rápido​

Barra de controlo​

Compacta (Predefinida)​

Médio expandido​

Totalmente expandido​

Backends​

Apple Foundation​

LLM.swift​

Biblioteca de modelos​

Modelos instalados​

Catálogo​

Descarregamentos ativos​

Entrada manual de modelo​

Carregamento e descarregamento​

Chat​

Instantâneo de desempenho​

Exportar conversa​

Notas e limitações​