Local AI
Execute modelos de IA locais suportados no dispositivo e converse com eles (a disponibilidade varia).
Visão geral
Local AI fornece uma interface de chat no dispositivo com dois backends:
- Apple Foundation (quando disponível no seu SO/dispositivo)
- LLM.swift (utiliza ficheiros de modelo armazenados localmente)
Mostra também o uso em tempo real da CPU e da memória para que possa ver o custo de carregar e executar um modelo.
Índice
- Início rápido
- Barra de controlo
- Backends
- Biblioteca de modelos
- Carregamento e descarregamento
- Chat
- Instantâneo de desempenho
- Exportar conversa
- Notas e limitações
Início rápido
- Abra Ferramentas -> Local AI.
- Escolha um backend (Apple Foundation ou LLM.swift).
- Toque em Carregar.
- Escreva um prompt e envie-o.
Barra de controlo
No topo do ecrã de chat, a barra de controlo tem três estados de expansão:
Compacta (Predefinida)
Mostra:
- Estado do modelo (não carregado/carregando/carregado/indisponível)
- Menu de seleção do backend
- Seletor de modelo (apenas LLM.swift)
- Botão Carregar / Descarregar
Médio expandido
Toque na barra de controlo para a expandir e revelar indicadores adicionais:
- Medidor em tempo real do uso da CPU
- Medidor em tempo real do uso da memória
Totalmente expandido
Toque novamente para abrir o ecrã de detalhes completo com três cartões:
- Cartão de estado do modelo — mostra o nome do backend, nome do modelo e tamanho do ficheiro (para modelos LLM.swift). Inclui menus de seleção do backend e do modelo.
- Cartão de desempenho — mostra uma comparação "Base" vs "Agora" para uso da CPU e memória. Toque em Capturar base para tirar um instantâneo dos valores atuais e depois observe como o carregamento e execução do modelo alteram o consumo de recursos.
- Cartão de ações — contém Carregar modelo / Descarregar modelo, Nova conversa (limpa mensagens e recarrega), Gerir modelos (abre a Biblioteca de modelos) e Exportar conversa.
A barra de controlo lembra o seu estado de expansão entre sessões.
Backends
Apple Foundation
Apple Foundation utiliza o framework integrado FoundationModels da Apple. Requer iOS 26.0+ ou visionOS 26.0+ e hardware suportado. Se não estiver disponível no seu dispositivo, o Lirum mostra uma mensagem de indisponibilidade. A disponibilidade é verificada sempre que a app passa para o primeiro plano.
LLM.swift
LLM.swift executa ficheiros de modelo GGUF localmente no seu dispositivo. Utiliza o template de mensagens ChatML e transmite respostas token a token à medida que são geradas.
Detalhes técnicos:
- O histórico da conversa é mantido com um limite de 8 turnos — mensagens mais antigas são descartadas para manter o contexto gerível.
- As respostas têm um tempo limite de 2 minutos. Se um modelo não produzir saída nesse tempo, é exibido um erro.
- Tokens especiais do modelo (como marcadores
<|...|>) são automaticamente removidos das respostas. - Se ocorrer um erro de cache KV, o Lirum mostra uma mensagem de diagnóstico específica.
Biblioteca de modelos
Abra a Biblioteca de modelos a partir do menu da barra de ferramentas para descarregar, gerir e selecionar modelos. A biblioteca tem três secções:
Modelos instalados
Lista todas as pastas de modelos descarregados com o seu nome, contagem de ficheiros e tamanho total. Pode:
- Selecionar um modelo para o usar com LLM.swift.
- Importar um ficheiro GGUF a partir da app Ficheiros do iOS.
- Entrar em modo de seleção para exportar ou eliminar vários modelos em lote.
Catálogo
Uma lista selecionada de modelos incluídos na app. Cada entrada mostra o nome do modelo, contagem de parâmetros e etiquetas coloridas indicando características:
| Etiqueta | Significado |
|---|---|
| Chat | Modelo conversacional de uso geral |
| Instructions | Ajustado para seguir instruções |
| Reasoning | Projetado para raciocínio passo a passo |
| Coding | Otimizado para geração de código |
| Recommended | Testado e funciona bem no dispositivo |
| Fast | Gera respostas rapidamente |
| Slow | Pode ser lento em alguns dispositivos |
| Tested | Verificado para funcionar no Lirum |
| Experimental | Pode produzir resultados inconsistentes |
| Untested | Ainda não verificado |
Ordene o catálogo por Predefinido, Alfabético, Data (Mais recente/mais antigo primeiro) ou Parâmetros (Maior/menor primeiro).
Descarregamentos ativos
Mostra quaisquer modelos a descarregar atualmente com:
- Progresso do descarregamento (percentagem, velocidade em MB/s, tempo estimado restante)
- Controlo de Abortar e Retomar
Entrada manual de modelo
Também pode adicionar modelos manualmente de duas formas:
- Importar a partir de Ficheiros — abre o seletor de ficheiros iOS para ficheiros GGUF e copia-os com uma exibição de progresso.
- Descarregamento manual por URL — insira uma URL direta de descarregamento juntamente com nome do modelo, quantização e contagem de parâmetros. Os campos podem ser preenchidos automaticamente a partir do catálogo ou analisados a partir do nome do ficheiro.
Carregamento e descarregamento
- Carregar inicializa o backend/modelo selecionado.
- Descarregar liberta o modelo e limpa a conversa atual.
Modelos grandes podem demorar a carregar e podem falhar se o dispositivo não tiver memória livre suficiente.
Chat
A interface principal é uma vista de chat padrão:
- Escreva um prompt e envie-o.
- Enquanto uma resposta está a ser transmitida, pode parar a geração.
Instantâneo de desempenho
Local AI acompanha o uso da CPU e da memória enquanto utiliza a ferramenta.
Nos controlos expandidos (painel Modelo AI), pode capturar um instantâneo de base e comparar a base com o uso atual da CPU/memória.
Exportar conversa
Use Exportar conversa para partilhar o histórico atual do chat. A conversa é exportada como texto Markdown com prefixos de papel (Utilizador: e Assistente:) para cada mensagem. Pode depois partilhá-la através de qualquer método padrão de partilha iOS.
Notas e limitações
- Modelos no dispositivo podem usar CPU e memória significativas.
- A disponibilidade do modelo, opções de descarregamento e desempenho variam consoante o dispositivo e SO.
- Apple Foundation requer iOS 26.0+ ou visionOS 26.0+ e hardware suportado.
- LLM.swift não está disponível em builds macOS Catalyst.
- Modelos grandes podem falhar ao carregar se o dispositivo não tiver memória livre suficiente.
- O backend LLM.swift tem um limite de histórico de conversa de 8 turnos e um tempo limite de resposta de 2 minutos.