Saltar para o conteúdo principal

Local AI

Execute modelos de IA locais suportados no dispositivo e converse com eles (a disponibilidade varia).

Local AI: vista de chat com uma barra de controlo compacta.

Visão geral

Local AI fornece uma interface de chat no dispositivo com dois backends:

  • Apple Foundation (quando disponível no seu SO/dispositivo)
  • LLM.swift (utiliza ficheiros de modelo armazenados localmente)

Mostra também o uso em tempo real da CPU e da memória para que possa ver o custo de carregar e executar um modelo.

Índice

Início rápido

  1. Abra Ferramentas -> Local AI.
  2. Escolha um backend (Apple Foundation ou LLM.swift).
  3. Toque em Carregar.
  4. Escreva um prompt e envie-o.

Barra de controlo

No topo do ecrã de chat, a barra de controlo tem três estados de expansão:

Compacta (Predefinida)

Mostra:

  • Estado do modelo (não carregado/carregando/carregado/indisponível)
  • Menu de seleção do backend
  • Seletor de modelo (apenas LLM.swift)
  • Botão Carregar / Descarregar

Médio expandido

Toque na barra de controlo para a expandir e revelar indicadores adicionais:

  • Medidor em tempo real do uso da CPU
  • Medidor em tempo real do uso da memória

Totalmente expandido

Toque novamente para abrir o ecrã de detalhes completo com três cartões:

  • Cartão de estado do modelo — mostra o nome do backend, nome do modelo e tamanho do ficheiro (para modelos LLM.swift). Inclui menus de seleção do backend e do modelo.
  • Cartão de desempenho — mostra uma comparação "Base" vs "Agora" para uso da CPU e memória. Toque em Capturar base para tirar um instantâneo dos valores atuais e depois observe como o carregamento e execução do modelo alteram o consumo de recursos.
  • Cartão de ações — contém Carregar modelo / Descarregar modelo, Nova conversa (limpa mensagens e recarrega), Gerir modelos (abre a Biblioteca de modelos) e Exportar conversa.

A barra de controlo lembra o seu estado de expansão entre sessões.

Toque em Carregar para carregar o backend/modelo selecionado.
Quando carregado, a barra de controlo mostra o estado carregado e expõe Descarregar.

Backends

Apple Foundation

Apple Foundation utiliza o framework integrado FoundationModels da Apple. Requer iOS 26.0+ ou visionOS 26.0+ e hardware suportado. Se não estiver disponível no seu dispositivo, o Lirum mostra uma mensagem de indisponibilidade. A disponibilidade é verificada sempre que a app passa para o primeiro plano.

LLM.swift

LLM.swift executa ficheiros de modelo GGUF localmente no seu dispositivo. Utiliza o template de mensagens ChatML e transmite respostas token a token à medida que são geradas.

Detalhes técnicos:

  • O histórico da conversa é mantido com um limite de 8 turnos — mensagens mais antigas são descartadas para manter o contexto gerível.
  • As respostas têm um tempo limite de 2 minutos. Se um modelo não produzir saída nesse tempo, é exibido um erro.
  • Tokens especiais do modelo (como marcadores <|...|>) são automaticamente removidos das respostas.
  • Se ocorrer um erro de cache KV, o Lirum mostra uma mensagem de diagnóstico específica.

Biblioteca de modelos

Abra a Biblioteca de modelos a partir do menu da barra de ferramentas para descarregar, gerir e selecionar modelos. A biblioteca tem três secções:

Modelos instalados

Lista todas as pastas de modelos descarregados com o seu nome, contagem de ficheiros e tamanho total. Pode:

  • Selecionar um modelo para o usar com LLM.swift.
  • Importar um ficheiro GGUF a partir da app Ficheiros do iOS.
  • Entrar em modo de seleção para exportar ou eliminar vários modelos em lote.

Catálogo

Uma lista selecionada de modelos incluídos na app. Cada entrada mostra o nome do modelo, contagem de parâmetros e etiquetas coloridas indicando características:

EtiquetaSignificado
ChatModelo conversacional de uso geral
InstructionsAjustado para seguir instruções
ReasoningProjetado para raciocínio passo a passo
CodingOtimizado para geração de código
RecommendedTestado e funciona bem no dispositivo
FastGera respostas rapidamente
SlowPode ser lento em alguns dispositivos
TestedVerificado para funcionar no Lirum
ExperimentalPode produzir resultados inconsistentes
UntestedAinda não verificado

Ordene o catálogo por Predefinido, Alfabético, Data (Mais recente/mais antigo primeiro) ou Parâmetros (Maior/menor primeiro).

Descarregamentos ativos

Mostra quaisquer modelos a descarregar atualmente com:

  • Progresso do descarregamento (percentagem, velocidade em MB/s, tempo estimado restante)
  • Controlo de Abortar e Retomar

Entrada manual de modelo

Também pode adicionar modelos manualmente de duas formas:

  • Importar a partir de Ficheiros — abre o seletor de ficheiros iOS para ficheiros GGUF e copia-os com uma exibição de progresso.
  • Descarregamento manual por URL — insira uma URL direta de descarregamento juntamente com nome do modelo, quantização e contagem de parâmetros. Os campos podem ser preenchidos automaticamente a partir do catálogo ou analisados a partir do nome do ficheiro.
Biblioteca de modelos: gerir e selecionar modelos locais para o backend LLM.swift.
Detalhes e ações do modelo (varia consoante modelo/backend).

Carregamento e descarregamento

  • Carregar inicializa o backend/modelo selecionado.
  • Descarregar liberta o modelo e limpa a conversa atual.

Modelos grandes podem demorar a carregar e podem falhar se o dispositivo não tiver memória livre suficiente.

Chat

A interface principal é uma vista de chat padrão:

  • Escreva um prompt e envie-o.
  • Enquanto uma resposta está a ser transmitida, pode parar a geração.
Insira um prompt no compositor de chat.
Após enviar, o assistente começa a gerar uma resposta.
Exemplo de resposta mostrada no histórico do chat.

Instantâneo de desempenho

Local AI acompanha o uso da CPU e da memória enquanto utiliza a ferramenta.

Nos controlos expandidos (painel Modelo AI), pode capturar um instantâneo de base e comparar a base com o uso atual da CPU/memória.

Exportar conversa

Use Exportar conversa para partilhar o histórico atual do chat. A conversa é exportada como texto Markdown com prefixos de papel (Utilizador: e Assistente:) para cada mensagem. Pode depois partilhá-la através de qualquer método padrão de partilha iOS.

Notas e limitações

  • Modelos no dispositivo podem usar CPU e memória significativas.
  • A disponibilidade do modelo, opções de descarregamento e desempenho variam consoante o dispositivo e SO.
  • Apple Foundation requer iOS 26.0+ ou visionOS 26.0+ e hardware suportado.
  • LLM.swift não está disponível em builds macOS Catalyst.
  • Modelos grandes podem falhar ao carregar se o dispositivo não tiver memória livre suficiente.
  • O backend LLM.swift tem um limite de histórico de conversa de 8 turnos e um tempo limite de resposta de 2 minutos.