Pular para o conteúdo principal

IA Local

Execute modelos de IA local suportados no dispositivo e converse com eles (disponibilidade varia).

IA Local: visualização de chat com barra de controle compacta.

Visão geral

IA Local fornece uma interface de chat no dispositivo com dois backends:

  • Apple Foundation (quando disponível no seu sistema operacional/dispositivo)
  • LLM.swift (usa arquivos de modelo armazenados localmente)

Também mostra uso de CPU e memória em tempo real para que você possa ver o custo de carregar e executar um modelo.

Sumário

Início Rápido

  1. Abra Ferramentas -> IA Local.
  2. Escolha um backend (Apple Foundation ou LLM.swift).
  3. Toque em Carregar.
  4. Digite um prompt e envie.

Barra de Controle

No topo da tela de chat, a barra de controle tem três estados de expansão:

Compacto (Padrão)

Mostra:

  • Status do modelo (descarregado/carregando/carregado/indisponível)
  • Menu de seleção de backend
  • Seletor de modelo (apenas LLM.swift)
  • Botão Carregar / Descarregar

Expansão Intermediária

Toque na barra de controle para expandi-la e revelar indicadores adicionais:

  • Indicador de uso de CPU em tempo real
  • Indicador de uso de memória em tempo real

Expansão Completa

Toque novamente para abrir a tela de detalhes completa com três cartões:

  • Cartão de Status do Modelo -- mostra o nome do backend, nome do modelo e tamanho do arquivo (para modelos LLM.swift). Inclui menus de seleção de backend e seletor de modelo.
  • Cartão de Desempenho -- mostra uma comparação «Linha de Base» vs «Atual» para uso de CPU e memória. Toque em Capturar Linha de Base para registrar os valores atuais, depois observe como carregar e executar um modelo altera o consumo de recursos.
  • Cartão de Ações -- contém Carregar Modelo / Descarregar Modelo, Nova Conversa (limpa mensagens e recarrega), Gerenciar Modelos (abre a Biblioteca de Modelos) e Exportar Conversa.

A barra de controle lembra seu estado de expansão entre sessões.

Toque em Carregar para carregar o backend/modelo selecionado.
Quando carregado, a barra de controle mostra um estado carregado e expõe Descarregar.

Backends

Apple Foundation

Apple Foundation usa o framework FoundationModels integrado da Apple. Requer iOS 26.0+ ou visionOS 26.0+ e hardware suportado. Se não estiver disponível no seu dispositivo, Lirum Device Info mostra uma mensagem de indisponibilidade. A disponibilidade é verificada novamente sempre que o app volta ao primeiro plano.

LLM.swift

LLM.swift executa arquivos de modelo GGUF localmente no seu dispositivo. Usa o template de mensagem ChatML e transmite respostas token por token conforme são geradas.

Detalhes técnicos:

  • O histórico de conversa é mantido com um limite de 8 turnos -- mensagens mais antigas são descartadas para manter o contexto gerenciável.
  • Respostas têm um tempo limite de 2 minutos. Se um modelo não produzir saída dentro desse tempo, um erro é exibido.
  • Tokens especiais do modelo (como marcadores <|...|>) são automaticamente removidos das respostas.
  • Se ocorrer um erro de cache KV, Lirum Device Info mostra uma mensagem de diagnóstico específica.

Biblioteca de Modelos

Abra a Biblioteca de Modelos no menu da barra de ferramentas para baixar, gerenciar e selecionar modelos. A biblioteca tem três seções:

Modelos Instalados

Lista todas as pastas de modelos baixados com nome, contagem de arquivos e tamanho total. Você pode:

  • Selecionar um modelo para usá-lo com LLM.swift.
  • Importar um arquivo GGUF do app Arquivos do iOS.
  • Entrar no modo de seleção para exportar ou excluir múltiplos modelos de uma vez.

Catálogo

Uma lista curada de modelos incluídos com o app. Cada entrada mostra o nome do modelo, contagem de parâmetros e etiquetas coloridas indicando características:

EtiquetaSignificado
ChatModelo conversacional de propósito geral
InstructionsAjustado para seguir instruções
ReasoningProjetado para raciocínio passo a passo
CodingOtimizado para geração de código
RecommendedTestado e funciona bem no dispositivo
FastGera respostas rapidamente
SlowPode ser lento em alguns dispositivos
TestedVerificado para funcionar no Lirum Device Info
ExperimentalPode produzir resultados inconsistentes
UntestedAinda não verificado

Ordene o catálogo por Padrão, Alfabético, Data (Mais Recente/Mais Antigo Primeiro) ou Parâmetros (Maior/Menor Primeiro).

Downloads Ativos

Mostra quaisquer modelos sendo baixados no momento com:

  • Progresso do download (porcentagem, velocidade em MB/s, tempo restante estimado)
  • Controles de Cancelar e Retomar

Entrada Manual de Modelo

Você também pode adicionar modelos manualmente de duas formas:

  • Importar de Arquivos -- abre o seletor de arquivos do iOS para arquivos GGUF e os copia com exibição de progresso.
  • Download por URL manual -- insira uma URL de download direto junto com nome do modelo, quantização e contagem de parâmetros. Os campos podem ser preenchidos automaticamente do catálogo ou parseados do nome do arquivo.
Biblioteca de Modelos: gerencie e selecione modelos locais para o backend LLM.swift.
Detalhes e ações do modelo (varia por modelo/backend).

Carregamento e Descarregamento

  • Carregar inicializa o backend/modelo selecionado.
  • Descarregar libera o modelo e limpa a conversa atual.

Modelos grandes podem levar tempo para carregar e podem falhar se o dispositivo não tiver memória livre suficiente.

Chat

A interface principal é uma visualização de chat padrão:

  • Digite um prompt e envie.
  • Enquanto uma resposta está sendo transmitida, você pode parar a geração.
Insira um prompt no compositor de chat.
Após enviar, o assistente começa a gerar uma resposta.
Exemplo de resposta mostrada no histórico de chat.

Instantâneo de Desempenho

IA Local rastreia uso de CPU e memória enquanto você usa a ferramenta.

Nos controles expandidos (painel Modelo de IA), você pode capturar um instantâneo de linha de base e comparar linha de base vs atual de CPU/memória.

Exportar Conversa

Use Exportar Conversa para compartilhar o histórico de chat atual. A conversa é exportada como texto Markdown com prefixos de papel (Usuário: e Assistente:) para cada mensagem. Você pode então compartilhá-la via qualquer método de compartilhamento padrão do iOS.

Notas e Limitações

  • Modelos no dispositivo podem usar CPU e memória significativas.
  • Disponibilidade de modelos, opções de download e desempenho variam por dispositivo e sistema operacional.
  • Apple Foundation requer iOS 26.0+ ou visionOS 26.0+ e hardware suportado.
  • LLM.swift não está disponível em builds macOS Catalyst.
  • Modelos grandes podem falhar ao carregar se o dispositivo não tiver memória livre suficiente.
  • O backend LLM.swift tem um limite de histórico de conversa de 8 turnos e um tempo limite de resposta de 2 minutos.