IA Local

Execute modelos de IA local suportados no dispositivo e converse com eles (disponibilidade varia).

Visão geral

IA Local fornece uma interface de chat no dispositivo com dois backends:

Apple Foundation (quando disponível no seu sistema operacional/dispositivo)
LLM.swift (usa arquivos de modelo armazenados localmente)

Também mostra uso de CPU e memória em tempo real para que você possa ver o custo de carregar e executar um modelo.

Início Rápido

Abra Ferramentas -> IA Local.
Escolha um backend (Apple Foundation ou LLM.swift).
Toque em Carregar.
Digite um prompt e envie.

Barra de Controle

No topo da tela de chat, a barra de controle tem três estados de expansão:

Compacto (Padrão)

Mostra:

Status do modelo (descarregado/carregando/carregado/indisponível)
Menu de seleção de backend
Seletor de modelo (apenas LLM.swift)
Botão Carregar / Descarregar

Expansão Intermediária

Toque na barra de controle para expandi-la e revelar indicadores adicionais:

Indicador de uso de CPU em tempo real
Indicador de uso de memória em tempo real

Expansão Completa

Toque novamente para abrir a tela de detalhes completa com três cartões:

Cartão de Status do Modelo -- mostra o nome do backend, nome do modelo e tamanho do arquivo (para modelos LLM.swift). Inclui menus de seleção de backend e seletor de modelo.
Cartão de Desempenho -- mostra uma comparação «Linha de Base» vs «Atual» para uso de CPU e memória. Toque em Capturar Linha de Base para registrar os valores atuais, depois observe como carregar e executar um modelo altera o consumo de recursos.
Cartão de Ações -- contém Carregar Modelo / Descarregar Modelo, Nova Conversa (limpa mensagens e recarrega), Gerenciar Modelos (abre a Biblioteca de Modelos) e Exportar Conversa.

A barra de controle lembra seu estado de expansão entre sessões.

IA Local com Carregar tocado na barra de controle — Toque em Carregar para carregar o backend/modelo selecionado.

IA Local mostrando estado carregado — Quando carregado, a barra de controle mostra um estado carregado e expõe Descarregar.

Backends

Apple Foundation

Apple Foundation usa o framework FoundationModels integrado da Apple. Requer iOS 26.0+ ou visionOS 26.0+ e hardware suportado. Se não estiver disponível no seu dispositivo, Lirum Device Info mostra uma mensagem de indisponibilidade. A disponibilidade é verificada novamente sempre que o app volta ao primeiro plano.

LLM.swift

LLM.swift executa arquivos de modelo GGUF localmente no seu dispositivo. Usa o template de mensagem ChatML e transmite respostas token por token conforme são geradas.

Detalhes técnicos:

O histórico de conversa é mantido com um limite de 8 turnos -- mensagens mais antigas são descartadas para manter o contexto gerenciável.
Respostas têm um tempo limite de 2 minutos. Se um modelo não produzir saída dentro desse tempo, um erro é exibido.
Tokens especiais do modelo (como marcadores <|...|>) são automaticamente removidos das respostas.
Se ocorrer um erro de cache KV, Lirum Device Info mostra uma mensagem de diagnóstico específica.

Biblioteca de Modelos

Abra a Biblioteca de Modelos no menu da barra de ferramentas para baixar, gerenciar e selecionar modelos. A biblioteca tem três seções:

Modelos Instalados

Lista todas as pastas de modelos baixados com nome, contagem de arquivos e tamanho total. Você pode:

Selecionar um modelo para usá-lo com LLM.swift.
Importar um arquivo GGUF do app Arquivos do iOS.
Entrar no modo de seleção para exportar ou excluir múltiplos modelos de uma vez.

Catálogo

Uma lista curada de modelos incluídos com o app. Cada entrada mostra o nome do modelo, contagem de parâmetros e etiquetas coloridas indicando características:

Etiqueta	Significado
Chat	Modelo conversacional de propósito geral
Instructions	Ajustado para seguir instruções
Reasoning	Projetado para raciocínio passo a passo
Coding	Otimizado para geração de código
Recommended	Testado e funciona bem no dispositivo
Fast	Gera respostas rapidamente
Slow	Pode ser lento em alguns dispositivos
Tested	Verificado para funcionar no Lirum Device Info
Experimental	Pode produzir resultados inconsistentes
Untested	Ainda não verificado

Ordene o catálogo por Padrão, Alfabético, Data (Mais Recente/Mais Antigo Primeiro) ou Parâmetros (Maior/Menor Primeiro).

Downloads Ativos

Mostra quaisquer modelos sendo baixados no momento com:

Progresso do download (porcentagem, velocidade em MB/s, tempo restante estimado)
Controles de Cancelar e Retomar

Entrada Manual de Modelo

Você também pode adicionar modelos manualmente de duas formas:

Importar de Arquivos -- abre o seletor de arquivos do iOS para arquivos GGUF e os copia com exibição de progresso.
Download por URL manual -- insira uma URL de download direto junto com nome do modelo, quantização e contagem de parâmetros. Os campos podem ser preenchidos automaticamente do catálogo ou parseados do nome do arquivo.

Tela da Biblioteca de Modelos — Biblioteca de Modelos: gerencie e selecione modelos locais para o backend LLM.swift.

Tela de detalhes do modelo de IA Local — Detalhes e ações do modelo (varia por modelo/backend).

Carregamento e Descarregamento

Carregar inicializa o backend/modelo selecionado.
Descarregar libera o modelo e limpa a conversa atual.

Modelos grandes podem levar tempo para carregar e podem falhar se o dispositivo não tiver memória livre suficiente.

Chat

A interface principal é uma visualização de chat padrão:

Digite um prompt e envie.
Enquanto uma resposta está sendo transmitida, você pode parar a geração.

Prompt inserido no chat de IA Local — Insira um prompt no compositor de chat.

Prompt enviado no chat de IA Local — Após enviar, o assistente começa a gerar uma resposta.

Resposta recebida no chat de IA Local — Exemplo de resposta mostrada no histórico de chat.

Instantâneo de Desempenho

IA Local rastreia uso de CPU e memória enquanto você usa a ferramenta.

Nos controles expandidos (painel Modelo de IA), você pode capturar um instantâneo de linha de base e comparar linha de base vs atual de CPU/memória.

Exportar Conversa

Use Exportar Conversa para compartilhar o histórico de chat atual. A conversa é exportada como texto Markdown com prefixos de papel (Usuário: e Assistente:) para cada mensagem. Você pode então compartilhá-la via qualquer método de compartilhamento padrão do iOS.

Notas e Limitações

Modelos no dispositivo podem usar CPU e memória significativas.
Disponibilidade de modelos, opções de download e desempenho variam por dispositivo e sistema operacional.
Apple Foundation requer iOS 26.0+ ou visionOS 26.0+ e hardware suportado.
LLM.swift não está disponível em builds macOS Catalyst.
Modelos grandes podem falhar ao carregar se o dispositivo não tiver memória livre suficiente.
O backend LLM.swift tem um limite de histórico de conversa de 8 turnos e um tempo limite de resposta de 2 minutos.

Visão geral​

Sumário​

Início Rápido​

Barra de Controle​

Compacto (Padrão)​

Expansão Intermediária​

Expansão Completa​

Backends​

Apple Foundation​

LLM.swift​

Biblioteca de Modelos​

Modelos Instalados​

Catálogo​

Downloads Ativos​

Entrada Manual de Modelo​

Carregamento e Descarregamento​

Chat​

Instantâneo de Desempenho​

Exportar Conversa​

Notas e Limitações​