IA Local
Execute modelos de IA local suportados no dispositivo e converse com eles (disponibilidade varia).
Visão geral
IA Local fornece uma interface de chat no dispositivo com dois backends:
- Apple Foundation (quando disponível no seu sistema operacional/dispositivo)
- LLM.swift (usa arquivos de modelo armazenados localmente)
Também mostra uso de CPU e memória em tempo real para que você possa ver o custo de carregar e executar um modelo.
Sumário
- Início Rápido
- Barra de Controle
- Backends
- Biblioteca de Modelos
- Carregamento e Descarregamento
- Chat
- Instantâneo de Desempenho
- Exportar Conversa
- Notas e Limitações
Início Rápido
- Abra Ferramentas -> IA Local.
- Escolha um backend (Apple Foundation ou LLM.swift).
- Toque em Carregar.
- Digite um prompt e envie.
Barra de Controle
No topo da tela de chat, a barra de controle tem três estados de expansão:
Compacto (Padrão)
Mostra:
- Status do modelo (descarregado/carregando/carregado/indisponível)
- Menu de seleção de backend
- Seletor de modelo (apenas LLM.swift)
- Botão Carregar / Descarregar
Expansão Intermediária
Toque na barra de controle para expandi-la e revelar indicadores adicionais:
- Indicador de uso de CPU em tempo real
- Indicador de uso de memória em tempo real
Expansão Completa
Toque novamente para abrir a tela de detalhes completa com três cartões:
- Cartão de Status do Modelo -- mostra o nome do backend, nome do modelo e tamanho do arquivo (para modelos LLM.swift). Inclui menus de seleção de backend e seletor de modelo.
- Cartão de Desempenho -- mostra uma comparação «Linha de Base» vs «Atual» para uso de CPU e memória. Toque em Capturar Linha de Base para registrar os valores atuais, depois observe como carregar e executar um modelo altera o consumo de recursos.
- Cartão de Ações -- contém Carregar Modelo / Descarregar Modelo, Nova Conversa (limpa mensagens e recarrega), Gerenciar Modelos (abre a Biblioteca de Modelos) e Exportar Conversa.
A barra de controle lembra seu estado de expansão entre sessões.
Backends
Apple Foundation
Apple Foundation usa o framework FoundationModels integrado da Apple. Requer iOS 26.0+ ou visionOS 26.0+ e hardware suportado. Se não estiver disponível no seu dispositivo, Lirum Device Info mostra uma mensagem de indisponibilidade. A disponibilidade é verificada novamente sempre que o app volta ao primeiro plano.
LLM.swift
LLM.swift executa arquivos de modelo GGUF localmente no seu dispositivo. Usa o template de mensagem ChatML e transmite respostas token por token conforme são geradas.
Detalhes técnicos:
- O histórico de conversa é mantido com um limite de 8 turnos -- mensagens mais antigas são descartadas para manter o contexto gerenciável.
- Respostas têm um tempo limite de 2 minutos. Se um modelo não produzir saída dentro desse tempo, um erro é exibido.
- Tokens especiais do modelo (como marcadores
<|...|>) são automaticamente removidos das respostas. - Se ocorrer um erro de cache KV, Lirum Device Info mostra uma mensagem de diagnóstico específica.
Biblioteca de Modelos
Abra a Biblioteca de Modelos no menu da barra de ferramentas para baixar, gerenciar e selecionar modelos. A biblioteca tem três seções:
Modelos Instalados
Lista todas as pastas de modelos baixados com nome, contagem de arquivos e tamanho total. Você pode:
- Selecionar um modelo para usá-lo com LLM.swift.
- Importar um arquivo GGUF do app Arquivos do iOS.
- Entrar no modo de seleção para exportar ou excluir múltiplos modelos de uma vez.
Catálogo
Uma lista curada de modelos incluídos com o app. Cada entrada mostra o nome do modelo, contagem de parâmetros e etiquetas coloridas indicando características:
| Etiqueta | Significado |
|---|---|
| Chat | Modelo conversacional de propósito geral |
| Instructions | Ajustado para seguir instruções |
| Reasoning | Projetado para raciocínio passo a passo |
| Coding | Otimizado para geração de código |
| Recommended | Testado e funciona bem no dispositivo |
| Fast | Gera respostas rapidamente |
| Slow | Pode ser lento em alguns dispositivos |
| Tested | Verificado para funcionar no Lirum Device Info |
| Experimental | Pode produzir resultados inconsistentes |
| Untested | Ainda não verificado |
Ordene o catálogo por Padrão, Alfabético, Data (Mais Recente/Mais Antigo Primeiro) ou Parâmetros (Maior/Menor Primeiro).
Downloads Ativos
Mostra quaisquer modelos sendo baixados no momento com:
- Progresso do download (porcentagem, velocidade em MB/s, tempo restante estimado)
- Controles de Cancelar e Retomar
Entrada Manual de Modelo
Você também pode adicionar modelos manualmente de duas formas:
- Importar de Arquivos -- abre o seletor de arquivos do iOS para arquivos GGUF e os copia com exibição de progresso.
- Download por URL manual -- insira uma URL de download direto junto com nome do modelo, quantização e contagem de parâmetros. Os campos podem ser preenchidos automaticamente do catálogo ou parseados do nome do arquivo.
Carregamento e Descarregamento
- Carregar inicializa o backend/modelo selecionado.
- Descarregar libera o modelo e limpa a conversa atual.
Modelos grandes podem levar tempo para carregar e podem falhar se o dispositivo não tiver memória livre suficiente.
Chat
A interface principal é uma visualização de chat padrão:
- Digite um prompt e envie.
- Enquanto uma resposta está sendo transmitida, você pode parar a geração.
Instantâneo de Desempenho
IA Local rastreia uso de CPU e memória enquanto você usa a ferramenta.
Nos controles expandidos (painel Modelo de IA), você pode capturar um instantâneo de linha de base e comparar linha de base vs atual de CPU/memória.
Exportar Conversa
Use Exportar Conversa para compartilhar o histórico de chat atual. A conversa é exportada como texto Markdown com prefixos de papel (Usuário: e Assistente:) para cada mensagem. Você pode então compartilhá-la via qualquer método de compartilhamento padrão do iOS.
Notas e Limitações
- Modelos no dispositivo podem usar CPU e memória significativas.
- Disponibilidade de modelos, opções de download e desempenho variam por dispositivo e sistema operacional.
- Apple Foundation requer iOS 26.0+ ou visionOS 26.0+ e hardware suportado.
- LLM.swift não está disponível em builds macOS Catalyst.
- Modelos grandes podem falhar ao carregar se o dispositivo não tiver memória livre suficiente.
- O backend LLM.swift tem um limite de histórico de conversa de 8 turnos e um tempo limite de resposta de 2 minutos.