IA Local
Ejecuta modelos de IA local compatibles en el dispositivo y chatea con ellos (la disponibilidad varía).
Visión general
IA Local proporciona una interfaz de chat en el dispositivo con dos backends:
- Apple Foundation (cuando está disponible en tu sistema operativo/dispositivo)
- LLM.swift (usa archivos de modelo almacenados localmente)
También muestra el uso de CPU y memoria en tiempo real para que puedas ver el costo de cargar y ejecutar un modelo.
Tabla de contenido
- Inicio rápido
- Barra de control
- Backends
- Biblioteca de modelos
- Carga y descarga
- Chat
- Instantánea de rendimiento
- Exportar conversación
- Notas y limitaciones
Inicio rápido
- Abre Herramientas -> IA Local.
- Elige un backend (Apple Foundation o LLM.swift).
- Toca Cargar.
- Escribe un prompt y envíalo.
Barra de control
En la parte superior de la pantalla de chat, la barra de control tiene tres estados de expansión:
Compacto (Predeterminado)
Muestra:
- Estado del modelo (descargado/cargando/cargado/no disponible)
- Menú de selección de backend
- Selector de modelo (solo LLM.swift)
- Botón Cargar / Descargar
Expansión media
Toca la barra de control para expandirla y revelar indicadores adicionales:
- Medidor de uso de CPU en tiempo real
- Medidor de uso de memoria en tiempo real
Expansión completa
Toca de nuevo para abrir la pantalla de detalle completo con tres tarjetas:
- Tarjeta de estado del modelo -- muestra el nombre del backend, nombre del modelo y tamaño del archivo (para modelos LLM.swift). Incluye menús de selección de backend y selector de modelo.
- Tarjeta de rendimiento -- muestra una comparación «Línea base» vs «Ahora» para uso de CPU y memoria. Toca Capturar línea base para tomar una instantánea de los valores actuales, luego observa cómo cargar y ejecutar un modelo cambia el consumo de recursos.
- Tarjeta de acciones -- contiene Cargar modelo / Descargar modelo, Nueva conversación (limpia mensajes y recarga), Gestionar modelos (abre la Biblioteca de modelos) y Exportar conversación.
La barra de control recuerda su estado de expansión entre sesiones.
Backends
Apple Foundation
Apple Foundation usa el framework integrado FoundationModels de Apple. Requiere iOS 26.0+ o visionOS 26.0+ y hardware compatible. Si no está disponible en tu dispositivo, Lirum muestra un mensaje de no disponible. La disponibilidad se vuelve a verificar cada vez que la aplicación pasa a primer plano.
LLM.swift
LLM.swift ejecuta archivos de modelo GGUF localmente en tu dispositivo. Usa la plantilla de mensajes ChatML y transmite las respuestas token por token a medida que se generan.
Detalles técnicos:
- El historial de conversación se mantiene con un límite de 8 turnos -- los mensajes más antiguos se eliminan para mantener el contexto manejable.
- Las respuestas tienen un tiempo de espera de 2 minutos. Si un modelo no produce salida dentro de ese tiempo, se muestra un error.
- Los tokens especiales del modelo (como marcadores
<|...|>) se eliminan automáticamente de las respuestas. - Si ocurre un error de caché KV, Lirum muestra un mensaje de diagnóstico específico.
Biblioteca de modelos
Abre la Biblioteca de modelos desde el menú de la barra de herramientas para descargar, gestionar y seleccionar modelos. La biblioteca tiene tres secciones:
Modelos instalados
Lista todas las carpetas de modelos descargados con su nombre, cantidad de archivos y tamaño total. Puedes:
- Seleccionar un modelo para usarlo con LLM.swift.
- Importar un archivo GGUF desde la aplicación Archivos de iOS.
- Entrar en modo de selección para exportar o eliminar múltiples modelos a la vez.
Catálogo
Una lista curada de modelos incluidos con la aplicación. Cada entrada muestra el nombre del modelo, cantidad de parámetros y etiquetas de colores que indican características:
| Etiqueta | Significado |
|---|---|
| Chat | Modelo conversacional de propósito general |
| Instructions | Ajustado para seguir instrucciones |
| Reasoning | Diseñado para razonamiento paso a paso |
| Coding | Optimizado para generación de código |
| Recommended | Probado y funciona bien en el dispositivo |
| Fast | Genera respuestas rápidamente |
| Slow | Puede ser lento en algunos dispositivos |
| Tested | Verificado para funcionar en Lirum |
| Experimental | Puede producir resultados inconsistentes |
| Untested | Aún no verificado |
Ordena el catálogo por Predeterminado, Alfabético, Fecha (Más nuevo/Más antiguo primero) o Parámetros (Mayor/Menor primero).
Descargas activas
Muestra cualquier modelo que se esté descargando actualmente con:
- Progreso de descarga (porcentaje, velocidad en MB/s, tiempo restante estimado)
- Controles de Cancelar y Reanudar
Entrada manual de modelos
También puedes agregar modelos manualmente de dos formas:
- Importar desde Archivos -- abre el selector de archivos de iOS para archivos GGUF y los copia con una visualización de progreso.
- Descarga manual por URL -- ingresa una URL de descarga directa junto con el nombre del modelo, cuantización y cantidad de parámetros. Los campos pueden autocompletarse desde el catálogo o analizarse desde el nombre del archivo.
Carga y descarga
- Cargar inicializa el backend/modelo seleccionado.
- Descargar libera el modelo y limpia la conversación actual.
Los modelos grandes pueden tardar en cargarse y pueden fallar si el dispositivo no tiene suficiente memoria libre.
Chat
La interfaz principal es una vista de chat estándar:
- Escribe un prompt y envíalo.
- Mientras se transmite una respuesta, puedes detener la generación.
Instantánea de rendimiento
IA Local rastrea el uso de CPU y memoria mientras usas la herramienta.
En los controles expandidos (panel Modelo de IA), puedes capturar una instantánea de línea base y comparar línea base vs CPU/memoria actual.
Exportar conversación
Usa Exportar conversación para compartir el historial de chat actual. La conversación se exporta como texto Markdown con prefijos de rol (Usuario: y Asistente:) para cada mensaje. Luego puedes compartirla mediante cualquier método de compartir estándar de iOS.
Notas y limitaciones
- Los modelos en el dispositivo pueden usar CPU y memoria significativas.
- La disponibilidad de modelos, opciones de descarga y rendimiento varían según el dispositivo y el sistema operativo.
- Apple Foundation requiere iOS 26.0+ o visionOS 26.0+ y hardware compatible.
- LLM.swift no está disponible en compilaciones de macOS Catalyst.
- Los modelos grandes pueden fallar al cargarse si el dispositivo no tiene suficiente memoria libre.
- El backend LLM.swift tiene un límite de historial de conversación de 8 turnos y un tiempo de espera de respuesta de 2 minutos.