IA Local

Ejecuta modelos de IA local compatibles en el dispositivo y chatea con ellos (la disponibilidad varía).

Visión general

IA Local proporciona una interfaz de chat en el dispositivo con dos backends:

Apple Foundation (cuando está disponible en tu sistema operativo/dispositivo)
LLM.swift (usa archivos de modelo almacenados localmente)

También muestra el uso de CPU y memoria en tiempo real para que puedas ver el costo de cargar y ejecutar un modelo.

Inicio rápido

Abre Herramientas -> IA Local.
Elige un backend (Apple Foundation o LLM.swift).
Toca Cargar.
Escribe un prompt y envíalo.

Barra de control

En la parte superior de la pantalla de chat, la barra de control tiene tres estados de expansión:

Compacto (Predeterminado)

Muestra:

Estado del modelo (descargado/cargando/cargado/no disponible)
Menú de selección de backend
Selector de modelo (solo LLM.swift)
Botón Cargar / Descargar

Expansión media

Toca la barra de control para expandirla y revelar indicadores adicionales:

Medidor de uso de CPU en tiempo real
Medidor de uso de memoria en tiempo real

Expansión completa

Toca de nuevo para abrir la pantalla de detalle completo con tres tarjetas:

Tarjeta de estado del modelo -- muestra el nombre del backend, nombre del modelo y tamaño del archivo (para modelos LLM.swift). Incluye menús de selección de backend y selector de modelo.
Tarjeta de rendimiento -- muestra una comparación «Línea base» vs «Ahora» para uso de CPU y memoria. Toca Capturar línea base para tomar una instantánea de los valores actuales, luego observa cómo cargar y ejecutar un modelo cambia el consumo de recursos.
Tarjeta de acciones -- contiene Cargar modelo / Descargar modelo, Nueva conversación (limpia mensajes y recarga), Gestionar modelos (abre la Biblioteca de modelos) y Exportar conversación.

La barra de control recuerda su estado de expansión entre sesiones.

IA Local con Cargar tocado en la barra de control — Toca Cargar para cargar el backend/modelo seleccionado.

IA Local mostrando estado cargado — Cuando está cargado, la barra de control muestra un estado cargado y expone Descargar.

Backends

Apple Foundation

Apple Foundation usa el framework integrado FoundationModels de Apple. Requiere iOS 26.0+ o visionOS 26.0+ y hardware compatible. Si no está disponible en tu dispositivo, Lirum muestra un mensaje de no disponible. La disponibilidad se vuelve a verificar cada vez que la aplicación pasa a primer plano.

LLM.swift

LLM.swift ejecuta archivos de modelo GGUF localmente en tu dispositivo. Usa la plantilla de mensajes ChatML y transmite las respuestas token por token a medida que se generan.

Detalles técnicos:

El historial de conversación se mantiene con un límite de 8 turnos -- los mensajes más antiguos se eliminan para mantener el contexto manejable.
Las respuestas tienen un tiempo de espera de 2 minutos. Si un modelo no produce salida dentro de ese tiempo, se muestra un error.
Los tokens especiales del modelo (como marcadores <|...|>) se eliminan automáticamente de las respuestas.
Si ocurre un error de caché KV, Lirum muestra un mensaje de diagnóstico específico.

Biblioteca de modelos

Abre la Biblioteca de modelos desde el menú de la barra de herramientas para descargar, gestionar y seleccionar modelos. La biblioteca tiene tres secciones:

Modelos instalados

Lista todas las carpetas de modelos descargados con su nombre, cantidad de archivos y tamaño total. Puedes:

Seleccionar un modelo para usarlo con LLM.swift.
Importar un archivo GGUF desde la aplicación Archivos de iOS.
Entrar en modo de selección para exportar o eliminar múltiples modelos a la vez.

Catálogo

Una lista curada de modelos incluidos con la aplicación. Cada entrada muestra el nombre del modelo, cantidad de parámetros y etiquetas de colores que indican características:

Etiqueta	Significado
Chat	Modelo conversacional de propósito general
Instructions	Ajustado para seguir instrucciones
Reasoning	Diseñado para razonamiento paso a paso
Coding	Optimizado para generación de código
Recommended	Probado y funciona bien en el dispositivo
Fast	Genera respuestas rápidamente
Slow	Puede ser lento en algunos dispositivos
Tested	Verificado para funcionar en Lirum
Experimental	Puede producir resultados inconsistentes
Untested	Aún no verificado

Ordena el catálogo por Predeterminado, Alfabético, Fecha (Más nuevo/Más antiguo primero) o Parámetros (Mayor/Menor primero).

Descargas activas

Muestra cualquier modelo que se esté descargando actualmente con:

Progreso de descarga (porcentaje, velocidad en MB/s, tiempo restante estimado)
Controles de Cancelar y Reanudar

Entrada manual de modelos

También puedes agregar modelos manualmente de dos formas:

Importar desde Archivos -- abre el selector de archivos de iOS para archivos GGUF y los copia con una visualización de progreso.
Descarga manual por URL -- ingresa una URL de descarga directa junto con el nombre del modelo, cuantización y cantidad de parámetros. Los campos pueden autocompletarse desde el catálogo o analizarse desde el nombre del archivo.

Hoja de Biblioteca de modelos — Biblioteca de modelos: gestiona y selecciona modelos locales para el backend LLM.swift.

Pantalla de detalles del modelo de IA Local — Detalles y acciones del modelo (varía según modelo/backend).

Carga y descarga

Cargar inicializa el backend/modelo seleccionado.
Descargar libera el modelo y limpia la conversación actual.

Los modelos grandes pueden tardar en cargarse y pueden fallar si el dispositivo no tiene suficiente memoria libre.

Chat

La interfaz principal es una vista de chat estándar:

Escribe un prompt y envíalo.
Mientras se transmite una respuesta, puedes detener la generación.

Prompt ingresado en el chat de IA Local — Ingresa un prompt en el compositor de chat.

Prompt enviado en el chat de IA Local — Después de enviar, el asistente comienza a generar una respuesta.

Respuesta recibida en el chat de IA Local — Ejemplo de respuesta mostrada en el historial de chat.

Instantánea de rendimiento

IA Local rastrea el uso de CPU y memoria mientras usas la herramienta.

En los controles expandidos (panel Modelo de IA), puedes capturar una instantánea de línea base y comparar línea base vs CPU/memoria actual.

Exportar conversación

Usa Exportar conversación para compartir el historial de chat actual. La conversación se exporta como texto Markdown con prefijos de rol (Usuario: y Asistente:) para cada mensaje. Luego puedes compartirla mediante cualquier método de compartir estándar de iOS.

Notas y limitaciones

Los modelos en el dispositivo pueden usar CPU y memoria significativas.
La disponibilidad de modelos, opciones de descarga y rendimiento varían según el dispositivo y el sistema operativo.
Apple Foundation requiere iOS 26.0+ o visionOS 26.0+ y hardware compatible.
LLM.swift no está disponible en compilaciones de macOS Catalyst.
Los modelos grandes pueden fallar al cargarse si el dispositivo no tiene suficiente memoria libre.
El backend LLM.swift tiene un límite de historial de conversación de 8 turnos y un tiempo de espera de respuesta de 2 minutos.

Visión general​

Tabla de contenido​

Inicio rápido​

Barra de control​

Compacto (Predeterminado)​

Expansión media​

Expansión completa​

Backends​

Apple Foundation​

LLM.swift​

Biblioteca de modelos​

Modelos instalados​

Catálogo​

Descargas activas​

Entrada manual de modelos​

Carga y descarga​

Chat​

Instantánea de rendimiento​

Exportar conversación​

Notas y limitaciones​