Saltar al contenido principal

IA Local

Ejecuta modelos de IA local compatibles en el dispositivo y chatea con ellos (la disponibilidad varía).

IA Local: vista de chat con una barra de control compacta.

Visión general

IA Local proporciona una interfaz de chat en el dispositivo con dos backends:

  • Apple Foundation (cuando está disponible en tu sistema operativo/dispositivo)
  • LLM.swift (usa archivos de modelo almacenados localmente)

También muestra el uso de CPU y memoria en tiempo real para que puedas ver el costo de cargar y ejecutar un modelo.

Tabla de contenido

Inicio rápido

  1. Abre Herramientas -> IA Local.
  2. Elige un backend (Apple Foundation o LLM.swift).
  3. Toca Cargar.
  4. Escribe un prompt y envíalo.

Barra de control

En la parte superior de la pantalla de chat, la barra de control tiene tres estados de expansión:

Compacto (Predeterminado)

Muestra:

  • Estado del modelo (descargado/cargando/cargado/no disponible)
  • Menú de selección de backend
  • Selector de modelo (solo LLM.swift)
  • Botón Cargar / Descargar

Expansión media

Toca la barra de control para expandirla y revelar indicadores adicionales:

  • Medidor de uso de CPU en tiempo real
  • Medidor de uso de memoria en tiempo real

Expansión completa

Toca de nuevo para abrir la pantalla de detalle completo con tres tarjetas:

  • Tarjeta de estado del modelo -- muestra el nombre del backend, nombre del modelo y tamaño del archivo (para modelos LLM.swift). Incluye menús de selección de backend y selector de modelo.
  • Tarjeta de rendimiento -- muestra una comparación «Línea base» vs «Ahora» para uso de CPU y memoria. Toca Capturar línea base para tomar una instantánea de los valores actuales, luego observa cómo cargar y ejecutar un modelo cambia el consumo de recursos.
  • Tarjeta de acciones -- contiene Cargar modelo / Descargar modelo, Nueva conversación (limpia mensajes y recarga), Gestionar modelos (abre la Biblioteca de modelos) y Exportar conversación.

La barra de control recuerda su estado de expansión entre sesiones.

Toca Cargar para cargar el backend/modelo seleccionado.
Cuando está cargado, la barra de control muestra un estado cargado y expone Descargar.

Backends

Apple Foundation

Apple Foundation usa el framework integrado FoundationModels de Apple. Requiere iOS 26.0+ o visionOS 26.0+ y hardware compatible. Si no está disponible en tu dispositivo, Lirum muestra un mensaje de no disponible. La disponibilidad se vuelve a verificar cada vez que la aplicación pasa a primer plano.

LLM.swift

LLM.swift ejecuta archivos de modelo GGUF localmente en tu dispositivo. Usa la plantilla de mensajes ChatML y transmite las respuestas token por token a medida que se generan.

Detalles técnicos:

  • El historial de conversación se mantiene con un límite de 8 turnos -- los mensajes más antiguos se eliminan para mantener el contexto manejable.
  • Las respuestas tienen un tiempo de espera de 2 minutos. Si un modelo no produce salida dentro de ese tiempo, se muestra un error.
  • Los tokens especiales del modelo (como marcadores <|...|>) se eliminan automáticamente de las respuestas.
  • Si ocurre un error de caché KV, Lirum muestra un mensaje de diagnóstico específico.

Biblioteca de modelos

Abre la Biblioteca de modelos desde el menú de la barra de herramientas para descargar, gestionar y seleccionar modelos. La biblioteca tiene tres secciones:

Modelos instalados

Lista todas las carpetas de modelos descargados con su nombre, cantidad de archivos y tamaño total. Puedes:

  • Seleccionar un modelo para usarlo con LLM.swift.
  • Importar un archivo GGUF desde la aplicación Archivos de iOS.
  • Entrar en modo de selección para exportar o eliminar múltiples modelos a la vez.

Catálogo

Una lista curada de modelos incluidos con la aplicación. Cada entrada muestra el nombre del modelo, cantidad de parámetros y etiquetas de colores que indican características:

EtiquetaSignificado
ChatModelo conversacional de propósito general
InstructionsAjustado para seguir instrucciones
ReasoningDiseñado para razonamiento paso a paso
CodingOptimizado para generación de código
RecommendedProbado y funciona bien en el dispositivo
FastGenera respuestas rápidamente
SlowPuede ser lento en algunos dispositivos
TestedVerificado para funcionar en Lirum
ExperimentalPuede producir resultados inconsistentes
UntestedAún no verificado

Ordena el catálogo por Predeterminado, Alfabético, Fecha (Más nuevo/Más antiguo primero) o Parámetros (Mayor/Menor primero).

Descargas activas

Muestra cualquier modelo que se esté descargando actualmente con:

  • Progreso de descarga (porcentaje, velocidad en MB/s, tiempo restante estimado)
  • Controles de Cancelar y Reanudar

Entrada manual de modelos

También puedes agregar modelos manualmente de dos formas:

  • Importar desde Archivos -- abre el selector de archivos de iOS para archivos GGUF y los copia con una visualización de progreso.
  • Descarga manual por URL -- ingresa una URL de descarga directa junto con el nombre del modelo, cuantización y cantidad de parámetros. Los campos pueden autocompletarse desde el catálogo o analizarse desde el nombre del archivo.
Biblioteca de modelos: gestiona y selecciona modelos locales para el backend LLM.swift.
Detalles y acciones del modelo (varía según modelo/backend).

Carga y descarga

  • Cargar inicializa el backend/modelo seleccionado.
  • Descargar libera el modelo y limpia la conversación actual.

Los modelos grandes pueden tardar en cargarse y pueden fallar si el dispositivo no tiene suficiente memoria libre.

Chat

La interfaz principal es una vista de chat estándar:

  • Escribe un prompt y envíalo.
  • Mientras se transmite una respuesta, puedes detener la generación.
Ingresa un prompt en el compositor de chat.
Después de enviar, el asistente comienza a generar una respuesta.
Ejemplo de respuesta mostrada en el historial de chat.

Instantánea de rendimiento

IA Local rastrea el uso de CPU y memoria mientras usas la herramienta.

En los controles expandidos (panel Modelo de IA), puedes capturar una instantánea de línea base y comparar línea base vs CPU/memoria actual.

Exportar conversación

Usa Exportar conversación para compartir el historial de chat actual. La conversación se exporta como texto Markdown con prefijos de rol (Usuario: y Asistente:) para cada mensaje. Luego puedes compartirla mediante cualquier método de compartir estándar de iOS.

Notas y limitaciones

  • Los modelos en el dispositivo pueden usar CPU y memoria significativas.
  • La disponibilidad de modelos, opciones de descarga y rendimiento varían según el dispositivo y el sistema operativo.
  • Apple Foundation requiere iOS 26.0+ o visionOS 26.0+ y hardware compatible.
  • LLM.swift no está disponible en compilaciones de macOS Catalyst.
  • Los modelos grandes pueden fallar al cargarse si el dispositivo no tiene suficiente memoria libre.
  • El backend LLM.swift tiene un límite de historial de conversación de 8 turnos y un tiempo de espera de respuesta de 2 minutos.