Lokale KI
Führen Sie unterstützte lokale KI-Modelle direkt auf dem Gerät aus und chatten Sie mit ihnen (Verfügbarkeit variiert).
Überblick
Lokale KI bietet eine Chat-Oberfläche direkt auf dem Gerät mit zwei Backends:
- Apple Foundation (sofern auf Ihrem OS/Gerät verfügbar)
- LLM.swift (verwendet lokal gespeicherte Modell-Dateien)
Es werden zudem die aktuelle CPU- und Speichernutzung angezeigt, sodass Sie die Ressourcenbelastung beim Laden und Ausführen eines Modells nachvollziehen können.
Inhaltsverzeichnis
- Schnellstart
- Steuerleiste
- Backends
- Modellbibliothek
- Laden und Entladen
- Chat
- Performance-Snapshot
- Konversation exportieren
- Hinweise und Einschränkungen
Schnellstart
- Öffnen Sie Tools -> Lokale KI.
- Wählen Sie ein Backend (Apple Foundation oder LLM.swift).
- Tippen Sie auf Laden.
- Geben Sie eine Eingabe ein und senden Sie diese ab.
Steuerleiste
Am oberen Rand des Chat-Bildschirms befindet sich die Steuerleiste mit drei Erweiterungszuständen:
Kompakt (Standard)
Angezeigt werden:
- Modellstatus (nicht geladen/lädt/geladen/nicht verfügbar)
- Backend-Auswahlmenü
- Modellauswahl (nur bei LLM.swift)
- Laden / Entladen-Button
Mittel (erweitert)
Tippen Sie auf die Steuerleiste, um sie zu erweitern und zusätzliche Anzeigen zu sehen:
- Live-Anzeige der CPU-Auslastung
- Live-Anzeige der Speicherauslastung
Vollständig erweitert
Tippen Sie erneut, um den Detailbildschirm mit drei Karten zu öffnen:
- Modellstatus-Karte – zeigt Backend-Name, Modellname und Dateigröße (bei LLM.swift-Modellen). Enthält Backend-Auswahl und Modellauswahlmenüs.
- Performance-Karte – zeigt einen Vergleich „Baseline“ vs. „Jetzt“ für CPU- und Speichernutzung. Tippen Sie auf Baseline erfassen, um die aktuellen Werte zu speichern, und beobachten Sie, wie sich das Laden und Ausführen eines Modells auf die Ressourcen auswirkt.
- Aktionskarte – enthält Modell laden / Modell entladen, Neue Konversation (Nachrichten löschen und neu laden), Modelle verwalten (öffnet die Modellbibliothek) und Konversation exportieren.
Die Steuerleiste merkt sich ihren Erweiterungszustand zwischen den Sitzungen.
Backends
Apple Foundation
Apple Foundation nutzt Apples integriertes FoundationModels-Framework. Es erfordert iOS 26.0+ oder visionOS 26.0+ sowie unterstützte Hardware. Ist es auf Ihrem Gerät nicht verfügbar, zeigt Lirum eine entsprechende Meldung an. Die Verfügbarkeit wird jedes Mal überprüft, wenn die App in den Vordergrund kommt.
LLM.swift
LLM.swift führt GGUF-Modell-Dateien lokal auf Ihrem Gerät aus. Es verwendet die ChatML-Nachrichtenvorlage und streamt Antworten Token für Token, sobald sie generiert werden.
Technische Details:
- Der Gesprächsverlauf ist auf 8 Runden begrenzt – ältere Nachrichten werden entfernt, um den Kontext überschaubar zu halten.
- Antworten haben ein 2-Minuten-Timeout. Gibt ein Modell innerhalb dieser Zeit keine Antwort, erscheint eine Fehlermeldung.
- Spezielle Modell-Tokens (wie
<|...|>-Markierungen) werden automatisch aus den Antworten entfernt. - Bei einem KV-Cache-Fehler zeigt Lirum eine spezifische Diagnosemeldung an.
Modellbibliothek
Öffnen Sie die Modellbibliothek über das Menü in der Werkzeugleiste, um Modelle herunterzuladen, zu verwalten und auszuwählen. Die Bibliothek ist in drei Bereiche unterteilt:
Installierte Modelle
Listet alle heruntergeladenen Modellordner mit Name, Dateianzahl und Gesamtgröße auf. Sie können:
- Ein Modell auswählen, um es mit LLM.swift zu verwenden.
- Eine GGUF-Datei aus der iOS-Dateien-App importieren.
- In den Auswahlmodus wechseln, um mehrere Modelle gleichzeitig zu exportieren oder zu löschen.
Katalog
Eine kuratierte Liste von Modellen, die mit der App gebündelt sind. Jeder Eintrag zeigt den Modellnamen, die Parameteranzahl und farbige Tags mit folgenden Bedeutungen:
| Tag | Bedeutung |
|---|---|
| Chat | Allzweck-Konversationsmodell |
| Instructions | Für das Befolgen von Anweisungen optimiert |
| Reasoning | Für schrittweises Schlussfolgern ausgelegt |
| Coding | Für Code-Generierung optimiert |
| Recommended | Getestet und funktioniert gut auf dem Gerät |
| Fast | Generiert Antworten schnell |
| Slow | Kann auf manchen Geräten langsam sein |
| Tested | In Lirum verifiziert |
| Experimental | Kann inkonsistente Ergebnisse liefern |
| Untested | Noch nicht verifiziert |
Sortieren Sie den Katalog nach Standard, Alphabetisch, Datum (neueste/älteste zuerst) oder Parameter (größte/kleinste zuerst).
Aktive Downloads
Zeigt aktuell heruntergeladene Modelle mit:
- Download-Fortschritt (Prozent, Geschwindigkeit in MB/s, geschätzte Restzeit)
- Abbrechen- und Fortsetzen-Steuerung
Manuelle Modellerfassung
Sie können Modelle auch manuell auf zwei Arten hinzufügen:
- Aus Dateien importieren – öffnet den iOS-Dateiauswahldialog für GGUF-Dateien und kopiert diese mit Fortschrittsanzeige.
- Manueller URL-Download – geben Sie eine direkte Download-URL sowie Modellname, Quantisierung und Parameteranzahl ein. Felder können automatisch aus dem Katalog ausgefüllt oder aus dem Dateinamen geparst werden.
Laden und Entladen
- Laden initialisiert das ausgewählte Backend/Modell.
- Entladen gibt das Modell frei und löscht die aktuelle Konversation.
Große Modelle können längere Ladezeiten haben und das Laden kann fehlschlagen, wenn nicht genügend freier Speicher vorhanden ist.
Chat
Die Hauptoberfläche ist eine Standard-Chat-Ansicht:
- Geben Sie eine Eingabe ein und senden Sie diese ab.
- Während eine Antwort generiert wird, können Sie die Generierung stoppen.
Performance-Snapshot
Lokale KI überwacht die CPU- und Speichernutzung während der Nutzung des Tools.
In den erweiterten Steuerelementen (AI-Modell-Panel) können Sie einen Baseline-Snapshot erfassen und Baseline mit aktueller CPU/Speicher vergleichen.
Konversation exportieren
Mit Konversation exportieren können Sie den aktuellen Chatverlauf teilen. Die Konversation wird als Markdown-Text mit Rollenpräfixen (User: und Assistant:) für jede Nachricht exportiert. Sie können sie anschließend über jede Standard-iOS-Freigabemethode teilen.
Hinweise und Einschränkungen
- Lokale Modelle können erhebliche CPU- und Speicherressourcen beanspruchen.
- Modellverfügbarkeit, Download-Optionen und Performance variieren je nach Gerät und Betriebssystem.
- Apple Foundation erfordert iOS 26.0+ oder visionOS 26.0+ sowie unterstützte Hardware.
- LLM.swift ist auf macOS Catalyst-Builds nicht verfügbar.
- Große Modelle können fehlschlagen, wenn das Gerät nicht über ausreichend freien Speicher verfügt.
- Das LLM.swift-Backend hat eine Begrenzung auf 8 Gesprächsrunden und ein 2-Minuten-Timeout für Antworten.