Lokale KI

Führen Sie unterstützte lokale KI-Modelle direkt auf dem Gerät aus und chatten Sie mit ihnen (Verfügbarkeit variiert).

Überblick

Lokale KI bietet eine Chat-Oberfläche direkt auf dem Gerät mit zwei Backends:

Apple Foundation (sofern auf Ihrem OS/Gerät verfügbar)
LLM.swift (verwendet lokal gespeicherte Modell-Dateien)

Es werden zudem die aktuelle CPU- und Speichernutzung angezeigt, sodass Sie die Ressourcenbelastung beim Laden und Ausführen eines Modells nachvollziehen können.

Schnellstart

Öffnen Sie Tools -> Lokale KI.
Wählen Sie ein Backend (Apple Foundation oder LLM.swift).
Tippen Sie auf Laden.
Geben Sie eine Eingabe ein und senden Sie diese ab.

Steuerleiste

Am oberen Rand des Chat-Bildschirms befindet sich die Steuerleiste mit drei Erweiterungszuständen:

Kompakt (Standard)

Angezeigt werden:

Modellstatus (nicht geladen/lädt/geladen/nicht verfügbar)
Backend-Auswahlmenü
Modellauswahl (nur bei LLM.swift)
Laden / Entladen-Button

Mittel (erweitert)

Tippen Sie auf die Steuerleiste, um sie zu erweitern und zusätzliche Anzeigen zu sehen:

Live-Anzeige der CPU-Auslastung
Live-Anzeige der Speicherauslastung

Vollständig erweitert

Tippen Sie erneut, um den Detailbildschirm mit drei Karten zu öffnen:

Modellstatus-Karte – zeigt Backend-Name, Modellname und Dateigröße (bei LLM.swift-Modellen). Enthält Backend-Auswahl und Modellauswahlmenüs.
Performance-Karte – zeigt einen Vergleich „Baseline“ vs. „Jetzt“ für CPU- und Speichernutzung. Tippen Sie auf Baseline erfassen, um die aktuellen Werte zu speichern, und beobachten Sie, wie sich das Laden und Ausführen eines Modells auf die Ressourcen auswirkt.
Aktionskarte – enthält Modell laden / Modell entladen, Neue Konversation (Nachrichten löschen und neu laden), Modelle verwalten (öffnet die Modellbibliothek) und Konversation exportieren.

Die Steuerleiste merkt sich ihren Erweiterungszustand zwischen den Sitzungen.

Lokale KI mit angetipptem Laden in der Steuerleiste — Tippen Sie auf Laden, um das ausgewählte Backend/Modell zu laden.

Lokale KI im geladenen Zustand — Im geladenen Zustand zeigt die Steuerleiste den Status an und bietet Entladen an.

Backends

Apple Foundation

Apple Foundation nutzt Apples integriertes FoundationModels-Framework. Es erfordert iOS 26.0+ oder visionOS 26.0+ sowie unterstützte Hardware. Ist es auf Ihrem Gerät nicht verfügbar, zeigt Lirum eine entsprechende Meldung an. Die Verfügbarkeit wird jedes Mal überprüft, wenn die App in den Vordergrund kommt.

LLM.swift

LLM.swift führt GGUF-Modell-Dateien lokal auf Ihrem Gerät aus. Es verwendet die ChatML-Nachrichtenvorlage und streamt Antworten Token für Token, sobald sie generiert werden.

Technische Details:

Der Gesprächsverlauf ist auf 8 Runden begrenzt – ältere Nachrichten werden entfernt, um den Kontext überschaubar zu halten.
Antworten haben ein 2-Minuten-Timeout. Gibt ein Modell innerhalb dieser Zeit keine Antwort, erscheint eine Fehlermeldung.
Spezielle Modell-Tokens (wie <|...|>-Markierungen) werden automatisch aus den Antworten entfernt.
Bei einem KV-Cache-Fehler zeigt Lirum eine spezifische Diagnosemeldung an.

Modellbibliothek

Öffnen Sie die Modellbibliothek über das Menü in der Werkzeugleiste, um Modelle herunterzuladen, zu verwalten und auszuwählen. Die Bibliothek ist in drei Bereiche unterteilt:

Installierte Modelle

Listet alle heruntergeladenen Modellordner mit Name, Dateianzahl und Gesamtgröße auf. Sie können:

Ein Modell auswählen, um es mit LLM.swift zu verwenden.
Eine GGUF-Datei aus der iOS-Dateien-App importieren.
In den Auswahlmodus wechseln, um mehrere Modelle gleichzeitig zu exportieren oder zu löschen.

Katalog

Eine kuratierte Liste von Modellen, die mit der App gebündelt sind. Jeder Eintrag zeigt den Modellnamen, die Parameteranzahl und farbige Tags mit folgenden Bedeutungen:

Tag	Bedeutung
Chat	Allzweck-Konversationsmodell
Instructions	Für das Befolgen von Anweisungen optimiert
Reasoning	Für schrittweises Schlussfolgern ausgelegt
Coding	Für Code-Generierung optimiert
Recommended	Getestet und funktioniert gut auf dem Gerät
Fast	Generiert Antworten schnell
Slow	Kann auf manchen Geräten langsam sein
Tested	In Lirum verifiziert
Experimental	Kann inkonsistente Ergebnisse liefern
Untested	Noch nicht verifiziert

Sortieren Sie den Katalog nach Standard, Alphabetisch, Datum (neueste/älteste zuerst) oder Parameter (größte/kleinste zuerst).

Aktive Downloads

Zeigt aktuell heruntergeladene Modelle mit:

Download-Fortschritt (Prozent, Geschwindigkeit in MB/s, geschätzte Restzeit)
Abbrechen- und Fortsetzen-Steuerung

Manuelle Modellerfassung

Sie können Modelle auch manuell auf zwei Arten hinzufügen:

Aus Dateien importieren – öffnet den iOS-Dateiauswahldialog für GGUF-Dateien und kopiert diese mit Fortschrittsanzeige.
Manueller URL-Download – geben Sie eine direkte Download-URL sowie Modellname, Quantisierung und Parameteranzahl ein. Felder können automatisch aus dem Katalog ausgefüllt oder aus dem Dateinamen geparst werden.

Modellbibliothek-Ansicht — Modellbibliothek: lokale Modelle für das LLM.swift-Backend verwalten und auswählen.

Details zum lokalen KI-Modell — Modelldetails und Aktionen (je nach Modell/Backend unterschiedlich).

Laden und Entladen

Laden initialisiert das ausgewählte Backend/Modell.
Entladen gibt das Modell frei und löscht die aktuelle Konversation.

Große Modelle können längere Ladezeiten haben und das Laden kann fehlschlagen, wenn nicht genügend freier Speicher vorhanden ist.

Chat

Die Hauptoberfläche ist eine Standard-Chat-Ansicht:

Geben Sie eine Eingabe ein und senden Sie diese ab.
Während eine Antwort generiert wird, können Sie die Generierung stoppen.

Eingabeaufforderung im lokalen KI-Chat eingegeben — Geben Sie eine Eingabe in den Chat-Composer ein.

Eingabeaufforderung im lokalen KI-Chat gesendet — Nach dem Senden beginnt der Assistent mit der Antwortgenerierung.

Antwort im lokalen KI-Chat empfangen — Beispielantwort in der Chat-Historie.

Performance-Snapshot

Lokale KI überwacht die CPU- und Speichernutzung während der Nutzung des Tools.

In den erweiterten Steuerelementen (AI-Modell-Panel) können Sie einen Baseline-Snapshot erfassen und Baseline mit aktueller CPU/Speicher vergleichen.

Konversation exportieren

Mit Konversation exportieren können Sie den aktuellen Chatverlauf teilen. Die Konversation wird als Markdown-Text mit Rollenpräfixen (User: und Assistant:) für jede Nachricht exportiert. Sie können sie anschließend über jede Standard-iOS-Freigabemethode teilen.

Hinweise und Einschränkungen

Lokale Modelle können erhebliche CPU- und Speicherressourcen beanspruchen.
Modellverfügbarkeit, Download-Optionen und Performance variieren je nach Gerät und Betriebssystem.
Apple Foundation erfordert iOS 26.0+ oder visionOS 26.0+ sowie unterstützte Hardware.
LLM.swift ist auf macOS Catalyst-Builds nicht verfügbar.
Große Modelle können fehlschlagen, wenn das Gerät nicht über ausreichend freien Speicher verfügt.
Das LLM.swift-Backend hat eine Begrenzung auf 8 Gesprächsrunden und ein 2-Minuten-Timeout für Antworten.

Überblick​

Inhaltsverzeichnis​

Schnellstart​

Steuerleiste​

Kompakt (Standard)​

Mittel (erweitert)​

Vollständig erweitert​

Backends​

Apple Foundation​

LLM.swift​

Modellbibliothek​

Installierte Modelle​

Katalog​

Aktive Downloads​

Manuelle Modellerfassung​

Laden und Entladen​

Chat​

Performance-Snapshot​

Konversation exportieren​

Hinweise und Einschränkungen​