로컬 AI

지원되는 로컬 AI 모델을 기기에서 실행하고 대화하세요 (가용성은 다를 수 있습니다).

개요

로컬 AI는 두 가지 백엔드를 지원하는 기기 내 채팅 UI를 제공합니다:

Apple Foundation (OS/기기에서 사용 가능한 경우)
LLM.swift (로컬에 저장된 모델 파일 사용)

또한 모델을 로드하고 실행하는 비용을 확인할 수 있도록 실시간 CPU 및 메모리 사용량을 표시합니다.

빠른 시작

도구 -> 로컬 AI를 여세요.
백엔드를 선택하세요 (Apple Foundation 또는 LLM.swift).
로드를 탭하세요.
프롬프트를 입력하고 전송하세요.

컨트롤 바

채팅 화면 상단의 컨트롤 바에는 세 가지 확장 상태가 있습니다:

간결 (기본값)

표시 항목:

모델 상태 (언로드됨/로딩 중/로드됨/사용 불가)
백엔드 선택 메뉴
모델 선택기 (LLM.swift 전용)
로드 / 언로드 버튼

중간 확장

컨트롤 바를 탭하여 확장하면 추가 지표가 표시됩니다:

실시간 CPU 사용량 게이지
실시간 메모리 사용량 게이지

전체 확장

다시 탭하면 세 개의 카드가 있는 전체 상세 화면이 열립니다:

모델 상태 카드 -- 백엔드 이름, 모델 이름, 파일 크기(LLM.swift 모델의 경우)를 표시합니다. 백엔드 선택 및 모델 선택기 메뉴가 포함됩니다.
성능 카드 -- CPU 및 메모리 사용량의 「기준선」 대 「현재」 비교를 표시합니다. 기준선 캡처를 탭하여 현재 값을 스냅샷한 다음 모델 로드 및 실행이 리소스 소비를 어떻게 변경하는지 확인하세요.
작업 카드 -- 모델 로드 / 모델 언로드, 새 대화 (메시지를 지우고 다시 로드), 모델 관리 (모델 라이브러리 열기), 대화 내보내기가 포함됩니다.

컨트롤 바는 세션 간에 확장 상태를 기억합니다.

컨트롤 바에서 로드가 탭된 로컬 AI — 선택한 백엔드/모델을 로드하려면 로드를 탭하세요.

로드된 상태를 보여주는 로컬 AI — 로드되면 컨트롤 바에 로드된 상태가 표시되고 언로드가 노출됩니다.

백엔드

Apple Foundation

Apple Foundation은 Apple의 내장 FoundationModels 프레임워크를 사용합니다. iOS 26.0+ 또는 visionOS 26.0+ 및 지원되는 하드웨어가 필요합니다. 기기에서 사용할 수 없는 경우 Lirum Device Info에서 사용 불가 메시지를 표시합니다. 앱이 포그라운드로 올 때마다 가용성이 다시 확인됩니다.

LLM.swift

LLM.swift는 기기에서 로컬로 GGUF 모델 파일을 실행합니다. ChatML 메시지 템플릿을 사용하고 생성되는 대로 토큰별로 응답을 스트리밍합니다.

기술 세부 정보:

대화 기록은 8턴 제한으로 유지됩니다 -- 컨텍스트를 관리 가능하게 유지하기 위해 오래된 메시지는 삭제됩니다.
응답에는 2분 타임아웃이 있습니다. 해당 시간 내에 모델이 출력을 생성하지 않으면 오류가 표시됩니다.
특수 모델 토큰(<|...|> 마커 등)은 응답에서 자동으로 제거됩니다.
KV 캐시 오류가 발생하면 Lirum Device Info에서 특정 진단 메시지를 표시합니다.

모델 라이브러리

툴바 메뉴에서 모델 라이브러리를 열어 모델을 다운로드, 관리 및 선택하세요. 라이브러리에는 세 개의 섹션이 있습니다:

설치된 모델

다운로드된 모든 모델 폴더와 이름, 파일 수, 총 크기를 나열합니다. 다음을 수행할 수 있습니다:

모델을 선택하여 LLM.swift와 함께 사용합니다.
iOS 파일 앱에서 GGUF 파일을 가져옵니다.
선택 모드에 진입하여 여러 모델을 일괄 내보내기 또는 일괄 삭제합니다.

카탈로그

앱에 번들로 제공되는 선별된 모델 목록입니다. 각 항목에는 모델 이름, 파라미터 수, 특성을 나타내는 색상 태그가 표시됩니다:

태그	의미
Chat	범용 대화형 모델
Instructions	지시 따르기에 튜닝됨
Reasoning	단계별 추론을 위해 설계됨
Coding	코드 생성에 최적화됨
Recommended	테스트되었으며 기기에서 잘 작동함
Fast	빠르게 응답 생성
Slow	일부 기기에서 느릴 수 있음
Tested	Lirum Device Info에서 작동 확인됨
Experimental	일관되지 않은 결과를 생성할 수 있음
Untested	아직 검증되지 않음

카탈로그를 기본값, 알파벳순, 날짜 (최신/오래된 순), **파라미터 (큰/작은 순)**로 정렬하세요.

활성 다운로드

현재 다운로드 중인 모델을 다음과 함께 표시합니다:

다운로드 진행률 (백분율, MB/s 속도, 예상 남은 시간)
중단 및 재개 컨트롤

수동 모델 입력

두 가지 방법으로 모델을 수동으로 추가할 수도 있습니다:

파일에서 가져오기 -- GGUF 파일용 iOS 파일 선택기를 열고 진행률 표시와 함께 복사합니다.
수동 URL 다운로드 -- 모델 이름, 양자화, 파라미터 수와 함께 직접 다운로드 URL을 입력합니다. 필드는 카탈로그에서 자동 입력되거나 파일 이름에서 파싱될 수 있습니다.

모델 라이브러리 시트 — 모델 라이브러리: LLM.swift 백엔드용 로컬 모델을 관리하고 선택하세요.

로컬 AI 모델 상세 화면 — 모델 세부 정보 및 작업 (모델/백엔드에 따라 다름).

로드 및 언로드

로드는 선택한 백엔드/모델을 초기화합니다.
언로드는 모델을 해제하고 현재 대화를 지웁니다.

대용량 모델은 로드하는 데 시간이 걸릴 수 있으며 기기에 충분한 여유 메모리가 없으면 실패할 수 있습니다.

채팅

메인 UI는 표준 채팅 뷰입니다:

프롬프트를 입력하고 전송하세요.
응답이 스트리밍되는 동안 생성을 중지할 수 있습니다.

로컬 AI 채팅에 입력된 프롬프트 — 채팅 작성기에 프롬프트를 입력하세요.

로컬 AI 채팅에서 전송된 프롬프트 — 전송 후 어시스턴트가 응답 생성을 시작합니다.

성능 스냅샷

로컬 AI는 도구를 사용하는 동안 CPU 및 메모리 사용량을 추적합니다.

확장된 컨트롤(AI 모델 패널)에서 기준선 스냅샷을 캡처하고 기준선 대 현재 CPU/메모리를 비교할 수 있습니다.

대화 내보내기

대화 내보내기를 사용하여 현재 채팅 기록을 공유하세요. 대화는 각 메시지에 역할 접두사(User: 및 Assistant:)가 있는 Markdown 텍스트로 내보내집니다. 그런 다음 표준 iOS 공유 방법을 통해 공유할 수 있습니다.

주의 사항 및 제한 사항

기기 내 모델은 상당한 CPU 및 메모리를 사용할 수 있습니다.
모델 가용성, 다운로드 옵션 및 성능은 기기와 OS에 따라 다릅니다.
Apple Foundation은 iOS 26.0+ 또는 visionOS 26.0+ 및 지원되는 하드웨어가 필요합니다.
LLM.swift는 macOS Catalyst 빌드에서 사용할 수 없습니다.
기기에 충분한 여유 메모리가 없으면 대용량 모델 로드가 실패할 수 있습니다.
LLM.swift 백엔드에는 8턴 대화 기록 제한과 2분 응답 타임아웃이 있습니다.

개요​

목차​

빠른 시작​

컨트롤 바​

간결 (기본값)​

중간 확장​

전체 확장​

백엔드​

Apple Foundation​

LLM.swift​

모델 라이브러리​

설치된 모델​

카탈로그​

활성 다운로드​

수동 모델 입력​

로드 및 언로드​

채팅​

성능 스냅샷​

대화 내보내기​

주의 사항 및 제한 사항​

개요

목차