로컬 AI
지원되는 로컬 AI 모델을 기기에서 실행하고 대화하세요 (가용성은 다를 수 있습니다).
개요
로컬 AI는 두 가지 백엔드를 지원하는 기기 내 채팅 UI를 제공합니다:
- Apple Foundation (OS/기기에서 사용 가능한 경우)
- LLM.swift (로컬에 저장된 모델 파일 사용)
또한 모델을 로드하고 실행하는 비용을 확인할 수 있도록 실시간 CPU 및 메모리 사용량을 표시합니다.
목차
빠른 시작
- 도구 -> 로컬 AI를 여세요.
- 백엔드를 선택하세요 (Apple Foundation 또는 LLM.swift).
- 로드를 탭하세요.
- 프롬프트를 입력하고 전송하세요.
컨트롤 바
채팅 화면 상단의 컨트롤 바 에는 세 가지 확장 상태가 있습니다:
간결 (기본값)
표시 항목:
- 모델 상태 (언로드됨/로딩 중/로드됨/사용 불가)
- 백엔드 선택 메뉴
- 모델 선택기 (LLM.swift 전용)
- 로드 / 언로드 버튼
중간 확장
컨트롤 바를 탭하여 확장하면 추가 지표가 표시됩니다:
- 실시간 CPU 사용량 게이지
- 실시간 메모리 사용량 게이지
전체 확장
다시 탭하면 세 개의 카드가 있는 전체 상세 화면이 열립니다:
- 모델 상태 카드 -- 백엔드 이름, 모델 이름, 파일 크기(LLM.swift 모델의 경우)를 표시합니다. 백엔드 선택 및 모델 선택기 메뉴가 포함됩니다.
- 성능 카드 -- CPU 및 메모리 사용량의 「기준선」 대 「현재」 비교를 표시합니다. 기준선 캡처를 탭하여 현재 값을 스냅샷한 다음 모델 로드 및 실행이 리소스 소비를 어떻게 변경하는지 확인하세요.
- 작업 카드 -- 모델 로드 / 모델 언로드, 새 대화 (메시지를 지우고 다시 로드), 모델 관리 (모델 라이브러리 열기), 대화 내보내기가 포함됩니다.
컨트롤 바는 세션 간에 확장 상태를 기억합니다.
백엔드
Apple Foundation
Apple Foundation은 Apple의 내장 FoundationModels 프레임워크를 사용합니다. iOS 26.0+ 또는 visionOS 26.0+ 및 지원되는 하드웨어가 필요합니다. 기기에서 사용할 수 없는 경우 Lirum Device Info에서 사용 불가 메시지를 표시합니다. 앱이 포그라운드로 올 때마다 가용성이 다시 확인됩니다.
LLM.swift
LLM.swift는 기기에서 로컬로 GGUF 모델 파일을 실행합니다. ChatML 메시지 템플릿을 사용하고 생성되는 대로 토큰별로 응답을 스트리밍합니다.
기술 세부 정보:
- 대화 기록은 8턴 제한으로 유지됩니다 -- 컨텍스트를 관리 가능하게 유지하기 위해 오래된 메시지는 삭제됩니다.
- 응답에는 2분 타임아웃이 있습니다. 해당 시간 내에 모델이 출력을 생성하지 않으면 오류가 표시됩니다.
- 특수 모델 토큰(
<|...|>마커 등)은 응답에서 자동으로 제거됩니다. - KV 캐시 오류가 발생하면 Lirum Device Info에서 특정 진단 메시지를 표시합니다.
모델 라이브러리
툴바 메뉴에서 모델 라이브러리를 열어 모델을 다운로드, 관리 및 선택하세요. 라이브러리에는 세 개의 섹션이 있습니다:
설치된 모델
다운로드된 모든 모델 폴더와 이름, 파일 수, 총 크기를 나열합니다. 다음을 수행할 수 있습니다:
- 모델을 선택하여 LLM.swift와 함께 사용합니다.
- iOS 파일 앱에서 GGUF 파일을 가져옵니다.
- 선택 모드에 진입하여 여러 모델을 일괄 내보내기 또는 일괄 삭제합니다.
카탈로그
앱에 번들로 제공되는 선별된 모델 목록입니다. 각 항목에는 모델 이름, 파라미터 수, 특성을 나타내는 색상 태그가 표시됩니다:
| 태그 | 의미 |
|---|---|
| Chat | 범용 대화형 모델 |
| Instructions | 지시 따르기에 튜닝됨 |
| Reasoning | 단계별 추론을 위해 설계됨 |
| Coding | 코드 생성에 최적화됨 |
| Recommended | 테스트되었으며 기기에서 잘 작동함 |
| Fast | 빠르게 응답 생성 |
| Slow | 일부 기기에서 느릴 수 있음 |
| Tested | Lirum Device Info에서 작동 확인됨 |
| Experimental | 일관되지 않은 결과를 생성할 수 있음 |
| Untested | 아직 검증되지 않음 |
카탈로그를 기본값, 알파벳순, 날짜 (최신/오래된 순), **파라미터 (큰/작은 순)**로 정렬하세요.
활성 다운로드
현재 다운로드 중인 모델을 다음과 함께 표시합니다:
- 다운로드 진행률 (백분율, MB/s 속도, 예상 남은 시간)
- 중단 및 재개 컨트롤
수동 모델 입력
두 가지 방법으로 모델을 수동으로 추가할 수도 있습니다:
- 파일에서 가져오기 -- GGUF 파일용 iOS 파일 선택기를 열고 진행률 표시와 함께 복사합니다.
- 수동 URL 다운로드 -- 모델 이름, 양자화, 파라미터 수와 함께 직접 다운로드 URL을 입력합니다. 필드는 카탈로그에서 자동 입력되거나 파일 이름에서 파싱될 수 있습니다.
로드 및 언로드
- 로드는 선택한 백엔드/모델을 초기화합니다.
- 언로드는 모델을 해제하고 현재 대화를 지웁니다.
대용량 모델은 로드하는 데 시간이 걸릴 수 있으며 기기에 충분한 여유 메모리가 없으면 실패할 수 있습니다.
채팅
메인 UI는 표준 채팅 뷰입니다:
- 프롬프트를 입력하고 전송하세요.
- 응답이 스트리밍되는 동안 생성을 중지할 수 있습니다.
성능 스냅샷
로컬 AI는 도구를 사용하는 동안 CPU 및 메모리 사용량을 추적합니다.
확장된 컨트롤(AI 모델 패널)에서 기준선 스냅샷을 캡처하고 기준선 대 현재 CPU/메모리를 비교할 수 있습니다.
대화 내보내기
대화 내보내기를 사용하여 현재 채팅 기록을 공유하세요. 대화는 각 메시지에 역할 접두사(User: 및 Assistant:)가 있는 Markdown 텍스트로 내보내집니다. 그런 다음 표준 iOS 공유 방법을 통해 공유할 수 있습니다.
주의 사항 및 제한 사항
- 기기 내 모델은 상당한 CPU 및 메모리를 사용할 수 있습니다.
- 모델 가용성, 다운로드 옵션 및 성능은 기기와 OS에 따라 다릅니다.
- Apple Foundation은 iOS 26.0+ 또는 visionOS 26.0+ 및 지원되는 하드웨어가 필요합니다.
- LLM.swift는 macOS Catalyst 빌드에서 사용할 수 없습니다.
- 기기에 충분한 여유 메모리가 없으면 대용량 모델 로드가 실패할 수 있습니다.
- LLM.swift 백엔드에는 8턴 대화 기록 제한과 2분 응답 타임아웃이 있습니다.