-
아이폰에서 9.4초, Bonsai Image 4B가 보여준 온디바이스 이미지 생성IT & AI 2026. 6. 3. 04:24
아이폰에서 9.4초, Bonsai Image 4B가 보여준 온디바이스 이미지 생성

AI 뉴스 썸네일 이미지 생성 AI는 보통 서버 GPU와 함께 떠올라요. Bonsai Image 4B는 그 방향을 조금 다르게 봐요. 4B급 이미지 모델을 1비트와 ternary 가중치로 줄여 노트북과 휴대폰에서 직접 돌리는 쪽에 초점을 맞췄어요. 2
핵심 요약
구분 핵심 왜 볼 만한가요 모델 크기 FLUX.2 Klein 4B 기반 확산 트랜스포머를 7.75GB에서 0.93GB 또는 1.21GB로 줄였어요 로컬 기기에서 이미지 생성 모델을 올릴 때 가장 큰 병목인 메모리 부담이 크게 낮아져요 실행 성능 iPhone 17 Pro Max에서 512×512 이미지를 9.4초에 만들었다고 밝혔어요 이미지 생성이 클라우드 호출이 아니라 기기 안에서 처리되는 흐름을 보여줘요 품질 균형 ternary 모델은 원본 FLUX.2 Klein 4B 대비 95% 수준의 벤치마크 성능을 유지했다고 해요 단순히 작게 만든 모델이 아니라 품질 손실을 어느 정도 통제했다는 점이 중요해요 1. 이미지 생성 AI도 휴대폰 안으로 들어오고 있어요
PrismML이 공개한 Bonsai Image 4B는 FLUX.2 Klein 4B 구조를 유지하면서 확산 트랜스포머 가중치를 1비트 또는 ternary 형태로 바꾼 모델군이에요. 원본 확산 트랜스포머는 7.75GB인데, 1비트 모델은 0.93GB, ternary 모델은 1.21GB까지 줄어들어요. PrismML은 이 방식으로 Apple Silicon 기기와 CUDA GPU에서 로컬 이미지 생성을 노린다고 설명해요. 2
여기서 눈에 띄는 부분은 단순 압축률이 아니에요. 이미지 생성 모델은 생성 과정에서 트랜스포머를 여러 번 반복 실행해요. 그래서 트랜스포머 크기가 줄면 저장 용량뿐 아니라 메모리 사용량, 대역폭, 추론 속도에도 바로 영향을 줘요. PrismML 자료 기준으로 512×512 이미지 생성 시 평균 활성 메모리는 1비트 모델 1.5GB, ternary 모델 1.96GB예요. 원본 FLUX.2 Klein 4B의 11.74GB와 차이가 커요.
2. 1비트와 ternary는 목표가 조금 달라요
1비트 Bonsai Image 4B는 가중치를 {-1, +1}로 표현해 압축을 가장 강하게 가져가요. 대신 품질 손실이 더 커질 수 있어요. ternary 모델은 {-1, 0, +1}을 써요. 0 상태가 추가되면서 모델이 표현할 수 있는 폭이 조금 넓어지고, PrismML은 이 버전이 시각 품질과 명령 추종에서 더 유리하다고 봐요.
벤치마크 숫자도 이 차이를 보여줘요. PrismML은 ternary 모델이 GenEval 0.723, HPSv3 12.22, DPG-Bench 0.851을 기록했고, 원본 FLUX.2 Klein 4B 대비 95% 성능을 유지했다고 밝혔어요. 1비트 모델은 GenEval 0.671, HPSv3 11.15, DPG-Bench 0.822로 88% 수준이에요. 로컬 기기의 메모리가 더 빡빡하면 1비트, 품질을 더 챙기면 ternary를 고르는 식으로 볼 수 있어요.
3. 온디바이스 생성이 중요한 이유
PrismML은 Bonsai Image 4B가 iPhone 17 Pro Max에서 512×512 이미지를 9.4초에 생성한다고 밝혔어요. Mac M4 Pro에서는 약 6초가 걸리고, 전체 정밀도 MFLUX 파이프라인보다 최대 5.6배 빠르다고 해요. 이 수치가 모든 앱 환경을 그대로 보장하진 않아요. 그래도 이미지 생성이 서버 요청 없이 기기 안에서 돌아갈 수 있다는 점은 제품 설계에 영향을 줘요.
로컬 실행이 쉬워지면 몇 가지 선택지가 생겨요. 네트워크가 불안정해도 생성 기능을 제공할 수 있어요. 민감한 이미지를 서버로 보내지 않아도 돼요. 앱 안에서 빠른 미리보기나 간단한 편집 생성 기능을 붙이기도 쉬워져요. 반대로 모델 파일 크기, 발열, 배터리, 앱 배포 용량 같은 현실적인 제약은 여전히 남아요.
왜 중요한가요
요즘 생성형 AI 제품은 점점 작은 모델과 로컬 실행을 같이 보고 있어요. 언어 모델에서는 이미 온디바이스 실행과 저비트 양자화가 익숙해졌고, 이제 이미지 생성 쪽에서도 비슷한 압력이 높아지고 있어요. Bonsai Image 4B는 그 흐름을 이미지 모델에서 보여주는 사례예요.
개발자와 제품팀은 "이미지 생성은 무조건 서버 GPU"라는 전제를 다시 볼 만해요. 모든 고품질 생성 작업이 휴대폰으로 내려오진 않겠지만, 짧은 대기 시간과 개인정보 보호가 중요한 기능은 로컬 모델이 더 잘 맞을 수 있어요. 특히 모바일 앱, 창작 도구, 오프라인 편집 기능을 고민한다면 이런 모델의 속도와 메모리 수치를 계속 봐야 해요. 1
참고 자료
'IT & AI' 카테고리의 다른 글
AI 시대 제품팀의 차별점은 속도가 아니라 선택이에요 (0) 2026.06.03 Codex Sites, 웹앱 제작과 호스팅을 한 흐름으로 묶다 (0) 2026.06.03 Surface Laptop Ultra가 노리는 건 맥북 프로보다 로컬 AI예요 (0) 2026.06.02 AI가 장애 대응까지 맡을 때, Google SRE가 세운 안전선 (0) 2026.06.02 NVIDIA RTX Spark, 로컬 AI PC 경쟁을 Windows로 끌고 와요 (0) 2026.06.02