-
NExT-GPT: Any-to-Any Multimodal LLM ์ ๋ฆฌ๋ ผ๋ฌธ ์ ๋ฆฌ 2025. 7. 9. 16:39
- ์ฐ๊ตฌ ๋ชฉ์ ๋ฐ ๋ฌธ์ ์ ์
- ๋ชจ๋ธ ๊ตฌ์กฐ (์ ์ฒด ์ํคํ ์ฒ)
- ํ์ต ์ ๋ต
- ์คํ ๊ฒฐ๊ณผ ์์ฝ
- ๊ฒฐ๋ก ๋ฐ ํต์ฌ ๊ธฐ์ฌ
- ์ด ์ฐ๊ตฌ์ ์์์ ์ฐ๋ฆฌ์๊ฒ ์ฃผ๋ ์์ฌ์
1. ์ฐ๊ตฌ ๋ชฉ์ ๋ฐ ๋ฌธ์ ์ ์
์ฐ๊ตฌ ๋ชฉํ
- NExT-GPT๋ ์ด๋ค ๋ชจ๋ฌ๋ฆฌํฐ๋ ์ ๋ ฅํ๊ณ ์ด๋ค ๋ชจ๋ฌ๋ฆฌํฐ๋ ์ถ๋ ฅํ ์ ์๋
- ๋ฒ์ฉ ๋ฉํฐ๋ชจ๋ฌ ๋ํ ์ธ์ด ๋ชจ๋ธ(MM-LLM)์ ์ ์ํ๋ค.
- ๋ชฉํ๋ ํ ์คํธ, ์ด๋ฏธ์ง, ์ค๋์ค, ๋น๋์ค์ ์กฐํฉ์ ์์ ๋กญ๊ฒ ์ฒ๋ฆฌํ ์ ์๋
- “Any-to-Any” ๋ฉํฐ๋ชจ๋ฌ ์์คํ ๊ตฌ์ถ์ด๋ค.
๊ธฐ์กด ์ฐ๊ตฌ์ ํ๊ณ
๊ธฐ์กด MM-LLM์ ๊ตฌ์กฐ
- ๋๋ถ๋ถ์ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ LLM ์ค์ฌ + ์ด๋ํฐ ์ฐ๊ฒฐ ๊ตฌ์กฐ
- ์ ๋ ฅ(์ด๋ฏธ์ง/์ค๋์ค ๋ฑ)์ ์ธ์ ๊ฐ๋ฅํ์ง๋ง, ์ถ๋ ฅ์ ๊ฑฐ์ ํญ์ ํ ์คํธ
- ์์: BLIP-2, Flamingo, LLaVA, MiniGPT-4 ๋ฑ
์ฃผ์ ํ๊ณ์
ํญ๋ชฉ๋ด์ฉ
์ ๋ ฅ ํธํฅ ํ ์คํธ ์ธ ๋ชจ๋ฌ ์ ๋ ฅ์ ๊ฐ๋ฅํ๋ ์ถ๋ ฅ์ ํ ์คํธ๋ก๋ง ์ ํ ํ์ดํ๋ผ์ธ ๊ตฌ์กฐ ์ธ๋ถ ํด์ ํธ์ถํ๋ ๋ฐฉ์ → ์ ๋ณด ์ ์ด ์ ๋ ธ์ด์ฆ/์๋ฌ ๋ฐ์ ํ์ต ์ ํ ์ ์ฒด ์์คํ ์ด end-to-end๋ก ํ์ต๋์ง ์์ ์ถ๋ก ๋ฅ๋ ฅ ์ฝํจ ์ ์ฐ์ฑ ๋ถ์กฑ ๋ชจ๋ฌ ์ ํ์ด๋ ์กฐํฉ์ด ์ ํ์ , ์ค์ฌ์ฉ ์๋๋ฆฌ์ค ๋ฐ์ ์ด๋ ค์ ํด๊ฒฐํ๊ณ ์ ํ๋ ํต์ฌ ๋ฌธ์
- ์ด๋ค ๋ชจ๋ฌ๋ฆฌํฐ๋ ์ ๋ ฅํ ์ ์๊ณ ,์ธ๊ฐ ์์ค์ ์ ์ฐํ AI ์์คํ ์ ๋ง๋ค ์ ์์๊น?
- ์ง์์ ๋ฐ๋ผ ์ ์ ํ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ์ถ๋ ฅํ ์ ์๋
- ์ฆ, ์ ๋ ฅ/์ถ๋ ฅ ๋ชจ๋ ์์ ๋ก์ด Any-to-Any ๋ฉํฐ๋ชจ๋ฌ ์ดํด ๋ฐ ์์ฑ์ด ๊ฐ๋ฅํ
- end-to-end ํ์ต ๊ตฌ์กฐ๋ฅผ ์ค๊ณํ๋ ๊ฒ์ด ๋ณธ ๋ ผ๋ฌธ์ ์ค์ฌ ๊ณผ์ ๋ค.
2. ๋ชจ๋ธ ๊ตฌ์กฐ (์ ์ฒด ์ํคํ ์ฒ)
์ ์ฒด ๊ตฌ์กฐ ๊ฐ์
NExT-GPT๋ ๋ค์์ 3๋จ๊ณ ๊ตฌ์กฐ๋ก ๊ตฌ์ฑ๋ end-to-end any-to-any MM-LLM ์์คํ ์ด๋ค.
1. Multimodal Input Encoding (์ผ์ชฝ)
- Text: ๋ณ๋ ์ธ์ฝ๋ ์์ด ๋ฐ๋ก LLM์ผ๋ก ์ ๋ฌ๋๋ค.
- Image / Audio / Video:
- ๊ฐ๊ฐ Image Encoder / Audio Encoder / Video Encoder๋ฅผ ๊ฑฐ์ณ ๋ฒกํฐ๋ก ์ธ์ฝ๋ฉ๋จ
- โธ๏ธ ํ๋ ๋์ก์ด(โ๏ธ) = ์ฌ์ ํ์ต๋ frozen ์ํ, ํ์ต๋์ง ์์
- ์ดํ Input Projection Layer๋ฅผ ํตํด ๊ฐ ๋ชจ๋ฌ ํํ์ LLM์ด ์ดํด ๊ฐ๋ฅํ ์ธ์ด ํํ๋ก ๋ณํ
- ๐ฅ ๋ถ๊ฝ ์์ด์ฝ = ํ์ต๋๋ ๋ถ๋ถ
2. LLM-centric Alignment & Semantic Understanding (์ค์)
- LLM (์: Vicuna)์ ๋ฉํฐ๋ชจ๋ฌ ํํ๋ค์ ๋ฐ์ ์๋ฏธ๋ฅผ ํด์ํ๊ณ ์ถ๋ก ์ ์ํ
- ๋์์ ๋ค์์ ์์ฑ:
- ํ ์คํธ ์๋ต
- Modality Signal Tokens: ์ด๋ค ๋ชจ๋ฌ๋ก ์ถ๋ ฅํ ์ง๋ฅผ ์๋ ค์ฃผ๋ ์ ํธ
3. Instruction-following Alignment & Multimodal Output Generation (์ค๋ฅธ์ชฝ)
- Modality Signal Tokens๋ Output Projection Layer๋ฅผ ๊ฑฐ์ณ ํด๋น ๋ชจ๋ฌ ๋์ฝ๋๋ก ์ ๋ฌ
- ๋์ฝ๋๋ ๊ฐ๊ฐ ๋ค์๊ณผ ๊ฐ์ ์ญํ ์ ์ํ:
- Image Diffusion → ์ด๋ฏธ์ง ์์ฑ
- Audio Diffusion → ์ค๋์ค ์์ฑ
- Video Diffusion → ๋น๋์ค ์์ฑ
- ๋ชจ๋ โ๏ธ frozen ์ํ, ํ์ต๋์ง ์์
- ์ต์ข ์ ์ผ๋ก ์ฌ์ฉ์๊ฐ ์๊ตฌํ ๋ชจ๋ฌ์ ์ถ๋ ฅ์ด ์์ฑ๋จ
ํต์ฌ ์์ฝ
์์ญ์ค๋ช
์์ญ ์ค๋ช ์ ๋ ฅ ์ธ์ฝ๋ฉ ๊ธฐ์กด ์ธ์ฝ๋ + ํ์ต๋๋ Projection Layer๋ก ๋ชจ๋ฌ ๋ฐ์ดํฐ๋ฅผ LLM ํ์์ผ๋ก ๋ณํ ์ค์ฌ ์ฒ๋ฆฌ LLM์ด ๋ชจ๋ ์ ๋ณด๋ฅผ ํตํฉํ์ฌ ์๋ฏธ ์ดํด ๋ฐ ์์ฑ ๋ฐฉํฅ ๊ฒฐ์ ์ถ๋ ฅ ์์ฑ ๋ํจ์ ๋์ฝ๋๋ก ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ ฅ ์์ฑ, Projection๋ง fine-tuning ๋จ ํ์ต ๊ตฌ์กฐ ์ ์ฒด ๋ชจ๋ธ ์ค ํ์ต๋๋ ๋ถ๋ถ์ ๐ฅ๋ก ํ์๋ Projection Layer ๋ฟ (๊ฒฝ๋ ๊ตฌ์กฐ)
๐ ์ ์ค์ํ๊ฐ?
์ด ๊ตฌ์กฐ๋ ๋จ์ํ ๋ชจ๋ฌ ์ฐ๋์ด ์๋๋ผ, LLM ์ค์ฌ์ ์๋ฏธ ์ฒ๋ฆฌ ๋ฐ ์์ฑ ์ ์ด๋ฅผ ํตํด ์์ ํ Any-to-Any ๋ฉํฐ๋ชจ๋ฌ ํ๋ฆ์ end-to-end๋ก ํตํฉํ๋ค. ๋ํ, ๋๋ถ๋ถ์ ๊ตฌ์ฑ์์๋ frozen ์ํ์ด๋ฏ๋ก, ๋ฎ์ ๋น์ฉ์ผ๋ก ๊ณ ์ฑ๋ฅ ํ์ฅ์ฑ์ ์ ๊ณตํ๋ค.
3. ํ์ต ์ ๋ต
NExT-GPT๋ ๋๊ท๋ชจ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ํจ์จ์ ์ผ๋ก ํ์ตํ๊ธฐ ์ํด ์ ์ฒด ์์คํ ์ ์ฒ์๋ถํฐ ํ์ตํ์ง ์๊ณ , ๋ค์๊ณผ ๊ฐ์ ์ ๋ต๋ค์ ํ์ฉํ์ฌ ์ต์ํ์ ์ฐ์ฐ ์์์ผ๋ก ๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค.
๐น 1. ์ฌ์ ํ์ต๋ ๊ณ ์ฑ๋ฅ ์ธ์ฝ๋ ๋ฐ ๋์ฝ๋ ์ฌ์ฌ์ฉ
- CLIP, ImageBind, Stable Diffusion ๋ฑ ๊ธฐ์กด์ ์ฑ๋ฅ ๊ฒ์ฆ๋ ์ธ์ฝ๋์ ๋์ฝ๋๋ฅผ ํ์ฉํจ.
- ์ฒ์๋ถํฐ ๋ชจ๋ธ์ ํ์ตํ์ง ์๊ณ , ๊ธฐ์กด ์์์ ํ์ฉํจ์ผ๋ก์จ ์๊ฐ๊ณผ ๋น์ฉ ์ ๊ฐ.
- ๋ค์ํ modality ํ์ฅ ๊ฐ๋ฅ์ฑ์ ํ๋ณด.
๐น 2. Off-the-shelf ํ๋ผ๋ฏธํฐ ํ์ฉ ๋ฐ cold-start ๋ฌธ์ ํํผ
- ๊ธฐ์กด ๋ชจ๋ธ์ ํ์ต๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ถ๋ฌ์ ์ฌํ์ฉํจ์ผ๋ก์จ cold-start(์ด๊ธฐ ๊ฐ์ค์น๋ก๋ถํฐ ํ์ต ์์)์ ๋นํจ์จ์ฑ ์ ๊ฑฐ.
- ์ด๋ ํ์ต ์์ ์ฑ๊ณผ ํ์ฅ์ฑ์ ๋์์ ํ๋ณดํ๋ ์ ๋ต์.
๐น 3. ์ต์ ํ๋ผ๋ฏธํฐ๋ง ๋ฏธ์ธ ์กฐ์ (Fine-tuning)
- ์ ์ฒด ๋ชจ๋ธ ์ค Input/Output Projection Layer๋ง ๋ฏธ์ธ์กฐ์ ํ๋ฉฐ, ๋๋จธ์ง ์ธ์ฝ๋·๋์ฝ๋·LLM์ ๋ชจ๋ ๊ณ ์ (frozen).
- ์ ์ฒด ํ๋ผ๋ฏธํฐ ์ค ์ฝ 1%๋ง ํ์ต์ ์ฌ์ฉ๋์ด ํ์ต ์์์ ์ต์ํ.
- ๋ฏธ์ธ์กฐ์ ๋ projection layer๊ฐ modality ๊ฐ feature alignment๋ฅผ ๋ด๋นํจ.
๐น 4. ์๋ฐฉํฅ ์ ๋ ฌ ํ์ต
์ธ์ฝ๋ฉ ์ ๋ ฌ: LLM-centric Alignment
- ImageBind์ ๊ฐ์ ์ธ์ฝ๋์ patch-level feature๋ฅผ ๊ฐ๋ ๋จ์ concept token์ผ๋ก ๊ทธ๋ฃนํํ์ฌ LLM์ด ์ดํด ๊ฐ๋ฅํ ์ธ์ด ํํ์ผ๋ก ๋ณํํจ.
- ์ด๋ฅผ ํตํด ํ ์คํธ ๊ธฐ๋ฐ LLM๊ณผ ์๊ฐ/์์ฑ/์์ ํน์ง ๊ฐ ์๋ฏธ ์ ๋ ฌ์ ์ํ.
์ ์ฒด ํ๋ฆ ์์ฝ
์ ๋ ฅ (Image, Audio, Video) → Encoder → Patch Representation → Concept Token ๋ณํ → LLM → Caption ์์ฑ → ์ ๋ต๊ณผ Cross-Entropy ๋น๊ต๋ก ํ์ต
๊ฐ ๊ตฌ์ฑ ์์ ์ค๋ช
1. Image / Audio / Video
- ์ ๋ ฅ ๋ชจ๋ฌ๋ฆฌํฐ 3์ข : ์ด๋ฏธ์ง, ์ค๋์ค, ๋น๋์ค
2. Encoder (์ด๋ฏธ์ง/์ค๋์ค/๋น๋์ค ์ธ์ฝ๋)
- ์ฌ์ ํ์ต๋ ์ธ์ฝ๋ (์: CLIP, ImageBind, HuBERT ๋ฑ)
- โ๏ธ ํ์ = ํ๋ผ๋ฏธํฐ๊ฐ ๊ณ ์ ๋จ (Frozen)
3. Patch Representation
- ์ธ์ฝ๋ ์ถ๋ ฅ์ ๊ฐ ์
๋ ฅ์ patch ๋จ์ grid feature๋ก ๋ถํ ํ ํํ์ด๋ค.
- ์: ์ด๋ฏธ์ง → 16×16 ํจ์น → ๊ฐ ํจ์น์ ๋ฒกํฐ ํํ
4. Input Projection ๋ชจ๋
- ์ฌ๋ฌ ๊ฐ์ Transformer Layer์ Grouping Block์ผ๋ก ๊ตฌ์ฑ๋จ ๐ฅ
- ์ด ๋ชจ๋์ patch feature๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ฒ๋ฆฌ:
- Transformer Layer: ๊ฐ patch ๊ฐ ๊ด๊ณ๋ฅผ ํ์ต
- Grouping Block: patch๋ค์ ๊ฐ๋ ๋จ์(semantic token)๋ก ์ง๊ณ
- Concept Token Representation: ์ต์ข ์ ์ผ๋ก LLM์ด ์ดํดํ ์ ์๋ ๊ฐ๋ ๋จ์ ํํ
5. Concept Image/Audio/Video Representation
- ์ธ ๋ชจ๋ฌ๋ฆฌํฐ๋ณ๋ก LLM์ ๋ค์ด๊ฐ๋ ๊ฐ๋ ํํ ๋ฒกํฐ
6. LLM (์: Vicuna-7B)
- โ๏ธ Frozen ์ํ
- ์ ๋ ฅ๋ ๊ฐ๋ ํํ์ ๋ฐํ์ผ๋ก Image / Audio / Video Caption์ ์์ฑ
7. Caption ์์ฑ → Cross Entropy Loss
- ์์ฑ๋ ์บก์ ๊ณผ Ground Truth(์ ๋ต ์บก์ )์ ๋น๊ตํ์ฌ ํ์ต
- ๋น๊ต๋ Cross-Entropy Loss๋ก ๊ณ์ฐ๋์ด Input Projection ๋ ์ด์ด๋ค์ ์ ๋ฐ์ดํธ
๐ฏ ํ์ต ๋ชฉ์
- ์ ๋ ฅ ๋ชจ๋ฌ๋ฆฌํฐ(์ด๋ฏธ์ง, ์ค๋์ค, ๋น๋์ค)๋ฅผ ์ธ์ด ํํ(Linguistic Space)์ผ๋ก ํจ๊ณผ์ ์ผ๋ก ์ ๋ ฌ(alignment)ํ์ฌ,
- LLM์ด ๋ชจ๋ ๋ชจ๋ฌ์ ํ ์คํธ์ฒ๋ผ ์ดํดํ๊ณ ์๋ตํ ์ ์๋๋ก ๋ง๋๋ ๊ฒ
์์ ์ ๋ฆฌ
ํญ๋ชฉ ์ค๋ช ์ ๋ ฅ ์ด๋ฏธ์ง, ์ค๋์ค, ๋น๋์ค ์ค๊ฐ ํํ Patch-level feature → Concept Token Representation ํต์ฌ ํ์ต ๋์ Input Projection ๋ด๋ถ์ ๐ฅ ๋ ์ด์ด๋ค (Transformer + Grouping) ์ถ๋ ฅ LLM์ด ์์ฑํ Caption (ํ ์คํธ ์ค๋ช ) ์์ค ํจ์ Cross-Entropy Loss (์์ธก๋ ์บก์ vs. ์ ๋ต) ๊ณ ์ ๋ ๋ชจ๋ Encoder, LLM (Vicuna) โ๏ธ
์ด ๊ตฌ์กฐ๋ LLM์ด ๊ฐ ๋ชจ๋ฌ์ ์๋ฏธ๋ฅผ ๊ฐ๋ ์์ค์์ ์ดํดํ๊ณ ํ ์คํธ๋ก ํํํ ์ ์๋๋ก ์ ๋ ฌํ๋ ํต์ฌ ๋จ๊ณ์ด๋ค. ์ฆ, "LLM์๊ฒ ์ด๋ฏธ์ง/๋น๋์ค/์ค๋์ค๋ฅผ ์ธ์ด์ฒ๋ผ ๋๋ผ๊ฒ ๋ง๋ ๋ค"๊ณ ์์ฝํ ์ ์๋ค.
๋์ฝ๋ฉ ์ ๋ ฌ: Instruction-following Alignment
- LLM์ด ์์ฑํ modality-specific signal token์ ๋์ฝ๋๊ฐ ์ดํด ๊ฐ๋ฅํ ์กฐ๊ฑด ์ ๋ ฅ์ผ๋ก ์ ๋ ฌ.
- ํ์ต ์ signal token๊ณผ diffusion model์ ์กฐ๊ฑด ํ ์คํธ ํํ ๊ฐ representation distance ์ต์ํ.
์ ์ฒด ๊ตฌ์กฐ ํ๋ฆ ์์ฝ
LLM → Signal Tokens (Image, Audio, Video)
→ Output Projection (Transformer + Linear)
→ Diffusion ๋ชจ๋ธ ์กฐ๊ฑด ์ ๋ ฅ
→ Content ์์ฑ + Loss ๊ณ์ฐ (Alignment + Denoising)
๊ตฌ์ฑ ์์๋ณ ์ค๋ช
1. LLM Output Representation
- LLM์ ํ
์คํธ ์๋ต ์ธ์๋ ๋ชจ๋ฌ ์ง์ ํ ํฐ์ ์์ฑํ๋ค:
- Image Signal Token
- Audio Signal Token
- Video Signal Token
- โ๏ธ = LLM์ ๋๊ฒฐ(frozen) ์ํ
2. Image Output Projection (ํ์ต ๋์ ๐ฅ)
- LLM์ signal token์ ๋ํจ์ ๋ชจ๋ธ์ด ํด์ํ ์ ์๋ ํํ์ผ๋ก ๋ณํํ๋ projection ๋ชจ๋
- ๊ตฌ์กฐ: Transformer Encoder + Decoder + Linear Layer
- ํ์ต ๋์ = signal token ↔ ๋ํจ์ ์กฐ๊ฑด ๊ฐ ์๋ฏธ์ ์ ๋ ฌ ์ํ
3. Image Diffusion
- ์ด๋ฏธ์ง ์์ฑ์ ์ํ Stable Diffusion ๋ฐฑ๋ณธ ์ฌ์ฉ
- Text Encoder + U-Net๋ก ๊ตฌ์ฑ๋์ด ์์ (โ๏ธ Frozen)
- ์กฐ๊ฑด์ผ๋ก ์ฃผ์ด์ง๋ ์ ๋ณด:
- LLM signal token ํํ (projected)
- ํ ์คํธ ์ค๋ช
4. Loss ๊ตฌ์ฑ (์์ค ํจ์)
- Caption-alignment Loss
- LLM์ด ์์ฑํ signal token์ ํํ๊ณผ,
- Diffusion ๋ชจ๋ธ ๋ด Text Encoder๊ฐ ์์ฑํ ์กฐ๊ฑด ํํ ์ฌ์ด์ ํํ ๊ฑฐ๋ฆฌ ์ต์ํ
- Conditional Latent Denoising Loss
- ์์ฑ๋ ์ด๋ฏธ์ง๊ฐ ์ค์ ํ๊ฒ ์ด๋ฏธ์ง์ ์ ์ฌํ๋๋ก
- U-Net์ latent output์ ๋ํด ๋๋ ธ์ด์ง ์์ค ์ ์ฉ
๐ฏ ํต์ฌ ์์ฝ
ํญ๋ชฉ ์ค๋ช ๋ชฉ์ LLM์ ๋ชจ๋ฌ ์ง์(signal token)๊ฐ ์์ฑ ๋ชจ๋ธ์ ์ ํํ ๋ฐ์๋๋๋ก ์ ๋ ฌ ํ์ต ์ฃผ์ ๊ตฌ์ฑ Output Projection (Transformer ๊ธฐ๋ฐ), Signal Token, Diffusion ํ์ต ๋ฒ์ Output Projection Layer๋ง ํ์ต ๐ฅ ์์ค ๊ตฌ์ฑ (1) ํํ ์ ๋ ฌ (caption-alignment), (2) ์์ฑ ํ์ง ํฅ์ (denoising loss) ์์ฑ๊ธฐ ๋ํจ์ ๊ธฐ๋ฐ ์์ฑ๊ธฐ (์ด๋ฏธ์ง: Stable Diffusion, ๋น๋์ค: Zeroscope, ์ค๋์ค: AudioLDM)
๐ ์ ์ค์ํ๊ฐ?
- ๊ธฐ์กด MM-LLM ์์คํ ์ ํ ์คํธ ์ง์๋ง์ผ๋ก ๋์ฝ๋๋ฅผ ์ ์ดํ๋ค๋ฉด, NExT-GPT๋ ๋ชจ๋ฌ๋ณ ์ ํธ ํ ํฐ์ ์์ฑํ๊ณ , ๊ทธ๊ฒ์ ๋ํจ์ ์์ฑ๊ธฐ๋ก ์ง์ ์ฐ๋์ํด์ผ๋ก์จ ์ ๋ฐํ๊ณ ์ ์ฐํ ๋ค์ค ๋ชจ๋ฌ ์์ฑ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
์ด ๊ตฌ์กฐ ๋๋ถ์ NExT-GPT๋ ๋จ์ํ ํ ์คํธ ์๋ต์ ๋์ด์, ์ด๋ฏธ์ง, ๋น๋์ค, ์ค๋์ค ์์ฑ๊น์ง ์ผ๊ด๋๊ณ ํตํฉ์ ์ผ๋ก ์ํ ๊ฐ๋ฅํ ์ง์ ํ Any-to-Any ๋ชจ๋ธ๋ก ์๋ํ๋ค.
๐น 5. MosIT ๋ฐ์ดํฐ์ ๊ตฌ์ถ
- ๊ธฐ์กด instruction tuning ๋ฐ์ดํฐ๋ text ์ค์ฌ์ด๋ผ ํ๊ณ๊ฐ ์์ด, ์๋ก์ด modality-switching ๋ฐ์ดํฐ์ MosIT ์ง์ ๊ตฌ์ถ.
- ์ด 5,000๊ฐ์ ๊ณ ํ์ง ๋ํ ์์๋ฅผ ํฌํจํ๋ฉฐ, ๋ค์ค ๋ชจ๋ฌ ๊ฐ์ ์ ํ, 3~7ํด์ ๋ณต์กํ ๋ํ, ๋ช ์์ ·์์์ ์์ฒญ, ์ถ๋ก /๊ณํ/๊ฐ์ ์๋ต ๋ฑ ์ธ๊ฐ ์์ค ๋ํ ํ๋ฆ์ ๋ฐ์.
๐น 6. LoRA ๊ธฐ๋ฒ์ ํ์ฉํ ๊ฒฝ๋ํ ํ์ต
- LoRA(Low-Rank Adaptation)๋ฅผ ์ฌ์ฉํ์ฌ LLM์ ์ผ๋ถ ํ๋ผ๋ฏธํฐ๋ง ํจ์จ์ ์ผ๋ก ์ ๋ฐ์ดํธํจ.
- ์ด ๋ฐฉ์์ ์ฐ์ฐ ์์ ์๋ชจ๋ฅผ ์ค์ด๋ฉด์๋ ๋ชจ๋ธ์ ํํ๋ ฅ์ ์ ์ง์ํฌ ์ ์์.
- LoRA๋ projection layer ์ธ์ ์ผ๋ถ LLM ๋ด๋ถ ๋ชจ๋์๋ ์ ์ฉ๋จ.
์ด ๊ทธ๋ฆผ์ Figure 3: modality-switching instruction tuning์ ์ ์ฒด ๊ณผ์ ์ ์๊ฐํํ ๊ฒ์ด๋ค.
NExT-GPT๊ฐ ํ ์คํธ ๊ธฐ๋ฐ ์ง์๋ฅผ ์ดํดํ๊ณ , ๊ทธ์ ๋ฐ๋ผ ์ ์ ํ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ ฅ์ ์์ฑํ๋๋ก ํ์ต๋๋ ๊ณผ์ ์ ๋ณด์ฌ์ค๋ค.
์ ์ฒด ํ๋ฆ ์์ฝ
1. Input Instructions (์ผ์ชฝ ํ์ ๋ฐ์ค)
- ์ฌ์ฉ์์ ์
๋ ฅ์ ํ
์คํธ ๋จ๋
๋๋ ํ
์คํธ + ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ ์กฐํฉ์ด๋ค.
- ์:
- “๊ณ ์์ด๊ฐ ํผ์๋ ธ ์น๋ ์ฅ๋ฉด ๋ณด์ฌ์ค” → text + image
- “์ด ์๋ฆฌ๋ ๋ฌด์์ธ๊ฐ์?” → text + audio
- “์ด ์์์ ์ค๋ช ์ ์๋ ค์ค” → text + video
- ์:
2. Input Encoding ๋ฐ Projection (์ข์ธก ์ค์)
- ์ด๋ฏธ์ง, ์ค๋์ค, ๋น๋์ค ์ ๋ ฅ์ ๊ฐ๊ฐ์ Encoder์์ ํน์ฑ ์ถ์ถ ํ,
- Input Projection Layer๋ฅผ ํตํด LLM์ด ์ดํดํ ์ ์๋ ์ธ์ด ๊ธฐ๋ฐ ํํ์ผ๋ก ๋ณํ๋๋ค.
- Text-only ์ ๋ ฅ์ ๊ฒฝ์ฐ projection ์์ด ๋ฐ๋ก LLM ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋จ.
3. LLM + LoRA ๊ธฐ๋ฐ Instruction Tuning
- LLM์ ์ง์๋ฌธ์ ๊ธฐ๋ฐ์ผ๋ก ํ ์คํธ ์ถ๋ ฅ๊ณผ ํจ๊ป
- ํ์ํ ๊ฒฝ์ฐ ๋ฉํฐ๋ชจ๋ฌ ์์ฑ ์ง์๋ฅผ ํฌํจํ ํน๋ณ ํ ํฐ (e.g. <IMGโ>, <VIDโ>)์ ์์ฑํ๋ค.
- ์ด๋ LoRA ๊ธฐ๋ฒ์ ์ฌ์ฉํด LLM ์ผ๋ถ๋ง ๊ฒฝ๋ ํ์ต๋๋ค.
- (๊ทธ๋ฆผ์์ LLM ๋ธ๋ก์ ๋ถ์ "LoRA ๐ฅ"์ด ์ด๋ฅผ ์๋ฏธํจ)
4๏ธโฃ LLM Output vs Gold Annotation ๋น๊ต
- ์ค์ ์์ฑ๋ ํ ์คํธ + signal token ์ํ์ค์
- ์ ๋ต ์ํ์ค(Gold Annotation)๋ฅผ Cross Entropy Loss๋ก ๋น๊ตํ์ฌ ํ์ต.
5๏ธโฃ Signal Token → Output Projection → Diffusion
- LLM์ด ์์ฑํ signal token ํํ์ ๊ฐ modality๋ณ Output Projection Layer๋ฅผ ๊ฑฐ์ณ,
- Diffusion Decoder๋ก ์ ๋ฌ๋๋ค.
- ์ฌ๊ธฐ์ ์ค์ ๋ฉํฐ๋ชจ๋ฌ ์ฝํ ์ธ (์ด๋ฏธ์ง, ์ค๋์ค, ๋น๋์ค)๋ฅผ ์์ฑํ๋ค.
6๏ธโฃ ์์ฑ ๊ฒฐ๊ณผ ํ๊ฐ (Generation Loss)
- ์์ฑ๋ ์ด๋ฏธ์ง/์ค๋์ค/๋น๋์ค์
- ์ ๋ต multimodal caption (Gold Annotation)์ ๋น๊ตํ์ฌ Generation Loss๋ฅผ ๊ณ์ฐํ๋ค.
์์ ์ ๋ฆฌ
๋จ๊ณ ๋ด์ฉ ์ ๋ ฅ ํ ์คํธ + ๋ฉํฐ๋ชจ๋ฌ (์ด๋ฏธ์ง, ์ค๋์ค, ๋น๋์ค) ๋ชฉํ ์ง์๋ฌธ์ ๋ฐ๋ผ ๋ฉํฐ๋ชจ๋ฌ ์๋ต์ ์ ํํ ์์ฑ LLM ์ญํ ํ ์คํธ ์์ฑ + ๋ฉํฐ๋ชจ๋ฌ ์์ฑ ์ง์(signal token) ์ถ๋ ฅ ํ์ต LoRA ๊ธฐ๋ฐ LLM tuning + Output projection ์ ๋ ฌ ์์ค ํจ์ Cross Entropy + Generation Loss ๊ฒฐ๊ณผ ์ ์ ์ง์์ ๋ฐ๋ผ ๋ค์ํ ๋ชจ๋ฌ ์์ฑ์ด ๊ฐ๋ฅํ MM-LLM
์ด ๋ฐฉ์์ ๋จ์ํ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ "๋ฐ๊ณ ํด์ํ๋ ๊ฒ"์ ๋์ด์, ์ฌ์ฉ์ ์ง์๋ฅผ ์ดํดํ๊ณ ๋ฅ๋์ ์ผ๋ก ํ ์คํธ/์ด๋ฏธ์ง/์ค๋์ค/๋น๋์ค๋ฅผ ์์ฑํ ์ ์๋ AI ์์คํ ์ ๋ง๋๋ ๋ฐ ํต์ฌ์ด ๋๋ค.
4. ์คํ ๊ฒฐ๊ณผ ์์ฝ
NExT-GPT๋ ๋ชจ๋ฌ ์ธ์ ๋ฅ๋ ฅ(perception)๊ณผ ์ฝํ ์ธ ์์ฑ ๋ฅ๋ ฅ(generation) ์์ชฝ์์ ๋ชจ๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์๋ค. ๋ค์ํ ๋ฒค์น๋งํฌ์ ๋น๊ต ์คํ์ ํตํด ๊ทธ ํจ๊ณผ๊ฐ ์ ์ฆ๋์์ผ๋ฉฐ, ์ถ๊ฐ์ ์ผ๋ก ๋ชจ๋ ๊ตฌ์ฑ ์์๋ค์ ์ํฅ ๋ถ์๋ ์ํ๋์๋ค.
1. ๋ฉํฐ๋ชจ๋ฌ ์ธ์ ์ฑ๋ฅ (Multimodal Perception)
- ์ด๋ฏธ์ง ์ธ์
- Image Captioning, Image QA ๋ฑ์์ SOTA ์์ค ์ฑ๋ฅ ๋ฌ์ฑ.
- MMBench, SEED-Bench ๋ฑ ํ๊ฐ ์ ์ฉ ๋ฒค์น๋งํฌ์์๋ ๋์ ์ ๋ต๋ฅ .
- ๋น๋์ค ๋ฐ ์ค๋์ค ์ธ์
- WebVid-2M (Video), AudioCaps (Audio) ๊ธฐ๋ฐ ํ๊ฐ์์ ์ฐ์ํ ์ดํด ๋ฐ ๋ฌธ์ฅ ์์ฑ ์ฑ๋ฅ ๋ณด์.
- LLM ๊ธฐ๋ฐ ์ง์ ์์ฑ์ผ๋ก ๋ฌธ๋งฅ ํํ๋ ฅ์ด ๋ฐ์ด๋จ.
2. ๋ฉํฐ๋ชจ๋ฌ ์์ฑ ์ฑ๋ฅ (Multimodal Generation)
- ํ
์คํธ๋ก๋ถํฐ ์ด๋ฏธ์ง·์์·์ค๋์ค ์์ฑ ํ์ง ๋น๊ต
- Stable Diffusion (์ด๋ฏธ์ง), Zeroscope (์์), AudioLDM (์ค๋์ค) ํ์ฉ.
- LLM์ด modality signal token์ ํตํด ์ง์ ์ง์ํ๋ ๋ฐฉ์์ด๋ผ ์ ์ด๋ ฅ๊ณผ ํํ๋ ฅ์์ ์ฐ์ํจ.
- ๋น๊ต ๋ชจ๋ธ: GILL, Emu, UIO-2XXL, Codi ๋ฑ
- ๋๋ถ๋ถ์ ๋น๊ต ๋ชจ๋ธ๋ณด๋ค ๋ค์ํ modality ์กฐํฉ์ ์ง์ํ๋ฉฐ, zero-shot ์ํฉ์์๋ ์ฑ๋ฅ ์ ์ง.
3. ์ ๋์ ๋ถ์ – signal token ์์ ์ํฅ
- modality๋ณ๋ก ํ์ํ signal token ๊ฐ์๊ฐ ๋ค๋ฆ:
- ์ด๋ฏธ์ง: 4๊ฐ, ์ค๋์ค: 8๊ฐ, ์์: 24๊ฐ ์ด์ ํ์.
- ๋ฐ์ดํฐ ์๊ณผ ๋ํจ์ ๋ชจ๋ธ ๊ฐ๋์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๋ฏผ๊ฐํ๊ฒ ๋ณํ.
4. ๊ตฌ์ฑ ์์๋ณ ์ํฅ ์คํ
- Grouping Mechanism ํจ๊ณผ
- ๋จ์ Linear Layer → ์ฑ๋ฅ ๊ธ๊ฐ.
- Q-Former ๋์ → ์ผ๋ถ ๊ฐ์ .
- NExT-GPT์ Grouping Mechanism์ด ๊ฐ์ฅ ํจ๊ณผ์ .
- Pipeline vs End-to-End ๊ตฌ์กฐ ๋น๊ต
- ์ฌ๋์ด ํ๋จํ instruction-following, ํฉ๋ฆฌ์ฑ, ์์ฑ ํ์ง ํ๊ฐ์์ end-to-end ๊ตฌ์กฐ๊ฐ ์๋ฑํ ์ฐ์.
5. ์ ์ฑ์ ๋ถ์ (Qualitative Analysis)
- ์ง๊ด์ ์์ ์ ๊ณต:
- ์์์์ ๋น์ ์ ํ๋ ๊ฐ์ง ํ ์ ์ฌํ ์ด๋ฏธ์ง์ ์ค๋์ค ์์ฑ.
- ์ฌ์ฉ์์ ๊ฐ์ ์ ๊ฐ์งํ๊ณ ์๋ก์ฉ ์์ ์๋ ์์ฑ (e.g., ๊ฐ์์ง ์์).
- ํ๋ ์ ํ ์ด์ ์ค๋น ์ ์๊ฐ ์๋ฃ + ์์ฝ ํ ์์ฑ.
- Implicit Instruction ์ดํด
- ๋ช ํํ ์ง์๊ฐ ์์ด๋ ์ฌ์ฉ์ ๊ฐ์ ์ด๋ ๋ชฉ์ ์ ํ์ ํด ์ ์ ํ modality ์ ํ ๋ฐ ์์ฑ ์ํ.
5. ๊ฒฐ๋ก ๋ฐ ํต์ฌ ๊ธฐ์ฌ
NExT-GPT๋ end-to-end ๊ตฌ์กฐ์ ๋ฒ์ฉ any-to-any ๋ฉํฐ๋ชจ๋ฌ LLM์ผ๋ก, ํ ์คํธ, ์ด๋ฏธ์ง, ์ค๋์ค, ๋น๋์ค๋ฅผ ์์ ๋กญ๊ฒ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ผ๋ก ์ฌ์ฉํ ์ ์๋ ๊ฐ๋ ฅํ ์์คํ ์ด๋ค. ๊ธฐ์กด์ ํ์ดํ๋ผ์ธ ๋ฐฉ์์ด ๊ฐ์ง ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , ๋ค์๊ณผ ๊ฐ์ ์ฅ์ ์ ๊ฐ์ง๋ค:
- ๋ค์ํ modality๋ฅผ ์ฐ๊ฒฐํ๋ ๋ชจ๋ํ ๊ตฌ์กฐ
- ๊ธฐ์กด์ ๊ณ ์ฑ๋ฅ encoder·decoder ์ฌํ์ฉ์ผ๋ก ํ์ต ๋น์ฉ ์ต์ํ
- ์ ์ฒด ํ๋ผ๋ฏธํฐ์ 1%๋ง ํ์ตํ๋ lightweight ์ ๋ต
- ๊ณ ํ์ง instruction tuning dataset (MosIT) ๊ตฌ์ถ ๋ฐ ํ์ฉ
- ๋ณต์กํ cross-modal reasoning๊ณผ generation ๊ฐ๋ฅ
์ฃผ์ ๊ธฐ์ฌ
- ์ต์ด์ ๋ฒ์ฉ any-to-any MM-LLM ์ ์
- ํ ์คํธ, ์ด๋ฏธ์ง, ์ค๋์ค, ๋น๋์ค๋ฅผ ์์ ๋กญ๊ฒ ์ธ์ํ๊ณ ์์ฑ ๊ฐ๋ฅ.
- LLM ๊ธฐ๋ฐ์ผ๋ก reasoning ๋ฅ๋ ฅ์ ๋ด์ฅํ์ฌ ์ฌ๋๊ณผ ์ ์ฌํ ์ง์์๋ต ์ํ.
- ๊ฒฝ๋ ์ ๋ ฌ ํ์ต ๊ธฐ๋ฒ ๋์
- ์ธ์ฝ๋ฉ ์ธก: LLM-centric multimodal alignment
- ๋์ฝ๋ฉ ์ธก: Instruction-following alignment
- ์ ์ฒด ์์คํ ์ ๋จ 1%๋ง ๋ฏธ์ธ ์กฐ์ ํ๋ ๊ณ ํจ์จ ๊ตฌ์กฐ
- MosIT: ๊ณ ํ์ง modality-switching instruction ํ๋ ๋ฐ์ดํฐ์
๊ตฌ์ถ
- 5,000๊ฐ ์ด์์ ๋ฉํฐ๋ชจ๋ฌ ๋ํ ์ํ ์๋ ์์ฑ ๋ฐ ๊ฒ์
- ๋ค์ํ topic๊ณผ modality ์กฐํฉ, multi-turn ๋ํ, implicit ๋ช ๋ น๊น์ง ์ปค๋ฒ
6. ์ด ์ฐ๊ตฌ์ ์์์ ์ฐ๋ฆฌ์๊ฒ ์ฃผ๋ ์์ฌ์
์ฐ๊ตฌ์ ์์
- ๋ฒ์ฉ any-to-any ๋ฉํฐ๋ชจ๋ฌ LLM์ ์ฒซ ๊ตฌํ ์ฌ๋ก
- → ๋ค์ํ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ์์ ๋กญ๊ฒ ์กฐํฉํ ์ ์๋ ์ธ๊ฐ ์ ์ฌ ์ธ๊ณต์ง๋ฅ์ ์ด์
- ๋ชจ๋์ ๊ตฌ์กฐ + ๊ฒฝ๋ ํ์ต ์ ๋ต → ํ์ฅ์ฑ๊ณผ ํจ์จ์ฑ ๋ชจ๋ ํ๋ณด
- → LLM์ ๊ณ ์ (frozen)๋ ์ํ์์ projection ๊ณ์ธต๋ง ๋ฏธ์ธ ์กฐ์ → ํ์ต ๋น์ฉ ์ ๊ฐ
- ๊ธฐ์กด์ ํ์ดํ๋ผ์ธ ๋ฐฉ์์ ํ๊ณ ๊ทน๋ณต (๋น์ฐ์, ์ค๋ฅ ๋์ , ์ถ๋ก ๋ ฅ ๋ถ์กฑ)
- → end-to-end ๋ฐฉ์์ ํตํฉ ํ์ต ๊ตฌ์กฐ๋ก ์๋ฏธ ์๋ ๊ฐ์
์ฐ๋ฆฌ ํ๋ก์ ํธ์์ ์ง์ ์ ์ฐ๊ฒฐ
- ์ฐ๋ฆฌ๋ “๋ชจ๋ธ์ ์๋ก์ด modality ์ถ๊ฐ” ์คํ์ ๋ด๋น
- → NExT-GPT์ ๊ตฌ์กฐ๋ ์ modality๋ฅผ ์ถ๊ฐํ๋ ๋ฐ ๋งค์ฐ ์ ํฉํ ์ค๊ณ
- ์๋ก์ด modal์ ๋ฃ์ ๋ ํด์ผ ํ ํต์ฌ ์์
:
- ์๋ก์ด modality์ ๋ง๋ Encoder ์ ํ or ๊ตฌ์ถ
- Input projection layer ํ์ต
- Modality signal token ์ ์ ๋ฐ ํ์ต
- (ํ์ ์) Output projection + diffusion decoder ์ฐ๊ฒฐ
- ๐ก ์ฆ, NExT-GPT์ ๊ตฌ์กฐ๋ ์ฐ๋ฆฌ๊ฐ ์คํ์ ์ค๊ณํ๊ณ ์ ์ฉํ ์ ์๋ ์ง์ ์ ์ธ ๊ฐ์ด๋๋ผ์ธ ์ญํ
'๋ ผ๋ฌธ ์ ๋ฆฌ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
GroundingDINO ์ ๋ฆฌ (4) 2025.07.09