-
About M-LLM(with.BLIP-2)์นดํ ๊ณ ๋ฆฌ ์์ 2025. 3. 29. 22:36
1. M-LLM ์ ์
2. ๋ํ์์์ธ BLIP-2์๊ฐ
3. BLIP-2 ํต์ฌ๊ตฌ์กฐ
4. BLIP-2 ํ์ต ์ ๋ต
5. BLIP-2๊ฐ ์ํ ๊ฐ๋ฅํ ํ์คํฌ
6. BLIP-2 ์ ํ์ฌํญ
[1. M-LLM์ ์]
M-LLM (Multimodal Large Language Model)์ ํ ์คํธ๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ์ง, ์ค๋์ค, ๋น๋์ค ๋ฑ ๋ค์ํ ํํ์ ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ์ฒ๋ฆฌํ ์ ์๋ ๋ํ ์ธ์ด ๋ชจ๋ธ์ด๋ค. ๊ธฐ์กด์ LLM(GPT-3, T5 ๋ฑ)์ ํ ์คํธ๋ง ์ ๋ ฅ๋ฐ์ ์ฒ๋ฆฌํ์ง๋ง, M-LLM์ ์ฌ๋ฌ ๋ชจ๋ฌ์ ๋ฐ์ดํฐ๋ฅผ ํตํฉ์ ์ผ๋ก ์ดํดํ๊ณ ์์ฐ์ด๋ก ์๋ตํ ์ ์๋ค.
โจ M-LLM์ ์กฐ๊ฑด
- LLM ๊ธฐ๋ฐ: ํ ์คํธ ์์ฑ ๋ฅ๋ ฅ์ ๊ฐ์ถ ๋ํ ์ธ์ด ๋ชจ๋ธ ํฌํจ
- ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ: ํ ์คํธ์ ์ด๋ฏธ์ง, ์ค๋์ค ๋ฑ์ ํจ๊ป ์ ๋ ฅ ๊ฐ๋ฅ
- ์ถ๋ก ๋ฅ๋ ฅ: ๋จ์ ๋งค์นญ์ ๋์ด์ ๋ณตํฉ์ ์ธ reasoning ์ํ
๐น ๋ํ ์์
- GPT-4V (OpenAI)
- Gemini (Google)
- Flamingo (DeepMind)
- BLIP-2 (Salesforce)
- LLaVA, MiniGPT-4 ๋ฑ
[2. M-LLM์ ๋ํ ์์: BLIP-2]
๐ BLIP-2๋?
BLIP-2๋ Salesforce์์ 2023๋ ์ ๋ฐํํ M-LLM์ผ๋ก,
์ด๋ฏธ์ง ์ธ์ ๋ชจ๋ธ(Image Encoder)๊ณผ ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM) ์ฌ์ด๋ฅผ ์ฐ๊ฒฐํด
์ด๋ฏธ์ง๋ฅผ ์ดํดํ๊ณ ํ ์คํธ๋ก ์ค๋ช ํ๊ฑฐ๋ ์ง๋ฌธ์ ๋ต๋ณํ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ด๋ค.BLIP-2๋ M-LLM์ ํต์ฌ ๊ฐ๋ ์ธ "๋ค์ํ ๋ชจ๋ฌ(์ด๋ฏธ์ง+ํ ์คํธ)์ LLM์ ์ค์ฌ์ผ๋ก ํตํฉํ๊ณ ์ถ๋ก ํ ์ ์๋ ๊ตฌ์กฐ"๋ฅผ ๋งค์ฐ ํจ์จ์ ์ผ๋ก ์คํํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
BLIP-2๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ํจ์ฌ ์ ์ ์์ ํ๋ จ ๊ฐ๋ฅํ ๋งค๊ฐ๋ณ์์๋ ๋ถ๊ตฌํ๊ณ ๋ค์ํ ๋น์ ์ธ์ด ์์ ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
[BLIP-2์ ์ฃผ์ ์ฅ์ ]
• BLIP-2๋ ์ฌ์ ํ์ต๋ ์ด๋ฏธ์ง ๋ชจ๋ธ๊ณผ ์ธ์ด ๋ชจ๋ธ์ ๋ชจ๋ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ค. ๋ฐ๋ณต ํ์ต ๋จ๊ณ์ ์์ฑ ํ์ต ๋จ๊ณ์ ๋ ๋จ๊ณ๋ก ์ฌ์ ํ์ต๋
Q-Former๋ฅผ ์ฌ์ฉํ์ฌ ์์ ๊ฐ ๊ฒฉ์ฐจ๋ฅผ ํด์ํ๋ค. BLIP-2๋ visual question answering(์๊ฐ์ ์ง๋ฌธ ๋ต๋ณ), image captioning, image-text retrieval(์ด๋ฏธ์ง ํ ์คํธ ๊ฒ์ )๋ฑ ๋ค์ํ ์๊ฐ ์ธ์ด ์์ ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
• LLM์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ BLIP-2๋ ์์ฐ์ด ์ง์๋ฅผ ๋ฐ๋ฅด๋ zero-shot image-to-text์์ฑ์ ์ํํ์ฌ visual knowledge reasoning(์๊ฐ ์ง์ ์ถ๋ก ), visual conversation(์๊ฐ ๋ํ)๋ฑ๊ณผ ๊ฐ์ ์๋ก์ด ๊ธฐ๋ฅ์ ๊ตฌํํ ์ ์๋ค(๊ทธ๋ฆผ์ฐธ์กฐ)
• BLIP-2๋ frozen unimodal๋ชจ๋ธ๊ณผ ๊ฒฝ๋ Q-Former๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๊ธฐ์กด ์ต์ ๋ชจ๋ธ๋ณด๋ค ์ปดํจํ ํจ์จ์ด ๋๋ค. ์๋ฅผ ๋ค์ด, BLIP-2๋ ์ ๋ก ์ท VQAv2์์ ํ๋ผ๋ฐ๊ณ (Alayrac et al., 2022)๋ณด๋ค 8.7% ์ฑ๋ฅ์ด ๋ฐ์ด๋๋ฉด์๋ ํ๋ จ ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ๋ 54๋ฐฐ ๋ ์ ๊ฒ ์ฌ์ฉํ๋ค. ๋ํ, ์ฐ๊ตฌ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด BLIP-2๋ ๋ ๋์ VLP ์ฑ๋ฅ์ ์ํด ๋ ์ง๋ณด๋ unimodal ๋ชจ๋ธ์ ์ํํ ์ ์๋ ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์ด๋ผ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
[3. BLIP-2 ํต์ฌ๊ตฌ์กฐ]
๊ตฌ์ฑ ์์ ์ค๋ช ํ์ต ์ฌ๋ถ Image Encoder ์ด๋ฏธ์ง๋ฅผ ๋ฒกํฐ๋ก ํํ โ๏ธ Frozen Q-Former ํ์ต ๊ฐ๋ฅํ ์ฟผ๋ฆฌ ๋ฒกํฐ ์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ง๋ ์ด๋ฏธ์ง ์ธ์ฝ๋์์ ์๊ฐ์ ํน์ง์ ์ถ์ถํ๋ ๊ฒฝ๋ ํธ๋์คํฌ๋จธ โ ํ์ต ๋์ LLM ์์ฐ์ด ์ฒ๋ฆฌ ๋ฐ ์์ฑ โ๏ธ Frozen - ๊ธฐ์กด LLM/๋น์ ๋ชจ๋ธ(Image Encoder)์ ๊ฑด๋๋ฆฌ์ง ์๊ณ , ์ค๊ฐ ์ฐ๊ฒฐ(Q-Former)๋ง ํ์ต
- ๋ค์ํ LLM (FlanT5, OPT, Vicuna ๋ฑ)๊ณผ๋ ์ฝ๊ฒ ๊ฒฐํฉ ๊ฐ๋ฅ → ๋ชจ๋ํ ๊ตฌ์กฐ
๊ธฐ์กด ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ BLIP-2๋ ๋ค์ํ ๋น์ ์ธ์ด ์์ ์ ๊ณ ์ ์ด๋ฏธ์ง ์ธ์ฝ๋์ ๊ณ ์ LLM์ ํจ๊ณผ์ ์ด๊ณ ํจ์จ์ ์ผ๋ก ํ์ฉํ ์ ์์ด ๋ ๋ฎ์ ์ฐ์ฐ ๋น์ฉ์ผ๋ก ๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์๋ค.
[4. BLIP-2 ํ์ต ์ ๋ต]
BLIP-2๋ ํฌ๊ฒ ๋ ๋จ๊ณ์ ํ์ต์ ๊ฑฐ์น๋ค:
- ์๊ฐ-์ธ์ด ํํ ํ์ต (Stage 1)
BLIP-2์ Q-Former๋ Self-Attention + Cross-Attention์ ์กฐํฉํด์ ํ์ต ๋ชฉํ์ ๋ฐ๋ผ ๋ง์คํฌ ํจํด์ ๋ฌ๋ฆฌํ์ฌ ์ฟผ๋ฆฌ ๋ฒกํฐ๊ฐ ํ์ํ ์ ๋ณด์ ์ง์คํ๋๋ก ์ ๋ํ๋ค.
- ์ธ ๊ฐ์ง ํ์ต ๋ชฉํ:
- Bi-directional Self-Attention Mask (Image-Text Matching):
- ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ ๊ด๋ จ์ฑ์ ํ์ตํ๋ ๋ชฉํ์ ๋๋ค.
- ์ด๋ฏธ์ง์ ์ฟผ๋ฆฌ ํ ํฐ(Q)๊ณผ ํ ์คํธ ํ ํฐ(T) ๊ฐ์ ์๋ฐฉํฅ ์ ๋ณด ๊ตํ์ ํ์ฉํฉ๋๋ค.
- ์ฆ, ๋ชจ๋ ํ ํฐ์ด ์๋ก ์ํธ์์ฉํ๋ฉฐ ์ด๋ฏธ์ง์ ํ ์คํธ์ ์๋ฏธ์ ์ฐ๊ฒฐ์ ํ์ตํฉ๋๋ค.
- Multi-modal Causal Self-Attention Mask (Image-Grounded Text Generation):
- ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์คํธ๋ฅผ ์์ฑํ๋ ๋ชฉํ์ ๋๋ค.
- ํ ์คํธ ํ ํฐ(T)์ ์ด์ ํ ์คํธ ํ ํฐ๊ณผ ์ฟผ๋ฆฌ ํ ํฐ(Q)์ ์ ๋ณด๋ง ์ฐธ์กฐํ ์ ์์ต๋๋ค.
- ์ด๋ ์ธ์ด ๋ชจ๋ธ์ ์ธ๊ณผ์ ํน์ฑ์ ๋ชจ๋ฐฉํ์ฌ ์์ฐ์ค๋ฌ์ด ํ ์คํธ ์์ฑ์ ์ ๋ํฉ๋๋ค.
- Uni-modal Self-Attention Mask (Image-Text Contrastive Learning):
- ์ด๋ฏธ์ง์ ํ ์คํธ์ ํํ ๊ณต๊ฐ์ ์ผ์น์ํค๋ ๋ชฉํ์ ๋๋ค.
- ์ฟผ๋ฆฌ ํ ํฐ(Q)์ ์ฟผ๋ฆฌ ํ ํฐ๋ผ๋ฆฌ, ํ ์คํธ ํ ํฐ(T)์ ํ ์คํธ ํ ํฐ๋ผ๋ฆฌ๋ง ์ํธ์์ฉํฉ๋๋ค.
- ์ด๋ ์ ์ฌํ ์ด๋ฏธ์ง-ํ ์คํธ ์์ ํํ์ ๊ฐ๊น๊ฒ, ๋ค๋ฅธ ์์ ํํ์ ๋ฉ๊ฒ ํ์ตํ์ฌ ํํ ๊ณต๊ฐ์ ์ ๋ ฌํฉ๋๋ค.
- Bi-directional Self-Attention Mask (Image-Text Matching):
2. ํ ์คํธ ์์ฑ ๋ฅ๋ ฅ ๊ฐํ (Stage 2)
- Q-Former:
- ์ด๋ฏธ์ง ์ธ์ฝ๋์์ ์ถ์ถ๋ ์๊ฐ์ ํน์ง์ ์ ๋ ฅ๋ฐ์, ์ธ์ด ๋ชจ๋ธ์ด ์ดํดํ ์ ์๋ ํํ์ ์ฟผ๋ฆฌ ๋ฒกํฐ๋ฅผ ์์ฑ
- Fully Connected (Projection Layer):
- Q-Former์์ ์์ฑ๋ ์ฟผ๋ฆฌ ๋ฒกํฐ๋ฅผ LLM์ ์ ๋ ฅ ํ์์ ๋ง๊ฒ ๋ณํํ๋ ์ญํ ์ ํ๋ค.
- ์ฆ, ์ฟผ๋ฆฌ ๋ฒกํฐ์ ์ฐจ์์ LLM์ ํ ์คํธ ์๋ฒ ๋ฉ ์ฐจ์์ผ๋ก ์ ํ ๋ณํ(Linear Projection)ํ๋ ๊ฒ์ด๋ค.
- LLM (Large Language Model):
- ๋ณํ๋ ์ฟผ๋ฆฌ ๋ฒกํฐ๋ฅผ ์ ๋ ฅ๋ฐ์ ํ ์คํธ๋ฅผ ์์ฑํ๋ค.
- BLIP-2์์๋ LLM์ ๊ณ ์ (frozen)์ํค๊ณ , Q-Former์ Fully Connected ๋ ์ด์ด๋ง ๋ฏธ์ธ ์กฐ์ (fine-tuning)ํ์ฌ ํ ์คํธ ์์ฑ ๋ฅ๋ ฅ์ ํฅ์์ํจ๋ค.
[5. BLIP-2๊ฐ ์ํ ๊ฐ๋ฅํ ํ์คํฌ]
- ์ด๋ฏธ์ง ์บก์ ๋ (Image Captioning)
- ์ด๋ฏธ์ง ๊ธฐ๋ฐ ์ง์์๋ต (VQA)
- ์ง์๊ธฐ๋ฐ ์ถ๋ก (Visual Reasoning)
- ์ ๋ก์ท ์ง์์๋ต
[6. BLIP-2 ์ ํ์ฌํญ]
1. ์ ํ๋ ๋ฏธ์ธ ์กฐ์ ๋ฅ๋ ฅ:
- BLIP-2๋ ์ฌ์ ํ๋ จ๋ ์ด๋ฏธ์ง ์ธ์ฝ๋์ LLM์ frozenํ์ฌ ์ฌ์ฉํ๋ค๋ค. ์ด๋ ๋ชจ๋ธ์ ํจ์จ์ฑ์ ๋์ด์ง๋ง, ํน์ ์์ ์ ๋ง๊ฒ ๋ชจ๋ธ์ ๋ฏธ์ธ ์กฐ์ ํ๋ ๋ฐ ์ ํ์ ์ค ์ ์๋ค.
- ํนํ, ํน์ํ ์๊ฐ์ ํน์ง์ด๋ ๋ณต์กํ ์ธ์ด์ ๋์์ค๊ฐ ํ์ํ ์์ ์์๋ ์ฑ๋ฅ ์ ํ๊ฐ ๋ฐ์ํ ์ ์๋ค.
2. ์ฟผ๋ฆฌ ํธ๋์คํฌ๋จธ(Q-Former)์ ์์กด์ฑ:
- BLIP-2๋ ์ด๋ฏธ์ง์ ์ธ์ด ์ฌ์ด์ ๊ฐ๊ทน์ ๋ฉ์ฐ๊ธฐ ์ํด Q-Former๋ผ๋ ์ถ๊ฐ์ ์ธ ๋ชจ๋์ ์ฌ์ฉํ๋ค.
- ์ด ๋ชจ๋์ ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ์ฆ๊ฐ์ํค๊ณ , ์ถ๊ฐ์ ์ธ ํ์ต ๋ฐ ์ฐ์ฐ ์์์ ํ์๋ก ํ๋ค.
- Q-Former์ ์ฑ๋ฅ์ ์ ์ฒด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ฏธ์น๋ฏ๋ก, ์ด ๋ถ๋ถ์ ๋ํ ์ต์ ํ๊ฐ ์ค์ํ๋ค.
3. ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ๊ณ:
- BLIP-2๋ ๋ค์ํ ์๊ฐ ์ธ์ด ์์ ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ์ฌ์ ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ๊ณ๋ฅผ ๋ณด์ผ ์ ์๋ค.
- ํนํ, ํ์ต ๋ฐ์ดํฐ์ ์กด์ฌํ์ง ์๋ ์๋ก์ด ์ ํ์ ์ด๋ฏธ์ง๋ ์ธ์ด์ ํํ์ ๋ํด์๋ ์ทจ์ฝ์ ์ ๋๋ฌ๋ผ ์ ์๋ค.
- ์ค์ ํ๊ฒฝ์์์ ๋ค์ํ ๋ณ์์ ๋ณต์ก์ฑ์ ๊ณ ๋ คํ ๋, ๋ชจ๋ธ์ ๊ฒฌ๊ณ ์ฑ์ ๋์ด๊ธฐ ์ํ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.
4. ๊ณ์ฐ ๋น์ฉ:
- BLIP-2๋ ์ฌ์ ํ๋ จ๋ ๋๊ท๋ชจ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ฏ๋ก, ์ฌ์ ํ ์๋นํ ๊ณ์ฐ ์์์ ํ์๋ก ํ๋ค.
- ํนํ, ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ๊ฑฐ๋ ๋ณต์กํ ์ธ์ด์ ์ถ๋ก ์ ์ํํ ๋ ๊ณ์ฐ ๋น์ฉ์ด ์ฆ๊ฐํ ์ ์๋ค.
- ๋ชจ๋ธ์ ํจ์จ์ฑ์ ๋์ด๊ธฐ ์ํ ์ถ๊ฐ์ ์ธ ๊ฒฝ๋ํ ๋ฐ ์ต์ ํ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.
5. ์ด๋ฏธ์ง ์ธ์ฝ๋ฉ์ ํ๊ณ:
- ์ฌ์ ํ๋ จ๋ ์ด๋ฏธ์ง ์ธ์ฝ๋์ ์ฑ๋ฅ์ ์ ์ฒด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ฏธ์น๋ค.
- ๋ง์ฝ ์ฌ์ฉ๋ ์ด๋ฏธ์ง ์ธ์ฝ๋๊ฐ ํน์ ์ ํ์ ์ด๋ฏธ์ง์ ํธํฅ๋์ด ์๊ฑฐ๋, ์ค์ํ ์๊ฐ์ ํน์ง์ ์ ๋๋ก ํฌ์ฐฉํ์ง ๋ชปํ๋ค๋ฉด, BLIP-2์ ์ฑ๋ฅ ๋ํ ์ ํ๋ ์ ์๋ค.
์ด๋ฌํ ๋จ์ ๋ค์ ๊ณ ๋ คํ์ฌ BLIP-2 ๋ชจ๋ธ์ ๋ค์ํ ์๊ฐ ์ธ์ด ์์ ์ ์ ์ฉํ ๋, ๋ชจ๋ธ์ ๊ฐ์ ๊ณผ ์ฝ์ ์ ๋ช ํํ ์ดํดํ๊ณ ์ ์ ํ ํ์ฒ๋ฆฌ ๋ฐ ๋ฏธ์ธ ์กฐ์ ์ ๋ต์ ์๋ฆฝํ๋ ๊ฒ์ด ์ค์ํ๋ค.