리아트리스의 마법궁전: GPT-3과 Multimodal 신경망 요약(21~22트렌드 정리)

제가 개인적으로 심리학이나 법학 등을 공부하느라 대학원 이후 DL쪽을 손 놓고 있다가 오랜만에 보니... 2021~22년 동안 나름 비약적인 발전을 이루었던 것 같더군요.

적은 시간이나마 쪼개서 DL쪽 조사를 해 보니...
2021~22년의 가장 큰 트렌드는 Multimodal, 초거대 AI(GPT등)인 거 같네요.

[Multimodal]

기존의 인공신경망들이 한 종류의 데이터(텍스트면 텍스트, 음성이면 음성, 영상이면 영상)만 입력으로 받아 하나의 domain에서만 활용할 수 있게 학습되었는데요. multimodal은 신경망을 여러 종류의 데이터(이미지-단어쌍 등)를 통해 학습시켰기에, 다양한 입출력 방법을 통해 응용이 가능하게 되었다고 하더군요.

최근에 뜨고 있는 Dall-E나 Midjourney같은, 키워드를 제시하면 자동으로 그림을 그려주는 AI도 Multimodal 신경망의 일종으로, 키워드-이미지 간 쌍을 이룬 입력 데이터를 학습시켜 이뤄진 것이라고 하네요.

Dall -E 같은 경우에는

이미지 토큰 - 텍스트 간 쌍 데이트를 통해 학습
학습에 MS-COCO등의 대규모 이미지-텍스트쌍 데이터셋 활용
초창기 이미지 생성 AI알고리즘으로 알려졌던 GAN(Generative Adversarial Network)대비 높은 성능향상
GPT 네크워크의 응용으로, TEXT 값을 바탕으로 해당되는 image token을 예상하는 것

Midjourney 등의 자동 그림그리는 네트워크도 비슷한 구조더군요.

[Midjourney 그림들 예시 - 마법, 영혼, 오지만디어스 등 까다로운 키워드들로 그려낸 그림들]

[GPT]

GPT 네트워크는 (Generative Pre-trained Transformer)의 약자로, 사전 학습된 내용을 바탕으로, 각각의 TASK에 대한 추가 학습 없이 주어진 예제(few - shot)만 참고해서, 혹은 예제없이 TEXT를 보고 다음에 올 단어(문장)을 추정(zero - shot)하는 AI. 이를 응용해 챗봇과 같은 방식의 대화도 가능하다고 하더군요.

TASK 종류마다 사전학습으로 특화할 필요가 없으므로, 별도의 학습이나 비용투자 없이 범용적인 처리가 가능하다는 장점이 있습니다.

기술적으로는 2017년 등장한 구글의 언어 번역 모델인 Transformer에 기반해있구요. 오픈 AI에서 내놓은 최신 GPT 네트워크인 GPT-3의 경우, 1750억개의 parameter를 가지도록 초거대 수준의 AI로 구성되었더군요. 어찌 보면 알고리즘적인 진보라기보다는 학습 규모를 크게 키운 것이 발전이유라고 볼 수도 있을 것 같습니다.

training 및 예측 방법으로는, 각각의 단어들을 tokenize 및 각각의 데이터에 대해 벡터화해서 단어 간 거리를 학습하고, 이를 바탕으로 다음에 올 단어를 예측하는 방식(이 방식은 기존 방법들과 큰 차이는 없음)입니다.
대신 그 규모가 아주 거대해졌다는 점이 있다고 볼 수 있구요.

GPT-3(최근에는 jurassic-1로 변경)을 응용한 게임으로 AI Dungeon이라는 게임이 나왔는데요. TRPG 혹은 스토리텔링 기반의 게임과 배경 설정을 AI를 통해 자동적으로 구성 뒤 대화형으로 진행할 수 있더군요.
실제로 해 보니 살짝 부자연스러운 감이 있었긴했지만 상당히 완성도가 높다고 생각되네요.

게임 링크 - https://aidungeon.io/

알고리즘 자체는 17~20년도의 DL 알고리즘들과 근본적으로 아주 큰 차이는 없지만, 규모를 크게 키웠고, 일부 처리층을 변형해 정확성 부분에서 큰 폭의 성능 증대가 있었다고 하더군요.

세계 각국의 초거대 AI연구현황들을 보면...

21~22년도의 AI개발 mainstream은, GPT-3의 뒤를 이어 수천억개 이상의 파라미터를 사용한 초거대 AI, multimodal을 응용한 다중 정보 기반 복합 처리인 듯 싶네요.

[참고자료]

Generative Pre-trained Transformer 학습시키기 - https://ainote.tistory.com/17
Transformer 정리 - https://ahnjg.tistory.com/57
[논문리뷰] GPT3 - Language Models are Few-Shot Learners - https://littlefoxdiary.tistory.com/44
[논문리뷰] DALL-E: Zero-Shot Text-to-Image Generation - https://littlefoxdiary.tistory.com/74
Zero-Shot Text-to-Image Generation 논문 - https://arxiv.org/pdf/2102.12092.pdf
Midjourney - https://www.midjourney.com/home/
전 세계가 뛰어든 초거대 AI 개발 경쟁 - https://cm.asiae.co.kr/article/2022061508561136529

리아트리스의 마법궁전

GPT-3과 Multimodal 신경망 요약(21~22트렌드 정리)

댓글 없음:

댓글 쓰기

Translate