ChatGPT는 어떻게 우리 말을 이해하고 답할까? - 대규모 언어 모델(LLM)의 비밀을 파헤쳐보자#

여러분, 혹시 ChatGPT나 Claude 같은 AI 챗봇과 대화하면서 “이 녀석은 대체 어떻게 내 말을 이해하고 이렇게 자연스럽게 답하는 거지?” 하고 궁금해하신 적 있으신가요? 저도 처음엔 마법 같았어요. 하지만 알고 보면 정말 흥미로운 수학과 공학의 결정체랍니다. 오늘은 3Blue1Brown 채널의 훌륭한 설명을 바탕으로, 이 신기한 기술의 원리를 함께 살펴보려고 합니다.

사실 LLM은 그냥… 다음 단어 맞추기 천재일 뿐?#

놀라실지도 모르겠지만, ChatGPT 같은 대규모 언어 모델(Large Language Model, LLM)의 본질은 의외로 단순합니다. 바로 **“다음에 올 단어를 예측하는 것”**이에요. 네, 맞아요. 그게 전부입니다!

여러분이 스마트폰에서 문자 메시지를 쓸 때 자동완성 기능이 다음 단어를 추천해주는 것 보신 적 있으시죠? LLM도 기본적으로는 똑같은 일을 하는데, 다만 엄청나게 정교하고 똑똑하게 한다는 차이가 있을 뿐이에요.

예를 들어 “오늘 날씨가 정말…” 이라는 문장 다음에 뭐가 올까요? ‘좋네요’, ‘춥네요’, ‘덥네요’ 등 여러 가능성이 있겠죠. LLM은 이런 모든 가능성에 확률을 매깁니다. “좋네요 40%, 춥네요 30%, 덥네요 20%…” 이런 식으로 말이죠. 그리고 이 확률에 따라 다음 단어를 선택하는 겁니다.

그런데 여기서 재미있는 점이 하나 있어요. 만약 항상 가장 확률이 높은 단어만 선택한다면 어떻게 될까요? 아마 매번 똑같은 대답만 하는 지루한 로봇이 될 거예요. 그래서 개발자들은 약간의 ‘창의성’을 더했습니다. 가끔은 확률이 조금 낮은 단어도 선택하도록 무작위성을 추가한 거죠. 덕분에 같은 질문을 해도 매번 조금씩 다른 답변을 받을 수 있는 겁니다. 마치 사람처럼 말이에요!

그럼 챗봇은 어떻게 대화를 하는 걸까?#

자, 이제 “다음 단어 예측”이 어떻게 “대화”로 변신하는지 알아볼까요? 비밀은 의외로 간단합니다.

상상해보세요. 여러분이 “파이썬으로 Hello World 출력하는 법 알려줘”라고 물었다고 해봅시다. 시스템은 이렇게 처리합니다:

사용자: 파이썬으로 Hello World 출력하는 법 알려줘
AI 비서: [여기서부터 예측 시작]

모델은 “AI 비서:“라는 레이블 다음에 올 적절한 단어를 하나씩 예측하기 시작합니다. “파이썬”, “에서”, “Hello”, “World를”… 이렇게 한 단어씩 이어 붙이다 보면 완전한 답변이 되는 거죠! 마치 레고 블록을 하나씩 쌓아서 성을 만드는 것과 비슷해요.

수천 년을 읽어야 할 분량을 학습한 AI#

이쯤 되면 궁금하실 거예요. “그래, 다음 단어를 예측한다는 건 알겠는데, 어떻게 그렇게 똑똑하게 예측하는 거야?”

답은 어마어마한 양의 학습에 있습니다. GPT-3를 예로 들면, 이 모델이 학습한 텍스트의 양은 한 사람이 하루 24시간 쉬지 않고 읽어도 2,600년이 넘게 걸릴 분량이라고 해요. 와, 상상이 되시나요? 인터넷에 있는 거의 모든 위키피디아, 책, 뉴스 기사, 블로그 글을 다 읽은 셈이죠. 그리고 최신 모델들은 이보다 훨씬 더 많은 데이터를 학습했습니다.

학습 과정을 쉽게 비유하자면, 거대한 믹싱 콘솔의 수천억 개 다이얼을 조절하는 것과 같아요. 각 다이얼(이걸 ‘매개변수’ 또는 ‘가중치’라고 부릅니다)은 모델이 다음 단어를 예측하는 방식에 영향을 미칩니다. 처음엔 이 다이얼들이 무작위로 설정되어 있어서 모델이 완전히 엉뚱한 소리만 하죠. “오늘 날씨가 바나나 컴퓨터 우주선…” 뭐 이런 식으로요.

하지만 ‘역전파’라는 멋진 알고리즘을 통해, 모델은 실제 텍스트와 자신의 예측을 비교하면서 조금씩 다이얼을 조정해 나갑니다. “아, ‘오늘 날씨가’ 다음엔 ‘바나나’가 아니라 ‘좋네요’가 와야 하는구나!” 하면서 말이죠. 이 과정을 수조 번(네, 조 단위입니다!) 반복하면, 모델은 점점 더 자연스러운 예측을 하게 됩니다.

상상을 초월하는 계산량 - 1억 년이 필요하다고?#

여기서 잠깐, 숫자 이야기를 좀 해볼게요. 최신 언어 모델을 훈련시키는 데 필요한 계산량이 얼마나 될까요?

만약 여러분이 초당 10억 번의 계산(덧셈과 곱셈)을 할 수 있다고 가정해봅시다. 이미 엄청나게 빠른 속도죠? 그런데도 가장 큰 언어 모델을 훈련하는 데 필요한 모든 계산을 혼자서 하려면… 무려 1억 년 이상이 걸린다고 합니다!

이래서 구글, 마이크로소프트, OpenAI 같은 대기업들이 수천, 수만 개의 GPU(그래픽 처리 장치)를 동원해서 병렬로 계산을 수행하는 거예요. GPU는 원래 게임 그래픽을 처리하려고 만들어졌지만, 동시에 많은 계산을 할 수 있다는 특성 때문에 AI 학습에도 완벽하게 들어맞았습니다. 재미있는 우연이죠?

사전 훈련만으로는 부족해 - 인간의 피드백이 필요한 이유#

그런데 여기서 끝이 아니에요. 지금까지 설명한 과정을 ‘사전 훈련(pre-training)‘이라고 부르는데, 이것만으로는 좋은 AI 비서가 되기 어렵습니다.

왜 그럴까요? 인터넷 텍스트를 그대로 학습한 모델은 때로 부적절하거나 해로운 내용도 그대로 따라 할 수 있기 때문이에요. 마치 아이가 어른들의 대화를 무작정 따라 하다가 욕설을 배우는 것처럼 말이죠.

그래서 필요한 것이 ‘인간 피드백 기반 강화 학습(RLHF)‘입니다. 수많은 사람이 AI의 답변을 평가하고, “이건 좋은 답변이야”, “이건 문제가 있어” 하고 피드백을 줍니다. 이를 통해 모델은 더 도움이 되고, 안전하고, 정확한 답변을 하도록 추가로 학습하게 됩니다. 마치 선생님이 학생의 작문을 첨삭해주는 것과 비슷하다고 볼 수 있어요.

Transformer의 혁명 - 2017년, 모든 것이 바뀐 해#

2017년은 AI 역사에서 정말 중요한 해입니다. 구글 연구팀이 ‘Transformer’라는 혁신적인 모델을 발표했거든요. 이전까지 언어 모델들은 텍스트를 한 단어씩 차례대로 읽었습니다. 마치 우리가 책을 읽듯이요.

하지만 Transformer는 완전히 다른 접근을 했습니다. 모든 단어를 동시에 한꺼번에 봅니다! 마치 한 페이지 전체를 사진으로 찍어서 한 번에 이해하는 것과 비슷해요.

이게 가능한 비밀은 ‘어텐션(Attention)‘이라는 특별한 메커니즘에 있습니다. 쉽게 설명하자면, 모든 단어가 서로 대화를 나누면서 맥락을 파악하는 거예요.

예를 들어 “나는 은행에 갔다”라는 문장에서 ‘은행’이라는 단어를 생각해봅시다. 이 단어만 봐서는 금융기관인지 강둑인지 알 수 없죠? 하지만 어텐션 메커니즘을 통해 주변 단어들과 ‘대화’를 하면, “아, ‘갔다’라는 동사와 함께 쓰였으니 아마 돈을 찾으러 간 금융기관이겠구나!”라고 맥락을 파악할 수 있게 됩니다.

이 모든 과정이 병렬로, 즉 동시다발적으로 일어나기 때문에 훨씬 빠르고 효율적으로 학습할 수 있게 된 거죠. 덕분에 오늘날 우리가 사용하는 ChatGPT, Claude, Gemini 같은 강력한 AI들이 탄생할 수 있었습니다.

마무리#

대규모 언어 모델의 작동 원리를 알아보니 어떠신가요? 처음엔 마법 같았던 기술이 사실은 ‘다음 단어 예측’이라는 단순한 원리에서 출발했다는 게 놀랍지 않나요?

하지만 여기서 정말 흥미로운 점은, 연구자들조차 모델이 정확히 어떻게 특정 답변을 만들어내는지 완벽하게 설명할 수 없다는 거예요. 수천억 개의 매개변수가 복잡하게 상호작용하면서 만들어내는 ‘창발적 현상’이기 때문이죠. 마치 뇌의 뉴런들이 어떻게 의식을 만들어내는지 우리가 완전히 이해하지 못하는 것처럼 말이에요.

앞으로 LLM은 더욱 발전할 것이고, 우리 일상에 더 깊숙이 들어올 거예요. 이미 코딩, 글쓰기, 번역, 고객 서비스 등 다양한 분야에서 활용되고 있죠. 중요한 건 이 기술을 두려워하지 말고, 원리를 이해하고, 현명하게 활용하는 것입니다.

혹시 더 깊이 있는 기술적 내용이 궁금하시다면, 3Blue1Brown의 딥러닝 시리즈를 추천드려요. 수학적 원리를 시각적으로 정말 잘 설명해주거든요. 그리고 실제로 간단한 모델을 직접 만들어보고 싶으시다면, 파이썬과 PyTorch 또는 TensorFlow를 공부해보시는 것도 좋을 것 같습니다.