생성형 AI 원리 – 글과 이미지는 어떻게 만들어지는가?


“ChatGPT는 어떻게 이렇게 자연스러운 글을 쓰는 걸까?” “미드저니는 어떻게 말 한마디로 그림을 그리는 걸까?” 생성형 AI 원리에 대한 궁금증은 누구나 한 번쯤 품어봤을 것입니다. 마치 마법처럼 보이는 이 기술의 내부에는 사실 명확한 수학적 원리와 구조가 있습니다. 어렵게 느껴지는 개념들도 적절한 비유와 함께라면 누구나 이해할 수 있습니다. 이 글에서는 코딩을 전혀 모르는 분도 이해할 수 있도록, 생성형 AI가 텍스트와 이미지를 만들어내는 핵심 메커니즘을 처음부터 끝까지 풀어드립니다.


목차

  1. 생성형 AI란 무엇인가 – 기존 AI와 무엇이 다른가?
  2. 텍스트 생성의 핵심 – 트랜스포머와 어텐션 메커니즘
  3. GPT는 어떻게 다음 단어를 예측하는가 – 언어 모델의 작동 원리
  4. 이미지 생성의 핵심 – 확산 모델과 GAN의 차이
  5. 프롬프트가 결과를 바꾸는 이유 – 입력의 힘
  6. 생성형 AI의 한계와 미래 – 할루시네이션부터 멀티모달까지

1. 생성형 AI란 무엇인가 – 기존 AI와 무엇이 다른가?

인공지능은 크게 두 종류로 나눌 수 있습니다. 주어진 데이터를 분류하거나 예측하는 AI와, 새로운 무언가를 직접 만들어내는 AI입니다. 전자를 판별형(Discriminative) AI, 후자를 생성형(Generative) AI라고 부릅니다.

판별형 AI vs 생성형 AI

예를 들어, 고양이 사진을 보고 “이것은 고양이다”라고 분류하는 AI는 판별형입니다. 반면 “귀여운 고양이 그림을 그려줘”라는 명령을 받고 실제로 그림을 만들어내는 AI가 생성형입니다.

구분판별형 AI생성형 AI
하는 일분류, 예측, 탐지텍스트·이미지·음악·코드 생성
대표 모델ResNet, BERT(분류)GPT, DALL·E, Stable Diffusion
출력 형태레이블, 확률값새로운 콘텐츠
학습 목표정답 경계선 찾기데이터 분포 학습 및 샘플링

생성형 AI의 핵심 개념: 확률 분포 학습

생성형 AI의 본질은 **”학습 데이터가 가진 패턴과 확률 분포를 학습한 뒤, 그 분포에서 새로운 샘플을 뽑아내는 것”**입니다. 쉽게 말해, 수십억 개의 문장을 읽은 AI는 “어떤 단어 다음에 어떤 단어가 올 확률이 높은가”를 학습합니다. 그리고 그 확률에 따라 단어를 하나씩 선택해 문장을 만들어갑니다.

요리에 비유하면 이렇습니다. AI는 수억 개의 레시피를 읽고 “감자 다음에는 당근이 자주 등장하고, 밀가루 다음에는 버터가 자주 등장한다”는 패턴을 익힙니다. 그리고 새 레시피를 만들 때 이 패턴을 따르면서도 완전히 복사하지는 않는 창의적인 조합을 만들어냅니다. 이것이 생성형 AI 원리의 가장 기본적인 직관입니다.


2. 텍스트 생성의 핵심 – 트랜스포머와 어텐션 메커니즘

오늘날 거의 모든 텍스트 생성 AI의 기반이 되는 구조는 **트랜스포머(Transformer)**입니다. 2017년 구글 연구팀이 발표한 논문 “Attention Is All You Need”에서 처음 제안된 이 구조는 AI 역사의 패러다임을 바꾸었습니다.

트랜스포머 이전: RNN의 한계

트랜스포머가 등장하기 전에는 **RNN(순환 신경망)**이 텍스트 처리의 주류였습니다. RNN은 문장을 앞에서부터 한 단어씩 순서대로 처리합니다. 마치 책을 처음 페이지부터 한 장씩 넘기며 읽는 것과 같습니다.

이 방식에는 치명적인 단점이 있었습니다. 문장이 길어질수록 앞에서 읽은 내용을 잊어버리는 것입니다. “오늘 아침 서울에서 출발한 기차가 부산에 도착했을 때, 그것은 이미 세 시간이나 지연된 상태였다”라는 문장에서, RNN은 문장 끝의 “그것”이 “기차”를 가리킨다는 사실을 처리하는 데 어려움을 겪었습니다.

어텐션 메커니즘: 중요한 부분에 집중하기

트랜스포머의 혁신은 어텐션(Attention) 메커니즘입니다. 이것은 문장 내 모든 단어가 서로를 동시에 참조하면서, “어떤 단어가 지금 이 단어를 이해하는 데 가장 중요한가”를 숫자로 계산하는 방식입니다.

문장: "그 고양이는 생선을 먹었는데, 그것이 아주 맛있었다"

"그것"을 처리할 때 어텐션 가중치 (예시):
  고양이 → 0.05
  생선   → 0.72  ← 가장 높은 어텐션 (그것 = 생선)
  먹었는데 → 0.10
  맛있었다 → 0.13

이처럼 모든 단어 쌍 사이의 관련도를 동시에 계산하기 때문에, 트랜스포머는 문장이 아무리 길어도 중요한 관계를 놓치지 않습니다. 또한 이 계산을 병렬로 처리할 수 있어 RNN보다 훨씬 빠르게 학습할 수 있습니다.

토큰화: AI가 글을 읽는 단위

트랜스포머는 텍스트를 **토큰(Token)**이라는 단위로 쪼개서 처리합니다. 토큰은 단어 전체일 수도 있고, 단어의 일부일 수도 있습니다. 예를 들어 “unhappiness”는 “un”, “happi”, “ness” 세 개의 토큰으로 나뉠 수 있습니다. 한국어의 경우 형태소나 음절 단위로 분리되기도 합니다. AI는 이 토큰들을 **임베딩(Embedding)**이라는 수백~수천 차원의 숫자 벡터로 변환하여 처리합니다.


3. GPT는 어떻게 다음 단어를 예측하는가 – 언어 모델의 작동 원리

GPT(Generative Pre-trained Transformer)는 트랜스포머 구조를 기반으로 한 **대규모 언어 모델(LLM)**입니다. 이름에서 알 수 있듯이, 방대한 텍스트 데이터로 사전 학습(Pre-training)된 생성형(Generative) 트랜스포머입니다.

GPT의 학습 방식: 다음 토큰 예측

GPT의 학습은 놀랍도록 단순한 과제를 기반으로 합니다. 바로 **”다음에 올 토큰을 맞춰라”**입니다.

학습 데이터 예시:
입력: "오늘 날씨가 매우"
정답: "맑다"

입력: "오늘 날씨가 매우 맑다"
정답: "고"

입력: "오늘 날씨가 매우 맑다고"
정답: "했다"

이 단순한 과제를 수천억 개의 텍스트 샘플로 반복하면, 모델은 언어의 문법, 문맥, 사실 관계, 논리 구조까지 자연스럽게 학습합니다. GPT-4의 경우 약 1조 개 이상의 파라미터와 수조 개의 토큰으로 학습된 것으로 추정됩니다.

텍스트 생성은 확률 게임이다

글을 생성할 때 GPT는 현재까지 생성된 모든 토큰을 입력으로 받아, 다음 토큰의 확률 분포를 출력합니다. 그리고 그 분포에서 토큰을 하나 선택합니다. 이 과정을 문장이 완성될 때까지 반복합니다.

[생성 과정 예시]

프롬프트: "인공지능은"

스텝 1: "인공지능은" → 다음 토큰 후보
        "미래를"(32%), "점점"(18%), "우리"(14%), ...
        → "미래를" 선택

스텝 2: "인공지능은 미래를" → 다음 토큰 후보
        "바꿀"(41%), "만들"(22%), "위협할"(9%), ...
        → "바꿀" 선택

스텝 3: "인공지능은 미래를 바꿀" → ...
        (반복)

최종 출력: "인공지능은 미래를 바꿀 핵심 기술로 주목받고 있습니다."

여기서 온도(Temperature) 파라미터가 중요한 역할을 합니다. 온도가 낮으면 항상 가장 확률 높은 토큰을 선택해 예측 가능하고 정확한 텍스트가 나옵니다. 온도가 높으면 확률이 낮은 토큰도 선택될 수 있어 창의적이고 다양한 텍스트가 생성됩니다. 이것이 ChatGPT에서 “창의적” 설정과 “정확한” 설정이 다른 결과를 내는 이유입니다.

RLHF: 단순 예측에서 유용한 어시스턴트로

초기 GPT는 텍스트를 그럴듯하게 생성하지만, 사람에게 진짜 도움이 되는 답변을 하도록 설계된 것은 아니었습니다. 이를 해결한 기술이 **RLHF(인간 피드백 기반 강화학습)**입니다. 사람이 여러 응답 중 더 좋은 것을 선택하면, 그 선호도를 학습해 모델이 사람이 원하는 방향의 답변을 생성하도록 조정합니다. ChatGPT가 단순히 확률적 텍스트 생성기가 아니라 지시를 따르는 어시스턴트처럼 작동하는 핵심 이유가 바로 RLHF입니다.


4. 이미지 생성의 핵심 – 확산 모델과 GAN의 차이

텍스트 생성이 트랜스포머 기반이라면, 이미지 생성에는 또 다른 두 가지 핵심 기술이 사용됩니다. **GAN(생성적 적대 신경망)**과 **확산 모델(Diffusion Model)**입니다.

GAN: 위조범과 감정사의 경쟁

GAN은 2014년 이안 굿펠로우가 제안한 구조로, 두 개의 신경망이 서로 경쟁하며 학습합니다.

  • 생성자(Generator): 가짜 이미지를 만들어 감정사를 속이려는 위조범
  • 판별자(Discriminator): 진짜와 가짜를 구별하려는 감정사

이 둘이 계속 경쟁하면서 생성자는 점점 더 정교한 가짜 이미지를 만드는 법을 배웁니다. 결국 판별자조차 구별하지 못할 수준의 현실적인 이미지가 생성됩니다.

[GAN 학습 구조]

실제 이미지 ─────────────────────────┐
                                    ▼
노이즈 → [생성자] → 가짜 이미지 → [판별자] → "진짜/가짜" 판정
              ↑                        │
              └────── 오차 역전파 ───────┘
              (판별자를 속이도록 생성자 업데이트)

GAN은 고해상도 얼굴 생성, 딥페이크 기술의 기반이 되었습니다. 그러나 학습이 불안정하고, 다양한 이미지를 생성하는 능력이 제한적이라는 단점이 있습니다.

확산 모델: 노이즈에서 그림이 피어오르다

Stable Diffusion, DALL·E, Midjourney 등 현재 주류 이미지 생성 AI는 대부분 **확산 모델(Diffusion Model)**을 사용합니다. 그 원리는 직관적으로 이렇습니다.

학습 단계: 실제 이미지에 조금씩 노이즈(랜덤 점)를 추가합니다. 완전히 깨끗한 이미지에서 시작해 점점 더 많은 노이즈를 더해 결국 완전한 잡음으로 만드는 과정을 학습합니다. 이때 AI는 **”각 단계에서 노이즈를 얼마나 제거해야 하는가”**를 학습합니다.

생성 단계: 반대로, 완전한 노이즈에서 시작해 학습한 노이즈 제거 능력을 반복 적용하면 점점 선명한 이미지가 만들어집니다.

[확산 모델 생성 과정]

완전한 노이즈
  █▓▒░ (잡음만 가득)
      ↓ 노이즈 제거 스텝 1
  희미한 윤곽선 등장
      ↓ 노이즈 제거 스텝 2
  대략적인 형태 구분 가능
      ↓ 노이즈 제거 스텝 3~50
  세부 묘사 점점 선명해짐
      ↓
  완성된 이미지 🖼️

텍스트-이미지 연결: CLIP의 역할

“귀여운 우주복을 입은 고양이”라는 텍스트를 입력하면 어떻게 그림이 나올까요? 여기에는 **CLIP(Contrastive Language-Image Pre-training)**이라는 기술이 핵심 역할을 합니다. CLIP은 수십억 개의 텍스트-이미지 쌍을 학습해 텍스트와 이미지를 같은 벡터 공간에서 연결합니다. 즉, “고양이”라는 단어와 고양이 사진이 수학적으로 가까운 위치에 놓이게 됩니다. 확산 모델은 이 CLIP의 안내를 받아 노이즈 제거 방향을 텍스트 설명에 맞게 조정합니다.


5. 프롬프트가 결과를 바꾸는 이유 – 입력의 힘

같은 AI를 사용해도 어떤 프롬프트를 입력하느냐에 따라 결과물의 품질이 크게 달라집니다. 이것은 단순히 “더 자세히 설명하면 더 잘 이해한다”는 상식적 이유 외에도, 모델의 내부 작동 원리와 직결된 현상입니다.

텍스트 생성에서의 프롬프트 원리

언어 모델은 입력된 프롬프트를 **문맥(Context)**으로 삼아 이후 텍스트의 확률 분포를 결정합니다. 프롬프트가 구체적일수록 모델이 탐색해야 할 확률 공간이 좁아지고, 원하는 방향의 출력이 나올 가능성이 높아집니다.

프롬프트 유형예시효과
역할 부여“당신은 10년 경력의 의사입니다”특정 전문 지식 영역 활성화
형식 지정“3단락으로, 마지막에 요약 포함”구조화된 출력 유도
예시 제공“다음 형식으로: 입력→출력”퓨샷 학습(Few-shot) 활성화
사고 유도“단계별로 생각하며 답하세요”추론 품질 향상(CoT)

이미지 생성에서의 프롬프트 원리

이미지 생성 모델에서 프롬프트는 확산 모델의 노이즈 제거 방향을 안내하는 나침반 역할을 합니다. 텍스트 설명이 CLIP을 통해 벡터로 변환되고, 이 벡터가 각 노이즈 제거 스텝에서 이미지가 어떤 방향으로 형성될지를 조정합니다.

프롬프트 A: "고양이"
→ 평범한 고양이 사진에 가까운 일반적인 이미지

프롬프트 B: "fluffy white cat, golden hour lighting,
            bokeh background, DSLR photo, 8K resolution"
→ 황금빛 조명 아래 털이 보송보송한 흰 고양이의
  전문 사진작가 수준 이미지

이것이 프롬프트 엔지니어링이 하나의 기술로 주목받는 이유입니다. 같은 모델에서 전혀 다른 품질의 결과물을 끌어낼 수 있기 때문입니다.


6. 생성형 AI의 한계와 미래 – 할루시네이션부터 멀티모달까지

생성형 AI가 놀라운 능력을 보여주지만, 현재 기술에는 분명한 한계와 주의해야 할 점들이 존재합니다.

핵심 한계 1: 할루시네이션(Hallucination)

언어 모델이 사실과 다른 내용을 자신 있게 생성하는 현상을 **할루시네이션(환각)**이라고 합니다. 모델은 “정답을 알고 있어서” 텍스트를 생성하는 게 아니라, “확률적으로 그럴듯한 텍스트”를 생성합니다. 따라서 틀린 내용도 유창하고 확신에 찬 문체로 출력될 수 있습니다. 존재하지 않는 논문을 정확한 형식으로 인용하거나, 잘못된 역사적 사실을 매끄럽게 서술하는 것이 대표적인 예입니다.

핵심 한계 2: 저작권과 윤리 문제

이미지 생성 AI는 인터넷상의 수십억 개 이미지를 학습 데이터로 사용합니다. 이 과정에서 원본 작가의 동의 없이 화풍이나 스타일이 모방되는 문제가 발생하며, 현재 전 세계적으로 법적·윤리적 논쟁이 진행 중입니다.

핵심 한계 3: 지식 단절(Knowledge Cutoff)

언어 모델은 학습이 완료된 시점 이후의 정보를 알지 못합니다. 웹 검색 기능이 연결되지 않은 순수 언어 모델은 학습 데이터 마감일 이후의 사건을 알 수 없습니다.

미래 방향: 멀티모달 AI와 에이전트

현재 생성형 AI의 가장 뜨거운 발전 방향은 멀티모달(Multimodal) AI입니다. 텍스트, 이미지, 음성, 영상, 코드를 동시에 이해하고 생성할 수 있는 모델입니다. GPT-4o, Google Gemini 등이 이미 이 방향으로 나아가고 있습니다. 나아가 AI가 도구를 사용하고 계획을 세워 복잡한 작업을 자율적으로 수행하는 AI 에이전트 기술도 빠르게 발전하고 있습니다. 생성형 AI는 단순히 “콘텐츠를 만드는 도구”에서 “스스로 판단하고 행동하는 시스템”으로 진화하는 중입니다.

현재미래 방향
텍스트/이미지 각각 생성멀티모달 통합 생성
단일 질문-응답장기 기억·맥락 유지
정적 지식(학습 마감일)실시간 정보 연동
도구 없이 독립 작동툴 사용·에이전트 자율 실행

결론

생성형 AI 원리를 요약하면, 텍스트 생성은 트랜스포머의 어텐션 메커니즘으로 문맥을 파악하고 확률적으로 다음 토큰을 선택하는 과정이며, 이미지 생성은 확산 모델이 노이즈에서 출발해 텍스트 안내를 받으며 점진적으로 이미지를 복원하는 과정입니다. 마법처럼 보이지만 결국은 수학적 확률과 방대한 데이터 학습의 산물입니다. 이 원리를 이해하면 AI를 더 잘 활용할 수 있고, AI가 틀릴 때 왜 틀리는지도 예측할 수 있습니다. 생성형 AI를 단순히 사용하는 것을 넘어, 원리를 이해하는 사람이 앞으로의 AI 시대를 주도하게 될 것입니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다