Developer Jenny Lim's Blog

[D+50] 아이펠 리서치 14기 TIL | Foundation Model, Emergent Abilities, Reinforcement Learning Human Feedback 본문

Aiffel Research

[D+50] 아이펠 리서치 14기 TIL | Foundation Model, Emergent Abilities, Reinforcement Learning Human Feedback

Jenny Lim 2025. 9. 17. 12:30

 

 

 

1. 오늘 배운 내용

 

[Low Resource Language]

 

저자원 언어(Low Resource Language)는 자연어처리 연구나 모델 학습에 필요한 언어 자원(코퍼스, 사전, 태그된 데이터, 주석 데이터, 말뭉치 등)이 부족한 언어를 말한다. 영어, 중국어, 프랑스어처럼 데이터와 연구가 풍부한 언어는 대규모 LLM이 학습하기에 유리하지만, 한국어, 베트남어, 아프리카 소수 언어 등 상대적으로 데이터가 적은 언어의 경우에 성능이 떨어지기 쉽다.

 

학습 데이터가 부족하므로 모델이 언어 구조를 충분히 학습하기 힘들고, 주석된 데이터가 부족하므로 기계 번역이나 감정 분석 같은 태스크에서는 성능 저하가 발생한다. 한국어는 자료가 많아도 정제되어 있는 대규모 공개 코퍼스가 상대적으로 적어 저자원 언어에 해당한다. GPT-3나 LLaMA 학습에 쓰인 데이터에서 한국어 비중은 1% 미만에 불과하다. (교착어 특성상 데이터 정제가 어려움)

 

GPT-3 한국어 데이터 분포 (출처 : https://www.ddaily.co.kr/page/view/2021052516303260965)

 

 

[Foundation Model]

 

Foundation Model은 방대한 데이터와 연산 자원으로 대규모 사전 학습된 모델을 말한다. 모델을 다양한 다운스트림 태스크(번역, 챗봇, 요약, 검색, 이미지 생성 등)에 파인 튜닝이나 프롬프트 엔지니어링을 바탕으로 응용할 수 있다. GPT, BERT, CLIP 등이 모두 Foundation Model에 해당하며, 쉽게 말하면 '토대'의 역할을 하는 모델을 말하는 것이다.

 

📌 왜 중요한가? (Opportunities)

  1. 범용성 (Generality)
    • 하나의 모델이 번역, 요약, 질의응답 등 여러 과제에 활용 가능
  2. 효율성 (Efficiency)
    • 모델을 한 번 크게 훈련해 두면, 이후 작은 데이터로도 빠르게 적응 가능 (파인 튜닝, 프롬프트 엔지니어링)
  3. 혁신 촉진 (Innovation)
    • 스타트업, 연구자, 산업체가 동일한 “기초 모델”을 기반으로 새로운 애플리케이션 개발 가능
  4. 멀티모달 확장 (Cross-modality)
    • 언어, 이미지, 음성, 비디오 등 다양한 모달리티를 하나로 연결하는 가능성 (예 : GPT-4V, Gemini)

 

📌 어떤 위험이 있나? (Risks)

  1. 편향과 불공정성 (Bias & Fairness)
    • 인터넷 데이터에 담긴 사회적 편견·차별이 그대로 모델에 학습됨 → 성별/인종/지역 편향 문제
  2. 불투명성 (Opacity)
    • 왜 그런 결과가 나왔는지 해석하기 어려움 → “블랙박스” 문제
  3. 자원 독점 (Resource Concentration)
    • 훈련에 수십억 ~ 수천억 파라미터, 막대한 GPU와 전력 필요 → 소수 빅테크 기업만 학습 가능
  4. 환경 비용 (Environmental Cost)
    • 대규모 학습 과정에서 막대한 전력 소모와 탄소 배출 발생
  5. 남용 가능성 (Misuse)
    • 허위정보(Deepfake), 자동화된 스팸·사이버 공격 등에 악용될 위험

Foundation Model 설명 (출처 : https://humanloop.com/blog/foundation-models)

 

특히 「On the Opportunities and Risks of Foundation Model」논문에서는 Foundation Model을 Emergence(출현성)과 Homogenization(동질화) 총 2가지 특징으로 정의한다.

 

Emergence는 모델 규모가 커지면서 학습 중 명시적으로 주어지지 않은 새로운 능력이 예상치 못하게 나타나는 현상이다. 대규모 언어 모델은 Zero-Shot 학습이 가능하기에, 기존에는 별도의 모델 및 훈련이 필요했던 과제를 하나의 모델이 처리할 수 있다. 즉, 단일 언어 모델이 광범위한 태스크에 유용하다는 것이 드러난 것이다. (= Foundation Model 패러다임의 출발점)

 

Homogenization은 특정 아키텍처 및 모델이 자연어처리 전반의 사실상 표준으로서 자리잡는 현상이다. 2019년 이전에는 LSTM 기반 LM, Seq2seq, Transformer 등 여러 계열이 공존했지만, 2019년 이후에는 BERT 계열의 Self-Supervised Learning 모델이 자연어 처리이 기반이 되었다. 이후 대부분의 연구가 BERT나 Transformer 방식에서 진행되고 있다.

 

 

[Emergent Abilities]

 

Emergent Abilities는 작은 모델에서는 전혀 보이지 않다가, 모델의 크기(파라미터 수, 데이터의 양)가 일정 수준을 넘어서면 갑자기 나타나는 새로운 능력을 말한다. 모델 규모가 커지면서 불연속적으로 발현되는 능력이다. 연구자가 직접 설계하거나 지도하지 않아도 특정 임계점을 넘을 때 새로운 기능이 생긴다. 이 특성으로 인해 Foundation Model은 단순히 큰 모델이 아닌, 새로운 패러다임으로 주목받게 되었다.

 

📌 구체적 예시

  1. Zero-shot 학습
    • 작은 모델은 반드시 파인튜닝해야 태스크 수행 가능
    • 거대한 모델은 학습하지 않은 태스크도 지시문(Prompt)만 주면 어느 정도 수행
  2. 번역 능력
    • 학습 데이터에 직접적인 병렬 번역 말뭉치가 없어도, 대규모 모델은 문맥을 통해 자연스럽게 번역 가능
  3. Chain-of-thought 추론
    • 모델 크기가 커질수록 단순 답변뿐 아니라 추론 과정을 단계별로 전개 가능

 

 

[Instruction Tuning]

 

Instruction Tuning은 모델이 단순히 언어를 예측하는 것에 그치지 않고, 사람이 내리는 지시를 따르도록 파인 튜닝하는 전략이다. 모델에게 명령(Prompt)과 정답(Output) 쌍을 학습시키면 모델이 Zero-shot Generalization 능력을 얻게 되어, 새로운 태스크도 지시문만 주면 바로 수행할 수 있다. 예를 들어, 해당 문장을 한국어로 번역하라는 태스크를 학습하지 않았어도, Instruction Tuning을 통해 문장을 한국어로 번역할 수 있게 된다.

 

 

[Chain-of-Thought Prompting]

 

Chain-of-Thought Prompting은 모델에게 답을 바로 내라고 하지 않고, 추론 과정을 단계별로 말하도록 유도하는 전략이다. 수학적 추론, 논리적 문제 해결 등의 복잡한 단계적 태스크에서 성능이 크게 향상될 수 있다.

 

 

Chain-of-Thought Prompting 예시

 

 

[Reinforcement Learning Human Feedback]

 

RLHF는 언어 모델이 인간의 가치나 의도에 더 잘 부합하도록 만드는 핵심 기술이다. 단순히 정답을 맞히는 것을 넘어, 인간이 유용하다고 느끼거나 선호하는 방향으로 모델의 답변 스타일과 내용을 다듬는 과정이라 볼 수 있다. 전통적인 강화 학습에서 모델은 환경이 정해준 규칙에 따라 보상을 받고 장애물에 부딪히면 벌점을 받는 방식이었다.

 

하지만 언어 모델의 좋은 답변은 점수처럼 명확하게 정량화하기 어렵기 때문에, RLHF는 인간의 선호도를 학습한 별도의 보상 모델을 만든다. 이 보상 모델이 일종의 평가 역할을 하여 언어 모델의 답변에 점수를 매겨준다. 보상 함수를 환경에서 분리하여 인간의 주관적인 선호를 직접 반영할 수 있게 된 것이 RLHF의 가장 큰 혁신이다. RLHF는 크게 3개의 단계로 구성되어 있다. 

 

RLHF 구조 (출처 : https://aws.amazon.com/ko/blogs/machine-learning/improving-your-llms-with-rlhf-on-amazon-sagemaker/)

 

  • 1단계 : 지도 미세조정 (SFT, Supervised Fine-Tuning)
    • 목표 : 사전 학습된 거대 언어 모델(LLM)에 기본적인 지시 수행 능력을 가르치는 단계이다.
  1. 데이터셋 구축 : 전문 작업자(Annotator)가 다양한 종류의 프롬프트(질문, 지시)에 대해 사람이 직접 작성한 고품질의 답변 데이터셋을 만든다.
  2. 미세조정(Fine-Tuning) : 이 '질문-모범 답안' 쌍을 이용해 사전 학습된 LLM을 학습시킵니다.
  • 이 단계를 거친 모델은 특정 지시에 대해 어떻게 답변해야 하는지에 대한 기본적인 틀을 갖추게 된다. 마치 학생에게 교과서와 모범 답안을 보여주며 기본 개념을 가르치는 것과 같다.

 

  • 2단계 : 보상 모델(RM) 훈련
    • 목표 : 인간이 어떤 답변을 더 선호하는지 판단하는 '심판' 모델을 만드는 단계이다.
  1. 데이터 수집 : 1단계에서 만든 SFT 모델에게 하나의 프롬프트에 대해 여러 개의 답변(예 : 4~9개)을 생성하게 한다.
  2. 사람의 평가 : 작업자가 이 답변들을 읽어보고 가장 좋은 답변부터 가장 나쁜 답변까지 순위를 매긴다.
  3. 보상 모델 학습 : 이 순위 데이터를 이용해 보상 모델을 학습시킨다. 보상 모델은 (프롬프트, 답변)을 입력받아 사람의 선호도를 예측하는 점수(스칼라 값)를 출력하도록 훈련된다.

 

RM의 손실 함수 설명

 

  • 3단계 : 강화학습을 통한 미세조정 (RL with PPO)
    • 목표 : 2단계에서 만든 '심판'(보상 모델)을 이용해 1단계의 언어 모델(SFT)을 더욱 개선하는 마지막 단계이다.
  1. 정책(Policy) 모델 초기화 : 1단계에서 만든 SFT 모델을 복사하여 '정책 모델'로 사용한다. 이 모델이 앞으로 강화학습을 통해 업데이트될 대상이다.
  2. 보상 계산 : 정책 모델이 임의의 프롬프트에 대해 답변을 생성한다.
  3. 점수 매기기 : 생성된 답변을 2단계에서 만든 보상 모델(RM)에 넣어 점수(보상)를 받는다.
  4. 정책 업데이트 : Proximal Policy Optimization (PPO)라는 강화학습 알고리즘을 사용하여, 이 보상 점수를 최대화하는 방향으로 정책 모델의 파라미터를 업데이트한다.

 

특히 3단계에서 PPO를 사용하여 언어 모델을 업데이트할 때 사용되는 목적 함수의 일부인 KL 패널티가 중요하다. 모델이 보상 모델로부터 높은 점수를 받는데에만 집중하면, 의미는 없지만 점수만 높은 이상한 텍스트를생성할 수 있다. (= Reward Hacking) 이를 방지하기 위해 초기 SFT 모델의 답변 방식에서 너무 멀어지지 않도록 KL 패널티를 준다. 

 

KL 패널티는 학습 중인 모델이 SFT 모델과 얼마나 달라졌는지를 KL 발산 값으로 계산하고 이것이 패널티가 된다. 최종 보상은 아래와 같은 식으로 구성되며, 모델은 KL 패널티를 너무 많이 받지 않는 선에서 RM의 보상을 최대로 높여야 한다.

 

최종 보상 함수

 

작성하다 보니 새롭게 배우는 개념이 많아져서 그런지 이해가 바로 안 되는 것 같아, 제미나이에게 더 쉬운 설명을 부탁했다.

 

더보기

우리의 목표는 글을 쓸 줄은 알지만, 아직 독자의 마음을 사로잡는 법은 모르는 **'AI 작가(LLM)'**를 최고의 작가로 만드는 것입니다.


1단계: 기본기 가르치기 (SFT) ✍️

먼저, 이 AI 작가에게 **'모범 답안집'**을 주고 공부하게 합니다. 사람이 직접 쓴 좋은 질문과 좋은 답변들을 보여주면서 "이런 질문엔 이렇게 답하는 게 기본이야"라고 가르치는 거죠.

  • 결과: AI 작가가 기본적인 글쓰기 실력과 지시를 따르는 법을 배웁니다. 하지만 아직 센스나 깊이는 부족한 상태입니다.

2단계: 'AI 편집자' 만들기 (Reward Model) 👨‍🏫

이제 AI 작가의 글을 평가해 줄 **'AI 편집자'**를 훈련시킬 차례입니다.

  1. AI 작가에게 하나의 주제에 대해 여러 버전의 글(A, B, C, D)을 쓰게 합니다.
  2. 사람(총편집장)이 직접 이 글들을 읽고 순위를 매깁니다. ("B가 제일 낫고, 그다음은 A, C는 별로네.")
  3. 이 수많은 순위 데이터를 'AI 편집자'에게 학습시킵니다. 그러면 AI 편집자는 사람이 어떤 글을 좋아하는지에 대한 '취향'을 배우게 됩니다.
  • 결과: 이제 AI 편집자는 어떤 글이든 보고 "이건 사람이 좋아할 만한 글이라 90점", "이건 별로라 30점" 하고 점수를 매길 수 있는 깐깐한 평가자가 됩니다.

3단계: 실전 훈련과 피드백 (RL) 🏆

드디어 마지막 단계입니다. AI 작가가 글을 쓰면 AI 편집자가 바로바로 피드백을 주는 실전 훈련입니다.

  1. AI 작가가 새로운 글을 씁니다.
  2. AI 편집자가 그 글을 읽고 즉시 점수(보상)를 매겨줍니다.
  3. AI 작가는 높은 점수를 받기 위해 글쓰기 스타일을 계속 수정하고 발전시킵니다. 낮은 점수를 받으면 "아, 이렇게 쓰면 안 되는구나" 하고 배우는 거죠.

이때 중요한 **'안전 규칙'**이 하나 있습니다. AI 작가가 편집자에게 높은 점수만 받으려고 의미 없는 단어를 반복하는 등 이상한 꼼수를 쓰지 못하게 하는 겁니다. "기본기(1단계에서 배운 것)는 절대 잊지 마!"라고 계속 상기시켜 주는 거죠. (이것이 바로 KL 페널티의 역할입니다.)

  • 최종 결과: 이 과정을 수없이 반복하면, AI 작가는 사람의 마음에 쏙 드는, 유용하고 재미있는 글을 쓰는 최고의 작가(ChatGPT 같은)로 거듭나게 됩니다.

요약하자면, RLHF는 AI 작가에게 ①기본기를 가르치고, ②사람의 취향을 배운 AI 편집자를 붙여준 뒤, ③끊임없이 글을 쓰게 하고 피드백을 주며 실력을 향상시키는 체계적인 훈련법이라고 할 수 있습니다.

 

이제 현대의 대화형 AI들은 RLHF를 바탕으로 학습되고 있따. RLHF로 학습된 대표적인 LM은 다음과 같다.

 

  • OpenAI 계열
    • InstructGPT
    • ChatGPT (3.5, 4 계열)
  • Anthropic 계열
    • Claude (2, 3 등)
  • Google 계열
    • Gemini
    • LaMDA
    • Bard
  • Meta 계열
    • Llama 2-Chat
    • Llama 3-Instruct
  • DeepMid - Sparrow

 

 

 


2. 느낀점 / 어려웠던 점

 

오늘은 '진작 배우고 기억했어야 할 내용들'을 공부한 날이었다고 생각한다. 한 개념 안에 파생되는 개념들도 공부하느라 정말 정신 없기도 했고 체력적으로 너무 지쳤다. 그만큼 지금까지 공부했던 날들 중에 제일 발전한 날이 아닐까? 특히 RLHF가 정말 어렵게 느껴졌다. 인간의 평가를 바탕으로 학습이 진행된다는 것까지는 이해를 했는데 그래서 이게 뭐지 .. 라는 감상만 남았다.

 

나름대로 RLHF를 정리하자면, 사전 학습된 모델에 질문 - 답변 쌍을 다시 학습시키고, 해당 모델에 여러 개의 답변 예제를 출력하도록 하여 사람이 좋은 답변과 나쁜 답변의 순위를 매긴다. 답변에 대해 사람이 매긴 순위를 이용해서 보상 모델을 학습시키고, 기존의 질문 - 답변 쌍이 학습된 모델이 정책 모델이 되어 보상 모델을 이용해서 강화학습을 진행한다.

 

이번 주말도 못 쉬게 생김

 

이번 노드에서 읽어봐야 할 논문이 거의 약 30개에 달하는데, 주말 동안 다 읽을 수 있겠지 .. 물론 진작 다 읽어봤어야 할 논문들이라 차곡 차곡 모아 두고 하나씩 읽고 있다. 점점 갈 수록 이전에 했던 공부들이 정말 아무것도 아니었다는 것을 깨닫게 된다. 생각해보니 연구를 할 거면 이정도의 지식은 있어야 무리 없이 연구를 수행할 수 있지 않을까 싶다. 힘들더라도 후회 없이 묵묵히 합시다.