Branch Log · Open in interactive viewer →

7 Pre-training Methods

CMU Advanced NLP 2022 (7): Pre-training Methods


7.5 Auto-regressive LMs for Generation/Prompting


7.5.1 GPT-2

OpenAI: Better language models and their implications(2019)

GPT-2는 long-form text의 생성 및 zero-shot task completion에서, SOTA를 달성한 모델이다.

다양한 도메인을 포함하도록, 수만 개의 웹페이지에서 획득한 WebText로 학습했다.

down-stream task에서 fine-tuning이 용이하기 위한 목적


7.5.2 GPT-3

Language Models are Few-Shot Learners 논문(2020)

CommonCrawl (1T words)


7.5.3 PaLM

PaLM: Scaling Language Modeling with Pathways 논문(2022)

PaLM은 구글에서 발표한 모델로, 효율적인 학습이 가능한 Pathways 시스템을 통해 GPT-3보다 큰 모델을 학습했다.

CommonCrawl (1T words)


7.5.4 OPT/BLOOM

OPT: Open Pre-trained Transformer Language Models 논문(2022)

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model 논문(2022)

다음은 대표적인 오픈소스 LLM 모델이다.

(생략)


7.6 Should we be Pre-training?

다음은 pre-training 후 fine-tuning의 장단점을 비교한 표이다.

Pros Cons
한 모델을 잘 학습해서, 다양한 downstream task에서 사용한다. pre-training 성능이 downstream 성능을 보장하지 않는다.
학습에 필요한 연산 비용을 분할할 수 있다.(amortize) 하나의 pre-training objective로는, 모든 end tasks에서 작동하지 않는다.
transfer learning 단계에서 여러 장점을 가진다. pre-training 단계에서, downstream task에 대한 명확한 cross-validate 방법이 존재하지 않는다.

pre-training은, transfer learning 단계에서 다음과 같은 장점을 가진다.


7.6.1 Pre-training Design Choices

pre-training objective는 다음과 같이 다양한 design choices를 가질 수 있다.

design pre-train design choices
Models pre-train design choices ex

7.7 Practicals of Using Large Pre-trained Models

다음은 pre-trained model을 사용할 때, 몇 가지 고려할 팁이다.

top few layers $\rightarrow$ layer-norm layers $\rightarrow$ else


7.8 Scaling Laws

Scaling Laws for Neural Language Models 논문(2020)

scaling laws

(생략)