Chapter 4-2 BERT의 파생모델 1 ELECTRA, SpanBERT #14

shyram · 2022-02-06T13:33:06Z

4.4 ELECTRA @shyram
4.5 SpanBERT @0hee0

mori8 · 2022-02-09T06:37:43Z

p.158 오타

[MLM] 토큰 -> [MASK] 토큰

mori8 · 2022-02-09T07:12:05Z

(ELECTRA) 생성자와 판별자의 손실을 최소화하는 방향으로 학습한다고 하는데, 생성자의 손실이 줄어들면 MASK된 원본 단어를 더 잘 찾아내서 점점 원본에 가까운 출력을 낼텐데, 그러면 판별자는 어떤 단어가 마스킹된 단어였는지 알아내기가 더 어려워져서 판별자의 손실이 늘어나지 않나요?
아니면 생성자와 판별자의 가중치를 공유하니 적당한 loss 값에서 수렴하는 걸까요?

hee-suh · 2022-02-09T09:37:34Z

(ELECTRA) 생성자와 판별자의 손실을 최소화하는 방향으로 학습한다고 하는데, 생성자의 손실이 줄어들면 MASK된 원본 단어를 더 잘 찾아내서 점점 원본에 가까운 출력을 낼텐데, 그러면 판별자는 어떤 단어가 마스킹된 단어였는지 알아내기가 더 어려워져서 판별자의 손실이 늘어나지 않나요? 아니면 생성자와 판별자의 가중치를 공유하니 적당한 loss 값에서 수렴하는 걸까요?

수연님 말씀처럼 생성자의 손실이 줄어들면 판별자의 손실이 늘어나는 경향이 있을 것 같습니다.

그런데 생성자와 판별자의 손실을 각각 최소화하는 것이 아니라, 생성자 손실과 판별자 손실의 합을 최소화하는 방향으로 학습을 하기 때문에 적당한 지점에서 합이 최소화되게 잘 수렴할 것 같습니다.

mori8 · 2022-02-09T11:30:08Z

최고최고 감사합니닷

shyram added the weekly Weekly Q&A label Feb 6, 2022

shyram assigned emphasis10, shyram, mori8 and hee-suh Feb 6, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Chapter 4-2 BERT의 파생모델 1 ELECTRA, SpanBERT #14

Chapter 4-2 BERT의 파생모델 1 ELECTRA, SpanBERT #14

shyram commented Feb 6, 2022 •

edited by hee-suh

Loading

mori8 commented Feb 9, 2022

mori8 commented Feb 9, 2022 •

edited

Loading

hee-suh commented Feb 9, 2022 •

edited

Loading

mori8 commented Feb 9, 2022

Chapter 4-2 BERT의 파생모델 1 ELECTRA, SpanBERT #14

Chapter 4-2 BERT의 파생모델 1 ELECTRA, SpanBERT #14

Comments

shyram commented Feb 6, 2022 • edited by hee-suh Loading

mori8 commented Feb 9, 2022

mori8 commented Feb 9, 2022 • edited Loading

hee-suh commented Feb 9, 2022 • edited Loading

mori8 commented Feb 9, 2022

shyram commented Feb 6, 2022 •

edited by hee-suh

Loading

mori8 commented Feb 9, 2022 •

edited

Loading

hee-suh commented Feb 9, 2022 •

edited

Loading