Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Chapter 4-2 BERT의 파생모델 1 ELECTRA, SpanBERT #14

Open
shyram opened this issue Feb 6, 2022 · 4 comments
Open

Chapter 4-2 BERT의 파생모델 1 ELECTRA, SpanBERT #14

shyram opened this issue Feb 6, 2022 · 4 comments
Assignees
Labels
weekly Weekly Q&A

Comments

@shyram
Copy link
Member

shyram commented Feb 6, 2022

4.4 ELECTRA @shyram
4.5 SpanBERT @0hee0

ELECTRA 논문
SpanBERT 논문

@shyram shyram added the weekly Weekly Q&A label Feb 6, 2022
@mori8
Copy link
Member

mori8 commented Feb 9, 2022

p.158 오타

  • [MLM] 토큰 -> [MASK] 토큰

@mori8
Copy link
Member

mori8 commented Feb 9, 2022

(ELECTRA) 생성자와 판별자의 손실을 최소화하는 방향으로 학습한다고 하는데, 생성자의 손실이 줄어들면 MASK된 원본 단어를 더 잘 찾아내서 점점 원본에 가까운 출력을 낼텐데, 그러면 판별자는 어떤 단어가 마스킹된 단어였는지 알아내기가 더 어려워져서 판별자의 손실이 늘어나지 않나요?
아니면 생성자와 판별자의 가중치를 공유하니 적당한 loss 값에서 수렴하는 걸까요?

@hee-suh
Copy link
Member

hee-suh commented Feb 9, 2022

(ELECTRA) 생성자와 판별자의 손실을 최소화하는 방향으로 학습한다고 하는데, 생성자의 손실이 줄어들면 MASK된 원본 단어를 더 잘 찾아내서 점점 원본에 가까운 출력을 낼텐데, 그러면 판별자는 어떤 단어가 마스킹된 단어였는지 알아내기가 더 어려워져서 판별자의 손실이 늘어나지 않나요? 아니면 생성자와 판별자의 가중치를 공유하니 적당한 loss 값에서 수렴하는 걸까요?

20220209_182937

수연님 말씀처럼 생성자의 손실이 줄어들면 판별자의 손실이 늘어나는 경향이 있을 것 같습니다.

그런데 생성자와 판별자의 손실을 각각 최소화하는 것이 아니라, 생성자 손실과 판별자 손실의 을 최소화하는 방향으로 학습을 하기 때문에 적당한 지점에서 합이 최소화되게 잘 수렴할 것 같습니다.

@mori8
Copy link
Member

mori8 commented Feb 9, 2022

최고최고 감사합니닷

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
weekly Weekly Q&A
Projects
None yet
Development

No branches or pull requests

4 participants