You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
(ELECTRA) 생성자와 판별자의 손실을 최소화하는 방향으로 학습한다고 하는데, 생성자의 손실이 줄어들면 MASK된 원본 단어를 더 잘 찾아내서 점점 원본에 가까운 출력을 낼텐데, 그러면 판별자는 어떤 단어가 마스킹된 단어였는지 알아내기가 더 어려워져서 판별자의 손실이 늘어나지 않나요?
아니면 생성자와 판별자의 가중치를 공유하니 적당한 loss 값에서 수렴하는 걸까요?
(ELECTRA) 생성자와 판별자의 손실을 최소화하는 방향으로 학습한다고 하는데, 생성자의 손실이 줄어들면 MASK된 원본 단어를 더 잘 찾아내서 점점 원본에 가까운 출력을 낼텐데, 그러면 판별자는 어떤 단어가 마스킹된 단어였는지 알아내기가 더 어려워져서 판별자의 손실이 늘어나지 않나요? 아니면 생성자와 판별자의 가중치를 공유하니 적당한 loss 값에서 수렴하는 걸까요?
수연님 말씀처럼 생성자의 손실이 줄어들면 판별자의 손실이 늘어나는 경향이 있을 것 같습니다.
그런데 생성자와 판별자의 손실을 각각 최소화하는 것이 아니라, 생성자 손실과 판별자 손실의 합을 최소화하는 방향으로 학습을 하기 때문에 적당한 지점에서 합이 최소화되게 잘 수렴할 것 같습니다.
4.4 ELECTRA @shyram
4.5 SpanBERT @0hee0
ELECTRA 논문
SpanBERT 논문
The text was updated successfully, but these errors were encountered: