Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

你好,请问在训练过程中是否采用了kaldi中加混响,加增噪音的数据增强手段? #1

Open
qiny1012 opened this issue Nov 6, 2020 · 12 comments

Comments

@qiny1012
Copy link

qiny1012 commented Nov 6, 2020

No description provided.

@yuyq96
Copy link
Owner

yuyq96 commented Nov 6, 2020

没有做数据增广,有兴趣的话可以自己试一下,不过训练时间可能需要调整

@yuyq96
Copy link
Owner

yuyq96 commented Nov 17, 2020

最近注意到ECAPA-TDNN里面采用的数据增广效果还是很显著的,有兴趣可以试试。

@qiny1012
Copy link
Author

您好,请问您有没有成功复现过ECAPA-TDNN?,我这边仅仅使用kaldi的数据增广方法,也没有使用s-norm,仅仅获得了1.35%EER。另外,您论文的第16个参考文献是否存在问题?

@yuyq96
Copy link
Owner

yuyq96 commented Jan 11, 2021

  • 之前因为服务器硬盘问题一直不方便复现ECAPA-TDNN,近期应该会试试。我个人认为ECAPA-TDNN论文中的其他增广方法和S-Norm对EER有较大的影响,比如使用AS-Norm应该可以降低10%甚至更多。此外,你使用的学习率调整方式和ECAPA-TDNN一致吗?
  • 是的,谢谢提醒!正确的的引用应该是Selective Kernel Networks (CVPR 2019)。

@qiny1012
Copy link
Author

学习率和原文一致,具体代码如下:

optimizer = torch.optim.Adam(
        [{'params': model.parameters(), 'lr': 1e-3, 'weight_decay' : 2e-5},
        {'params': aamsoftmax.parameters(), 'lr': 1e-3, 'weight_decay' : 2e-4}])
scheduler = torch.optim.lr_scheduler.CyclicLR(optimizer, 1e-8, 1e-3,step_size_up = 65000,  \
step_size_down = 65000,mode='triangular2',cycle_momentum = False)

@yuyq96
Copy link
Owner

yuyq96 commented Feb 3, 2021

@qiny1012 我初步复现了一下ECAPA-TDNN,目前在使用Cosine的情况下,EER在1.5%左右。

和原论文的区别在于:

  • 80维FBank而非80维MFCC
  • 数据增广多了MUSAN music,少了原文中的某一种方法(也许是将aac改为opus编码,但似乎意义不大)。可以看到在下文中,tempo up/down共两种,我之前理解的是FFmpeg用来加载aac文件。

    The remaining three augmentations are generated with the open-source SoX (tempo up, tempo down) and FFmpeg (alternating opus or aac compression) libraries.

  • 还没有测试AS-Norm(也没有使用submean,原论文未提及)

似乎某些增广数据对于性能有副作用(可能是MUSAN music,也可能是tempo的参数问题,原论文未给出明确值)。我准备调整训练数据之后再试试。

此外,我在同策略下训练了一个更快的模型(轻量化D-TDNN + Focus),结果和ECAPA-TDNN基本一致。

@qiny1012
Copy link
Author

qiny1012 commented Feb 4, 2021

感谢您分享,是否可以将您的新论文(ICASPP2021)发给我看看,邮箱:qiny1012@qq.com,非常感谢。

@FatDs-lrc
Copy link

请问您成功复现了ECAPA-TDNN了吗,我在使用MUSAN+RIR,fbank80维,使用z-norm的情况下EER结果为1.32%,如果您有成功复现ECAPA-TDNN,还望与您交流下心得,十分感谢🙏

@yuyq96
Copy link
Owner

yuyq96 commented Jul 21, 2021

https://github.com/speechbrain/speechbrain,这个项目里对ECAPA-TDNN进行了复现,似乎获得了更好的结果。

建议重新用Vox2训练后在Vox1-E和Vox1-H上测试,精度足够高的情况下,Vox1-O的结果相对很不稳定。

@yuyq96
Copy link
Owner

yuyq96 commented Jul 21, 2021

D-TDNN + CAM (w/o data aug, 4M params)

Vox1-E Vox1-H
EER 1.183 2.152
DCF_0.01 0.1257 0.1966
DCF_0.001 0.2405 0.3106

@FatDs-lrc
Copy link

感谢二位,我去用speechbrain试试

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants