你好，请问在训练过程中是否采用了kaldi中加混响，加增噪音的数据增强手段？ #1

qiny1012 · 2020-11-06T07:39:56Z

No description provided.

yuyq96 · 2020-11-06T07:47:13Z

没有做数据增广，有兴趣的话可以自己试一下，不过训练时间可能需要调整

yuyq96 · 2020-11-17T11:17:41Z

最近注意到ECAPA-TDNN里面采用的数据增广效果还是很显著的，有兴趣可以试试。

qiny1012 · 2021-01-11T09:19:09Z

您好，请问您有没有成功复现过ECAPA-TDNN？，我这边仅仅使用kaldi的数据增广方法，也没有使用s-norm，仅仅获得了1.35%EER。另外，您论文的第16个参考文献是否存在问题？

yuyq96 · 2021-01-11T10:13:25Z

之前因为服务器硬盘问题一直不方便复现ECAPA-TDNN，近期应该会试试。我个人认为ECAPA-TDNN论文中的其他增广方法和S-Norm对EER有较大的影响，比如使用AS-Norm应该可以降低10%甚至更多。此外，你使用的学习率调整方式和ECAPA-TDNN一致吗？
是的，谢谢提醒！正确的的引用应该是Selective Kernel Networks (CVPR 2019)。

qiny1012 · 2021-01-12T01:20:20Z

学习率和原文一致，具体代码如下：

optimizer = torch.optim.Adam(
        [{'params': model.parameters(), 'lr': 1e-3, 'weight_decay' : 2e-5},
        {'params': aamsoftmax.parameters(), 'lr': 1e-3, 'weight_decay' : 2e-4}])
scheduler = torch.optim.lr_scheduler.CyclicLR(optimizer, 1e-8, 1e-3,step_size_up = 65000,  \
step_size_down = 65000,mode='triangular2',cycle_momentum = False)

yuyq96 · 2021-02-03T13:39:46Z

@qiny1012 我初步复现了一下ECAPA-TDNN，目前在使用Cosine的情况下，EER在1.5%左右。

和原论文的区别在于：

80维FBank而非80维MFCC
数据增广多了MUSAN music，少了原文中的某一种方法（也许是将aac改为opus编码，但似乎意义不大）。可以看到在下文中，tempo up/down共两种，我之前理解的是FFmpeg用来加载aac文件。

The remaining three augmentations are generated with the open-source SoX (tempo up, tempo down) and FFmpeg (alternating opus or aac compression) libraries.
还没有测试AS-Norm（也没有使用submean，原论文未提及）

似乎某些增广数据对于性能有副作用（可能是MUSAN music，也可能是tempo的参数问题，原论文未给出明确值）。我准备调整训练数据之后再试试。

此外，我在同策略下训练了一个更快的模型（轻量化D-TDNN + Focus），结果和ECAPA-TDNN基本一致。

qiny1012 · 2021-02-04T01:23:04Z

感谢您分享，是否可以将您的新论文（ICASPP2021）发给我看看，邮箱：qiny1012@qq.com，非常感谢。

FatDs-lrc · 2021-07-20T13:15:51Z

请问您成功复现了ECAPA-TDNN了吗，我在使用MUSAN+RIR，fbank80维，使用z-norm的情况下EER结果为1.32%，如果您有成功复现ECAPA-TDNN，还望与您交流下心得，十分感谢🙏

qiny1012 · 2021-07-21T01:59:15Z

https://github.com/speechbrain/speechbrain，这个项目里对ECAPA-TDNN进行了复现，似乎获得了更好的结果。

yuyq96 · 2021-07-21T02:08:35Z

https://github.com/speechbrain/speechbrain，这个项目里对ECAPA-TDNN进行了复现，似乎获得了更好的结果。

建议重新用Vox2训练后在Vox1-E和Vox1-H上测试，精度足够高的情况下，Vox1-O的结果相对很不稳定。

yuyq96 · 2021-07-21T02:23:09Z

D-TDNN + CAM (w/o data aug, 4M params)

	Vox1-E	Vox1-H
EER	1.183	2.152
DCF_0.01	0.1257	0.1966
DCF_0.001	0.2405	0.3106

FatDs-lrc · 2021-07-21T02:23:50Z

感谢二位，我去用speechbrain试试

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

你好，请问在训练过程中是否采用了kaldi中加混响，加增噪音的数据增强手段？ #1

你好，请问在训练过程中是否采用了kaldi中加混响，加增噪音的数据增强手段？ #1

qiny1012 commented Nov 6, 2020

yuyq96 commented Nov 6, 2020

yuyq96 commented Nov 17, 2020

qiny1012 commented Jan 11, 2021

yuyq96 commented Jan 11, 2021

qiny1012 commented Jan 12, 2021

yuyq96 commented Feb 3, 2021

qiny1012 commented Feb 4, 2021

FatDs-lrc commented Jul 20, 2021

qiny1012 commented Jul 21, 2021

yuyq96 commented Jul 21, 2021

yuyq96 commented Jul 21, 2021

FatDs-lrc commented Jul 21, 2021

你好，请问在训练过程中是否采用了kaldi中加混响，加增噪音的数据增强手段？ #1

你好，请问在训练过程中是否采用了kaldi中加混响，加增噪音的数据增强手段？ #1

Comments

qiny1012 commented Nov 6, 2020

yuyq96 commented Nov 6, 2020

yuyq96 commented Nov 17, 2020

qiny1012 commented Jan 11, 2021

yuyq96 commented Jan 11, 2021

qiny1012 commented Jan 12, 2021

yuyq96 commented Feb 3, 2021

qiny1012 commented Feb 4, 2021

FatDs-lrc commented Jul 20, 2021

qiny1012 commented Jul 21, 2021

yuyq96 commented Jul 21, 2021

yuyq96 commented Jul 21, 2021

FatDs-lrc commented Jul 21, 2021