Is it efficient to use tarred data with bucketing for single machine multi-gpu ASR training? #6750

mehadi92 · 2023-05-29T13:01:36Z

mehadi92
May 29, 2023

For ASR training we can not use only data bucketing. We must convert it to tarred data. My question is will tarred data + data bucketing make training faster for single machine + multi GPU?

Or tarred data + data bucketing only make training faster for multi-node training only?

Answered by titu1994

May 29, 2023

Tarred dataset can be used even for single machines but it won't give significant benefit there. Bucketing will make it faster to train even on single node cause it samples files with specific durations in each batch but it's main speedup is on using multi node.

View full answer

titu1994 · 2023-05-29T18:32:58Z

titu1994
May 29, 2023
Maintainer

Tarred dataset can be used even for single machines but it won't give significant benefit there. Bucketing will make it faster to train even on single node cause it samples files with specific durations in each batch but it's main speedup is on using multi node.

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Is it efficient to use tarred data with bucketing for single machine multi-gpu ASR training? #6750

{{title}}

Replies: 1 comment

{{title}}

Select a reply

Is it efficient to use tarred data with bucketing for single machine multi-gpu ASR training? #6750

mehadi92 May 29, 2023

Replies: 1 comment

titu1994 May 29, 2023 Maintainer

mehadi92
May 29, 2023

titu1994
May 29, 2023
Maintainer