MergedQUAD Dataset

MergedQUAD consists of splits for SQUAD-based Question-Answering in Hindi language. It is a combination of examples taken from other multilingual SQUAD-based Question Answering datasets like XQUAD and TyDiQA. This dataset was introduced in our paper titled "Indic-Transformers: An Analysis of Transformer Language Models for Indian Languages" which has been accepted as a workshop paper at ML-RSA (NeurIPS 2020). This paper presents an exhaustive study of transformer-based architectures on Indian languages like Hindi, Bengali and Telugu. You can find our models on HuggingFace model hub over here.

Citation

If you use this work, please cite

@misc{jain2020indictransformers,
      title={Indic-Transformers: An Analysis of Transformer Language Models for Indian Languages}, 
      author={Kushal Jain and Adwait Deshpande and Kumar Shridhar and Felix Laumann and Ayushman Dash},
      year={2020},
      eprint={2011.02323},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
LICENSE		LICENSE
README.md		README.md
mergedQuAD-hi-test.json		mergedQuAD-hi-test.json
mergedQuAD-hi-train.json		mergedQuAD-hi-train.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MergedQUAD Dataset

Citation

About

Releases

Packages

License

Neural-Space/indic-transformers

Folders and files

Latest commit

History

Repository files navigation

MergedQUAD Dataset

Citation

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Packages