蒂莫西·埃伯利在 Unsplash 上的照片
嘿,欢迎回来,又一周过去了,这么多的代码/研究已经发布到野外。
哦,顺便说一句,NLP 指数开始了🔥🔥🔥,我要感谢所有的贡献者!
这里有一个令人敬畏的贡献的快速浏览:由萨尔瓦多利马在巴塞罗那为您带来的西班牙医学 NLP 数据集的集合。🙌🙌将在明天之前用这些和其他资产更新 NLP 索引。
Cantemist (肿瘤学临床癌症病例文本挖掘):https://zenodo.org/record/3978041
药理学家(西班牙临床病例报告中的药理物质、化合物和蛋白质)https://zenodo.org/record/4270158
code esp(编码为 ICD10 的紫丁香和 Ibecs 的摘要)https://zenodo.org/record/3606662
MEDDOCAN (医疗文件匿名化):https://zenodo.org/record/4279323
MESINESP2 (医学语义标引)https://zenodo.org/record/4722925
这种新的公平模式不需要抄写来学习讲话。它只需要无人监管的语音记录和文本。他们使用 GAN 来帮助区分音素(语言的声音)。虽然 Wav2vec-U 在 Librispeech 基准测试中没有达到 SOTA,但鉴于它不需要 960 小时的转录语音数据,它仍然获得了很好的分数。👀
博客:
ai.facebook.com](https://ai.facebook.com/blog/wav2vec-unsupervised-speech-recognition-without-supervision)
代码:
如果你经常使用数据框,你应该检查一下 Polars。这是一个用 Rust 编写的非常棒的 dataframe 库(包括 Python 绑定)。附带箭头支持及其所有的荣耀,包括拼花文件和 AWS S3 IO 支持。
github.com](https://github.com/pola-rs/polars)
文档:
pola-rs.github.io](https://pola-rs.github.io/polars-book/user-guide/index.html)
阿姆斯特丹大学收集了很多 colab 笔记本,涵盖了 gnn、变形金刚和计算机视觉等多个领域。
这是他们的 TOC:
教程 PyTorch 简介
教程 3:激活函数
教程 4:优化和初始化
教程 5:盗梦空间、ResNet 和 DenseNet
教程 6:变形金刚和多头注意力
教程 7:图形神经网络
教程 8:深层能源模型
教程 9:自动编码器
教程 10:对抗性攻击
教程 11:规范化流程
教程 12:自回归图像建模
[## 欢迎来到弗吉尼亚大学深度学习教程!— UvA DL 笔记本 1.0 版文档
UVA DLC-notebooks . readthedocs . io](https://uvadlc-notebooks.readthedocs.io/en/latest/index.html)
谷歌引入了 KELM 数据集,这对于仿真呆子来说是一个巨大的胜利。该数据集是一个转换为自然语言的维基数据知识图,其思想是使用语料库来提高预训练模型中的事实知识!T5 用于该转换。该语料库由大约 1800 万个句子组成,跨越大约 4500 万个三元组和大约 1500 个关系。
ai.googleblog.com](https://ai.googleblog.com/2021/05/kelm-integrating-knowledge-graphs-with.html)
ai.stanford.edu](http://ai.stanford.edu/blog/introduction-to-knowledge-graphs/)
[## 没有垃圾搜索
notrashsearch.github.io](https://notrashsearch.github.io/)
从注释有相应代码的学术论文中学习。如果你想解读研究,这很酷。
nn.labml.ai](https://nn.labml.ai/index.html)
github.com](https://github.com/applicaai/kleister-charity)
代码生成的基准。
看看 GPT-近地天体的结果与 GPT-2/3 的结果相比,非常有趣。
github.com](https://github.com/hendrycks/apps)
连接论文 📈
一个 repo,用于从维基百科传记页面自动创建数据集,并利用数据集进行基于 BERT 的命名实体识别器的联邦学习。
github.com](https://github.com/ratmcu/wikipiifed)
连接论文 📈
OpenMEVA 是评估开放式故事生成的基准。
github.com](https://github.com/thu-coai/OpenMEVA)
连接论文 📈
KLUE 基准测试由 8 个任务组成:
- 主题分类
- 句子文本相似度
- 自然语言推理(NLI)
- 命名实体识别(NER)
- 关系抽取
- (词性)+依存句法分析(DP)
- 机器阅读理解
- 对话状态跟踪(DST)
github.com](https://github.com/KLUE-benchmark/KLUE)
连接论文 📈
文档级机器翻译的上下文感知模型。还包括 SCAT,一个英语-法语数据集,包含支持 14K 翻译的上下文单词,专业翻译人员发现这对代词消歧很有用。
大多数机器翻译模型都是在句子层次上,所以对于那些希望进入文档层次的人来说,这是一个有趣的回购协议。
github.com](https://github.com/neulab/contextual-mt)
连接论文 📈
little-NERD 是一个大规模、细粒度的人工标注命名实体识别数据集,包含 8 个粗粒度类型、66 个细粒度类型、188200 个句子、491711 个实体和 4601223 个标记。构建了三个基准任务,一个是受监督的:少数书呆子(SUP),另外两个是少数镜头的:少数书呆子(INTRA)和少数书呆子(INTER)。
O 1789 O O 1793 O O O O a O O O O 行政杂项法 宪法杂项法 杂项法 加利西亚杂项法 O 小 O 效果 O 。O
github.com](https://github.com/thunlp/Few-NERD)
每周日,我们都会对来自世界各地研究人员的 NLP 新闻和代码进行一次每周综述。
如需完整报道,请关注我们的 Twitter: @Quantum_Stat