收获|马丁
嘿欢迎回来!又一周过去了,NLP 领域继续超越逃逸速度…但是不要担心,有一个关于变形金刚如何工作的令人敬畏的直觉泵:
解密的
如果你继续喜欢这篇文章,请与你的朋友分享,别忘了给它一个👏👏 ….😎
康奈尔理工大学发布了一个庞大的 Twitter 数据集,该数据集基于 260 万用户在 10 月 23 日至 12 月 16 日期间讨论选民欺诈的 760 万条推文/2560 万条转发。分析深入到谁促进或否认了“选民欺诈”,网络的可视化,以及 Twitter 禁止了谁(个人推文内容不会直接共享以保护隐私)。结果令人着迷,数据集也是可用的。
选民欺诈的“提倡者”和“反对者”网络。橙色突出显示暂停的推特账户。
GitHub :
github.com](https://github.com/sTechLab/VoterFraud2020)
你想教你的编码器解码器模型如何从答案中产生问题吗???看看粉丝们创建的 Jeopardy 档案吧。有线索和答案以及其他元数据。伟大的数据资源,如果它只能在某处获得…
[## j!档案馆
j-archive.com](http://j-archive.com/)
在这里!✌✌
github.com](https://github.com/jvani/jarchive-clues)
塞巴斯蒂安·路德的《2020 年回顾》是一篇不容错过的博文。他讨论了过去一年中引起他注意的 NLP/机器学习的十大趋势(包括论文链接):
完整博文
ruder.io](https://ruder.io/research-highlights-2020/index.html#1-scaling-up-and-down)
一个令人耳目一新的回顾,讨论图形神经网络应用在 2021 年的方向。讨论推荐系统、组合优化、计算机视觉和物理/生命科学应用。
medium.com](https://medium.com/criteo-engineering/top-applications-of-graph-neural-networks-2021-c06ec82bfc18)
还记得零冗余优化器(Zero)吗?微软针对超大参数模型的优化器带来了一篇引人入胜的拥抱脸博文。仅供参考,(拥抱脸的教练类给予支持 DeepSpeed 的和 FairScale 的零功能,截至 4.2 版本。)使用 DeepSpeed 库,他们能够获得一个 24GB 的 RTX-3090 卡来训练 30 亿个参数 T5,批量大小为 20。👀👀
博客:
[## 通过 DeepSpeed 和 FairScale,零消耗,增加体能,提高训练速度
huggingface.co](https://huggingface.co/blog/zero-deepspeed-fairscale)
如果你喜欢视频和计算机科学教育视频👇
github.com](https://github.com/Developer-Y/cs-video-courses#math-for-computer-scientist)
黑金库真的很享受它的 FOIA(信息自由法案)的请求,以至于它决定请求 YouTube 上所有被列为私人或在几个联邦机构中未列出的视频!!😁
[## 美国政府机构的私人/未上市 YouTube 视频-黑金库
“对于购买第三方解决方案的组织来说,部署模型所需的时间减少了 31%。”
“拥有更多模型的组织将其数据科学家的更多时间花在部署上,而不是更少”
“部署模型所需的时间逐年增加”
在此下载免费副本:
info.algorithmia.com](https://info.algorithmia.com/email-state-of-ml-2021)
(作者表示,在句子分割和依存句法分析(英语)等特定任务上,Trankit 优于 Stanford ' s stanza。)🥶🥶
github.com](https://github.com/nlp-uoregon/trankit)
Spectrum 是一个使用深度学习生成说唱歌词的模型。包括演示和 Colab!
github.com](https://github.com/YigitGunduc/Spectrum)
用 BERT 模型自动恢复英语和匈牙利语的标点符号。
github.com](https://github.com/attilanagy234/neural-punctuator)
在语义解析任务上微调 T5 模型,从自然语言描述中生成 Python 代码。
github.com](https://github.com/ypapanik/t5-for-code-generation)
用于微调 BERT、SciBERT 和 BioBERT 的笔记本;在 BERT 模型的最后一层中可视化自我关注,并在 BERT 模型的最后一层中获得高于平均水平的最受关注单词的列表。
github.com](https://github.com/expertailab/Is-BERT-self-attention-a-feature-selection-method#Jupyter-notebooks)
使用元学习的少镜头对话状态跟踪。完整的代码库将最终发布。如果您对构建能够转移到新领域的对话模型感兴趣,可以看看这个空间。
github.com](https://github.com/saketdingliwal/Few-Shot-DST)
对话轮和视觉语境是从电影和电视连续剧中提取的,其中每个对话轮都与它发生的相应视觉语境配对。它包含总共 110 万个对话回合,因此 110 万个视觉上下文存储在图像中。
github.com](https://github.com/ShannonAI/OpenViDial)
每周日,我们都会对来自世界各地研究人员的 NLP 新闻和代码进行一次每周综述。
如需完整报道,请关注我们的 Twitter: @Quantum_Stat