欢迎回来参加下一周的 NLP 密码游戏。是时候回顾一些奇怪的事情了,也许,甚至是控制一些珠宝。过去一周,美国多家机构遭到大规模黑客攻击,导致每个人都在更新自己的迈克菲防火墙,在这之后,安全领域有很多话题可谈。如果你是一个菜鸟制作工程师,现在又对拥有合适的 opsec 心存疑虑,为什么不从阅读 GitHub 的一个简单的 markdown 文件开始呢。
(仅供参考,如有疑问,请安装 QubesOS🙈)
github.com](https://github.com/hashbang/book/blob/master/content/docs/security/Production_Engineering.md)
和往常一样,如果你喜欢这个简讯,给它一个👏👏与你的敌人分享。😎
迈克尔·高尔金带着他的图表新闻综述回来了🔥。大约 5%的会议论文都是图表,所以有很多要讨论。
他的 TOC:
博客:
medium.com](https://medium.com/swlh/machine-learning-on-knowledge-graphs-neurips-2020-6ef2da78f529)
创新者新闻](https://theinnovator.news/how-knowledge-graphs-will-transform-data-management-and-business/)
最近发表了一篇新论文(作者来自每一个主要的大型技术公司),展示了如何攻击像 GPT-2 这样的语言模型,并通过查询模型一字不差地提取信息,如个人身份信息。🥶!提取的信息来自基于互联网信息搜集的模型训练数据。这是一个大问题,尤其是当您在私有自定义数据集上训练语言模型时。本文讨论了原因和可能的解决方法。
看起来 Booking.com 想要一个新的推荐引擎,他们提供了超过 100 万个匿名酒店预订的数据集,让你参与进来。如果你想有机会使用真实世界的数据,这很酷。
以下是训练数据集架构:
user_id —用户 id 入住 —预订入住日期 退房 —预订退房日期 affiliate_id —预订者来自的加盟渠道的匿名 ID(如直营、一些第三方推荐、付费搜索引擎等)。) device _ class—desktop/mobile Booker _ Country—进行预订的国家(匿名) hotel_country —酒店所在国家(匿名) city_id —酒店所在城市的 city_id(匿名) utrip_id —用户行程的唯一标识(一组
“除了每次旅行的最终预订的 city_id 被隐藏并且需要预测之外,eval 数据集类似于火车集。”
www.bookingchallenge.com](https://www.bookingchallenge.com/)
如果你想开始你的外星人研究,有一个跨越几十年和几个国家的 UFO 文件的不错的转储。显然,内容所有者和媒体出版商之间存在一些版权纠纷,最终导致第三方在野外获得一份拷贝,并将文件上传到 archive.org😭。无论如何,这是一个很好的数据源来尝试你最新的 OCR 算法,或者如果你有兴趣搜索反重力推进技术。
👽:
that1archive.neocities.org](https://that1archive.neocities.org/subfolder1/ufo-files.html)
显然,美国空军决定将 DeepMind 的 Zero 移植到 U-2“龙女”间谍飞机的导航/传感器系统上。他们称之为阿图,灵感来自星球大战中的 R2-D2😭。最近,他们进行了首次模拟飞行,展示了人工智能的能力。任务是让阿图在地面上对敌人的导弹发射器进行侦察,而飞行员则寻找空中威胁。
DARPA 就像:
文章:
thedebrief.org](https://thedebrief.org/here-goes-the-air-forces-big-news/)
GitHub 会将你的回购从代码搜索索引中删除,如果它已经超过一年没有活动的话。那么,你如何保持“活跃”呢?
“存储库的最近活动意味着它已经提交或者已经出现在搜索结果中。”
[## 更改代码搜索索引- GitHub Changelog
github.blog](https://github.blog/changelog/2020-12-17-changes-to-code-search-indexing/)
Alan Nichol 对对话式人工智能和他的 RASA 平台的最新状态发表了意见,这些平台的目标是消除意图,这对于对话式人工智能实现库兹韦尔级别的健壮性是至关重要的。他们目前正在尝试使用二端学习作为 intents 的替代方案。
在 RASA 2.2 及更高版本中,意图将是可选的。
博客:
blog.rasa.com](https://blog.rasa.com/were-a-step-closer-to-getting-rid-of-intents/)
多语言预培训 wav2vec 2.0 型号
github.com](https://github.com/pytorch/fairseq/tree/master/examples/wav2vec)
[## facebookresearch/wav2letter
github.com](https://github.com/facebookresearch/wav2letter/tree/master/recipes/mls)
脸书·费尔的 WMT 20 种新闻翻译任务提交模式
电动是基于能源的模型的 ELECTRA 版本。此外,它能够比语言模型更好地重新排列语音识别 n 最佳列表,并且比屏蔽语言模型快得多。
新的电动模型可在 ELECTRA repo 中找到:
github.com](https://github.com/google-research/electra)
ParsiNLU 是一套全面的波斯语高级 NLP 任务。这套软件包含 6 个不同的关键 NLP 任务--阅读理解、多项选择问答、文本推理、情感分析、查询释义和机器翻译。
github.com](https://github.com/persiannlp/parsinlu)
在 GLUE 基准测试中,使用差异修剪进行微调的模型可以匹配完全微调基线的性能,而每个任务只需修改预调整模型参数的 0.5%。
github.com](https://github.com/dguo98/DiffPruning)
PlanSum,一个利用内容规划的摘要模型
github.com](https://github.com/rktamplayo/PlanSum)
Keras 实现了一种用于生物医学实体链接的轻量级神经方法,它只需要 BERT 模型的一小部分参数和少得多的计算资源。
github.com](https://github.com/tigerchen52/Biomedical-Entity-Linking)
LIREx 整合了一个支持基本原理的解释生成器和一个实例选择器,只选择相关的、可信的自然语言解释(NLEs)来扩充 NLI 模型。
github.com](https://github.com/zhaoxy92/LIREx)
RankAE 对聊天对话执行摘要,而不使用手动标记的数据。
github.com](https://github.com/RowitZou/RankAE)
数据集由从摩洛哥高速公路收集的 1,800 多幅带注释的图像组成。ASAYAR 数据可用于开发和评估交通标志检测以及不同语言的法语或阿拉伯语文本检测。
[## ASAYAR:用于公路交通面板中阿拉伯-拉丁场景文本定位的数据集
vcar.github.io](https://vcar.github.io/ASAYAR/)
每周日,我们都会对来自世界各地研究人员的 NLP 新闻和代码进行一次每周综述。
如需完整报道,请关注我们的 Twitter: @Quantum_Stat