索格森
嘿,欢迎回来!让我们从一个非常狡猾的甘的清晰的声波梦开始时事通讯😵🍄。但是等等,那到底是什么?想要直接体验,请观看下面的视频。TL;DR:一个聪明的 dev 训练了一个 GAN 来产生与音乐同步转换的迷幻艺术。这不是 NLP 相关的,但嘿,仍然很酷!这是库,它运行在 TF-v1 上,现在去取一个 wav 文件,放一些平克·弗洛伊德的音乐:
🍄
github.com](https://github.com/mikaelalafriz/lucid-sonic-dreams)
惊喜 Colab:
colab.research.google.com](https://colab.research.google.com/drive/1Y5i50xSFIuN3V4Md8TB30_GOAtts7RQD?usp=sharing)
如果你喜欢这篇文章,请给它一个👏👏并与朋友分享…😎
pip install tf-transformers
就在你以为已经看完了的时候,一个库出现了,它增强了 TensorFlow v2 在 NLP 方面的能力。作者做出了令人印象深刻的声明,以下是其中的亮点(来自他们的回购):
- 使用张量流 2 的快速自回归解码。大部分实验比 PyTorch 快(V100 GPU)。比现有的基于 TF 的库快 80%(相对差异)参考基准代码。
- 完整的 TFlite 支持 BERT、RoBERTA、T5、Albert 和 mt5,支持除文本生成之外的所有下游任务。
- 更快的句子片段对齐(不再有 LCS 开销)。
- GPT2 等仅支持编码器的型号的可变批量文本生成。
- 不再有为 TFRecords 编写长代码的麻烦。简约而简单。
- 对自动批处理 tf.data.dataset 或 tf.ragged 张量的现成支持。
- 使用 model.compile2 将字典输出直接传递给
tf.keras.Model.fit
内部的损失函数。参考例句或博客。 - 多个掩码模式,如因果、用户定义、通过改变一个参数的前缀。参考示例或博客。
型号支持:阿尔伯特、伯特、罗伯塔、GPT-2、MT5、伊莱克特拉、T5。
他们甚至包括代码从拥抱脸切换到他们的图书馆:真人快打🥶…
[## 传统/TF-变压器
github.com](https://github.com/legacyai/tf-transformers/tree/main/src/tf_transformers/notebooks/conversion_scripts)
GitHub
github.com](https://github.com/legacyai/tf-transformers)
谷歌的 C4 数据集已经被完全隔离。他们从未提供下载选项,我们只能复制它。然而 AllenNLP 来了,他们带来了收据。
它们有 3 种变体:
en
:TFDS 格式 800GB,JSON 格式 300GBen.noclean
:TFDS 格式 6.3TB,JSON 格式 2.3TBrealnewslike
:TFDS 格式 38GB,JSON 格式 15GB
[## 下载 C4 数据集!讨论#5056 allenai/allennlp
github.com](allenai/allennlp#5056)
多语种剪辑怎么样?
101 源语言使用多语言 BERT(精华或基础)怎么样?
这个库提供了这一点,并包括一个直观的 Colab 来测试推理。🔥🔥
如果您想添加一种目前不支持的语言,请随时联系作者。这是伟大的工作。
github.com](https://github.com/FreddeFrallan/Multilingual-CLIP)
想帮忙开发一个开源的语音助手?杏仁在这里:
特色:
- 音乐
- 家庭助理(物联网)
- 天气
- 笑话
- 当地餐馆
- 关于助手本身的常见问题
community.almond.stanford.edu](https://community.almond.stanford.edu/t/call-for-testing-almond-2-0-alpha/412)
谷歌云平台更新,如果你想疯狂使用分布式计算,你现在可以在一个 A2 实例上得到 16 个 A100s。这是严重的马力,如果你想知道 GCP 的计算上限是什么样的,这就是它。
[## 采用 NVIDIA A100 GPUs 的 A2 虚拟机正式发布|谷歌云博客
cloud.google.com](https://cloud.google.com/blog/products/compute/a2-vms-with-nvidia-a100-gpus-are-ga)
它像 Python,但速度很快😁。如果你想知道 Rust 的当前状态,可以看看 Stack Overflow 博客👇。它强调了小而专注的 Rust 社区如何继续显示出它的力量,并提供了教程链接。
stackoverflow.blog](https://stackoverflow.blog/2021/03/15/getting-started-with-rust/)
此处提供了 Quantum TF 库的概述:
github.com](https://github.com/tensorflow/quantum)
博客
blog.tensorflow.org](https://blog.tensorflow.org/2021/03/tensorflow-quantum-turns-one-year-old.html)
解密的
github.com](https://github.com/huggingface/transformers/releases)
来自优步工程小组,这是 AresDB 的源代码。您可以连接 GPU 进行超低延迟的数据库查询。
github.com](https://github.com/uber/aresdb)
原始发布博客:
[## 介绍 AresDB:优步的 GPU 驱动的开源实时分析引擎
eng.uber.com](https://eng.uber.com/aresdb/)
一个很棒的新语音库,在 HF repo 上有几个预训练的模型。它支持的任务:说话人识别,语音识别和语音二进制化。它在 PyTorch 上运行。
[## Speech brain:py torch 语音工具包
speechbrain.github.io](https://speechbrain.github.io/)
带代码的教程:
[## 如何使用 MongoDB 存储和检索 ML 模型— Python 简化版
pythonsimplified.com](https://pythonsimplified.com/how-to-use-mongodb-to-store-and-retrieve-ml-models/)
“这是一个由教程、项目、图书馆、视频、论文、书籍和任何与不可思议的 PyTorch 相关的东西组成的精选列表。”
这是一个巨大的指数。
github.com](https://github.com/ritchieng/the-incredible-pytorch)
aka:具有堆叠指针网络的上下文转换器,用于知识图上的对话式问题回答…
执行多任务语义解析,用于处理大规模知识图上的对话式问题回答。
github.com](https://github.com/endrikacupaj/CARTON)
连接论文 📈
用英语训练联合意图预测和槽填充模型,并推广到其他语言。
[## jitinkrishnan/多语言-zero shot-槽填充
github.com](https://github.com/jitinkrishnan/Multilingual-ZeroShot-SlotFilling)
连接论文 📈
使用 BERT 完成知识库的完善。
github.com](https://github.com/zhw12/BERTRL)
连接论文 📈
github.com](https://github.com/wenliangdai/Multimodal-End2end-Sparse)
连接论文 📈
使用变压器微调用于事实验证的维生素 c 数据集。
github.com](https://github.com/TalSchuster/VitaminC)
连接论文 📈
实体约束的插入转换器,一种帮助改进内容生成的精细控制的语言模型,即一种处理实体约束的方法。
github.com](https://github.com/LARC-CMU-SMU/Enconter)
连接论文 📈
针对单回合对话的带有复述响应的问答数据集。
数据集包含 5,000 个问答对,每个问题最少两个,最多八个不同的转述回答。
github.com](https://github.com/barshana-banerjee/ParaQA)
每周日,我们都会对来自世界各地研究人员的 NLP 新闻和代码进行一次每周综述。
如需完整报道,请关注我们的 Twitter: @Quantum_Stat