如何收集自由文本反馈:数据科学家入门

原文：https://pub.towardsai.net/compliments-or-recommendations-every-data-scientist-must-read-this-6131bdef1792?source=collection_archive---------0-----------------------

了解如何开发技术学习系统，从用户那里收集自由文本、开放式的回答。

照片由来自 Unsplash 的 Emily Morter 拍摄

要真正理解为如何征求反馈而实施的测量框架的类型，也要谦虚地承认作为一名数据科学家，自然语言处理和机器学习的缺点和不精确的能力。

控制+F 我提到的次数“主要来源”

用例:分析自由文本评论；预测他们的二元情绪(积极或消极)；并测量该情感的幅度(例如，文本块中的极性；VADER 的正分数或复合分数；您的定制训练模型的定制情感分数；以此类推)。您的客户需要您建立一个预测性的实施渠道，在反馈到达时以近乎实时的方式连续通知，以预测他们的情绪。

在某种程度上，你可以训练你自己的数据，并为你的独特用例(例如，多样性数据)标记它们，在某种程度上，你可以访问许多 NLP 实现，从一袋单词方法到深度学习管道，实际上有一个变量是如此深刻地影响(但很少真正理解或忽略)，它比任何其他事情都重要:最终用户交给你的数据，按预期标记。

最终用户是主要来源，无论您的 tradecraft 实现在预测情绪方面多么新颖和卓越，主要来源(客户、员工)总是正确的。我们很快会更详细地讨论这个问题。

我亲自领导了几十个测量实现的部署，并构建了 NLP 管道，以便在美国联邦政府中对它们进行近乎实时的分析，从而了解对最终用户至关重要的时刻。在这些旅程中，如果我曾经打算收集开放式、自由文本的评论，我总是部署一个测量框架，该框架要求*最终用户(即使“负担”时间由于增加的问题而增加了一分钟)以一种一元的方式进行识别，以便(1)如果他们想要留下评论，(2)他们需要将其识别为称赞或推荐。

来自 Unsplash 的照片

作为数据科学生命周期管理的一部分，我们有责任根据一套规则“正确”进行分析。从根本上说，如果你清楚地了解到——随着数据一秒一秒地不断到来，并准备好让你的人工智能生态系统接收它们以进行管道实施——不是你决定收集的反馈是“称赞”还是“建议”,你就可以让事情变得不那么紧张；相反，它是最终用户。

想象一下，有一天，你可以按照分组标准，通过赞美和建议，对亚马逊收集的关于无数问题的评论进行分组。

你的新算法实现没有确定这些标签。最终用户做到了。

我们对机场的“笑脸”按钮已经习以为常了(比如你按下它，嗖的一声，就会有一个输出到数字接收器进行“分析”)；我们如此习惯于在亚马逊上提交一到五个评论(随后，你可以写任何你想写的东西，不管你当天的五个主题似乎与你留下的评论直接或间接相关)。

照片由来自 Unsplash 的尼克·费因斯拍摄

我们通过给终端用户一个平台，让他们通过自由文本自由陈述他们的感受，从而让事情变得如此复杂、错综复杂、极度抽象。

让我们实现这样的“测量框架”并讨论它的构造；从根本上理解这种结构是很重要的，因为它将告知你对的整体理解，我们甚至试图预测的方式和原因。

方法 A(复杂、繁琐且高度抽象):

问题 1: 帮助我们更好地为您服务。请考虑留下关于 _____ 的评论或反馈。

***** 这是您的自由文本框，您可以随意输入您的反馈******

当你和你的团队参与当天宏观和微观预测的旅程时，你就出发了。

方法 B(定向，将最终用户置于一种思维框架中，以便思考，他们会因此而欣赏你):

**问题 1: 帮助我们更好地为您服务。您愿意分享您的反馈并对您的 _ _ _ _ _ 体验提出称赞或建议吗？ →下拉: 【是】【否】(只能选择一个)**

(或者你希望……关于如何写开场白，这份清单还在继续；将“以人为本的设计+设计思维”应用到这个开放的决定中是至关重要的，因为它是高度科学的)

问题 2: 感谢您选择分享您的反馈。这是赞美还是推荐，还是两者兼而有之？ →下拉: 【赞】【推荐】【两者】(只能选一个)(在我过去的实现中，我从来没有构建过“两者”作为选项，无论是问题还是下拉选项；但是，我在这里构建它，以便它可能只适用于您的用例)。*

这是您的自由文本框，用于输入您的反馈，希望能够收到根据您的下拉标准筛选的内容

后者在区分方法 A 和方法 B 时非常重要。在方法 A 中，你没有自由文本的任何部分的标签，而在方法 B 中，你有——这是因为主要来源决定通知你他们将撰写“称赞”、“推荐”或“两者都有”

我们不质疑原始资料的意图。它们是主要来源。不是你。

*如果你在过去六个月收到的 800 万条免费回复中，有 71%是“称赞”，29%是“推荐”，那么*这是基于第一手信息来源的决定。没有比陈述“第一手消息来源这么说”更好的辩护理由了

一旦你根据主要来源确定了这些标签，你就可以投入时间来实际测量这些标签的大小。

与不可否认地说你已经预测到 71%-29%的分裂(类似于上面的场景)相比，通过建议来确定消极、担忧、紧急事项和优先事项的程度要容易得多。

分析推荐和赞美比分析 1，2，4s 和 5s 要容易得多。人类不是机器人；在这样的背景下，我们不会在一秒钟或五秒钟内思考，也不会在一生中记忆跨越几十年的信息。我们定性地、感性地、主观地、基于我们的偏见来思考一切。比如，我们如何说服最终用户，当两者都更糟糕时，1 比 2 更严重，所有这些严重程度都在这一范围内？1 是危机吗？为什么 a 2 不是危机？

我们用主题和形容词来思考。例如，我们在学习或提高外语方面非常有效:利用我们的五种感官将一个框架纳入我们的语言学习中比在 1s、2s、3s、4s 和 5s 中更容易。

通过向最终用户澄清，你在促使他们考虑留下称赞或建议，你让他们能够以那种心态思考。通过选择赞美，我们希望他们在这种心情下也能写一句。****

最后一点。组织需要赞美。员工希望看到赞美。顾客想要赞美。终端用户希望展示赞美。反馈征求渠道不一定是揭露错误行为、担忧和不良习惯。一次又一次，在部署和测量我从几十种测量工具中收集的见解时，从来没有一次担忧超过称赞:大多数时候，我总是看到称赞大大超过建议或担忧。我会收到这样的反馈，它会称赞我们要求称赞(这是多么令人耳目一新)。如果你问他们，并且他们处于那种心境，他们很可能会选择以那种心境来回应你。

而且，你可能会得到称赞。

而且，没有比这更好的消息了，对于作为分析一部分的科学家来说，说“我们有赞美”(而不是“我们预测……”)。

因此，明确地构建到您的测量框架中，并且(1)为您的团队和组织提供丰富的反馈——全部根据主要来源,( 2)通过推动选择加入来为最终用户提供支持！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

compliments-or-recommendations-every-data-scientist-must-read-this-6131bdef1792.md

compliments-or-recommendations-every-data-scientist-must-read-this-6131bdef1792.md

如何收集自由文本反馈:数据科学家入门

方法 A(复杂、繁琐且高度抽象):

方法 B(定向，将最终用户置于一种思维框架中，以便思考，他们会因此而欣赏你):

Files

compliments-or-recommendations-every-data-scientist-must-read-this-6131bdef1792.md

Latest commit

History

compliments-or-recommendations-every-data-scientist-must-read-this-6131bdef1792.md

File metadata and controls

如何收集自由文本反馈:数据科学家入门

方法 A(复杂、繁琐且高度抽象):

方法 B(定向，将最终用户置于一种思维框架中，以便思考，他们会因此而欣赏你):