图片来源:Pexels
团队合作是朝着共同愿景一起工作的能力。将个人成就导向组织目标的能力。它是让普通人获得非凡成就的燃料。“安德鲁·卡内基
T eamwork 是数据科学实践所需的基本技能之一。本文将讨论团队合作在现实世界的数据科学项目中如此重要的 3 个重要原因。
在学术培训项目中,我们经常使用非常简单的数据集,要解决的问题是明确定义的。例如,一个家庭作业问题可以为您提供一个干净的数据集,它可能会要求您使用一组特定的要素作为预测要素,并使用一个要素作为目标。这些指令甚至可以更进一步,告诉你要建立什么样的模型(在监督学习的情况下,是线性回归还是分类)。虽然顶点项目提供了将数据科学知识和技能应用于更广泛问题的机会,但最常见的是,这些顶点项目被指定为单个项目。个人顶石项目不能提供发展团队合作技能的机会。此外,分配的项目可能没有任何商业影响。
团队合作是学术数据科学培训项目中必须强调的一项基本技能。实现这一点的一种方法是让学生接触真实世界的数据科学顶点项目,在项目的各个方面与行业官员合作,从问题框架到数据分析、模型构建、测试、评估和实施。参与一个具有商业意义的真实世界的工业项目不仅能让学生发展团队合作技能,还能培养良好的沟通、领导能力和商业敏锐度。
现在,让我们讨论团队合作在现实世界的数据科学项目中是一项重要技能的 3 个重要原因。
数据科学家可能不具备感兴趣的系统的领域知识。例如,根据您工作的组织,您可能需要与工程师(工业数据集)、医生(医疗数据集)等团队合作。,以便确定在模型中使用哪些预测要素和目标要素。例如,一个工业系统可能有实时生成数据的传感器,在这种情况下,作为一名数据科学家,您可能不具备有关该系统的技术知识。因此,您必须与工程师和技术人员一起工作,让他们指导您决定什么是感兴趣的特征,什么是预测变量和目标变量。因此,团队合作对于整合项目的不同方面至关重要。根据我从事工业数据科学项目的个人经验,我的团队必须与系统工程师、电气工程师、机械工程师、现场工程师和技术人员一起工作 3 个月以上,以了解如何利用可用数据来解决正确的问题。这种解决问题的多学科方法在现实世界的数据科学项目中是必不可少的。
在现实世界的数据科学项目中,数据集通常非常复杂。例如,数据集可能包含数千个要素,也可能包含数十万甚至数百万个观测值。除此之外,数据集还可能依赖于空间和时间。因此,弄清楚要构建什么样的模型,以及使用什么特性来构建模型可能是非常具有挑战性的。这个项目的范围可能太大了,不可能由一个人来解决。在这种情况下,通过与其他数据科学家、数据分析师、数据工程师以及行业人员组成的团队合作,可以减轻项目的负担。通过将任务委派给不同的团队成员,可以减轻工作量并便于管理。这将允许在正确的时间框架内计划、设计和执行项目。
最终的模型将如何部署?公司高管如何看待这个项目?他们是否愿意在日常决策中投资这个想法并实施建议?这些建议会提高企业运营的效率吗?它能改善客户体验吗?是否导致利润增加?就成本节约而言,该模式的财务影响是什么?作为一名数据科学家,你必须与公司领导和高管合作,努力让他们相信你的模型或交付物是有价值的,并且具有深远的影响,可以为公司节省大量资金。为了确定您的模型的业务含义,团队合作将发挥很大的作用,因为您必须与工程师和业务部门的其他官员合作,以确定如果实施您的模型,将会节省多少成本。
总之,我们已经讨论了团队合作在现实世界的数据科学项目中非常重要的 3 个重要原因。没有团队合作,现实世界的数据科学问题将无法解决。因此,学术培训项目应该设计具有工业意义的顶点项目。如果可能,学术项目可以邀请当地公司建议和推荐顶点项目。参与这个项目的学生必须完全投入到项目的各个方面,从问题框架到数据分析、模型构建、测试、评估和实施。在整个项目期间,与行业官员的合作必须优先考虑。这样,学生就有机会在一个多学科和多元化的团队中工作。这种解决问题的多学科方法将使他们能够发展在现实世界中取得成功所需的基本团队合作、沟通、领导能力和商业敏锐度技能。
数据科学 101 —包含 R 和 Python 代码的中型平台短期课程
如有疑问,请发邮件给我:benjaminobi@gmail.com