It 现在是 21 世纪,科技方兴未艾,互联网已经取代了纸质文本。我们生活在一个相互联系的世界里。在这个快节奏、不断增长的世界中,每秒钟都在快速创建数据。算法和统计测量的使用允许我们以一种可接受的预测建模的方式来绘制每个运动。
大数据是指通过使用互联网服务,随着时间的推移积累的海量数据。传统的计量经济学方法在分析如此大量的数据时会失败,我们需要大量新的算法来处理这些数据并提供见解。(哈丁等人,2018)。大数据可以指过去十年中执行的所有人类活动,并且每秒钟都在呈指数级增长。
互联有它的好处和缺点,其中一个主要的缺点是隐私。大数据不仅包括数据分析,还包括数据收集。数据收集正在进行中,个人用户数据可能会受到危害。(Kshetri,2014 年)。预测建模不仅有助于我们改善服务,还将对医疗保健和食品等行业产生深远影响。
数据的积累是不可阻挡的,我们必须充分认识到技术圣杯数据的好处和缺点。本文旨在考察所有与数据相关的事实、案例研究,以及它如何影响我们的现代生活。
数据或信息可以被称为过去行为的积累。信息也可以归类为一种数据。由于大量的人类活动和计算技术,几年前我们认为理所当然的事情在这十年中并没有蓬勃发展。
在 21 世纪,我们被两种类型的数据所包围:离散数据和连续数据。离散数据由可用于分类的条目组成,而连续数据指的是可用于回归的条目。
人和数据是不可分割的,因为它是信息流。自古以来,数据就是人类生活中非常重要的一部分。文明一旦建立,没有数据就无法运作。印度河流域文明有印章(一种硬币),其中的数据被制成表格。
另一个非常古老的文明印加人也有同样的数据收集方法。随着文明的进步,人工数据制表也发展起来了。它逐渐演变成硬币,取代了物物交换体系。也有从圣经时代就开始使用的数字。
海员们也有一套数据系统来帮助他们的贸易。历史上,数据收集是古代生活的一个重要方面,大约在 20 世纪 50 年代,由于计算系统的兴起,数据可以以位和字节的格式呈现。在 21 世纪,数据被视为新的石油。
隐私是一种不受侵犯的自由状态,是一个人只拥有自己的信息的能力。人们应该有在需要时分享信息的自由。在 21 世纪,由于数据和计算的蓬勃发展,公司已经试图利用复杂的算法和技术来开发数据挖掘。
由于政府对这些隐私法的执行有限,公司已经利用这些数据通过侵犯他们的隐私来获得越来越多的用户。(凯特,1997 年)。数据与隐私脱节的一个原因是,许多用户不知道他们的数据何时被收集(Acquisti 等人,2016 年)。
虽然我们可能认为数据是一种宝贵的资源,但我们应该知道这些数据如何被公司或政治家利用来吸引特定的客户群。用户可以通过文本、图片、偏好、浏览时间等形式向这些平台提供非故意的个人信息(徐等,2014)。
这些数据收集对人类构成了威胁,为了纠正这种情况,人们正在广泛探索执行数据挖掘的新技术,其主要目标是以保护隐私的方式研究、分析和处理数据(Xu 等人,2014)。
在 21 世纪,人机界面活动处于顶峰。很多公司依赖于海量数据的积累和处理(Oussous 等人,2018)。
海量数据,也称为大数据,是公司研发的一种资源,因为它们可以帮助公司决定在哪里投入资金和投资。世界经济已经转变为所谓的数据经济,指的是使用大数据算法收集、组织和交换数据的生态系统。
如今,数据可能是巨大的、杂乱的和非结构化的,例如,当不同的客户端在同一平台上有不同的账户时,为了提取有用的信息,源算法必须首先以管理偏差、离群值和不平衡的方式预处理数据(Tummala 等人,2018 年)。
我们被数据所包围,以至于像 YouTube 这样的服务每 24 小时就经历一个新的视频,在 5 年的时间里粗略估计有 130 亿到 500 亿个数据参数(Fosso Wamba 等人,2015)。
利用人类数据来预测未来的运动是公司游戏数据的一种常见策略,尽管 YouTube 正在产生如此庞大的数据,但使用该服务的人们正在通过将他们的好恶存储在 Youtube 维护的“大数据库”中来回馈该服务。据估计,大数据和商业分析在美国每年提供约 1508 亿美元的收入(Tao 等人,2019 年)。
虽然这些公司通过向用户提供使用他们数据的更好界面来盈利,但一些公司利用数据来影响一部分个人。他们使用计算机算法来预测用户数据并将其转化为可用的东西,使用数据处理和数据挖掘技术,他们提取用户数据来出售或影响。
社交网络公司脸书最近卷入了数据挖掘公司 Cambridge Analytica,该公司利用漏洞收集脸书用户的数据。社区档案建立在这些数据的基础上,用于定向定制广告。
由于这一点,脸书在下降,因为这被认为是一个大规模的数据泄露和个人用户数据组成的图像,文本,帖子和喜欢。这一丑闻在 2016 年美国大选中发挥了关键作用,随后欧盟制定了《一般数据保护条例》(陶等,2019)。
据估计,公司使用过去的数据来建立所谓的推荐引擎,可以预测用户想看什么样的内容。一个这样的例子是网飞,它要求用户对电影进行 1 到 5 级的评级,以建立用户的个性化简档。
对于网飞推荐引擎,线性代数或者更准确地说,SVD(奇异值分解)被用于一个可以预测用户可能喜欢什么的系统(Hallinan 等人,2014)。
总之,大数据和隐私密不可分,因为它们相互关联、相互依存。对于侵犯隐私的行为,人们必须能够访问大量的数据,而要构建这些计算引擎,我们需要大规模的分布式计算资源和技术。
我们看到数据是如何变得如此流行的,随着正确的技术工具和算法的破坏,公司能够利用系统的预测能力。
我们还看到隐私是数据经济的重要组成部分,以及在这个快速发展的世界中,数据收集方法似乎有所不同。我们不能停止数据的流动,但我们肯定知道正在收集什么。剑桥分析公司(Cambridge Analytica)等公司利用 Facebook 平台的漏洞来收集个人用户数据,这无疑是对隐私的侵犯,因此脸书在国会受到了指责,他们的市场份额大幅下降。我们提供了数据、隐私如何产生的逻辑流程,以及由于大量的人类活动,数据如何被称为“大数据”。
对于这项研究的未来方向,我们计划分析我们如何通过使用技术技术来控制数据流,我们计划讨论种族偏见在如此大量的数据中的影响,更具体地说,种族偏见如何影响数据挖掘算法(Obermeyer 等人,2019 年)。
哈丁,马修和乔纳森·赫什。“经济学中的大数据。” IZA 劳动世界,2018,doi:10.15185/izawol.451
克谢特里,尼尔。"大 Data׳s 对隐私、安全和消费者福利的影响."电信政策,第 38 卷,2014 年第 11 期,第 1134–1145 页。,doi:10.1016/j . telpol . 2014 . 10 . 002
数据是新的石油。页眉 _ 图像。[访问时间:2020 年 6 月 22 日]。https://spotlessdata.com/blog/data-new-oil
凯特. FH。信息时代的隐私。华盛顿特区:布鲁金斯学会出版社;1997.
《隐私的经济学》。经济文献杂志。2016;54(2):442–492.
《大数据技术:一项调查》。沙特国王大学学报-计算机与信息科学。2018 年[访问时间 2020 年 6 月 22 日];30(4):431–448.
数据挖掘和大数据分析综述。国际工程与技术杂志。2018 年[访问时间 2020 年 6 月 22 日];7(4.24):92.
Fosso Wamba S,Akter S,Edwards A,Chopin G,Gnanzou D,“大数据”如何产生巨大影响:来自系统综述和纵向案例研究的发现。国际生产经济学杂志。2015;165:234–246.
徐,江,王,袁,任。大数据中的信息安全:隐私与数据挖掘。IEEE 访问。2014 年[2020 年 6 月 22 日访问];2:1149–1176.
Hallinan B,Striphas T .为你推荐:Netflix 奖和算法文化的产生。2014;18(1):117–137.
Tao H,Bhuiyan M,Rahman M,Wang G,Wang T,Ahmed M,Li J .保护大数据安全和隐私的经济视角分析。下一代计算机系统。2019 年[访问时间 2020 年 6 月 23 日];98:660–671.
在用于管理人口健康的算法中剖析种族偏见。科学。2019 年[访问时间 2020 年 6 月 23 日];366(6464):447–453.