大数据和隐私

大数据连接

在过去的几十年里,世界在许多方面发生了巨大的变化,特别是在IT方面。我们每天能够与之交流的人的数量已经大大增加,就像我们每天获得的信息量一样。同样,大公司收集的关于我们的信息数量也是如此。随着时间的推移,大数据技术的使用越来越频繁。但这到底意味着什么呢?什么是大数据?这是危险的吗?它会如何影响我们的隐私?这些是我们将在本文中讨论的一些问题。

什么是大数据?

放大镜清单

“大数据”这个词描述的是由不同的参与者不断收集的海量(个人)数据。谷歌收集的关于用户搜索查询的所有信息就是一个例子。大数据现象是一种相对较新的发展,它的出现是因为(大型)公司和组织,如Facebook、谷歌和大多数政府,开始收集比以前更多的关于用户、客户和公民的数据。新技术、数字化世界和互联网极大地帮助了这一发展。

大数据的收集往往是如此庞大,以至于无法用传统的数据分析方法来分析它们。然而,如果我们以正确的方式分析大数据,就可以归纳出有趣的模式和结论。例如,大数据经常用于大规模的市场调研:哪些产品最有可能被购买?当你想要接触并说服顾客时,哪种广告最有效?

为了将一个数据集称为大数据,它通常应该满足以下三个标准,也称为3v:

  • 数量:大数据绝不是小样本。它涉及到大量的数据收集,这是长期连续观察的结果。
  • 速度:这与大数据收集的惊人速度有关。此外,大数据通常是实时访问的(因为它正在被收集)。
  • 种类:大数据集通常包含许多不同类型的信息。大数据集中的数据甚至可以组合起来填补任何空白,使数据集更加完整。

除了这三个v之外,大数据还有其他一些特点。例如,大数据非常适合机器学习。这意味着它可以有效地用于教授计算机和机器某些任务。此外,正如我们已经简要提到的,大数据可以用来检测模式。这主要是通过计算机处理数据以一种非常有效的方式进行的。最后,大数据是用户数字指纹的反馈。这意味着它是人们数字化和在线活动的副产品,可以用来建立个人档案。

不同种类的大数据

有多种方法可以对大数据进行分类。最常用的第一种方法是根据要收集的数据类型区分大数据。用于这种类型的分类三个的类别是:结构化大数据,非结构化大数据和半结构化大数据。

  1. 结构化:当大数据被结构化时,它可以以一种有组织、有逻辑的方式保存和呈现,使数据更容易获取和理解。一个例子是公司创建的客户地址列表。在这个列表中,您可能会发现客户的姓名、地址,可能还有诸如电话号码等其他详细信息,这些信息都清晰地结构在图表或表格中。
  2. 非结构化:非结构化大数据完全没有组织性。它缺乏对普通人有意义的逻辑表述。例如,非结构化大数据不具有表的结构,该表表示数据集不同元素之间的某种一致性。因此,这种类型的数据很难导航和理解。许多数据集最初都是非结构化的大数据。
  3. 半结构化:你可能已经猜到,半结构化大数据兼具结构化大数据和非结构化大数据的特点。这种类型的数据的性质和表示不是完全任意的。然而,它的结构和组织还不足以用于有意义的分析。例如,包含特定元数据标签(在文本中不直接可见的额外信息)的网页,因为它包含特定的关键字。这些标签可以有效地显示特定的信息,比如页面的作者或页面被放到网上的时刻。文本本身基本上是非结构化的,但其中包含的关键字和其他元数据有助于使其成为某种程度上适合分析的基础。

基于大数据来源的分类

区分不同类型的大数据的另一种常见方法是查看数据的来源。谁或什么产生了这些信息?和之前的划分一样,这个分类方法也是由3个不同的类别组成。

  1. 人员:这一类涉及人产生的大数据。例如书籍、图片、视频以及网站和社交媒体(如Facebook、Twitter、Instagram等)上的信息和(个人)数据。
  2. 流程注册:这一类别包括更传统的大数据,这些数据由(大)公司收集和分析,以改善业务中的某些流程。
  3. 机器:这种类型的大数据来自于放置在机器中的越来越多的传感器。一个例子就是通常内置在计算机处理器中的热传感器。机器生成的数据通常非常复杂,但至少这种类型的大数据通常结构良好且完整。

大数据可以用来做什么?

Facebook徽标

到目前为止所讨论的一切听起来仍然有些抽象。让我们更具体一点,讨论一下大数据的一些现实应用。毕竟,公司和组织使用大数据的方式有很多很多。我首先想到的是公司收集的关于我们的大量数据。Facebook收集所有用户的数据,通过分析这些数据来决定在你的时间轴上显示什么。当然,这样做是为了满足你的个人愿望和兴趣。Facebook希望这能让你在他们的网站上停留更长的时间。反过来,亚马逊会收集有关客户和他们购买的产品的信息。这样,亚马逊就可以推荐他们认为你会感兴趣的产品,并通过这种方式增加他们的收入。

但是,大数据的使用方式也完全不同于上述的商业策略。例如,公共交通公司可以收集有关特定线路繁忙程度的数据。然后,他们可以分析这些数据来决定,例如,哪些路线需要增加公共汽车或火车。另一个众所周知的有效利用大数据的案例涉及国际快递巨头UPS。UPS采用大数据分析后开发的专用软件。这个软件帮助UPS的司机避免左转,因为左转比右转更昂贵、更浪费、也更危险。据推测,这一系统已经为UPS节省了数百万加仑的燃料,这都要归功于大数据。

另一个大数据收集的有趣例子是DNA测试和MyHeritage DNA这样的网站。该网站声称,通过一个简单的DNA测试,可以帮助你“发现自己的种族起源,找到新的亲戚”。不用说,这一过程涉及大量的数据收集和交叉引用,使其成为大数据收集和使用的另一个主要参与者。“传统的”物理DNA测试也涉及到大量的大数据,因为进行这些测试的公司将获得关于很多很多人的超大数据集。当然,重要的是要意识到这些大数据收集过程可能带来的风险。本文的下一部分将重点介绍这些风险。

大数据危险吗?

如上所示,大数据在很多情况下都非常有用。它为我们提供了大量的信息,我们可以用来简化流程,使公司更有效率,更赚钱。然而,这并不意味着收集和使用大数据是完全没有风险的。大数据带来了五大风险。我们将在这里讨论是哪五种。

黑客和小偷

我们在网上所做的一切,都存在着一种固有的风险,即我们的个人数据和有关互联网活动的信息会被窃取。每个互联网用户都必须意识到这一点。在过去几年里,数据泄露和盗窃的数量急剧增加。新闻中经常报道犯罪分子出售包含密码和其他信息的数据集,比如暗网。通常,这些数据集是从官方网站、公司和机构窃取的。这些数据集越大,窃贼就越想获取它们。如果他们得到这些数据集,他们会引起很多问题。不用说,这也会极大地损害你的隐私。

隐私

收集个人资料的做法正变得越来越普遍。然而,目前的隐私法律无法跟上使这种做法成为快速发展的技术。这就给灰色地带和未知性留下了空间,这些无法通过法律来解决。由此产生的重要隐私问题包括:什么样的数据被允许被收集?谁可以收集?谁应该有权访问这些数据?

当收集大量数据时,敏感的个人信息被包含在这些数据集中的可能性很高。这是有严重问题的,即使黑客和小偷没有参与。毕竟,隐私敏感数据会被任何怀有恶意的人滥用。这包括(恶意的)公司和组织。

不良的数据分析

许多公司和组织收集大数据,因为他们可以将其用于有趣的分析。这可能会给他们提供重要的新见解,了解他们正在研究的东西(比如,消费者习惯)。反过来,这些见解和结论可以转化为公司内部的变化,从而带来更高的利润率和更多的利润。但是,就像任何其他正常的数据集一样,对大数据的错误分析会产生严重的后果。毕竟,不恰当的分析很容易导致错误的结论。这些反过来又会导致采取无效甚至适得其反的措施。

收集“错误”数据

大数据正变得越来越流行,组织也越来越愿意收集各种数据。这意味着在没有明确理由进行分析的情况下,就收集了大量的数据。换句话说,它创建了一个巨大的原始信息数据库,这些信息是为了以防万一而收集的。公司可能认为收集所有这些数据很容易,所以他们可以这么做。不用说,这对任何人的隐私都不好。严重的会导致不相关或“错误”的数据被收集和分析。如果从这个分析中得出的结论用于管理,它九会导致同样的无效措施在前一段中提到。

恶意收集和保存大数据

公司、组织和政府越来越频繁地使用收集大数据的方法,以便他们能准确地收集个人信息。用户或公民几乎从未被告知他们的哪些个人数据正在被注册,更不用说为什么和如何被注册了。不用说,这对他们的在线隐私有严重的影响。他们在网上所做的一切,都可以保存下来,以后再查看。此外,大数据收集者通过分析和使用收集到的数据,可以很容易地影响和操纵人们的决策。

大数据和隐私

智能手机与耳朵的图片

现在你已经明白了,大数据也有很多缺点和风险。尽管如此,许多公司和组织仍然在大规模收集数据,主要是因为这些数据可以帮助他们成长和发展。收集大数据比以往任何时候都容易。这对我们的隐私有重大影响。我们已经简要讨论了恶意方收集不良数据可能带来的隐私危险。由于我们的隐私与大量收集的个人数据密切相关,我们想利用这一节来讨论大数据带来的不同的隐私问题。

大规模数据收集

包括谷歌、Facebook和Twitter在内的许多公司都严重依赖广告来维持自身的生存和盈利。为了使这些广告尽可能有效,这些公司制作了用户的详细资料,特别是考虑到他们的喜好和兴趣。这是大数据的一种形式。同样,政府和秘密机构也依赖于大数据。他们使用大量的信息来追踪和调查他们认为可疑的人。当然,这也意味着有大量的大数据可供网络罪犯获取,甚至被操纵和滥用。这会造成各种隐私和身份相关的问题。我想到第一个就是身份盗窃。

然而,数据库中收集的可能性远不止于此。如今,技术已经变得如此先进和“智能”,它可以结合数据集。这可以通过一种聪明而巧妙的方式来实现,大公司和组织比你自己更了解你!你是谁,你住在哪里,你的爱好是什么,你的朋友是谁:这些信息不再是隐私。你会认为,这不是一个很令人愉快的想法。幸运的是,有一些方法可以保护你自己免受大数据导致的大规模隐私侵犯。

法律对隐私

屏幕上的Cookie

隐私法律法规可以保护我们免受隐私侵权,但只有在一定程度上。让事情更复杂的是,不同国家和地区的隐私法往往差别很大。例如,在欧洲,一项相对严格的消费者隐私法《通用数据保护条例》(GDPR)正在实施。这项法律适用于所有欧盟成员国,尽管具体细节可能因人而异。许多跨国公司已经决定遵守GDPR的所有业务。这就是谷歌现在允许用户请求删除个人信息的原因。然而,美国的隐私法各州不同,不像欧盟那样保护消费者。不幸的是,即使是美国最严格的隐私法《加州消费者隐私法》(California Consumer privacy Act)也是如此。

简而言之,没有一种强有力的“全球”隐私法适用于所有大数据收集者并保护所有用户。这意味着我们的隐私不仅会被大数据收集器以非法的方式损害,甚至还会以完全合法的方式受到损害,尽管这听起来可能有些自相矛盾。幸运的是,爱德华·斯诺登(Edward Snowden)和切尔西·曼宁(Chelsea Manning)等泄密者揭露的大规模隐私侵权事件大大提高了人们对大数据风险的认识。当然,这只是改善当前隐私法的第一步。

许多互联网用户不愿意等待隐私法的改善——这是理所当然的。相反,他们希望自己采取行动,尽一切可能保护自己的隐私。你想避免成为无数大数据集的一部分吗?这里有一些建议和技巧可以帮助你。

如何避免将数据保存在大数据集中

大数据集严重影响您的隐私和安全。这些数据集可能包含各种(个人)信息,这些信息会被大公司甚至网络罪犯滥用。这就是为什么你应该确保尽可能少在网上留下痕迹。以下技巧可以帮助你做到这一点:

  • 尽量减少在创建密码或在网络上使用个人信息。例如:避免使用你的姓名、地址、电话号码、出生日期等。
  • 永远记住以下几点:你在互联网上发布的所有东西,都将永远在那里。这可能不总是完全正确的,但这种程度的谨慎确实有助于保护你的隐私。一旦你意识到这一点,你就会更加小心地自动处理你的私人数据。
  • 确保你的互联网连接是安全的和匿名的,例如使用Tor-browser或VPN。
  • 在浏览器中使用一个或多个广告拦截程序。
  • 使用上或更多的浏览器插件,阻止跟踪和cookie。
  • 定期清理你的缓存和删除你的浏览历史和cookies。
  • 当你不经常使用某个网站时,请注销它们。

当涉及到保护你的在线隐私和安全时,采取这些步骤是一个好的开始。但是,请记住,大数据是通过许多不同的方式收集的,而不仅仅是网络。简而言之,无论你身在何处,无论你在做什么,你都应该时刻保持警惕,并努力保护你的(个人)数据不受大数据收集器的影响。

扩展阅读

欢迎关注VPN专业评测和推荐网站。我们在顶级VPN软件中列举了推荐的工具软件。

邀请评论

欢迎您留下自己的评论,我们会把评论置顶,让更多朋友看到您的经验分享。请不吝加入我们的讨论吧!

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注