关于大数据,你应该知道的75个专业术语 (4)

人工智能(AI):为什么 AI 出现在这里?你可能会问,这不是一个单独的领域吗?所有这些技术发展趋势紧密相连,所以我们最好静下心来继续学习,对吧?AI 以软硬件结合的方式开发智能机器和软件,这种硬件和软件的结合能够感知环境并在需要时采取必要的行动,不断从这些行动中学习。是不是听起来很像机器学习?跟我一起「困惑」吧。

行为分析(Behavioral Analytics):你有没有想过谷歌是如何为你需要的产品/服务提供广告的?行为分析侧重于理解消费者和应用程序所做的事情,以及如何与为什么它们以某种方式起作用。这涉及了解我们的上网模式,社交媒体互动行为,以及我们的网上购物活动(购物车等),连接这些无关的数据点,并试图预测结果。举一个例子,在我找到一家酒店并清空购物车后,我收到了度假村假期线路的电话。我还要说多点吗?

Brontobytes:1 后面 27 个零,这是未来数字世界存储单位的大小。而我们在这里,来谈谈 Terabyte、Petabyte、Exabyte、Zetabyte、Yottabyte 和 Brontobyte。你一定要读这篇文章才能深入了解这些术语。

商业智能(Business Intelligence):我将重用 Gartner 对 BI 的定义,因为它解释的很好。商业智能是一个总称,包括应用程序、基础设施、工具以及最佳实践,它可以访问和分析信息,从而改善和优化决策及绩效。

生物测定学(Biometrics):这是一项 James Bondish 技术与分析技术相结合的通过人体的一种或多种物理特征来识别人的技术,如面部识别,虹膜识别,指纹识别等。

点击流分析(Clickstream analytics):用于分析用户在网络上浏览时的在线点击数据。有没有想过即使在切换网站时,为什么某些谷歌广告还是阴魂不散?因为谷歌大佬知道你在点击什么。

聚类分析(Cluster Analysis)是一个试图识别数据结构的探索性分析,也称为分割分析或分类分析。更具体地说,它试图确定案例的同质组(homogenous groups),即观察、参与者、受访者。如果分组以前未知,则使用聚类分析来识别案例组。因为它是探索性的,确实对依赖变量和独立变量进行了区分。SPSS 提供的不同的聚类分析方法可以处理二进制、标称、序数和规模(区间或比率)数据。

比较分析(Comparative Analytics):因为大数据的关键就在于分析,所以本文中我将深入讲解分析的意义。顾名思义,比较分析是使用诸如模式分析、过滤和决策树分析等统计技术来比较多个进程、数据集或其他对象。我知道它涉及的技术越来越少,但是我仍无法完全避免使用术语。比较分析可用于医疗保健领域,通过比较大量的医疗记录、文件、图像等,给出更有效和更准确的医疗诊断。

关联分析(Connection Analytics):你一定看到了像图表一样的蜘蛛网将人与主题连接起来,从而确定特定主题的影响者。关联分析分析可以帮助发现人们、产品、网络之中的系统,甚至是数据与多个网络结合之间的相关连接和影响。

数据分析师(Data Analyst):数据分析师是一个非常重要和受欢迎的工作,除了准备报告之外,它还负责收集、编辑和分析数据。我会写一篇更详细的关于数据分析师的文章。

数据清洗(Data Cleansing):顾名思义,数据清洗涉及到检测并更正或者删除数据库中不准确的数据或记录,然后记住「脏数据」。借助于自动化或者人工工具和算法,数据分析师能够更正并进一步丰富数据,以提高数据质量。请记住,脏数据会导致错误的分析和糟糕的决策。

数据即服务(DaaS):我们有软件即服务(SaaS), 平台即服务(PaaS),现在我们又有 DaaS,它的意思是:数据即服务。通过给用户提供按需访问的云端数据,DaaS 提供商能够帮助我们快速地得到高质量的数据。

数据虚拟化(Data virtualization):这是一种数据管理方法,它允许某个应用在不知道技术细节(如数据存放在何处,以什么格式)的情况下能够抽取并操作数据。例如,社交网络利用这个方法来存储我们的照片。

脏数据(Dirty Data):既然大数据这么吸引人,那么人们也开始给数据加上其他的形容词来形成新的术语,例如黑数据(dark data)、脏数据(dirty data)、小数据(small data),以及现在的智能数据(smart data)。脏数据就是不干净的数据,换言之,就是不准确的、重复的以及不一致的数据。显然,你不会想着和脏数据搅在一起。所以,尽快地修正它。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzjsxz.html