关于大数据,你应该知道的75个专业术语 (5)

模糊逻辑(Fuzzy logic):我们有多少次对一件事情是确定的,例如 100% 正确?很稀少!我们的大脑将数据聚合成部分的事实,这些事实进一步被抽象为某种能够决定我们决策的阈值。模糊逻辑是一种这样的计算方式,与像布尔代数等等中的「0」和「1」相反,它旨在通过渐渐消除部分事实来模仿人脑。

游戏化(Gamification):在一个典型的游戏中,你会有一个类似于分数一样的元素与别人竞争,并且还有明确的游戏规则。大数据中的游戏化就是使用这些概念来收集、分析数据或者激发玩家。

图数据库(Graph Databases):图数据使用节点和边这样的概念来代表人和业务以及他们之间的关系,以挖掘社交媒体中的数据。是否曾经惊叹过亚马逊在你买一件产品的时候告诉你的关于别人在买什么的信息?对,这就是图数据库。

Hadoop 用户体验(Hadoop User Experience /Hue):Hue 是一个能够让使用 Apache Hadoop 变得更加容易的开源接口。它是一款基于 web 的应用;它有一款分布式文件系统的文件浏览器;它有用于 MapReduce 的任务设计;它有能够调度工作流的框架 Oozie;它有一个 shell、一个 Impala、一个 Hive UI 以及一组 Hadoop API。

高性能分析应用(HANA):这是 SAP 公司为大数据传输和分析设计的一个软硬件内存平台。

HBase: 一个分布式的面向列的数据库。它使用 HDFS 作为其底层存储,既支持利用 MapReduce 进行的批量计算,也支持利用事物交互的批量计算。

负载均衡(Load balancing):为了实现最佳的结果和对系统的利用,将负载分发给多个计算机或者服务器。

元数据(Metadata):元数据就是能够描述其他数据的数据。元数据总结了数据的基本信息,这使得查找和使用特定的数据实例变得更加容易。例如,作者、数据的创建日期、修改日期以及大小,这几项是基本的文档元数据。除了文档文件之外,元数据还被用于图像、视频、电子表格和网页。

MongoDB:MongoDB 是一个面向文本数据模型的跨平台开源数据库,而不是传统的基于表格的关系数据库。这种数据库结构的主要设计目的是让结构化数据和非结构化数据在特定类型应用的整合更快、更容易。

Mashup:幸运的是,这个术语和我们在日常生活中使用的「mashup」一词有着相近的含义,就是混搭的意思。实质上,mashup 是一个将不同的数据集合并到一个单独应用中的方法(例如:将房地产数据与地理位置数据、人口数据结合起来)。这确实能够让可视化变得很酷。

多维数据库(Multi-Dimensional Databases):这是一个为了数据在线分析处理(OLAP)和数据仓库优化而来的数据库。如果你不知道数据仓库是什么,我可以解释一下,数据仓库不是别的什么东西,它只是对多个数据源的数据做了集中存储。

多值数据库(MultiValue Databases):多值数据库是一种非关系型数据库,它能够直接理解三维数据,这对直接操作 HTML 和 XML 字符串是很好的。

自然语言处理(Natural Language Processing):自然语言处理是被设计来让计算机更加准确地理解人类日常语言的软件算法,能够让人类更加自然、更加有效地和计算机交互。

神经网络(Neural Network):根据这个描述(),神经网络是一个受生物学启发的非常漂亮的编程范式,它能够让计算机从观察到的数据中学习。已经好久没有一个人会说一个编程范式很漂亮了。实际上,神经网络就是受现实生活中脑生物学启发的模型....... 与神经网络紧密关联的一个术语就是深度学习。深度学习是神经网络中一系列学习技术的集合。

模式识别(Pattern Recognition):当算法需要在大规模数据集或者在不同的数据集上确定回归或者规律的时候,就出现了模式识别。它与机器学习和数据挖掘紧密相连,甚至被认为是后两者的代名词。这种可见性可以帮助研究者发现一些深刻的规律或者得到一些可能被认为很荒谬的结论。

射频识别(Radio Frequency Identification/RFID):射频识别是一类使用非接触性无线射频电磁场来传输数据的传感器。随着物联网的发展,RFID 标签能够被嵌入到任何可能的「东西里面」,这能够生成很多需要被分析的数据。欢迎来到数据世界。

软件即服务(SaaS):软件即服务让服务提供商把应用托管在互联网上。SaaS 提供商在云端提供服务。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzjsxz.html