如何处理暗数据?

【摘要】有研究表明,全球数据总量每两年翻一番,各企业都在处理和存储这些海量数据。这些数据主要由结构化数据、非结构化数据等类型数据构成。企业对数据了解得越透彻,就能够越准确地判断数据的价值及风险。

结构化的数据:即有固定格式和有限长度的数据。例如填的表格就是结构化的数据,国籍:中华人民共和国,民族:汉,性别:男,这都叫结构化数据。对于ICT领域来说,就是以固定的格式存储到数据库里的数据(Oracle/MySQL/…)。

半结构化数据:是一些 XML 或者 HTML 的格式的,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。

非结构化的数据:就是不定长、无固定格式的数据,例如网页,邮件,有时候非常长;有时候非常短,几句话就没了;例如Word文档、语音,视频、图片都是非结构化的数据。现在非结构化的数据居多。

为了描述方便,我们把半结构化数据和非结构化数据,合二为一统称为“暗数据”,当然这个词不是我起的,是AA公司起的名字。AA(Automation Anywhere)公司于2003年最初由Ankur Kothari,Mihir Shukla,Neeti Mehta和Rushabh Parmani在加利福尼亚州圣何塞的Tethys Solutions,LLC成立。该软件公司在10多个国家/地区开展业务,开发适用于领先金融服务,业务流程外包,医疗保健,技术和保险公司的机器人过程自动化技术的产品。在RPA领域市场份额第一,全球最大的RPA生态,培训并认证超过10,000名RPA人员。

AA公司统计“暗数据”占比达80%,就像下图冰山在水下的部分。这些暗数据,导致信息是断裂的,传统的自动化不能访问。业界最头疼的就是如何处理这部分数据?

如何处理暗数据?

一、传统处理暗数据的方法

目前传统的公司,在处理暗数据的时候,采用的是笨办法,想办法把非结构化的数据转换成结构化数据。或者干脆,大部分公司是让这些暗数据躺在数据湖里沉睡中,没有任何用处,反而还浪费了存储和维护资源。像我们的站点数据、设备数据、网络数据、操作数据,大部分都是暗数据。我们现在花大力气在想办法结构化,这可能是最笨的办法。费时费力,结果还很差。

二、利用AI处理暗数据的新方法

其实单纯的RPA做的工作非常有限,RPA主要是处理结构化和流程化的数据,不能处理“暗数据”。利用AI技术,就可以处理图片、邮件等暗数据,同时AI还可以随机应变的处理一些突发的流程。

下面列举了AI和RPA的差异点:

如何处理暗数据?

AA这家公司把AI和RPA结合起来,处理暗数据。使用的关键技术如下:

如何处理暗数据?

1、语音识别:主要处理对话、录音、音频等文件。

2、NLP:主要处理文本、邮件、文档等文件。

3、计算视觉:主要处理图片、PDF中嵌入的图片等信息。

4、机器学习&深度学习:主要通过“学习”,处理一些异常事件,让流程能正常流转,像人一样,能灵活处理问题。

三、AA这家公司推出的关键产品(或解决方案)

推出了IQ-Bot的解决方案。IQ Bot™是人工智能(AI)解决方案,业务用户可以轻松设置和使用,以更快地自动读取和处理各种复杂的文档和电子邮件。另外,IQ Bot通过构建的自动化认知,可与IBM Watson/Google Cloud AI/MS Cognitive Service等AI解决方案集成,以弥合RPA与纯认知平台之间的差距。

在其主页上呈现的IQ BOT解决方案的示例如图,重点是想说明IQ Bot是一座桥梁,可以连接RPA和认知平台:

如何处理暗数据?

使用IQ-Bot前后对比

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzjyds.html