从90年代末到21世纪初 ,人们逐渐认识到,仅用基于规则的方法或仅用基于统计的方法都是无法成功进行自然语言处理的。基于统计、基于实例和基于规则的语料库技术在这一时期开始蓬勃发展, 各种处理技术开始融合,自然语言处理的研究又开始兴旺起来。
思考?
基于规则的方法和基于统计的方法孰优孰劣? 自然语言处理涉及的学科领域语言学
计算机科学(提供模型表示、算法设计、计算机实现)
数学(数学模型)
心理学(人类言语心理模型和理论)
哲学(提供人类思维和语言的更深层次理论)
统计学(提供样本数据的预测统计技术)
电子工程(信息论基础和语言信号处理技术)
生物学(人类言语行为机制理论)。
自然语言处理技术体系自然语言处理就业与发展前景
招聘网站:
拉勾网: https://www.lagou.com/
NLPJOB:
发展前景
自然语言处理的十个发展趋势:https://blog.csdn.net/heyc861221/article/details/80130981
自然语言处理产业情况:
自然语言处理相关工作的前景:
2017 年中国人工智能产业数据报告:
思考:如何学习自然语言处理的问题?
- 综述了解,整体技术框架掌握 - 侧重方向,多看论文和会议文章 - 知其原理,重在实际应用 - 归纳总结,提高研究效率 - 资料检索,高效学习效率 自然语言处理跨学科基础介绍 NLP与数学线性数学
自然语言处理是以计算机科学、统计学、数学和信息论等多个领域交叉的学科。线性代数又是数学的一个重要分支,对自然语言处理有着很直接的影响。诸如:算法建模、参数设置、验证策略、识别欠拟合和过拟合等等。读者往往知道线性代数很有用,常常全书通读。造成时间不足和效率较低。归因于对线性代数在机器学习中的重点和用途不明。本章主要以简明的方式介绍最常用的线性代数知识,并使读者知道线性代数常用于哪些方面。
概率论
由于基于规则方法向基于统计方法的转型,概率就显得尤为重要,诸如一些随机事件、独立假设、条件概率、完全概率等等。然后对贝叶斯模型进行案例式介绍,旨在读者深度理解。
NLP与统计学在数据科学中,统计地位尤为显著。其在数据分析的基础上,研究如何测定、收集、整理、归纳和分析反映数据规律,以便给出正确消息的科学。通过揭示数据背后的规律和隐藏信息,给相关角色提供参照价值,做出相应的决策。这在数据挖掘、自然语言处理、机器学习都广泛应用。
百度EChart:
地图案例应用场景
适合的场景
某年度国家各个省州的人口情况。 分级统计地图较多的是反映呈面状但属分散分布的现象,如反映人口密度、某农作物播种面积的比、人均收入等。
不适合的场景
2008 年美国总统大选结果。 民主党候选人奥巴马和共和党候选人麦凯恩胜出的州分别用蓝色和红色表示。这个例子的选举可视化很容易给用户造成简介中提到的错觉:数据分布和地理区域大小的不对称。共和党比民主党获得了更多的投票,因为红色的区域所占的面积更大。但是在美国总统大选中,最后的结果是看候选人获得的选举人票数,每个州拥有的选举人票数是不一样的,在一个州获胜的选举人将得到该州所有的选举人票数。纽约州虽然面积很小,却拥有33张选举人票,而蒙大拿州虽然面积很大,却只有3票。
统计可视化
图5-9 iphone销量地图 NLP与机器学习
什么是机器学习
机器学习就是指“计算机利用经验自动改善系统自身性能的行为”。简言之,机器学习是指通过计算机学习数据中的内在规律性信息,获得新的经验和知识,以提高计算机的智能性,使计算机能够像人那样去决策。机器解决问题能力的增强主要表现在:初始状态下,对于问题Q,机器给出结果A,该机器在解决问题{Q1,Q2,… ,Qn}后,再次遇到问题Q时给出结果A1,而结果 A1比结果A更精确,我们就说机器解决问题的能力得到了增强。
机器学习发展简史
1943年, Warren McCulloch 和 Walter Pitts 提出了神经网络层次结构模型 , 确立为神经网络的计算模型理论, 从而为机器学习的发展奠定了基础。
1950年, “人工智能之父”图灵发提出了著名的“图灵测试”,使人工智能成为了计算机科学领域一个重要的研究课题。
1957年, 康内尔大学教授 Frank Rosenblatt 提出感知器概念,并且设计出了第一个计算机神经网络,这个机器学习算法成为神经网络模型的开山鼻祖。