探讨自然语言处理技术学习与思考


探讨自然语言处理技术学习思考 ( 白宁超 2018年8月23日10:46:39 ) 本节导读

概述

随着人工智能的快速发展,自然语言处理和机器学习应用愈加广泛。但是对于初学者入门还是有一定难度,对于该领域整体概况不能明晰。本章主要从发展历程、研究现状、应用前景等角度整体介绍自然语言处理和机器学习,让读者对该技术领域有个系统而全面的认识。

适合人群

具备一定编程基础的计算机专业、软件工程专业、通信专业、电子技术专业和自动化专业的学生和自然语言处理感兴趣的人群。

学习前技术储备

具备编程语言基础

具备面向对象的编程思想

快速了解自然语言处理 什么是自然语言处理

自然语言

我们要对自然语言进行理解,其实就是我们日常使用的语言(书面文字和语音视频等)。简言之,汉语、日语、韩语、英语、法语等语言都属于此范畴。而自然语言处理是对自然语言处理的一种技术,就是通过我们的语音文字与计算机进行通信,我们称之为“人机交互”。

自然语言处理

自然语言处理(英语:Natural Language Processing,简称NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

自然语言处理发展背景和历程

自然语言处理发展背景

自然语言处理相关研究,最早是从机器翻译系统的研究开始的。20世纪60年代,国外对机器翻译曾有大规模的研究工作,投入了大量的人力物力财力。但是,受的客观历史因素的限制,当时人们低估了自然语言的复杂性,语言处理的理论和技术均不成热,所以进展并不大。其主要的做法是存储两种语言的单词、短语对应译法的大辞典,翻译时一一对应,技术上只是调整语言的同条顺序。但日常生活中语言的翻译远不是如此简单,很多时候还要参考某句话前后的意思。

我国机器翻译的起步较晚,是继美国、前苏联、英国之后世界上第四个开展机器翻译研究的国家。早在20世纪50年代机器翻译就被列入我国科学研究的发展规划。一些研究人员还进行了俄汉机器翻译实验,取得了一定的研究成果,但60年代的有关研究很快因“文革”而完全停顿。我国机器翻译研究的全面展开始于80年代中期以后,特别是90年代以来,一批机器翻译系统相继问世,其中影响力较大的有:中软总公司开发的汉英-汉日翻译系统(1993);中科院计算所研制的IMTEC英汉翻译系统(1992)等。

自然语言处理发展历史

1948年,香农(Shannon)把离散马尔可夫过程的概率模型应用于描述语言的自动机;同时又把“熵” (entropy)的概念引用到语言处理中。而克莱尼(Kleene)在同一时期研究了有限自动机和正则表达式。

1956年,乔姆斯基(Chomsky)又提出了上下文无关语法。这些工作导致了基于规则和基于概率两种不同的自然语言处理方法的诞生,使得该领域的研究分成了采用规则方法的符号派和采用概率方法的随机派两大阵营,进而引发了数十年有关这两种方法孰优孰劣的争执 。同年,人工智能诞生以后,自然语言处理迅速融入了人工智能的研究中。随机派学者在这一时期利用贝叶斯方法等统计学原理取得了一定的进步;而以乔姆斯基为代表的符号派也进行了形式语言理论生成句法和形式逻辑系统的研究。由于这一时期, 多数学者注重研究推理和逻辑问题,只有少数学者在研究统计方法和神经网络,所以 ,符号派的势头明显强于随机派的势头。

1967 年美国心理学家 奈瑟尔(Neisser)提出了认知心理学, 从而把自然语言处理与人类的认知联系起来。

70年代初,由于自然语言处理研究中的一些问题未能在短时间内得到解决,而新的问题又不断地涌现,许多人因此丧失了信心,自然语言处理的研究进入了低谷时期。尽管如此,一些发达国家的学者依旧地研究着。基于隐马尔可夫模型 (Hidden Markov Model,HMM)的统计方法和话语分析 (Discourse Analysis)在这一时期取得了重大进展 。

80年代, 在人们对于过去的工作反思之后 , 有限状态模型和经验主义的研究方法开始复苏 。

90年代以后,随着计算机的速度和存储量大幅增加,自然语言处理的物质基础大幅改善,语音和语言处理的商品化开发成为可能;同时,网络技术的发展和Internet商业化使得基于自然语言的信息检索和信息抽取的需求变得更加突出。然语言处理的应用面不再局限于机器翻译、语音控制等早期研究领域了。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpdygf.html