智能语义理解搜索引擎中汉语虚词的形态特征略析
缪天鹏 1 ,韩建军 1 ,王振江 1
(华中科技大学 计算机科学与技术学院,湖北 武汉 430074)
摘要:语义智能化发展是大数据技术国家重大战略需求,也是统计学、数据科学、信息科学和管理科学等学科的国际前沿。在大数据环境下,数据的规模、类型、结构和增长速度发生了质的变化,传统数据分析和处理的统计学理论和分析方法已不能满足大数据时代下的种种需求。本研究拟围绕大数据分析与处理的统计学基础理论与分析方法的核心问题和难点问题,略析语言大数据处理虚词形态新方法, 为大数据技术发展和未来智能搜索引擎等应用提供新基础理论和方法支撑。
关键词: 语义理解;搜索引擎;古汉语;虚词;形态特征
* 本文得到国家自然科学基金项目(61872411)资助。
1 认知、互动的智能需求
Internet互联网广泛应用,人们对信息查询的要求越来越高,目前搜索引擎中全文检索都是基于关键词匹配的,在不断膨胀的用户需求面前,中文搜索所展现出的局限性越来越不可忽视,其中之一就是它不能区分同形异义,岐义现象的产生是没有建立完整的语义理解支撑,完整的语义理解是智能化搜索引擎的基础核心。西方语言是粘连型语言,而汉语是分析型语言,依据汉字的三要素音、形、义进行解析,解“义”而言汉字(词)分为实词和虚词,在现有的搜索引擎中,往往通过实词及关键词匹配来满足检索需求,汉字的虚词常被忽略,而用户查询语句的真实意向得不到完整的语义理解 [1-2] 。显然,汉语虚词虽无“意”却有“形”,但在语句中具有语法等功能形态,忽略虚词、虚(词)实(词)关系是形成歧义现象的基本原因之—。
汉字一词多义现象也与虚词的形态变化相关,多义性导致字词的智能化辨义解析程度降低,出现查询精度不高、检索效率低下等现象,为此简单的关键词匹配(实词)和完整的语义匹配(实词+虚词)是有本质区别的。虚词虽无义却有形,其形态量化与关系是首要任务之一,明晰了形态关系也就解决了语句中实词与虚词搭配组句的语法、语义、语用形态特征,汉语虚词形态信息提取及量化分析是智能化语义理解不可或缺的 [3-4] 。换言之,词汇语用修正了词汇语义在词语选择与词语理解上的缺陷,并指出语境化是理解和使用词语的关键。词汇的使用和理解不仅仅是一个语言问题,更是一个语用与认知(语感)的问题。
现代汉语虚词约800左右,而古代虚词约1100左右,文言文是古代的书面语言,也是现代汉语的源头,追本溯源,从繁至简,正确理解现代汉语虚词的演变规律和形态变迁,唯有从文言虚词的形态关系(稳定知识源)分析着手,力求寻找汉语虚词的自然演变规律 [5] 。
智能化搜索引擎面对的汉语语言是一种混合型文体(现代汉语+特殊文体),特殊文体包含诗词歌赋文言文等,无疑在现代语言中文言虚词古为今用比比皆是。文言虚词四种完整形态包括单音、复音、定式搭配、惯性词组,经甄别该虚词的完整构词数量,以保证分词定位匹配的正确精度。确定虚词在句中的位置、形态、关系,也就保证了句子的语法、语义、语用方向判断和逻辑推送的可计算性,从而为智能化搜索奠定了基础。
虚词的虚化程度评价体系是建立虚实关系、量化评价评测、虚化程度分布、相似度分析以及虚实用的概率统计分析 [6] 。虚词关系模型的建立是语言数据预处理的必经之路,也是打开未来智能汉语语义理解之窗。
2 感知到认知的数据处理
本研究主要分为数据预处理和数据分类规约处理。正确的理解现代汉语虚词的演变规律和形态变迁,为文言虚词的知识规则结构化处理及定量定位定性分析作准备。文本数据开采必须建立专家知识库、样本语料库,其中包括对数据的净化、转换、变量的整合以进行数理统计、数据挖掘、人工智能等技术运用,构造以虚词为中心的大数据开采平台。
2.1 拟解决的关键问题
拟解决的虚词形态、形态关系及关键技术问题:
①虚词构词形态的四种形式划分,词序关系形态.
②虚词虚用虚词实用的词法形态.
③虚词的句法形态,句位形态.
④虚实比关系.
2.2 研究内容及方法
2.2.1 理解数据和数据的来源
统计知识库的知识转化为规则的静态数据处理,具体而言将虚词字典的知识内容进行知识规则划分,依据符号定义和符号规约,完成知识到规则的结构化处理。
知识库的建立是将传统的知识字典按照现代数据处理方法分层分类。语料库是依据知识库相对应的知识规则,抽取样本语料进行规则验证和规则升降维处理,以满足规则置信度、相似度、精确匹配以及匹配命中率统计分析。知识库转化为规则库是通过语料验证匹配才能形成种子规则,以便于精确匹配和提高匹配命中率 [7] 。
2.2.2 获取相关知识与方法
在建立虚词的分层分类位置形式上实行定位分析,因为虚词没有严格形态特征,却有句位特征,如“择善而从之”(句末特征),以便于句位的统计概率规律分析。定量分析可分为四种形式(单音虚词、复音虚词、定式搭配、惯性词组)的虚词量化分析,用以满足虚词为中心词的分词划分技术加统计分析来实现,从而达到完整语句中的虚字虚用/实用的分层分类 [8-9] 。
形态特征分类:
(1)0层 基本形态特征1:构组词关系(单音、复音、定式、惯性词组),词序(间)关系,虚实比关系(虚实用关系、虚词与位置关系、虚词与语义语用关系)。语言形态与词汇映象。
(2)1层 基本形态特征2:句法形态(陈述句,疑问句,祈使句,感叹句),句法成分形态(主语,谓语,宾语,状语,定语,补语)。语言形态与句法映象。语义结构形态标注,语用功能形态标注(判断句,省略句,倒装句,被动句,固定句式)。语言形态与句式映象。
(3)2层 语义结构形态。虚/实 义结构。⋯
(4)3层 语用功能形态。虚/实 用结构。⋯
总之,0~1层的基本形态是从语形学视角分析词汇相关符号与符号之间的关系。而语义学关注的是 有关符号与符号所指之间的关系。语用学则是有关符号与解释者之间的关系。虽有异曲同工,但语形、语义、语用的三者关系而言,语形以语义为前提,语义是从语用中抽象出来的。而语用学是符号学基础,确切的语用特征是它处理符号化过程的不同形态(如句位形态)选择同样暗含语用信息(话语环境、交谈对象或话语事件等)[10] 。上下文环境对象事件从语用视角延伸至语境都是认知语言学基本范畴,而句位形态引入展现人类语言习得过程和机理,认知形态的又一新视野。
2.3 整合与检查数据
定性分析在完成了定量定位分析的基础上,知识到规则转换经统计实现各虚词特定位置所表达的意合概率以及分层聚类处理。
2.4 数据清理,去除错误或不一致的数据
虚字的虚实不分会造成数据的不一致性,虚字实用在虚实化统计分析中客观反映量化分析的每一个字的虚化程度,从而将字的虚化演变过程从静态到动态进行明确的量化属性分析。通过形式量化、数理统计等方法,将常用虚字18(A集)对应中学语料117篇进行虚实分类得出四种形式与频度的关系。确定了虚字在句中的位置、句位和形式以及规则分布和各概率分布映象,再经过置信测试和语料保障测试,使其样本依据具有足够的置信度 [11] 。
根据字典的知识理论定性分析得出基于A集18常用虚字的虚实比分类结果。通过字的虚实规则形态确定,该句的语用功能语义结构方向判断清晰,有效降低了歧义现象的产生。
2.5 数据域定义
历时数据的采集:经验+知识=规则(虚词字典)
共时数据的采集:中学语文常用虚词18(A集)+大学语文常用虚词36(B集)+专业语言工作者常用虚词49(C集)
语料数据的采集:字典范例对应语料,中学文言文117篇,古文观止220篇,历年全国语文高考语料实例
通过规则结合统计的方法实现知识到规则的数字化处理,加上句位分析、虚词分词技术、词序规则规约分类。经基本处理,可以得到完整句子中的词序词态句位基因码,为后续的数字解析与语义理解奠定了基础。它是数据挖掘、云计算的基础。
研究思路与技术路线示意图如下:
2.6 实际数据挖掘工作
句位分析是依据汉字虚词的句位特征进行区域划分(固定句位/相邻句位),通过概率统计得出虚字在句首句中句尾的句位特征与出现的概率频度,结合分类归层进行相似度分析以及优先度分析等方法。
虚词分词划分技术是采用经验知识将规则的形式分类(四种形式),以固定组词长度、完整的内容实现虚词的准确划分。其中虚词虚实化是固定完整内容的关键。
词序描述:传统的文本字符书写习惯是从左至右线型顺序展开,符号语言描述也应遵循习惯规律,即文本字符串(句子)=符号逻辑规则。
例1:彬之总师也 分解:彬/n01 之/c0701 总师/n02根据属性抽取符号逻辑规则:n01c0701n02逻辑规则解释:虚字“之”用作并列连词c0701,词序连接是逻辑与对象前置n01后置n02,n为名词。
例2:上临哭之恸 分解:上临哭/O 之/u1802 恸/v01根据属性抽取符号逻辑规则:Ou1802v01逻辑规则解释:该虚字“之”为结构助词u1802,词序连接是逻辑与对象前置O后置v01,v为动词,O为宾语。
由例1例2知,词序规则码不同,“之”字的词法句法的语用功能完全不同。
7)测试和验证挖掘结果、解释和应用在获取了最终的逻辑规则树之后,就需要对逻辑规则的研究的正确性作验证分析,在此处,以高考中的真题作为实例进行分析验证 [12] 。
例3:2013年高考语文安徽卷下列各组句子中,加点词的意义和用法相同的一组是(D)
A.陆生因说佗曰 B.将相欲移兵而诛王伺者因此觉知 今人有大功而击之C.尉佗乃蹶然起坐 D.佗因稍以法诛秦所置长史今其智乃反不能急 独籍所杀汉军数百人运用逻辑规则的方法对例1进行验证,验证结果如表1例1各选项分析表所示。
形似结论XS逻辑判断通式f(XS,A)=((CB(A1) ∧CB(A2))∨(JW(A1) ∧JW(A2)))
∧(YY(A1) ∧(YY(A2))
如此类推,得出f(XS,A,B,C,D)=(XS,F,F,F,T)。
由形似结论XS到分析结论FX的逻辑推送:XS1(A)∨ XS1(B)∨ XS1(C)∨ XS1(D)
﹛F,F,F,T﹜﹛D﹜通过逻辑规则和句位特征分析可以得到本题的正确答案为D。由此可知,句位特征属性形似意不合是歧义产生的外在因素,其内因是虚词实用或虚用不同结果 [13] 。
3 技术创新点
①虚词形式划分与分词技术,文言文在现代搜索技术中是无法切分的,本研究基本解决古文的以虚词为中心的形态划分与分词技术实现。
②虚词的虚用/实用形态特征加句位特征分析是解决组合形态特征的关键,为语句的逻辑判断与逻辑推送起到了语义语用功能的方向判断,为智能化的可计算的语义理解提供了科学的理论与技术支撑 [14-16] 。
综上所述,运用定性分析方法解决虚词的基本形态划分和形态特征分析,可满足以虚词为中心的分词技术在对特殊文体(文言文)中的虚用实用甄别,通过梳理句中的词序关系和词间关系,加上句位特征,形成一种稳定组合形态,依此对应句中的语法意义、语义结构、语用功能,使特征数据的结构更加明晰,更可计算,以便于大数据挖掘 [17-18] 。
汉语语义理解高端智能化终极目标之一就是实现人机交互更深层次需求,提出以虚词为形态标识评价评测体系方法,实现特殊文体(文言文)分词划分技术 [19] ;运用句位分析方法完成语句的虚实化静态到动态量化演变分析 [20] ,为语句中各形态建立可分析可计算多维形态标识 [21-22] 。
通过对汉语文言常用虚词的虚实化数据挖掘与分析,以虚词为中心对古汉语实现分词划分,结合形态、句位分析和虚用实用功用判别,实现词法结构到语法语义结构和语用功能的全方位数据知识图谱 [23-24] ,为未来的智能化搜索语义理解提供可计算、可判断的全析理解奠定了实用基础 [25] ,也就提供了语言数字化处理的智能理解支撑,在此基础上可扩充到现代汉语虚字的延展,就能满足未来各行各业的智能化(例:智能搜索、机器人、APP在线教育等)需求。
参考文献
[1]吕叔湘. 现代汉语语法分析问题[M]. 北京:商务,1979.
[2]何乐士. 古代汉语虚词词典. 北京: 语文出版社, 2006: 1-663.
[3]何金松. 虚词历时词典. 湖北: 湖北人民出版社, 1994: 1-554.
[4]王延飞, 秦铁辉. 信息分析与决策. 北京:北京大学出版社, 2001.
[5]宗成庆. 统计自然语言处理. 北京:清华大学出版社. 2008年5月第1版: 1-243.
[6]俞士汶. 建设综合型语言知识库的理念与成果的价值[J]. 中文信息学报, 2007(6).
[7]Dong Zhendong, Dong Qiang. HowNet and the Computation of Meaning[M]. Singapore WorldScientific Publishing Company, 2006.
[8]昝红英, 张坤丽, 柴玉梅, 俞士汶. 现代汉语虚词知识库的研究. 中文信息学报, 2007, 21(5):107-111.
[9]朱德熙. 语法讲义. 北京: 商务印书馆, 1982年9月第一版.
[10]詹卫东. 基于配价的汉语语义词典. 语言文字应用, 2000(1):37-43.
[11]鲁川,汉语句子的语义成分和语用成分.中国语文杂志社编, 语法研究和探索, 北京:北京大学出版社,1988年9月,309-319.
[12]郭锡良, 古汉语虚词研究评议. 语言科学,2003(1):87-98
[13]昝红英, 朱学锋. 面向自然语言处理的汉语虚词研究与广义虚词知识库构建. 当代语言学, 2009, 11(2):124-135
[14]俞士汉,朱学锋. 关于汉语信息处理的认识及其研究方略. 《语言文字应用》, 2002(2):51-85
[15]Noam Chomsky. Syntactic Structures. 北京: 中国社会科学出版社, 1979: 28-35.
[16]Noam Chomsky, Aspects of the Theory of Syntax. MIT Press (Cambridge, MA), 1966, 127-145.
[17]Christopher D. Mannning, Hinrich Schutze. Foundations of Statistical Natural LanguageProcessing [M]. 2005.
[18]张大方, 张洁坤, 黄昆. 一种基于智能有限自动机的正则表达式匹配算法. 北京:电子学报, 2012(8).
[19]陈志泊.数据仓库与数据挖掘[M].北京:清华大学出版社.
[20]Liu B, Hsu W. Integrating classification and association rulemining Agrawal R, Stdorz P,PiatetskyG.rocof4thInternationalConferen. ce. on Knowledge Discovery and Data Mining. Menlo Park:AAAI Press, 1998:80-86.
[21]Kuncheva L I. Editingfor the knearest neighbors rule by agenetic. Pattern Recognition Letters, 1995,16:809-814.
[22]Friedman N, Geiger D, Goldszmidt M. Bayesian network classifier. Machine Learning,1997,29(1):131-163.
[23] 曾黄麟.粗集理论及其应用.重庆:重庆大学出版社,1996.
[24]Chureh K W, Mereer P L. Introduction to the Special Issue onComputational Linguistics Using Large Corpora. ComputationalLinguistics, 1993, 19(1):1-24.
[25]T. Cohn, F. Blunsom. Semantic Role Labeling with Tree ConditionalRandom Fields. Proceedings of the Ninth Conference on ComputationalNatural Language Learning. Ann Arbor, Michigan: Association forComputational Linguistics. 2005: 169-172.
本文来源于科技期刊必威娱乐平台 2019年第6期第52页,欢迎您写论文时引用,并注明出处
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码