NLP--基于规则的自然语言处理方法 (理性方法,传统方法)

mac2024-12-17  13

1. 概述

强调对语言知识的理性整理(知识工程)受计算语言学理论指导基于规则的知识表示和推导(符号计算)语言处理规则(数据)与程序分离,程序体现为规则语言的解释器!

2. 词法分析

 形态还原(针对英语、德语、法语等)

把句子中的词还原成它们的基本词形。

 词性标注

为句子中的词标上预定义类别集合(标注集)中的类。

 命名实体识别

人名地名机构名

 分词(针对汉语、日语等)

识别出句子中的词。

2.1形态还原(英语)

 把句子中的词还原成原形,作为词的其它信息(词典、个性规则)的索引。  构词特点

屈折变化:词尾和词形变化,词性不变。如: study, studied,studied,studying speak,spoke,spoken,speaking 派生变化:加前缀和后缀,词性发生变化。如: friend,friendly,friendship,... 复合变化:多个单词以某种方式组合成一个词。

 还原规则

通用规则:变化有规律

个性规则:变化无规律

2.1.1 形态还原规则举例

 英语“规则动词”还原

*s -> * (SINGULAR3)

*es -> * (SINGULAR3)

*ies -> *y (SINGULAR3)

*ing -> * (VING)

*ing -> *e (VING)

*ying -> *ie (VING)

*??ing -> *? (VING)

*ed -> * (PAST)(VEN)

*ed -> *e (PAST)(VEN)

*ied -> *y (PAST)(VEN)

*??ed -> *? (PAST)(VEN)

 英语不规则动词还原

went -> go (PAST)

gone -> go (VEN)

sat -> sit (PAST) (VEN)

2.1.2 形态还原算法

输入一个单词如果词典里有该词,输出该词及其属性,转4,否则,转3如果有该词的还原规则,并且,词典里有还原后的词,则输出还原后的词及其属性,转4,否则,调用<未登录词模块>如果输入中还有单词,转(1),否则,结束。 Proj. 1 实现一个英语单词还原工具。 (词典:http://nlp.nju.edu.cn/MT_Lecture/dic_ec.rar)

2.2 词性标注

 为句子中的词标上预定义类别集合(标注集)中的类(词性),为后续的句法/语义分析提供必要的信息。  标注体系的确定  标注方法

2.2.1 词性标注体系

 词的分类

按形态和句法功能(句法相关性)按表达的意思(语义相关性)兼顾上述二者

2.2.1.1 英文词的分类

 开放类(open class)

- Nouns

句法上:可作物主、可有限定词、有复数形式

语义上:人名、地名和物名

- Verbs

句法上:作谓语、有几种词形变化 语义上:动作、过程(一系列动作)

- Adjectives

句法上:修饰Nouns等 语义上:性质

- Adverbs

句法上:修饰Verbs等 语义上:方向、程度、方式、时间

 封闭类(closed class,function words)

DeterminersPronounsPrepositionsConjunctionsAuxiliary verbsParticles(if、not、…)Numerals

2.2.1.2 汉语分词(切分)

 词是语言中最小的能独立运用的单位,也是语言信息处理的基本单位。  分词是指根据某个分词规范,把一个“字”串划分成“词”串。

问题:难以确定何谓汉语的“词”

1.单字词与语素的界定:猪肉、牛肉 2.词与短语(词组)的界定:黑板、黑布

信息处理用现代汉语分词规范:GB-13715(1992)

具体应用系统可根据各自的需求制定规范

 分词带来的问题

丢失信息、错误的分词、不同的分词规范

2.2.1.2.1切分歧义及歧义字段的种类

 交集型歧义字段

ABC切分成AB/C或A/BC

如:“和平等” “独立/自主/和/平等/独立/的/原则” “讨论/战争/与/和平/等/问题”

 组合型歧义字段

AB切分成AB或A/B

如:“马上” “他/骑/在/马/上” “马上/过来”

 混合型歧义

由交集型歧义和组合型歧义嵌套与交叉而成

如:“得到达”(交集型、组合型) “我/今晚/得/到达/南京” “我/得到/达克宁/了 ” “我/得/到/达克宁/公司/去”

 伪歧义与真歧义

伪歧义字段指在任何情况下只有一种切分

“挨批评”只有一种切分 根据歧义字段本身就能消歧

真歧义字段指在不同的情况下有多种切分

“从小学”可以有多种切分:

“从小/学” ,如:“从小/学/电脑” (“从小”是切分成“从小”还是“从/小”要根据分词规范!) “从/小学”,如:“他/从/小学/毕业/后”

**根据歧义字段的上下文来消歧**

2.2.1.2.2 分词方法

一般通过分词词典和分词规则库进行分词。主要方法有:  正向最大匹配(FMM)或逆向最大匹配(RMM)

从左至右(FMM)或从右至左(RMM),取最长的词

“幼儿园 地 节目”或“幼儿 园地 节目”

 双向最大匹配

分别采用FMM和RMM进行分词

如果结果一致,则认为成功;否则,采用消歧规则进行消歧(交集型歧义):

 正向最大、逆向最小匹配

发现组合型歧义

 逐词遍历匹配

在全句中取最长的词,去掉之,对剩下字符串重复该过程

 设立切分标记

收集词首字和词尾字,把句子分成较小单位,再用某些方法切分

 全切分

获得所有可能的切分,选择最大可能的切分

2.2.1.2.3 基于规则的歧义字段消歧方法

 利用歧义字串、前驱字串和后继字串的句法、语义和语用信息:

句法信息

“阵风”:根据前面是否有数词来消歧。“一/阵/风/吹/过/来”、“今天/有/阵风”

语义信息

“了解”:“他/学会/了/解/数学/难题”(“难题”一般是“解”而不是“了解”,另外,还有“学会”)

语用信息

“拍卖”:“乒乓球拍卖完了”,要根据场景(上下文)来确定

 规则的粒度

基于具体的词(个性规则)

基于词类、词义类(共性规则)

Proj. 2 实现一个基于词典与规则的汉语自动分词系统。 (词典:)

最新回复(0)