NLP--基于规则的自然语言处理方法（理性方法，传统方法）

mac2024-12-17 79

1. 概述

强调对语言知识的理性整理（知识工程）受计算语言学理论指导基于规则的知识表示和推导（符号计算）语言处理规则（数据）与程序分离，程序体现为规则语言的解释器！

2. 词法分析

 形态还原（针对英语、德语、法语等）

把句子中的词还原成它们的基本词形。

 词性标注

为句子中的词标上预定义类别集合（标注集）中的类。

 命名实体识别

人名地名机构名

 分词（针对汉语、日语等）

识别出句子中的词。

2.1形态还原（英语）

 把句子中的词还原成原形，作为词的其它信息（词典、个性规则）的索引。  构词特点

屈折变化：词尾和词形变化，词性不变。如： study, studied,studied,studying speak,spoke,spoken,speaking 派生变化：加前缀和后缀，词性发生变化。如： friend,friendly,friendship,... 复合变化：多个单词以某种方式组合成一个词。

 还原规则

通用规则：变化有规律

个性规则：变化无规律

2.1.1 形态还原规则举例

 英语“规则动词”还原

*s -> * (SINGULAR3)

*es -> * (SINGULAR3)

*ies -> *y (SINGULAR3)

*ing -> * (VING)

*ing -> *e (VING)

*ying -> *ie (VING)

*??ing -> *? (VING)

*ed -> * (PAST)(VEN)

*ed -> *e (PAST)(VEN)

*ied -> *y (PAST)(VEN)

*??ed -> *? (PAST)(VEN)

 英语不规则动词还原

went -> go (PAST)

gone -> go (VEN)

sat -> sit (PAST) (VEN)

2.1.2 形态还原算法

输入一个单词如果词典里有该词，输出该词及其属性，转4，否则，转3如果有该词的还原规则，并且，词典里有还原后的词，则输出还原后的词及其属性，转4，否则，调用<未登录词模块>如果输入中还有单词，转(1)，否则，结束。 Proj. 1 实现一个英语单词还原工具。（词典：http://nlp.nju.edu.cn/MT_Lecture/dic_ec.rar）

2.2 词性标注

 为句子中的词标上预定义类别集合（标注集）中的类（词性），为后续的句法/语义分析提供必要的信息。  标注体系的确定  标注方法

2.2.1 词性标注体系

 词的分类

按形态和句法功能（句法相关性）按表达的意思（语义相关性）兼顾上述二者

2.2.1.1 英文词的分类

 开放类（open class）

- Nouns

句法上：可作物主、可有限定词、有复数形式

语义上：人名、地名和物名

- Verbs

句法上：作谓语、有几种词形变化语义上：动作、过程（一系列动作）

- Adjectives

句法上：修饰Nouns等语义上：性质

- Adverbs

句法上：修饰Verbs等语义上：方向、程度、方式、时间

 封闭类（closed class，function words）

DeterminersPronounsPrepositionsConjunctionsAuxiliary verbsParticles（if、not、…）Numerals

2.2.1.2 汉语分词（切分）

 词是语言中最小的能独立运用的单位，也是语言信息处理的基本单位。  分词是指根据某个分词规范，把一个“字”串划分成“词”串。

问题：难以确定何谓汉语的“词”

1.单字词与语素的界定：猪肉、牛肉 2.词与短语（词组）的界定：黑板、黑布

信息处理用现代汉语分词规范：GB-13715（1992）

具体应用系统可根据各自的需求制定规范

 分词带来的问题

丢失信息、错误的分词、不同的分词规范

2.2.1.2.1切分歧义及歧义字段的种类

 交集型歧义字段

ABC切分成AB/C或A/BC

如：“和平等” “独立/自主/和/平等/独立/的/原则” “讨论/战争/与/和平/等/问题”

 组合型歧义字段

AB切分成AB或A/B

如：“马上” “他/骑/在/马/上” “马上/过来”

 混合型歧义

由交集型歧义和组合型歧义嵌套与交叉而成

如：“得到达”（交集型、组合型） “我/今晚/得/到达/南京” “我/得到/达克宁/了 ” “我/得/到/达克宁/公司/去”

 伪歧义与真歧义

伪歧义字段指在任何情况下只有一种切分

“挨批评”只有一种切分根据歧义字段本身就能消歧

真歧义字段指在不同的情况下有多种切分

“从小学”可以有多种切分：

“从小/学” ，如：“从小/学/电脑” （“从小”是切分成“从小”还是“从/小”要根据分词规范！） “从/小学”，如：“他/从/小学/毕业/后”

**根据歧义字段的上下文来消歧**

2.2.1.2.2 分词方法

一般通过分词词典和分词规则库进行分词。主要方法有：  正向最大匹配(FMM)或逆向最大匹配(RMM)

从左至右(FMM)或从右至左(RMM)，取最长的词

“幼儿园地节目”或“幼儿园地节目”

 双向最大匹配

分别采用FMM和RMM进行分词

如果结果一致，则认为成功；否则，采用消歧规则进行消歧（交集型歧义）：

 正向最大、逆向最小匹配

发现组合型歧义

 逐词遍历匹配

在全句中取最长的词，去掉之，对剩下字符串重复该过程

 设立切分标记

收集词首字和词尾字，把句子分成较小单位，再用某些方法切分

 全切分

获得所有可能的切分，选择最大可能的切分

2.2.1.2.3 基于规则的歧义字段消歧方法

 利用歧义字串、前驱字串和后继字串的句法、语义和语用信息：

句法信息

“阵风”：根据前面是否有数词来消歧。“一/阵/风/吹/过/来”、“今天/有/阵风”

语义信息

“了解”：“他/学会/了/解/数学/难题”（“难题”一般是“解”而不是“了解”，另外，还有“学会”)

语用信息

“拍卖”：“乒乓球拍卖完了”，要根据场景（上下文）来确定

 规则的粒度

基于具体的词（个性规则）

基于词类、词义类（共性规则）

Proj. 2 实现一个基于词典与规则的汉语自动分词系统。 (词典：)

最新回复(0)

NLP--基于规则的自然语言处理方法 （理性方法，传统方法）