形态还原(针对英语、德语、法语等)
把句子中的词还原成它们的基本词形。 词性标注
为句子中的词标上预定义类别集合(标注集)中的类。 命名实体识别
人名地名机构名 分词(针对汉语、日语等)
识别出句子中的词。 把句子中的词还原成原形,作为词的其它信息(词典、个性规则)的索引。 构词特点
屈折变化:词尾和词形变化,词性不变。如: study, studied,studied,studying speak,spoke,spoken,speaking 派生变化:加前缀和后缀,词性发生变化。如: friend,friendly,friendship,... 复合变化:多个单词以某种方式组合成一个词。 还原规则
通用规则:变化有规律
个性规则:变化无规律
英语“规则动词”还原
*s -> * (SINGULAR3)
*es -> * (SINGULAR3)
*ies -> *y (SINGULAR3)
*ing -> * (VING)
*ing -> *e (VING)
*ying -> *ie (VING)
*??ing -> *? (VING)
*ed -> * (PAST)(VEN)
*ed -> *e (PAST)(VEN)
*ied -> *y (PAST)(VEN)
*??ed -> *? (PAST)(VEN)
英语不规则动词还原
went -> go (PAST)
gone -> go (VEN)
sat -> sit (PAST) (VEN)
为句子中的词标上预定义类别集合(标注集)中的类(词性),为后续的句法/语义分析提供必要的信息。 标注体系的确定 标注方法
词的分类
按形态和句法功能(句法相关性)按表达的意思(语义相关性)兼顾上述二者 开放类(open class)
- Nouns
句法上:可作物主、可有限定词、有复数形式语义上:人名、地名和物名
- Verbs
句法上:作谓语、有几种词形变化 语义上:动作、过程(一系列动作)- Adjectives
句法上:修饰Nouns等 语义上:性质- Adverbs
句法上:修饰Verbs等 语义上:方向、程度、方式、时间 封闭类(closed class,function words)
DeterminersPronounsPrepositionsConjunctionsAuxiliary verbsParticles(if、not、…)Numerals 词是语言中最小的能独立运用的单位,也是语言信息处理的基本单位。 分词是指根据某个分词规范,把一个“字”串划分成“词”串。
问题:难以确定何谓汉语的“词”
1.单字词与语素的界定:猪肉、牛肉 2.词与短语(词组)的界定:黑板、黑布
信息处理用现代汉语分词规范:GB-13715(1992)
具体应用系统可根据各自的需求制定规范
分词带来的问题
丢失信息、错误的分词、不同的分词规范 交集型歧义字段
ABC切分成AB/C或A/BC
如:“和平等” “独立/自主/和/平等/独立/的/原则” “讨论/战争/与/和平/等/问题” 组合型歧义字段
AB切分成AB或A/B
如:“马上” “他/骑/在/马/上” “马上/过来” 混合型歧义
由交集型歧义和组合型歧义嵌套与交叉而成
如:“得到达”(交集型、组合型) “我/今晚/得/到达/南京” “我/得到/达克宁/了 ” “我/得/到/达克宁/公司/去” 伪歧义与真歧义
伪歧义字段指在任何情况下只有一种切分
“挨批评”只有一种切分 根据歧义字段本身就能消歧真歧义字段指在不同的情况下有多种切分
“从小学”可以有多种切分:
“从小/学” ,如:“从小/学/电脑” (“从小”是切分成“从小”还是“从/小”要根据分词规范!) “从/小学”,如:“他/从/小学/毕业/后”
**根据歧义字段的上下文来消歧**一般通过分词词典和分词规则库进行分词。主要方法有: 正向最大匹配(FMM)或逆向最大匹配(RMM)
从左至右(FMM)或从右至左(RMM),取最长的词
“幼儿园 地 节目”或“幼儿 园地 节目”
双向最大匹配
分别采用FMM和RMM进行分词
如果结果一致,则认为成功;否则,采用消歧规则进行消歧(交集型歧义):
正向最大、逆向最小匹配
发现组合型歧义 逐词遍历匹配
在全句中取最长的词,去掉之,对剩下字符串重复该过程 设立切分标记
收集词首字和词尾字,把句子分成较小单位,再用某些方法切分 全切分
获得所有可能的切分,选择最大可能的切分 利用歧义字串、前驱字串和后继字串的句法、语义和语用信息:
句法信息
“阵风”:根据前面是否有数词来消歧。“一/阵/风/吹/过/来”、“今天/有/阵风”语义信息
“了解”:“他/学会/了/解/数学/难题”(“难题”一般是“解”而不是“了解”,另外,还有“学会”)语用信息
“拍卖”:“乒乓球拍卖完了”,要根据场景(上下文)来确定 规则的粒度
基于具体的词(个性规则)
基于词类、词义类(共性规则)
Proj. 2 实现一个基于词典与规则的汉语自动分词系统。 (词典:)