词性 (PoS) 标记

标记是一种分类，可以定义为对标记的自动分配描述。这里的描述符称为标签，它可以表示词性、语义信息等之一。

现在，如果我们谈论词性（PoS）标记，那么它可以被定义为将词性之一分配给给定单词的过程。一般称为词性标注。简单来说，我们可以说词性标注就是用适当的词性来标记句子中的每个单词。我们已经知道词性包括名词、动词、副词、形容词、代词、连词及其子类别。

大多数 POS 标记属于规则库 POS 标记、随机 POS 标记和基于转换的标记。

基于规则的 POS 标记

最古老的标记技术之一是基于规则的词性标记。基于规则的标记器使用字典或词典来获取可能的标签来标记每个单词。如果该单词具有多个可能的标签，则基于规则的标注器会使用手写规则来识别正确的标签。通过分析单词及其前面和后面的单词的语言特征，还可以在基于规则的标记中执行消歧。例如，假设如果一个单词的前面的单词是冠词，那么该单词一定是名词。

顾名思义，基于规则的词性标注中的所有此类信息都以规则的形式进行编码。这些规则可以是 -

上下文模式规则
或者，作为正则表达式编译成有限状态自动机，与词汇上不明确的句子表示相交。

我们还可以通过其两阶段架构来理解基于规则的 POS 标记 -

第一阶段- 在第一阶段，它使用字典为每个单词分配潜在词类的列表。
第二阶段- 在第二阶段，它使用大量手写消歧规则列表将列表排序为每个单词的单个词性。

基于规则的 POS 标记的属性

基于规则的词性标注器具有以下属性 -

这些标注者是知识驱动的标注者。
基于规则的 POS 标记中的规则是手动构建的。
信息以规则的形式编码。
我们的规则数量有限，大约为 1000 条左右。
平滑和语言建模在基于规则的标记器中明确定义。

随机 POS 标记

另一种标记技术是随机词性标记。现在出现的问题是哪种模型可以是随机的。包含频率或概率（统计）的模型可称为随机模型。解决词性标注问题的任何不同方法都可以称为随机标注器。

最简单的随机标记器应用以下方法进行词性标记 -

词频法

在这种方法中，随机标注器根据单词与特定标签一起出现的概率来消除单词的歧义。我们还可以说，训练集中该单词最常遇到的标签是分配给该单词的不明确实例的标签。这种方法的主要问题是它可能会产生不可接受的标签序列。

标签序列概率

这是随机标记的另一种方法，其中标记器计算给定标记序列出现的概率。它也称为 n-gram 方法。之所以如此称呼，是因为给定单词的最佳标签是由它与前 n 个标签一起出现的概率确定的。

随机 POST 标记的属性

随机 POS 标记器具有以下属性 -

这种 POS 标记是基于标记出现的概率。
需要训练语料库
语料库中不存在的单词不可能出现。
它使用不同的测试语料库（训练语料库除外）。
它是最简单的词性标注，因为它选择与训练语料库中的单词相关的最常见的标签。

基于转换的标记

基于转换的标记也称为 Brill 标记。它是基于转换的学习 (TBL) 的一个实例，TBL 是一种基于规则的算法，用于自动为给定文本添加 POS 标签。TBL，使我们能够以可读的形式获得语言知识，通过使用转换规则将一种状态转换为另一种状态。

它从之前解释的标记器中汲取了灵感——基于规则的标记器和随机的标记器。如果我们看到基于规则和转换标记器之间的相似性，那么与基于规则一样，它也是基于指定哪些标签需要分配给哪些单词的规则。另一方面，如果我们看到随机标记器和转换标记器之间的相似性，那么就像随机标记器一样，它是机器学习技术，其中从数据自动归纳规则。

基于转化的学习（TBL）的运作

为了理解基于转换的标注器的工作原理和概念，我们需要了解基于转换的学习的工作原理。请考虑以下步骤来了解 TBL 的工作原理 -

从解决方案开始- TBL 通常从问题的某种解决方案开始，并循环工作。
选择最有利的转化- 在每个周期中，TBL 将选择最有利的转化。
应用于问题- 上一步中选择的转换将应用于问题。

当步骤 2 中选择的转换不会添加更多值或没有更多转换可供选择时，算法将停止。这种学习最适合分类任务。

基于转化的学习（TBL）的优点

TBL的优点如下：

我们学习一小组简单的规则，这些规则足以用于标记。
在 TBL 中开发和调试都非常容易，因为学到的规则很容易理解。
标记的复杂性降低了，因为在 TBL 中，机器学习的规则和人类生成的规则交织在一起。
基于转换的标注器比马尔可夫模型标注器快得多。

基于转化的学习（TBL）的缺点

TBL 的缺点如下：

基于转换的学习（TBL）不提供标签概率。
在TBL中，训练时间非常长，尤其是在大型语料库上。

隐马尔可夫模型 (HMM) POS 标记

在深入研究 HMM 词性标注之前，我们必须了解隐马尔可夫模型 (HMM) 的概念。

隐马尔可夫模型

HMM 模型可以定义为双嵌入随机模型，其中隐藏了底层随机过程。这种隐藏的随机过程只能通过另一组产生观察序列的随机过程来观察。

例子

例如，进行了一系列隐藏的抛硬币实验，我们只看到由正面和反面组成的观察序列。这个过程的实际细节——使用了多少硬币，选择它们的顺序——对我们来说是隐藏的。通过观察这个正面和反面的序列，我们可以构建几个 HMM 来解释这个序列。以下是该问题的隐马尔可夫模型的一种形式 -

我们假设HMM中有两个状态，每个状态对应于不同偏置硬币的选择。以下矩阵给出了状态转换概率 -

$$A = \begin{bmatrix}a11 & a12 \\a21 & a22 \end{bmatrix}$$

这里，

a _ij = 从 i 到 j 从一种状态转移到另一种状态的概率。
a ₁₁ + a ₁₂ = 1 且 a ₂₁ + a ₂₂ =1
P ₁ = 第一枚硬币正面朝上的概率，即第一枚硬币的偏差。
P ₂ = 第二枚硬币正面朝上的概率，即第二枚硬币的偏差。

我们还可以创建一个 HMM 模型，假设有 3 个或更多硬币。

这样，我们可以通过以下元素来表征 HMM -

N，模型中的状态数（上例中N=2，只有两个状态）。
M，上例中每个状态可能出现的不同观测值的数量（M = 2，即 H 或 T）。
A，状态转移概率分布 - 上例中的矩阵 A。
P，每个状态中可观察符号的概率分布（在我们的示例中为 P1 和 P2）。
I，初始状态分布。

使用 HMM 进行 POS 标记

词性标注过程是寻找最有可能生成给定单词序列的标签序列的过程。我们可以使用隐马尔可夫模型 (HMM) 对该 POS 过程进行建模，其中标签是产生可观察输出（即单词）的隐藏状态。

从数学上讲，在词性标记中，我们总是有兴趣找到一个最大化的标记序列 (C) -

P（中|西）

在哪里，

C = C ₁ , C ₂ , C ₃ ... C _T

W = W ₁ , W ₂ , W ₃ , W _T

另一方面，事实是我们需要大量统计数据来合理估计此类序列。然而，为了简化问题，我们可以应用一些数学变换和一些假设。

使用 HMM 进行词性标注是贝叶斯干扰的一个特例。因此，我们将首先使用贝叶斯规则重述问题，该规则表示上述条件概率等于 -

(PROB (C ₁ ,..., CT) * PROB (W ₁ ,..., WT | C ₁ ,..., CT)) / PROB (W ₁ ,..., WT)

我们可以消除所有这些情况下的分母，因为我们感兴趣的是找到最大化上述值的序列 C。这不会影响我们的回答。现在，我们的问题简化为找到最大化的序列 C -

PROB (C ₁ ,..., CT) * PROB (W ₁ ,..., WT | C ₁ ,..., CT) (1)

即使减少了上述表达式中的问题，也需要大量的数据。我们可以对上面表达式中的两个概率做出合理的独立假设来克服这个问题。

第一个假设

标签的概率取决于前一个（二元模型）或前两个（三元模型）或前 n 个标签（n 元模型），从数学上讲，可以解释如下 -

PROB (C ₁ ,..., C _T ) = Π _i=1..T PROB (C _i |C _i-n+1 …C _i-1 ) （n-gram 模型）

PROB (C ₁ ,..., CT) = Π _i=1..T PROB (C _i |C _i-1 ) （二元模型）

可以通过假设每个标签的初始概率来解释句子的开头。

PROB (C ₁ |C ₀ ) = PROB_初始值(C ₁ )

第二个假设

上面等式（1）中的第二个概率可以通过假设一个单词出现在独立于先前或后续类别中的单词的类别中来近似，这可以在数学上解释如下 -

PROB (W ₁ ,..., W _T | C ₁ ,..., C _T ) = Π _i=1..T PROB (W _i |C _i )

现在，基于上述两个假设，我们的目标简化为找到一个最大化序列 C

Π _i=1...T PROB(C _i |C _i-1 ) * PROB(W _i |C _i )

现在出现的问题是将问题转换为上述形式确实对我们有帮助。答案是——是的，确实如此。如果我们有一个大的标记语料库，那么上式中的两个概率可以计算为 -

PROB (C _i=VERB |C _i-1=NOUN ) = (动词跟随名词的实例数) / (名词出现的实例数) (2)

PROB (W _i |C _{i ) = (W}_i出现在 C _i中的实例数) /(C _i出现的实例数) (3)