AI 与 Python – NLTK 包


在本章中,我们将学习如何开始使用自然语言工具包。

先决条件

如果我们想使用自然语言处理来构建应用程序,那么上下文的变化会使其变得非常困难。上下文因素影响机器如何理解特定句子。因此,我们需要使用机器学习方法来开发自然语言应用程序,以便机器也能够理解人类理解上下文的方式。

为了构建此类应用程序,我们将使用名为 NLTK(自然语言工具包)的 Python 包。

导入NLTK

在使用NLTK之前我们需要先安装它。可以借助以下命令进行安装 -

pip install nltk

要为 NLTK 构建 conda 包,请使用以下命令 -

conda install -c anaconda nltk

现在安装 NLTK 包后,我们需要通过 python 命令提示符导入它。我们可以通过在 Python 命令提示符下编写以下命令来导入它 -

>>> import nltk

下载NLTK的数据

现在导入NLTK后,我们需要下载所需的数据。可以在 Python 命令提示符下使用以下命令来完成 -

>>> nltk.download()

安装其他必要的软件包

为了使用 NLTK 构建自然语言处理应用程序,我们需要安装必要的包。软件包如下 -

根西姆

它是一个强大的语义建模库,对许多应用程序都很有用。我们可以通过执行以下命令来安装它 -

pip install gensim

图案

它用于使gensim包正常工作。我们可以通过执行以下命令来安装它

pip install pattern

分词、词干提取和词形还原的概念

在本节中,我们将了解什么是标记化、词干化和词形还原。

代币化

它可以被定义为将给定文本(即字符序列)分解为称为标记的更小的单元的过程。标记可以是单词、数字或标点符号。也称为分词。以下是标记化的简单示例 -

输入- 芒果、香蕉、菠萝和苹果都是水果。

输出-代币化

打破给定文本的过程可以借助定位单词边界来完成。单词的结尾和新单词的开头称为单词边界。文字的书写系统和印刷结构会影响边界。

在 Python NLTK 模块中,我们有与标记化相关的不同包,我们可以使用它们根据我们的要求将文本划分为标记。一些包如下 -

发送令牌包

顾名思义,这个包将输入文本分成句子。我们可以借助以下 Python 代码导入这个包 -

from nltk.tokenize import sent_tokenize

word_tokenize 包

该包将输入文本划分为单词。我们可以借助以下 Python 代码导入这个包 -

from nltk.tokenize import word_tokenize

WordPunctTokenizer 包

该包将输入文本分为单词和标点符号。我们可以借助以下 Python 代码导入这个包 -

from nltk.tokenize import WordPuncttokenizer

词干提取

在处理单词时,由于语法原因,我们会遇到很多变化。这里的变体概念意味着我们必须处理同一个词的不同形式,例如民主、民主民主化。对于机器来说,理解这些不同的单词具有相同的基本形式是非常有必要的。这样,在我们分析文本时提取单词的基本形式将很有用。

我们可以通过词干来实现这一点。这样,我们可以说词干提取是通过砍掉单词末尾来提取单词基本形式的启发式过程。

在Python NLTK模块中,我们有与词干相关的不同包。这些包可用于获取单词的基本形式。这些包使用算法。一些包如下 -

波特斯特默包

这个Python包使用波特算法来提取基本形式。我们可以借助以下 Python 代码导入这个包 -

from nltk.stem.porter import PorterStemmer

例如,如果我们将单词“writing”作为词干分析器的输入,我们将在词干提取后得到单词“write”

兰卡斯特词干包

这个Python包将使用兰卡斯特算法来提取基本形式。我们可以借助以下 Python 代码导入这个包 -

from nltk.stem.lancaster import LancasterStemmer

例如,如果我们将单词“writing”作为词干分析器的输入,我们将在词干提取后得到单词“write”

SnowballStemmer 包

这个Python包将使用雪球算法来提取基本形式。我们可以借助以下 Python 代码导入这个包 -

from nltk.stem.snowball import SnowballStemmer

例如,如果我们将单词“writing”作为词干分析器的输入,我们将在词干提取后得到单词“write”

所有这些算法都有不同程度的严格性。如果我们比较这三个词干分析器,那么 Porter 词干分析器是最不严格的,而 Lancaster 是最严格的。雪球词干分析器在速度和严格性方面都很好用。

词形还原

我们还可以通过词形还原来提取单词的基本形式。它基本上通过使用词汇和单词的形态分析来完成此任务,通常旨在仅删除屈折结尾。任何单词的这种基本形式称为引理。

词干提取和词形还原之间的主要区别在于词汇的使用和单词的形态分析。另一个区别是,词干提取通常会折叠派生相关的单词,而词形还原通常只会折叠词条的不同屈折形式。例如,如果我们提供单词 saw 作为输入单词,则词干提取可能会返回单词 's',但词形还原会尝试返回单词 see 或 saw,具体取决于标记的使用是动词还是名词。

在 Python NLTK 模块中,我们有以下与词形还原过程相关的包,我们可以使用它来获取单词的基本形式 -

WordNetLemmatizer 包

这个 Python 包将根据单词是用作名词还是动词来提取单词的基本形式。我们可以借助以下 Python 代码导入这个包 -

from nltk.stem import WordNetLemmatizer

分块:将数据分成块

它是自然语言处理中的重要过程之一。分块的主要工作是识别词性和名词短语等短语。我们已经研究了代币化的过程,即代币的创建。分块基本上就是对这些标记进行标记。换句话说,分块将向我们展示句子的结构。

在下一节中,我们将了解不同类型的分块。

分块的类型

有两种类型的分块。类型如下 -

分块

在这个分块的过程中,物体、事物等变得更加普遍,语言变得更加抽象。达成协议的机会更多。在这个过程中,我们缩小了范围。例如,如果我们将“汽车的用途是什么”这个问题分解?我们可能会得到答案“运输”。

分块

在这个分块的过程中,物体、事物等变得更加具体,语言变得更加深入。更深层次的结构将通过分块进行检查。在这个过程中,我们放大。例如,如果我们将问题“具体讲述一辆车”分解怎么办?我们将获得有关汽车的较小信息。

例子

在此示例中,我们将使用 Python 中的 NLTK 模块进行名词短语分块,这是一种分块类别,可在句子中找到名词短语块 -

按照 python 中的以下步骤实现名词短语分块 -

步骤 1 - 在此步骤中,我们需要定义分块语法。它将包含我们需要遵循的规则。

步骤 2 - 在此步骤中,我们需要创建一个块解析器。它将解析语法并给出输出。

步骤 3 - 在最后一步中,输出以树格式生成。

让我们导入必要的 NLTK 包,如下所示 -

import nltk

现在,我们需要定义这个句子。其中,DT表示行列式,VBP表示动词,JJ表示形容词,IN表示介词,NN表示名词。

sentence=[("a","DT"),("clever","JJ"),("fox","NN"),("was","VBP"),
          ("jumping","VBP"),("over","IN"),("the","DT"),("wall","NN")]

现在,我们需要给出语法。在这里,我们将以正则表达式的形式给出语法。

grammar = "NP:{<DT>?<JJ>*<NN>}"

我们需要定义一个解析器来解析语法。

parser_chunking = nltk.RegexpParser(grammar)

解析器解析句子如下 -

parser_chunking.parse(sentence)

接下来,我们需要获取输出。输出是在名为output_chunk 的简单变量中生成的。

Output_chunk = parser_chunking.parse(sentence)

执行以下代码后,我们可以以树的形式绘制输出。

output.draw()

尼特克

词袋 (BoW) 模型

词袋(BoW)是自然语言处理中的一种模型,主要用于从文本中提取特征,以便文本可以用于建模,例如机器学习算法。

现在问题来了,为什么我们需要从文本中提取特征。这是因为机器学习算法无法处理原始数据,并且需要数字数据才能从中提取有意义的信息。将文本数据转换为数字数据称为特征提取或特征编码。

怎么运行的

这是从文本中提取特征的非常简单的方法。假设我们有一个文本文档,我们想要将其转换为数字数据,或者说想要从中提取特征,那么首先该模型从文档中的所有单词中提取词汇表。然后通过使用文档术语矩阵,它将构建一个模型。通过这种方式,BoW 仅将文档表示为词袋。有关文档中单词的顺序或结构的任何信息都将被丢弃。

文档术语矩阵的概念

BoW 算法使用文档术语矩阵构建模型。顾名思义,文档术语矩阵是文档中出现的各种字数的矩阵。借助该矩阵,文本文档可以表示为各种单词的加权组合。通过设置阈值并选择更有意义的单词,我们可以构建文档中所有单词的直方图,该直方图可以用作特征向量。以下是理解文档术语矩阵概念的示例 -

例子

假设我们有以下两个句子 -

  • Sentence 1 - 我们正在使用词袋模型。

  • Sentence 2 - Bag of Words 模型用于提取特征。

现在,通过考虑这两个句子,我们有以下 13 个不同的单词 -

  • 我们
  • 使用
  • 模型
  • 用过的
  • 为了
  • 提取
  • 特征

现在,我们需要使用每个句子中的字数为每个句子构建一个直方图 -

  • 句子 1 − [1,1,1,1,1,1,1,1,0,0,0,0,0]

  • 句子 2 − [0,0,0,1,1,1,1,1,1,1,1,1,1]

这样我们就得到了提取出来的特征向量。每个特征向量都是 13 维的,因为我们有 13 个不同的单词。

统计的概念

统计的概念称为术语频率-逆文档频率(tf-idf)。文档中的每个词都很重要。统计数据帮助我们了解每个单词的重要性。

词频(tf)

它衡量每个单词在文档中出现的频率。它可以通过将给定文档中每个单词的计数除以单词总数来获得。

逆文档频率(idf)

它是衡量给定文档集中某个单词对于该文档的独特程度的指标。为了计算 idf 并制定独特的特征向量,我们需要减少常见单词(如 the)的权重,并权衡罕见单词的权重。

在 NLTK 中构建词袋模型

在本节中,我们将使用 CountVectorizer 从这些句子创建向量来定义字符串集合。

让我们导入必要的包 -

from sklearn.feature_extraction.text import CountVectorizer

现在定义句子集。

Sentences = ['We are using the Bag of Word model', 'Bag of Word model is
           used for extracting the features.']

vectorizer_count = CountVectorizer()

features_text = vectorizer.fit_transform(Sentences).todense()

print(vectorizer.vocabulary_)

上述程序生成的输出如下所示。它表明上面两个句子中有 13 个不同的单词 -

{'we': 11, 'are': 0, 'using': 10, 'the': 8, 'bag': 1, 'of': 7,
 'word': 12, 'model': 6, 'is': 5, 'used': 9, 'for': 4, 'extracting': 2, 'features': 3}

这些是可用于机器学习的特征向量(文本到数字形式)。

解决问题

在本节中,我们将解决一些相关问题。

品类预测

在一组文档中,不仅单词很重要,单词的类别也很重要;特定单词属于哪个文本类别。例如,我们想要预测给定的句子是否属于电子邮件、新闻、体育、计算机等类别。在下面的示例中,我们将使用 tf-idf 制定特征向量来查找文档的类别。我们将使用 sklearn 的 20 个新闻组数据集的数据。

我们需要导入必要的包 -

from sklearn.datasets import fetch_20newsgroups
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer

定义类别图。我们使用五个不同的类别,分别是宗教、汽车、体育、电子和空间。

category_map = {'talk.religion.misc':'Religion','rec.autos''Autos',
   'rec.sport.hockey':'Hockey','sci.electronics':'Electronics', 'sci.space': 'Space'}

创建训练集 -

training_data = fetch_20newsgroups(subset = 'train',
   categories = category_map.keys(), shuffle = True, random_state = 5)

构建计数向量化器并提取术语计数 -

vectorizer_count = CountVectorizer()
train_tc = vectorizer_count.fit_transform(training_data.data)
print("\nDimensions of training data:", train_tc.shape)

tf-idf 变压器的创建如下 -

tfidf = TfidfTransformer()
train_tfidf = tfidf.fit_transform(train_tc)

现在,定义测试数据 -

input_data = [
   'Discovery was a space shuttle',
   'Hindu, Christian, Sikh all are religions',
   'We must have to drive safely',
   'Puck is a disk made of rubber',
   'Television, Microwave, Refrigrated all uses electricity'
]

上述数据将帮助我们训练多项式朴素贝叶斯分类器 -

classifier = MultinomialNB().fit(train_tfidf, training_data.target)

使用计数向量化器转换输入数据 -

input_tc = vectorizer_count.transform(input_data)

现在,我们将使用 tfidf 转换器转换矢量化数据 -

input_tfidf = tfidf.transform(input_tc)

我们将预测输出类别 -

predictions = classifier.predict(input_tfidf)

输出生成如下 -

for sent, category in zip(input_data, predictions):
   print('\nInput Data:', sent, '\n Category:', \
      category_map[training_data.target_names[category]])

类别预测器生成以下输出 -

Dimensions of training data: (2755, 39297)

Input Data: Discovery was a space shuttle
Category: Space

Input Data: Hindu, Christian, Sikh all are religions
Category: Religion

Input Data: We must have to drive safely
Category: Autos

Input Data: Puck is a disk made of rubber
Category: Hockey

Input Data: Television, Microwave, Refrigrated all uses electricity
Category: Electronics

性别查找器

在此问题陈述中,将训练分类器通过提供姓名来查找性别(男性或女性)。我们需要使用启发式方法来构造特征向量并训练分类器。我们将使用 scikit-learn 包中的标记数据。以下是构建性别查找器的 Python 代码 -

让我们导入必要的包 -

import random

from nltk import NaiveBayesClassifier
from nltk.classify import accuracy as nltk_accuracy
from nltk.corpus import names

现在我们需要从输入单词中提取最后 N 个字母。这些字母将充当特征 -

def extract_features(word, N = 2):
   last_n_letters = word[-N:]
   return {'feature': last_n_letters.lower()}
	
if __name__=='__main__':

使用 NLTK 中提供的标记名称(男性和女性)创建训练数据 -

male_list = [(name, 'male') for name in names.words('male.txt')]
female_list = [(name, 'female') for name in names.words('female.txt')]
data = (male_list + female_list)

random.seed(5)
random.shuffle(data)

现在,测试数据将创建如下 -

namesInput = ['Rajesh', 'Gaurav', 'Swati', 'Shubha']

使用以下代码定义用于训练和测试的样本数量

train_sample = int(0.8 * len(data))

现在,我们需要迭代不同的长度,以便比较准确性 -

for i in range(1, 6):
   print('\nNumber of end letters:', i)
   features = [(extract_features(n, i), gender) for (n, gender) in data]
   train_data, test_data = features[:train_sample],
features[train_sample:]
   classifier = NaiveBayesClassifier.train(train_data)

分类器的准确性可以计算如下 -

accuracy_classifier = round(100 * nltk_accuracy(classifier, test_data), 2)
   print('Accuracy = ' + str(accuracy_classifier) + '%')

现在,我们可以预测输出 -

for name in namesInput:
   print(name, '==>', classifier.classify(extract_features(name, i)))

上述程序将生成以下输出 -

Number of end letters: 1
Accuracy = 74.7%
Rajesh -> female
Gaurav -> male
Swati -> female
Shubha -> female

Number of end letters: 2
Accuracy = 78.79%
Rajesh -> male
Gaurav -> male
Swati -> female
Shubha -> female

Number of end letters: 3
Accuracy = 77.22%
Rajesh -> male
Gaurav -> female
Swati -> female
Shubha -> female

Number of end letters: 4
Accuracy = 69.98%
Rajesh -> female
Gaurav -> female
Swati -> female
Shubha -> female

Number of end letters: 5
Accuracy = 64.63%
Rajesh -> female
Gaurav -> female
Swati -> female
Shubha -> female

在上面的输出中,我们可以看到最大结尾字母数量的准确度为 2,并且随着结尾字母数量的增加而下降。

主题建模:识别文本数据中的模式

我们知道,文档通常分为主题。有时我们需要识别文本中与特定主题相对应的模式。执行此操作的技术称为主题建模。换句话说,我们可以说主题建模是一种揭示给定文档集中的抽象主题或隐藏结构的技术。

我们可以在以下场景中使用主题建模技术 -

文本分类

在主题建模的帮助下,可以改进分类,因为它将相似的单词分组在一起,而不是单独使用每个单词作为特征。

推荐系统

借助主题建模,我们可以使用相似性度量来构建推荐系统。

主题建模算法

主题建模可以通过算法来实现。算法如下 -

潜在狄利克雷分配(LDA)

该算法是最流行的主题建模算法。它使用概率图形模型来实现主题建模。为了使用LDA slgorithm,我们需要在Python中导入gensim包。

潜在语义分析 (LDA) 或潜在语义索引 (LSI)

该算法基于线性代数。基本上它在文档术语矩阵上使用了 SVD(奇异值分解)的概念。

非负矩阵分解 (NMF)

它也基于线性代数。

所有上述主题建模算法都将主题数量作为参数,将文档-词矩阵作为输入,将WTM(词主题矩阵)TDM(主题文档矩阵)作为输出。