自然语言处理（NLP）之建模：开启智能语言处理的核心引擎

LLM架构

自然语言处理（NLP）之建模：开启智能语言处理的核心引擎

一、命名实体识别（NER）：信息提取的关键利器

命名实体识别（NER）致力于从文本中精准找出并分类诸如人名、组织名、地点、日期等命名实体。就像在 “Barack Obama was the 44th President of the United States.” 这句话中，借助如 spacy 库等工具，我们能清晰地识别出 “Barack Obama” 为人物（PERSON），“United States” 为地缘政治实体（GPE）。其代码示例如下：

import spacy
nlp = spacy.load('en_core_web_sm')
sentence = "Barack Obama was the 44th President of the United States."
doc = nlp(sentence)
print("Named Entities in the sentence:")
for ent in doc.ents:
    print(f"{ent.text}: {ent.label_}")

在新闻资讯领域，NER 能够迅速提取关键信息，助力新闻的快速分类与精准推送；在知识图谱构建中，它更是基石般的存在，通过识别文本中的实体，建立起实体之间的关联网络，为智能搜索和问答系统提供坚实支撑。

二、语言模型：预测文本的智慧大脑

语言模型从本质上讲，是预测单词序列中接下来可能出现的单词的统计模型。它为不同的单词序列赋予相应概率，以此衡量给定序列出现的可能性，在文本生成、机器翻译、语音识别等诸多 NLP 任务中占据着核心地位。

传统语言模型：一元模型（Unigram Model）独立地依据每个单词自身的概率进行预测；二元或三元模型（Bigram/Trigram Model）则会参考前一个或两个单词来推测下一个单词。例如，给定一个小型语料库：

import nltk
from collections import defaultdict, Counter
import random

corpus = [
    "I love natural language processing",
    "I love machine learning",
    "I enjoy learning new things",
    "Natural language processing is fascinating"
]
tokenized_corpus = [nltk.word_tokenize(sentence.lower()) for sentence in corpus]
bigrams = []
for sentence in tokenized_corpus:
    bigrams.extend(list(nltk.bigrams(sentence)))
bigram_freq = defaultdict(Counter)
for w1, w2 in bigrams:
    bigram_freq[w1][w2] += 1
bigram_prob = defaultdict(dict)
for w1 in bigram_freq:
    total_count = float(sum(bigram_freq[w1].values()))
    for w2 in bigram_freq[w1]:
        bigram_prob[w1][w2] = bigram_freq[w1][w2] / total_count

def generate_sentence(start_word, num_words=10):
    current_word = start_word
    sentence = [current_word]
    for _ in range(num_words - 1):
        if current_word in bigram_prob:
            next_word = random.choices(
                list(bigram_prob[current_word].keys()),
                list(bigram_prob[current_word].values())
            )[0]
            sentence.append(next_word)
            current_word = next_word
        else:
            break
    return ' '.join(sentence)

generated_sentence = generate_sentence("i", num_words=4)
print("Generated sentence:", generated_sentence)

这段代码展示了如何基于二元模型生成句子，从给定的起始单词开始，依据语料库中二元组的频率概率来逐步生成后续单词，从而构建出完整的句子。
2. 神经网络语言模型：利用循环神经网络（RNNs）或 Transformer 等神经网络架构，能够捕捉文本中更为复杂的模式和依赖关系。深度学习驱动的语言模型以单词嵌入作为输入，在每个时间步返回下一个单词的概率分布，这些预训练模型通过处理大规模语料库（如维基百科）来学习特定语言的结构，进而针对特定任务进行微调。例如，BERT 经过在大规模文本上的预训练，能够在事实核查、标题撰写等多样化任务中展现出强大的性能。

三、传统机器学习与深度学习在 NLP 中的技术碰撞

传统 ML NLP 技术
- 逻辑回归：作为一种有监督的分类算法，在 NLP 中常用于情感分析、垃圾邮件检测和毒性分类等任务。它通过分析输入特征，预测事件发生的概率，例如判断一段文本所表达的情感倾向是积极还是消极。
- 朴素贝叶斯：利用贝叶斯公式计算条件概率分布 P(label | text)，基于单词之间的独立性假设进行预测。在垃圾邮件检测或软件代码漏洞查找等方面有着广泛应用，能够快速对文本进行分类。
- 决策树：通过依据不同特征对数据集进行分割，最大化每次分割的信息增益，从而实现文本分类。它能够直观地展示分类规则，对于一些简单的文本分类问题具有较好的效果。
- 潜在狄利克雷分配（LDA）：在主题建模领域发挥着重要作用，将文档视为主题的集合，主题又看作单词的集合，以统计方法挖掘文档集中的抽象主题，在法律文档分析和内容推荐系统中具有重要价值。
- 隐马尔可夫模型（HMM）：在词性标注任务中表现出色，把句子中的单词视为观察状态，词性标签作为隐藏状态，通过计算转移概率和发射概率来确定每个单词的词性。在实际应用中，常借助维特比算法求解最优的词性标注序列。

深度学习 NLP 技术
- 卷积神经网络（CNN）：将文本类比为图像，以句子或文档的单词矩阵作为输入进行文本分类。它能够自动提取文本中的局部特征，通过卷积层和池化层的操作，对文本的关键信息进行捕捉和聚合。
- 循环神经网络（RNN）：能够利用隐藏状态记住先前的信息，并将其与当前任务相连接，有效处理文本序列中的依赖关系，适用于情感分析、机器翻译等任务。其中，长短期记忆网络（LSTM）和门控循环单元（GRU）通过引入门控机制，克服了普通 RNN 的梯度消失问题，能够更好地捕捉长距离依赖。双向 LSTM 则进一步拓展了传统 LSTM，同时处理正向和反向的输入序列，获取更全面的上下文信息，在命名实体识别和情感分析等任务中性能优异。

- **自动编码器**：作为深度学习中的编码器 - 解码器结构，先将输入特征压缩为低维表示，再尝试重构输入，可用于降维处理。在生物信息学等领域，遗传学家利用自动编码器识别氨基酸序列中与疾病相关的突变。
- **编码器 - 解码器序列到序列（Seq2Seq）**：专门针对翻译、摘要等任务对自动编码器进行改进。编码器将文本信息编码为向量，解码器则根据该向量生成所需的输出，如翻译后的文本或摘要内容。

- Transformer：凭借其独特的自注意力机制，摒弃了循环结构，能够一次性处理所有单词，大幅提高了训练速度和推理效率，尤其在处理长序列时优势明显。它在 NLP 领域引发了革命性的变革，催生了 BLOOM、Jurassic - X、Turing - NLG 等一系列强大的模型，并成功应用于多种视觉任务。

- Transformer 关键概念
- 自注意力机制：使模型在生成输出时能够聚焦于输入序列的不同部分，通过计算输入特征的加权和，权重由各特征之间的相关性决定，从而动态地捕捉文本中的语义关系。

- 多头注意力：通过使用不同的权重矩阵（头）多次计算注意力，并将结果拼接，使模型能够从多个角度捕捉单词之间的复杂关系，进一步提升模型的表达能力。
- 位置编码：由于 Transformer 本身缺乏对单词顺序的感知，位置编码被添加到输入嵌入中，为模型提供单词在序列中的位置信息，确保模型能够理解文本的顺序结构。
- 前馈神经网络：在注意力机制之后，数据通过前馈神经网络进行处理，对每个位置分别进行相同的变换，进一步提取和整合特征。
- 层归一化和残差连接：在 Transformer 模型的每个子层中，通过残差连接和层归一化操作，有效缓解了深度神经网络训练过程中的梯度消失和梯度爆炸问题，稳定模型训练过程，提升模型的泛化能力。

四、现代 NLP 中的重要学习策略

迁移学习：这一技术允许在新的相关任务上使用预训练模型，只需进行少量的额外训练。例如，在自然语言处理中，我们可以利用在大规模通用语料库上预训练的模型，如 BERT，将其应用到特定领域的文本分类任务中。通过这种方式，能够充分利用已有的知识，大大减少对大规模标注数据集的需求和冗长的训练时间，显著提高模型在新任务上的性能。
微调：通过使用额外的特定任务训练数据，对预训练模型进行适应性调整。比如，对于一个预训练的语言模型，在特定的情感分析数据集上进行微调，使模型能够更好地适应情感分类任务的特点和要求，从而在该任务上取得更优异的性能表现。
零样本学习：模型凭借其积累的一般知识，能够执行未经过专门训练的任务。这展示了模型强大的泛化能力，使其能够在面对新的、未知的任务时，利用已有的知识和语义理解进行合理的推断和处理，无需大量特定任务的训练数据。
少样本学习：模型能够从极少量的示例中进行学习，有效减少了对大量标注数据的依赖。在实际应用中，当标注数据获取困难或成本高昂时，少样本学习能力使模型能够快速适应新任务，通过有限的样本快速调整自身的参数和决策边界，展现出高效的学习和适应能力。

在 NLP 的建模领域，这些技术和模型相互交织、协同发展，不断推动着自然语言处理技术向更高的精度、效率和智能水平迈进，为我们的生活带来越来越多便捷和智能的语言应用服务。无论是智能助手的贴心交流，还是文献的智能摘要与翻译，都离不开这些建模技术的支撑与创新。

如果觉得文章对你有用，请随意赞赏

大模型

自然语言处理（NLP）之建模：开启智能语言处理的核心引擎

https://www.chenbaiqi.com/archives/zi-ran-yu-yan-chu-li-nlp-zhi-jian-mo-kai-qi-zhi-neng-yu-yan-chu-li-de-he-xin-yin-qing

作者

柏企

发布于

2025-03-24

更新于

2025-03-24

许可协议

CC BY 4.0

自然语言处理（NLP）之建模：开启智能语言处理的核心引擎

自然语言处理（NLP）之建模：开启智能语言处理的核心引擎

一、命名实体识别（NER）：信息提取的关键利器

二、语言模型：预测文本的智慧大脑

三、传统机器学习与深度学习在 NLP 中的技术碰撞

四、现代 NLP 中的重要学习策略

作者

发布于

更新于

许可协议

评论