什么是pmi（pmi如何计算）-数经笔记(未授权)

欧易（OKX）交易所

欧易交易所新用户永久20%手续费返佣注册入口。

摘要：

本文主要讲解了计算PMI（Pointwise Mutual Information）的基础概念和方法，PMI是衡量两个事件之间关联度的一种方法，被广泛应用于自然语言处理、信息检索、机器学习等领域。本文将从四个方面对PMI的计算方法进行详细阐述，包括基础概念、公式推导、实际应用、优缺点等方面，旨在为读者提供全面的了解和深入的认识。

一、基础概念

PMI是指在语料库中，两个事件A和B同时出现的概率与它们分别独立出现的概率的比值，即

PMI(A,B) = log [P(A,B) / (P(A) * P(B))]

其中，P(A)和P(B)分别表示事件A和B发生的概率，P(A,B)表示事件A和B同时发生的概率。PMI值越大，表示A和B之间的相关性越强。

二、公式推导

PMI计算公式可以从联合概率和条件概率出发，推导得到。具体来讲，对于两个事件A和B，其联合概率和条件概率分别为：

P(A,B) = P(A|B)P(B) = P(B|A)P(A) （联合概率）

P(A|B) = P(A,B) / P(B) （条件概率）

P(B|A) = P(A,B) / P(A) （条件概率）

将以上三个公式代入PMI公式中，可以得到：

PMI(A,B) = log [P(A|B) * P(B) / (P(A) * P(B))] = log [P(A|B) / P(A)]

三、实际应用

PMI在自然语言处理、信息检索、机器学习等领域中有广泛应用。以自然语言处理为例，可以通过计算两个词在语料库中出现的频率和共同出现的频率，计算出它们之间的PMI值，进而找到它们之间的共现关系和语义联系。比如，在搜索引擎中输入“苹果”，搜索结果可能包含“iPhone”、“iPad”、“苹果公司”等。在计算它们之间的相关性时，可以通过计算它们的PMI值，找到与“苹果”词汇相关的其他词汇。

四、优缺点

PMI作为一种衡量关联度的方法，具有以下优点：它可以反映两个事件之间的非线性关系，比如两个事件之间呈现出曲线关系，用PMI可以更准确地反映它们之间的相关性。PMI可以减少冗余信息，当两个事件的同时出现概率很低时，PMI可以消除无效信息，提高计算效率。此外，PMI适用于逆向文件频率（IDF）等相关性计算方法。

但是，PMI也存在一些缺点。当两个事件A和B都很罕见时，它们的共现概率很小，导致PMI值非常大，会导致结果不准确。当语料库中数据量很大时，计算散度（Divergence）时，会出现小数次方次方的问题，导致结果不正确。