相似性度量笔记｜Little Stone - Huan Li's Blog

2024-11-22

文章推薦指數： 80 %

投票人數：10人

相似度计算用于衡量对象之间的相似程度，在数据挖掘、自然语言处理中是一个基础性的过程。

其中的关键技术主要是两个部分，对象的特征表示，特征集合之间的相似关系。

在信息检索、网页判重、推荐系统中，都涉及到对象之间或者对象和对象集合的相似性的计算。

而针对不同的应用场景，受限于数据规模、时间空间开销等的限制，相似度计算方法的选择又会有所区别和不同。

以下会针对不同特点的应用，进行一些常用的相似度计算方法进行介绍。

向量空间模型（Vector space model）是应用最广泛的一个基础