相似性度量笔记|Little Stone - Huan Li's Blog
文章推薦指數: 80 %
相似度计算用于衡量对象之间的相似程度,在数据挖掘、自然语言处理中是一个基础性的过程。
其中的关键技术主要是两个部分,对象的特征表示,特征集合之间的相似关系。
在信息检索、网页判重、推荐系统中,都涉及到对象之间或者对象和对象集合的相似性的计算。
而针对不同的应用场景,受限于数据规模、时间空间开销等的限制,相似度计算方法的选择又会有所区别和不同。
以下会针对不同特点的应用,进行一些常用的相似度计算方法进行介绍。
向量空间模型(Vector space model)是应用最广泛的一个基础