文 献 综 述
摘要:
在开放数据时代中,大量有价值的数据库正在Web上被大量发布,数据清洗是使用数据仓库进行准确数据分析的基本要素,因此如何在大规模数据中高效搜索得到查询记录的“相似项”这一问题正被广泛地研究。设计一个支持阈值交集势查询的高效过滤器将显著提高在大规模数据中的相似搜索的性能,即给定两个记录(集合)Q和X,如何快速确定X中是否至少有k个元素属于记录Q,以数学化表达此问题: 。目前,针对这一问题的最新技术是GBKMV技术,它是一种考虑数据分布(即数据库中记录长度分布以及元素频率分布)的索引技术。
关键词: 相似性搜索、阈值交集势查询、Containment相似度、MinHash、KMV。
- 相似性查询处理技术简介
在例如信息检索,机器学习和用户推荐的许多应用中,其中的对象(网页、文档、图像)通常会被描述成一组元素(例如:单词,q-gram和item项)的集合。这些应用通常具有大规模数据量的特征,因此在这些应用中,一个非常关键的问题是如何在这些大规模数据中快速高效地获得查询记录的“相似”项,并且如何定义两个对象之间的集合相似度,从而开发相应高效的相似度查询处理技术。给定两个对象(集合),目前在许多文献中已经针对不同的场景(例如[1],[2])确定了多种不同集合间的相似性度量,已经开发了许多索引技术来支持基于这些相似性函数的有效的精确查询技术和近似查询技术。综上,相似性查询技术可以被简单地概述为:给定一个查询记录Q,在拥有大量记录的大规模数据集中查询一组记录集合,其中是其与查询记录Q的相似度大于等于给定的阈值的记录。
在过去,大量对相似性搜索问题的研究中利用到的集合相似度函数主要是对称函数,即给定两个对象(集合)X、Y,,其中为X与Y的相似度。Jaccard 相似度是具有代表性对称性集合相似度函数之一,其中两个记录X和Y之间的相似度定义为,函数中的、分别代表X和Y的交集大小和X与Y的并集大小。基于这一相似度函数而展开的Jaccard相似性查询技术已经被广泛的研究及运用。但在近些年,人们对非对称性集合相似性函数给予了越来越多的研究关注,它们在某些应用中更为合适。containment相似度函数是具有代表性的不对称性集合相似度函数之一,其中两个记录X和Y之间的相似度定义为,函数中的、分别代表X和Y的交集大小和X的集合大小。基containment相似度函数的相似性查询技术即为containment相似性查询技术。
比较Jaccard相似度及containment相似度,后者特别考虑了查询记录的大小,这使其更适合某些应用程序,其中一个很重要的原因是Jaccard相似度将不必要地有利于短记录,在[3]中也提到,Containment相似度在记录匹配应用中更加高效准确。在[4]中也提到了containment相似性查询记录还可以支持在线容错搜索
在[5]中,Zhu等人,也说明了containment相似性搜索对域搜索至关重要,它使用户可以有效地搜索开放数据。
- 阈值交集势查询与Containment相似性搜索简介
阈值交集势查询的定义:给定两个记录(集合)Q和X,如何快速确定X中是否至少有k个元素属于记录Q,以数学化表达此问题 (1)
Containment相似度的定义:给定大规模数据集S中两条记录X和Y,X关于Y的containment相似度是两记录交集的大小除以记录X的大小,公式定义为:
以上是毕业论文开题文献,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。