1.背景
所谓突发即在一定时间内发生的异常大量的事件,在各个领域中,突发事件的实时检测已经愈发重要。旧时人们获取信息的渠道和能力受限,仅依靠书信,电报,电视等通讯工具,短时间内难以接触到大量的突发信息。随着计算机科学技术的发展,互联网上的突发事件成指数级爆炸增长,例如电子邮件、新闻、个人博客等每天就会有数以亿计的文件流产生,里面的主题各有不同,然后它们在互联网中迅速消失。
提前检测这些信息流中的主题对各方面用户都是十分重要和有价值的,例如:金融突发事件中的一些信息可能导致股价波动,对于投资者而言,提前检测突发可以规避风险,制定更好的投资策略;对于银行等机构,提前检测突发可以及时调整放贷策略,以便更好的服务企业和投资者,避免出现坏账烂账;对于企业来说,及时了解突发事件,可以制定更加完备的市场策略,同时尽量避免负面公共事件的影响。因此,金融新闻流中的突发检测要求有较高的时效性,可靠性和实用性。
2.研究现状
如何通过建立数据结构检测突发并分析这些事件中的信息即突发检测技术,新闻流中的突发检测要求在每个新事件发生后都能判断是否为突发事件,同时能够为事件的权重作出一定分析并及时提取出事件中的关键信息,在旧事件过期之后,可以迅速删除它的数据空间以避免计算资源的浪费,这对分析突发的数据结构的效率提出了较高的要求。
目前主要有两种方法用以检测突发,第一种是对突发的事件用时间序列模型或随机点过程模型进行建模,来分析文档流,这种方法需要检测整个数据流,因此将这类方法应用于实时检测将有计算量过大的挑战;第二种则是提出一种有效的多时间窗算法,该方法通过截取时间窗口的大小来实时检测突发事件,它计算时间窗口中的事件发生聚合并存储每个周期中每个事件的聚合。因此,冗余计算的数量往往十分庞大。
现实中,我们接触到各种文本信息,大多是以相应的事件来组织的。针对每个特定事件,涉及的相关文档都会有相应的时间信息,我们称这种时间信息为文档的到达时间。 针对某个特定事件,涉及的相关文档的按到达时间顺序形成文档数据流。这种文档数据流天然的包含有序的时序信息,通过这种时序信息,我们能观察到事件是何时发生的,何时突然爆发,又何时衰退的,比如“天津爆炸案”。在TDT(topic detection and tracking)领域,如何检测和追踪突发事件是一个重要的研究方向。由此,Kleinberg[1]提出了一种新的思路:即根据事件发生的时间序列来建立一种突发检测模型。它讨论了如何对突发数据进行建模以及从文本流中提取结构,这种方法是基于使用无限状态自动机对流进行建模,其中突发自然地作为状态转换出现;它可以看作是对突发网络流量的排队论模型的类比,同时他认为,对电子邮件和研究论文档案的实验表明,就产生这些结构的内容而言,产生的结构具有自然的意义。该方法的优点是能够表示每个主题中突发事件的术语、权重和层次结构。然而,由于事件的发生并不能立即分析,因此Kleinberg的方法并不适用于实时突发检测。
Zhu和Shasha[4]提出了一种新的弹性突发检测方法,他们为每个唯一的窗口大小设置不同的阈值,并在窗口上计算的聚合函数超过相应阈值时识别出时间序列上的窗口,为检测多个窗口大小的突发,他们提出了一种新的数据结构即移位聚合树,该数据结构是对移位二叉树的推广。相应地,他们提出了一种新的启发式搜索算法,该算法能够早给定输入时间序列和窗口阈值的情况下,寻找有效的聚合二叉树来实时检测突发事件。但是这种方法也有其缺陷,即便在很长一段时间没有生成时间,也需要大量的计算来更新聚合数据,这种计算量和所要观察的事件数量是成比例增加的,当要检测文档流中单词发生率不均的大型事件时。不适合用此方法实时检测。
Ebina[1]对该方法进行了改进,他的目标是能够实时检测数据流中的突发事件,一般来说,突发分析会遇到三个难点:一个是在按时间段分析时需要进行冗余计算,使得在没有生成事件时也能更新数据结构;另一个是在按事件发生分析时,当大量事件集中在特定时间段内需要进行及其繁杂的计算;还有一个是在两种分析方法中,当事件发生频率较低时,他们都无法检测到突发。Ebina等提出的新方法解决了这些问题,它分析每个事件生成时的突发来减少未生成事件时每个时间段内的计算量,同时通过将多个事件压缩为一个事件,这样解决了事件成堆出现的麻烦,此外,该方法通过与前一时间段的对比来检测突发,这样即使事件发生的频率较低,也大概率可以被检测到。通过与ZhangandShasha [5]提出的聚合金字塔模型进行CPU时间的对比,该方法证实了能够进一步减少内存的使用以实时观测更多数据的突发。
此外,针对客户可能在购物时一时兴起购买某种商品的主观突发现象,Zhao[3]等设计并实现了一个名为BurstGraph的新框架,该框架既可以捕获循环模式又可以捕获一致的模式,尤其是突发网络突发变化。 他们在模拟数据集和世界领先的电子商务公司数据集上均展示了所提出算法的性能,表明该算法能够根据行动倾向区分反复发生的事件和极端突发事件。
以上是毕业论文开题文献,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。