本课题基于商品评论出发进行设计电子商品系统。电子商务中介的迅速发展,是电子商务业发展的必然需求, 能够有效促成成本的最大化,提升盈利的空间。大量的成功实践证明电子商务能够提升交易效率,降低交易成本,实现最大的效益。能够感知市场上更多的机遇,更加丰富的资源,使交易的速度更加快捷、方式更加方便。电子商务中介的应运而生,是用来匹配电子商务发展进程的。其对信息对称性的程度具有极大的推动性,能够为供应商提供有效信息,为顾客提供可靠的市场。 电子商务中介的出现是必然趋势。
对于商品评论情感分析问题。由于在一条评论文本中用户对于商品的不同
维度可能存在不同的情感倾向性,传统基于句子、篇章等的情感分析方法并不适用。应提出了一个多维度商品评论情感分析的方法框架,旨在于抽取用户对不同商品维度的情感倾向性。在该方法中,对于一个初始|的商品评论长句,本文提出使用基于卷积神经网络的方法对句子进行切分。经过切分后的每个短句中只包含用户对最多一个商品维度的评价。对于每个短句,使用文本和维度关键词之间的相关性将其与一个商品维度建立映射关系,并最后在该商品维度下进行情感分类。针对情感分析中相同的情感词在不同的商品维度下表现出的情感极性可能不同的问题。
然而人工构建的方法基于一些领域专家定义的情感词,该方法较为耗时,并且对不同应用不同场景的泛化能力较弱。在基于字典的方法中.通常使用对种子词语进行扩展的方法抽取情感词典。在初始的种子词典基础上,使用一些广泛使用的通用词典(例如Word-net)来识别种子词典中词语的近义词和反义词,进而对情感词典进行扩充。作者假设同义词之间具有相同的情感极性,基于这个假设,同义词关系和反义词关系可以被用来抽取情感词语。作者将两个词语t1和t2之间的距离d(t1,,t2)定义为t1和t2在WordNet中的最短路径,而词语t的极性定义为如下的公式其中|SO(t)|代表了词语t的情感强度,当SO(t)gt; 0时,t为褒义词,反之则为贬义词。基于字典的情感词典扩充方法的主要缺点是常用的字典均为领域独立的通用字典,因此这些字典中的词语没有包含不同领域具有区分性的特征。我们知道许多词语在不同领域中的含义不一样,这一信息的缺失使得基于词典的方法在对不同领域的情感词典进行扩充时效果较差。在基于语料库的情感词抽取方法中,一个规模较大的语料库被用于训练并抽取出情感词集合,接下来这些情感词将作为种子词去抽取更多的情感词并最终构建出一个较为完整的情感词典。1997年Hatzivassiloglou和McKeown首次提出基于语料库的情感词典构建方法。在该文章中,作者提岀了情感一致性(Sentiment Consistency)的概念,并使用在不同语境下情感极性保持一致的词语建立种子情感词集合。接下来,作者使用人工定义的一些关联规则,比如“与(AND) ”、 “或(OR) ”、“既不-也不(NEITHER-NOR)”等来识别更多的情感词。在[96]中,作者使用种子情感词和候选情 感词语之间的语义相似度信息来抽取情感词语。提出了一中基于统计估计的方法来抽取情感词。通过使用一种双向传播(double propagation)的方法同时抽取岀领域相关的情感词语和情感评价单元。该方法使用minipar分析器对语料中的句子进行分析,然后抽取出句子中情感表达式和情感评价单元间的关系。
现代汉语的句子和古汉语切分研究有所不同,现在汉语的分词和词性标注研究时间 较长,可以使用上下文的词袋和词性特征进行句子 切分。针对不存在标点情况下的句子切分问题,本文 提出使用机器学习的方法对长句进行切分。将句 子切分问题定义为一个二分类问题,首先对大规模 的评论文本语料提取其统计特征,根据这些统计特 征,对于一个不含终结符号的评论长句,抽取长句 的候选切分点集合。其次对每个候选切分点,根据 大规模评论语料的统计特征提取句子的上下文词 袋文法特征以及上下文词性特征,并抽取候选切分 点前后的长度和词性数量特征,最后使用逻辑回归分类器对候选切分点进行分类,判断其是否为切分点。
切分方法的实现包括如下步骤:
(1)大规模评论语料统计特征抽取
首先在大规模商品评论语料中抽取标点符号上 下文的词袋 n-gram 词性模型,这
2个模型将用于接下来的候选切分点抽取以及候选 切分点二分类的特征抽取。
以上是毕业论文开题文献,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。