针对特定任务的学术论文研究方法与被引相关性研究文献综述

 2022-11-28 18:58:09

针对特定任务的学术论文研究方法与被引相关性研究

1 引言

随着互联网和信息产业的高速发展,通过网络能够获取的非结构化文本数据也呈指数级增长,面对海量的文本数据,如何从这些海量数据中快速、准确地分析出真正有用的信息,显得尤为关键和紧迫,而信息抽取技术也逐渐受到了人们的关注。信息抽取(Information Exaction)的主要功能是从文本中抽取出特定的事实信息,这些文本可以是结构化、半结构化或非结构化的数据[1]。信息抽取的任务是从大量数据中准确、快速地获取目标信息,提高信息的利用率。目前,信息抽取已经成为NLP领域的一个重要分支。

随着计算机技术的发展,自然语言理解和文本挖掘研究的不断深入,以及数字人文研究的兴起,文本语义层面知识显得愈发重要,而命名实体作为文本中重要的语义知识,其识别和分类已成为一项重要的基础性研究问题。命名实体识别(Named Entity Recognition)是信息抽取的基础性工作,其主要任务是识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语并加以归类[2],为信息抽取后续工作提供便利。在自然语言处理应用领域中,命名实体识别是信息检索、知识图谱、舆情分析、机器翻译、情感分析、问答系统等多项自然语言处理应用的重要组成部分。命名实体识别在各类学科、各领域文本中均得到了大量的尝试,其中生物医学领域中各种实体的识别的研究最为成熟和成功。此外,在社交媒体、化学实体、旅游实体、古籍文本中的人名、地名等诸多领域都发挥了积极的效果。因此如何使用恰当的研究方法从海量的互联网文本信息中自动、准确、快速地识别出命名实体,逐渐成为了学术界关注的热点问题。为此,本课题针对命名实体识别这一特定任务,以学术论文全文为研究对象,探究学术论文中各类研究方法(包括算法、模型、数据集、指标、工具和语言规则等)和论文被引频次的相关性。本课题的研究意义在于:对命名实体识别任务中使用的研究方法进行系统的、全面的收集和梳理,从侧面反映研究方法的影响力,帮助初学者快速、全面地了解命名实体识别任务中流行的有效的研究方法,为他们的工作选择合适的研究方法,提高科研效率。

2 文献综述

本章节将对国内外的一些研究现状进行简单概述,包括方法抽取研究、学术论文被引频次研究以及研究方法评价研究。

2.1 方法抽取研究现状

方法实体抽取的方法主要可以分为基于规则和词典的抽取方法和基于统计机器学习的抽取方法。从准确率上来讲,基于规则的方法比基于统计的方法性能好[3],而从系统可移植性上来讲,基于统计的方法具有较好的移植性,移植时只需要将语料重新训练一遍即可。所以说,两种方法各有优缺点。

2.1.1 基于规则和词典的方法

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题文献,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。