大数据时代,这些你都了解吗?

半自动法介于人工法和自动法之间 , 利用技术手段的同时辅以相关学科专家的指导 , 在减轻专家劳动力的同时又能提升本体构建的准确性 。魏顺平等人就提出了一种面向文本数据的教育领域本体半自动化构建方法 。
大数据时代,这些你都了解吗?
文章图片

文章图片
命名实体识别技术实体是教育知识图谱中最基本的元素 , 实体识别则是教育知识图谱构建过程中最基础、最关键的步骤 。目前 , 命名实体识别技术所采用的方法包括:基于词典和规则的方法、基于统计机器学习的方法以及近年出现的基于深度学习的方法 。
大数据时代,这些你都了解吗?
文章图片

文章图片
基于词典和规则的方法该方法通过学科领域专家和语言学者手工制定相应的领域词典或规则模板 , 而后采用正则表达式进行匹配 。其中 , 在模板制定的过程中 , 主要考虑词性、关键词、词的位置、指示词和方向词等特征 。这种方法虽然识别的准确度高 , 但编制词典或制定规则存在耗时耗力、领域迁移性欠佳等问题 , 仅适用于简单的识别系统 。
大数据时代,这些你都了解吗?
文章图片

文章图片
如 , 任函等人采用定义规则模板的方式构建了教育领域知识图谱 , 并将其应用于智能教学系统中的互动问答 。基于统计机器学习的方法基于统计机器学习的方法 , 包括隐马尔可夫模型、最大熵模型、条件随机场模型等 。
【大数据时代,这些你都了解吗?】其中 , 隐马尔科夫模型在命名实体识别方面取得了很好的效果 , 该方法将命名实体识别任务简化为序列标注问题 , 即给定一个观测序列 , 求解一个联合概率 , 使得标注序列达到最优化;而最大熵模型通过熵最大原理来求解特征函数;条件随机场模型则应用条件概率原理来处理序列标注问题 。上述方法需要将大量人工提取的特征 , 送入模型中来实现实体的标记 , 虽然能够取得较好的效果 , 但其人工特征提取过程增加了模型构建的难度 。
大数据时代,这些你都了解吗?
文章图片

文章图片
实体关系挖掘能够判别已经识别出的实体 , 是否具有指定的语义关系类型 。目前 , 实体关系挖掘技术的主流方法大致分为以下三种:有监督的学习方法、半监督的学习方法和无监督的学习方法 。
有监督的关系挖掘方法主要包括:基于逻辑回归的方法、基于核函数的方法、基于条件随机场的方法 , 但这些方法存在的最大问题是需要人工标注大量的训练数据集 。
针对该问题 , Mintz等人提出了远程监督的想法 , 通过借助已有知识库来辅助实体关系的挖掘 , 这在一定程度上降低了标注语料的依赖性 。此外 , 为解决实体之间存在的多语义关系问题 , Hoffmann、Surdeanu等人分别提出了基于多实例、多标签和贝叶斯网络的建模方法 。
大数据时代,这些你都了解吗?
文章图片

文章图片
近年来 , 随着深度学习在模式识别领域的成熟应用 , 关系挖掘任务逐渐转向了基于深度学习的研究 。Socher、Zeng等人分别提出了基于递归神经网络、卷积神经网络的关系挖掘方法 。
大数据时代,这些你都了解吗?