当前位置: 智能网 > 人工智能 > 清华大学研究团队获KDD 2020首届时间检验应用科学奖

清华大学研究团队获KDD 2020首届时间检验应用科学奖

放大字体 缩小字体 发布日期:2020-08-23 18:17:35   浏览次数:95


个人自动信息抽取

作者首先通过扩展“朋友之友(FOAF)”来定义研究者档案,包含研究者的基本信息(如研究者的名字、照片、职位、工作单位等),研究者的联系信息(如研究者的电话、传真、通讯地址、Email 等),研究者的教育经历(如毕业学校、获得学位的时间、每个阶段所学专业以及所发表的论文)。

研究者个人信息抽取分三步:相关页面识别、预处理和信息提取。

在相关的页面识别中,对于每个研究者,通过 Google 搜索引擎的 API 获得网页列表,并判断是否是研究者的主页或者包含了较多的研究者个人信息的介绍性网页。然后,使用支持向量机(SVM)作为分类模型对网页内容进行分类处理。

在预处理中,将文本进行标记处理,系统利用条件随机场(CRF)作为标记模型,来确定最可能的对应标记序列,每个标签对应一个定义的属性。

作者使用规则归纳模型算法和SVM模型方法作为概要文件提取的基准,通过研究每种特征类型在研究者档案提取中的作用,发现仅使用一种类型的功能无法获得准确的性能分析结果。

YouTube 网红程序员,修复美、日、俄多国古老街景视频

图2 :研究者个人主页和理想的标注结果

图2中的左侧给出了一个典型的研究者个人主页,其中包含研究者的姓名、照片、通信地址、Email地址、教育经历等信息,图的右侧显示了最终想要的理想的标注结果。

分析数据发现,个人信息的各个属性之间有依赖关系,而且有的属性之间有很强的依赖关系。

研究者重名排歧

对于网络上不胜其数的同名作者,如何精确的定位一位作者成为一大难点,同名作者文章的排歧工作面临每篇文章信息量有限和作者相关描述不确定性强的难点。
之前的研究工作中,采用监督学习算法对每个排歧目标的数据进行学习和训练,这种方法可扩展性差;无监督学习方法受到可利用信息量的限制,排歧效果不太强。

针对这些问题,作者在文中提出了一个基于隐马尔可夫随机场(HMRF)的概率框架,该框架可以捕获每篇论文之间的依赖关系,从而更加灵活地将各种知识以约束的形式放到算法中,从而很好地利用各种指导和数据来提高重名排歧的精度。

具体而言,利用隐马尔可夫随机场理论构造目标函数,将整个问题转化为最小化目标函数问题。目标函数主要包含两个部分:

一是聚类的每个类别中数据点之间的距离,用来衡量每个聚类结果的紧密程度;

二是当前聚类结果所违背的所有约束的惩罚值之和。

整个算法的目标是找到内部紧密而且尽量少违背约束的聚类结果,来作为同名排歧的结果。作者在文中通过大量的实验数据,证明这一方法在消除重名方面明显优于传统方法。

YouTube 网红程序员,修复美、日、俄多国古老街景视频

图3 :一个重名排岐的实例

图 3 给出了一个重名排岐的实例。图中每个点表示一篇论文,每条有向边表示两篇论文之间的不同类型的关系,这些关系即可以转化为上述约束。两个点之间的距离反应了它们在内容上相似度。实线框表示论文属于同一个作者(聚类类别)。

从图中可以非常直观地看出,仅根据内容相似度不能取得很好的聚类效果,但是不同类型的关系对于区分不同的作者非常有效。例如,根据节点3和8之间的合作关系,很容易将它们分配到同一个类别。

异质网络建模

学术网络建模对于任何搜索或建议任务都是至关重要的。传统上,信息通常是基于“词袋(BOW)”模型来表示的。

AMiner 提供的核心服务是专家搜索,即根据用户查询的话题找出在相关领域的权威专家。因此,仅仅依靠关键词进行专家匹配,几乎无法返回有效的结果。而如果我们知道自然语言处理领域的权威会议是“ACL”等,根据研究者发表的会议信息,就可以很容易判断出他是否是该领域的权威专家。

因此,作者提出了一个统一的主题模型 ACT,同时对研究者论文、作者和会议的主题进行分布建模,设计了一种可以有效地利用学术网络的异质实体与关联信息,来发现领域内专家方法。

文章提出主题模型 ACT 对研究者异质信息网络统一进行建模,从中估计出不同类型的实体,包括研究者、会议、关键词以及论文在不同隐含话题上的概率分布。

YouTube 网红程序员,修复美、日、俄多国古老街景视频

图4 构建话题模型生成研究者异构信息网络

ACT1 模型:每位作者与主题上的多项式分布相关联,并且论文中的每个单词和会议标记都是从抽样的主题中生成的。

ACT2 模型:每个“作者-会议”对都与主题上的多项式分布相关联,然后从采样的主题中生成每个单词。

ACT3 模型:每位作者都与一个主题分布相关联,并且在为论文中的所有单词标记采样主题之后,生成会议标记。

有了这些概率分布,当用户给定一个查询词,就可以推断与之概率分布相近的专家,进而还可以推断出相关的会议和论文等异构网络中存在的各种实体类型。

3  
 
关键词: 研究者 作者 论文

[ 智能网搜索 ]  [ 打印本文 ]  [ 违规举报

猜你喜欢

 
推荐图文
ITECH直流电源在人工智能领域的应用 基于朴素贝叶斯自动过滤垃圾广告
2020年是人工智能相关业务发展的重要一年 我国人工智能市场规模、行业短板、发展前景一览
推荐智能网
点击排行

 
 
新能源网 | 锂电网 | 智能网 | 环保设备网 | 联系方式