面向学术社区的学术信息搜索引擎功能设计

时间:2018-01-25 编辑整理:早发表网 来源:早发表网

近年来,国内高等院校和研究院所等科研机构的科研活动日益活跃。以国内外发表的被SCI、EI和ISTP索引的论文数量为例,2008年我国学者发表的国际科技论文数量,从1999年占世界发表论文总数的3.3%,发展到2008年的11.5%,绝对数量为27.1万篇,排名世界第2位[1]。在这样的形势下,提高学术能力是对科研人员的一个迫切要求。对于一位学者来说,尽量广泛地查找相关领域的文献以及对文献进行有效的阅读和深入的理解是最基本的科研能力。互联网上的信息浩如烟海,极其丰富,学术资源和各种不同的文档掺杂在一起,通用的搜索引擎难以将我们需要的学术资源分拣出来,容易造成准确率低下;另外,对文献资料检索结果的排序也有特定的要求,因此,查找文献需要借助于专业化的搜索引擎。对科研用户来讲,找到尽量全面的资料要比在前几个查询结果中尽可能地找到最准确的资料更为重要,所以学术搜索引擎在保持准确率的同时,更应该重视提高查询结果的召回率。现实世界中,有相同研究兴趣的科研人员常常会组成一个团队,对某些文献或学术观点进行讨论,这对理解文献的内涵、更深刻地理解所研究的领域、提高科研能力有很大的益处。然而由于受到物理距离的限制,这样的团队常常局限于同一院所内部。近年来Faeebook、Twitter等社交网络的兴起,拉近了人们之间的沟通距离,这为分散于世界各地的学者一起进行沟通交流提供了条件。建立一个学术社区,在社区中,对普通用户而言,一方面的需求是能够方便地获取到论文或其它资源;另一方面,与作者本人或者其他用户进行广泛的讨论,从而深刻地理解作者的思想,是一个更重要的需求。对一个学者来讲,一方面是向公众展示自己发表的论文和其它研究成果;而更重要的是希望通过在学术社区中的讨论,可以使自己的思想得到传播,这无疑对增加论文的引用率,从而提高自己的学术声卑有巨大的帮助。由此可见,建立一个氛围良好的学术社区是十分有意义的。

本文提出了一个结合学术社区,建立学术搜索引擎的方案。在这样一个学术社区内,用户可以按照关键字或者主题搜索相关论文;系统可以根据用户的研究兴趣,为用户自动推荐最新的相关论文;另外还可以自动管理用户的学术资料,如果用户有新论文发表出来,系统将会提醒用户将论文收藏到自己的主页中,这样就极大地方便了用户对自己资料的管理,同时可以让其他用户及时地了解到自己的最新工作进展。本文第2节提出了相关的研究工作并列举了现有的一些学术搜索的特点;第3节给出了面向学术社区的学术搜索引擎的功能设计;第4节给出了系统的架构设计。讨论了文献资料整合算法,然后针对中文姓名提出了一个高效的分词算法;最后是结论。

2相关工作

学术搜索引擎是一种面向学术领域的垂直搜索引擎。对于垂直搜索引擎,近年来人们开展了大量的研究工作,如Almpanidis G等设计了一个潜在语义索引分类器,将网页的内容和网页问的链接情况结合起来分析后对文档内容进行分类,确定该网页属于搜索的主题后将其纳入索引中,这一分类器的优势是仅需要少量的训练样本就可以使搜索结果同时达到较高的准确率和召回率[2]。垂直搜索中处理的信息多是结构化或半结构化的数据,Nie Zai—qing等人据此提出了一种新的搜索模式,将要处理的信息看作一种对象,把分散在网络中不同地点的信息整合成统一的对象,然后以对象作为搜索结果进行排序[3]。他们以此技术为基础实现了Libra AcademicSearch,它是微软学术搜索引擎的前身。Zhou Ya-qian等针对垂直搜索引擎,设计了一种智能的网页重爬算法,其可以学习抓取规则从而选择有较高的覆盖率和较低冗余度的页面集合,所以只需要很少的种子地址就可以爬取到大部分对象页面[4]。与Nie Zai-qing等人提出的对象概念类似,寇月等将抓取的信息看作是一个实体,综合利用文本匹配、语义分析和分组统计对实体进行识别,可以有效地解决信息收集过程中的数据纠错、消重和整合问题[引。针对学术搜索,Tang Jie等提出将主题模型(Topic lModeling)的方法应用于学术搜索,同时将论文、作者、发表刊物等信息纳入到模型中,然后将这一模型整合进随机游走(Random Walk)的框架,实验结果表明这一方法与BM25和语言模型(Language Model)相比有明显的优势,比pLSI、LDA、AT等现有的主题模型也要好[引。Ye Wang等人认为现有的学术搜索引擎只是返回排好序的平面的结果而没有做进一步处理。从这一点人手,他们设计了一个搜索和排序策略,从返回的搜索结果中发掘潜在的知识[7]。Lee Dong-wen等人设计了一个垂直搜索引擎原型LeeDeo,专门用于搜索学术视频。他们对爬取视频、对视频进行筛选分类、从视频中提取元信息、索引视频等角度进行了探讨。

除理论研究外,业界也推出了相关的产品,如Scirus、Google Scholar、Microsoft Academic Search、CiteSeer、DBI,P等。国内也推出了中国知网、万方数据知识服务平台、维普资迅、专门搜索国内期刊论文的期刊界和类似于DBI。P的的学术空间C—DBI。P。它们都具备了文献搜索功能,但是大多数没有提供网上学术社区。只有CiteULike为用户提供了收藏论文的功能,可以为用户推荐他町能感兴趣的论文,用户也可以加入某个团队进行讨论,但由于其易用性或其它方面的原因,团队讨论的热度不够。Bogers Toine等阐述了CiteUI,ike所采用的3种推荐算法,经过测试发现基于用户的协同过滤算法效果最好。传统的学术搜索引擎的搜索对象是论文、著作等文献资料,而清华大学知识工程研究室的唐杰等人将搜索的对象转移到人,一方面从网络中自动搜索学者的资料,如教育背景、研究兴趣、发表的论文、学者主页等;另一方面挖掘学者间的社会关系,如导师与学生,论文合作者等Ll引。根据这些成果,他们设计了并推出了Arnetminer系统(http://www.ametmi-ner.org)。下面将介绍几个有代表性的学术信息搜索引擎。

1)Google Scholar

Google公司于2004年11月18日在Google实验室推出Google Scholar,并于2006年1月11日推展到中文学术搜索。Google SCholar收录了论文、图书、科技报告、文摘等多种学术资源,内容涵盖了自然、人文、社会等多种学科。同时支持中英文等多种语言的论文搜索。2)Microsoft Academic SearchMicrosoft Academic Search是由微软亚洲研究院于2006年4月份推出的。目前只支持英文文献的检索。它索引了240万篇计算机领域的文章,其它领域的文章有410万篇。它对计算机内的领域做了很好的划分,人们可以很容易地查找某一领域内有代表性的论文、著作,有突出成果的专家、研究机构,以及相关的会议、杂志。

3)Scirus

Scirus是由Elsevier Science运营和维护的综合性科学搜索引擎,于2001年4月投入使用。它从3.8亿个学术性质的网页获取科学信息,另外还有8.6亿条从其它专门的合作机构中获取到的信息。它不仅包含了论文、著作等信息,还包含了科技新闻等资源。

4)DBI。P

DBLP是由德国特里尔大学(University of Trier)的Mi—chael Ley开发并维护的一个面向计算机领域的以作者为中沁的文献搜索引擎,从1993就开始提供服务。目前索引了140万条论文资料。这些资料经过了人工整理,与从网络上自动搜索信息的引擎相比,DBLP的内容更具权威性和可靠性。DBLP中的数据可以直接在网络上下载(http://dblp.

uni-trier.de/xrnl/dblp.xml)。

5)中国知网(CNKI)

中国知网是国内权威的学术网站,它提供的中国知识资源总库,包含了期刊、博士(硕士)学位论文、会议论文、专利等多种学术资源数据库,为用户提供全文检索服务,内容丰富,目前已收录了超过一亿条文献资料。该服务属于付费服务。

6)万方数据

万方数据知识服务平台是国内另一个比较著名的学术资源检索网站,它同样包含了学术期刊、学位论文、会议论文、专利技术、中外标准、政策法规等多种资源,另外还有部分外文文献,共有65,191,323条记录。它对未注册用户提供了基本的浏览服务,可以查看期刊、会议的目录和文献的题目、作者、摘要等基本信息,但下载全文时需付费。

7)学术空间(C--DBI。P)

学术空问(C--DBI。P)是由孟小峰教授领导的中国人民大学网络与移动数据管理实验室开发的,类似于DBLP,是面向国内计算机领域的学术信息搜索引擎。其收录了国内计算机领域公认的权威期刊和核期刊,如软件学报、计算机学报、计算机科学等共12家期刊;会议方面收录了自2000年以来的中国数据库学术会议(卜脚C),总共有5万余篇文献。C—DBLP以作者为中心,可以自动抽取作者单位、研究兴趣,另外还提供了与Microsoft Academic Search类似的可视化的合

作关系视图。

3面向学术社区的学术信息搜索引擎的功能设计

上一节讨论了多个学术信息搜索引擎,它们或提供了全面的检索服务,或以作者为中心进行检索;或提供中文文献的搜索,或提供英文文献的搜索,或兼而有之;或收费,或免费。它们各有特点,但都有一个不足之处:它们大都没有提供学术社区;少数提供了社区功能的,也没有被用户广泛接受。如果为学术搜索引擎提供一个易于使用的学术社区,将能够为用户提供更好的服务。基于学术社区中的学术信息搜索引擎应具备以下功能。

·用户论文搜索

对于在社区中注册的用户,系统应能够根据其姓名自动在后台搜索他最近发表的论文、著作、专利等科研成果,避免用户手动输入相关信息,方便用户管理其学术信息。中文姓名本身经常有重名现象发生,在英文论文中,把中文的姓名转换成拼音后,重名现象更多。而在部分论文和杂志中,作者的名字常常只给出名字的首字母,这更加剧了重名现象的突出性。基于学术社区的学术信息搜索引擎应该解决作者重名问题,避免把其它作者的论文推荐给用户。作者重名判定实质上是一个二类分类问题,可以在收集到足够的数据后,利用支持向量机或者决策树等机器学习的方法训练一个分类器进行判别。如果我们做以下假设:用户发表的论文与用户的研究兴趣相关;用户发表的论文与之前发表过的论文是主题相关的;用户的好友以及之前论文的共同作者有可能在新论文中再次出现,那么就可以利用用户的资料作为特征对新论文进行判定,如作者的研究兴趣、之前发表论文的主题(可通过关键字获得)、单位信息、作者的好友与之前发表论文的合作者等。

·论文搜索

用户输入几个关键词后,系统可以搜索相关的论文,按照相关度、发表时间等因素进行排序后,显示给用户。这里要研究的是搜索引擎的经典算法——排序。

·论文推荐

用户收藏、阅读几篇论文后,系统应该可以根据用户的阅读习惯推荐相关的其它论文。这与论文搜索不同,论文搜索的任务是查找最相关的论文,而在论文推荐中,除了要考虑论文本身与用户研究兴趣的相关性外,还应该考虑用户的阅读习惯。例如,中国的学者除了喜欢阅读地道的英文论文外,由于不同国家表述英文存在着细微的差异,因此他可能更喜欢阅读中文论文,或者同是中国人写的英文论文,而不太喜欢意大利或其它某个国家的作者撰写的论文。

·专家查找

系统应具有查找在一定研究领域内比较著名的专家学者的功能。这里需要研究的是如何确定学者的知名度。一个初步的方案是考察学者的H—index和G-index。

·学者主页定位

学者主页是包含了学者基本介绍、学术经历、研究兴趣和目前的研究成果的网页。主页定位在学术社区中具有很强的实用价值:可以将作者的最新信息抽取出来反应到他在学术社区中的主页上,便于用户了解作者的最新动态。这也有助于改善学者的体验,尤其对于作者刚刚录用尚未发表的论文,在学术数据库查不到相关信息,但作者通常会把它放在自己的主页上。如果能够将这种信息自动更新到作者在学术社区中的主页上,那将给作者带来很大的便利.


职称
论文

期刊
发表

加急
见刊

写作
咨询

课题
专答

编辑
顾问

关注
我们

返回
顶部