微博信息检索中的关键问题

时间:2023-12-30 点赞:49811 浏览:99760 作者原创标记本站原创

本文是一篇信息检索论文范文,信息检索类有关学士学位论文,关于微博信息检索中的关键问题相关本科毕业论文范文。适合信息检索及地理信息及信息系统方面的的大学硕士和本科毕业论文以及信息检索相关开题报告范文和职称论文写作参考文献资料下载。

摘 要微博是由其发布者在一段时间内不断更新的数据组成的,这些更新的状态信息按照时间倒序呈现给其他微博用户.尽管微博的使用越来越流行,但是微博数据的组织方式和在其上的信息检索仍然是一个比较新的课题.本文主要介绍了微博检索中实体检索和情感分析等问题.由于微博信息搜索还是个比较新的研究领域,所以结尾部分分析了在本领域中仍在研究中的亟待解决的问题.

关 键 词微博信息检索

中图分类号:G254文献标识码:A

微博是一种新的信息共享、信息传播和信息获取平台,研究表明许多的微博都包含着提问或者回答问题.人们在搜索微博上的信息时至少有两种方法,一种是在微博上发布问题,以希望他的关系网中的人可以回答此问题,另外一种是提问者在已有的微博数据中查找答案.与在线问答服务相比,微博提问有以下几点不同:(1)它的问题只会被提问者的粉丝看到;(2)提问者以前发表的微博会给回答者提供一定的相关线索;(3)由于微博格式的限制,问题和答案都简洁明了.这与社会上的信息咨询相似,我们会通过咨询认识的人来得到相关信息.在微博上,查询者的问题会仅显示给那些关注他微博的粉丝,即如果我通过微博发布问题,相当于我向我的粉丝来提问.本文主要分析在微博上进行信息检索时的关键问题,主要包括:情感分析与观点挖掘、实体搜索、以及用户元数据.

一、用户元数据

近年来,随着Web2.0技术的发展,在线社会网络受到了人们的广泛关注,各种在线社会网络如雨后春笋般涌现.这些网络的用户数大多都有几千万,甚至几亿,从而产生了大量的节点和网络数据.与早期web服务不同,这种新的服务允许,甚至是依靠用户来创造,编辑和传播信息.在这种社会媒体环境中,用户元数据的大量产生给信息检索带来了不少新问题.

微博社会中,用户可以使用各种不规范的元数据,虽然Twitter本身并不会有太多内容,但是用户会发明和采用各种各样的元数据来使他们的文本内容更加丰富.例如,标签的使用已经在微博社区变得普遍.标签是由#开头的一组简单字符串,人们使用#标签,有的是为了增强点击率,有的仅仅是觉得好玩.例如:在2012年中国网络科学性论坛期间,许多人发表相关微博时,会加上标签#网络科学#,这样人们会很容易通过标签搜索到相关信息.

这种标签检索至少有如下三种用途:

标签检索:帮助查询者找到他十分想要关注的的主题;

查询扩展:标签能为查询扩展提供极其相关的数据;


结果展示:标签能够用来整理查询结果,为所查询返回的文档进行归类.

还有一些用户元数据包含着明确社会链接,微博发布者可以通过@〈用户名〉发布指向某一特定用户的微博,其中〈用户名〉是所指向的用户的网名.Huberman等人发现大约25%的微博包含@指向,大部分的第三方微博客户端会明显地展示所有@他们的用户信息,尽管这些用户并没有关注这些微博的博主.

在新浪微博中,用户有许多不同的方法来使用@符号,一般的结构是:@赵本山打算今年上春晚了吗?另外,我们也经常看到这样的结构:祝贺你@徐铮上映了新的电影#泰#.第一个例子中,微博的发布者是在向赵本山提问,值得注意的是这条消息会被赵本山以及这个发布者所有的粉丝看到.第二个例子表明作者想要定向的广播消息,这样类型的微博会使其他用户感觉到在发布者与“@”的那个人之间存在着社会联系,因而,这样一条消息暗示着两个用户之间的社会联系,另外其中的#标签也同时会将这条微博展示在有关泰的话题中.虽然元数据的使用使人容易产生歧义,微博用户仍然喜欢使用.整理这些元数据以改进检索效果,在微博信息检索中有至关重要的作用.

二、情感分析与观点挖掘

在如今的文本挖掘中,情感分析是我们需要面对的关键问题之一,情感分析早已涉入信息检索研究,它是信息检索研究的重点.大部分的情感分析程序是基于以下两点,一是确定表达观点的词组,二是确定这些词组在所需分析的文档中的重要程度.像其它的SNS数据一样,微博发布的信息也常常表达着某种观点或者情感.通过分析一份微博数据语料集,Diakopoulos和Shamma发现微博数据一般趋向于明显的负面情感.

由于微博在日常应用中常被用来表达某种观点看法,所以观点检测和情感识别问题在微博检索中有很明确的作用.例如,微博数据已被用来做政治观点的评估判断,Tumasjan等人(2010)分析了与德国选举相关的微博样本数据,他们为每个政治家和党派设置“情感描述文件”,指出,这些数据基本真实的反应出了他们选举活动的许多差别.另外,研究者还发现,通过分析Twitter数据,可以预测未来某一时刻消费者信心等事件.

三、实体检索

我们开通微博后,最先要做的一件事,就是选择自己感兴趣的微博进行关注,那么我们应该怎样寻找那些自己感兴趣的用户呢?假如我对某主题X感兴趣,那么谁是X方面有权威的专家,谁经常发布这方面的微博呢?微博上的实体搜索就是解决微博用户类似的一些问题,帮助人们在微博上寻找那些经常发表自己感兴趣的话题的微博用户.实际上,这与早期的信息检索系统类似,人们在检索已被事先收集好的关 键 词,系统将人们的检索信息与事先收集的关 键 词进行比对,最终获得一个相关文献的排序列表.

实体检索时信息检索中比较简单实用的一种,是研究微博最先需要解决的问题之一,这涉及到如何定义检索单元,如何收集和划定关 键 词等问题.在这种检索中,我们检索某一词组时,系统返回的是与检索词相关的那些有影响力的微博用户.最成熟的实体检索模型是专家挖掘,在专家挖掘中,检索的模块是一个与作者查询相关的领域专家.

信息检索文献中已经提出了一些专家挖掘方法,例如在基于虚拟文档方法中,文献的作者由被他所写的所有论文来描述,也就是说,我们为每个作者分别创建一个由他创作的所有论文组成的虚拟文档,然后,我们就可以像以往一样基于这种虚拟文档来进行检索.在微博信息检索中,微博作者列表、微博用户之间公开的聊天数据组和提问与回答对等数据都是在微博实体检索时需要考虑的重要方面.

四、总结

本文已经讨论了一些关于微博信息检索的问题,另外,还有一些对微博检索效果也很重要的影响因素.(1)权威和影响力因素,类似于WEB信息检索中的PageRank,那些被转发很多的微博,或者粉丝很多博主发表的微博,应该在检索结果中体现出来.(2)时间性因素,由于网络事件的突发性,那些最早在发布的相关微博应该在该事件中有较大的影响力.(3)地理位置因素,当我们在北京和上海两地分别查询天气是,检索系统应该根据发布者的地理位置信息给出不同结果.尽管发布者不会自己把地理信息标注在微博中,但是许多微博服务客户端会自动把地理位置标注在微博信息上,也许这些地理信息就包括在我们上文讨论的微博用户元数据中.

微博给人们的信息交互方式带来了很大的改变,人们在微博上写日志、发状态、和朋友交流、关注明星,这与以往的信息检索环境有非常大不同,我们不能局限在对网页和社交网站检索系统的研究成果中,我们应突破已有检索模式,发展适用于微博信息的检索服务模式.□

(作者:潘彦宁,河北大学信息系统专业在读研究生,郭洪生,河北农业大学人事处,研究方向:社会管理)

相关论文

基于微博社交网络的信息传播

此文是一篇互联网论文范文,互联网类有关论文范文资料,与基于微博社交网络的信息传播相关毕业论文格式。适合不知如何写互联网及节点及社会现。

基于系统设计的微博检索系统评价

本文是一篇信息检索论文范文,信息检索相关电大毕业论文,关于基于系统设计的微博检索系统评价相关研究生毕业论文开题报告范文。适合信息检索。

微博网站信息分类模式

本文是一篇图书馆论文范文,关于图书馆类硕士学位论文,关于微博网站信息分类模式相关专升本毕业论文范文。适合图书馆及电子政务及信息方面的。

微博在小学信息技术学习中的应用

为您写信息技术毕业论文和职称论文提供关于信息技术类开题报告范文,与微博在小学信息技术学习中的应用相关论文范文检索,包括关于信息技术及。

第二章:微博营销指南(一)

本文关于微博营销及网络营销及高质量方面的免费优秀学术论文范文,微博营销方面有关论文范文资料,与第二章:微博营销指南(一)相关毕业论文的。

网络社会学视角下“微博问政”

本文是一篇社会学论文范文,社会学相关毕业论文模板,关于网络社会学视角下“微博问政”相关硕士论文范文。适合社会学及社会管理及社会学概论。

基于用户行为的企业微博营销探析

本文是一篇微博营销论文范文,微博营销相关毕业论文范文,关于基于用户行为的企业微博营销探析相关毕业论文提纲范文。适合微博营销及企业微博。