沈英汉 中国科学院打算技能研究所
陆 源 竞技天下(北京)网络技能有限公司

在电影《复仇者同盟2:奥创纪元》中,有一个精彩的情节是当绿巨人浩克被绯红女巫迷惑心智后在城市中大肆毁坏时,钢铁侠与他的专属智能大脑贾维斯对话,通过“浩克”这个关键词快速搜索实时新闻宣布和视频中的干系信息,得出绿巨人的位置;钢铁侠及时赶到并启动了反浩克战甲,阻挡了绿巨人的毁坏行为。在这个情节中,智能大脑贾维斯依据钢铁侠给出的“浩克”这一关键词,从海量的新闻宣布、网络视频数据中检索出相匹配的信息,并返回给钢铁侠,这里运用的便是信息检索技能。
图1 《复仇者同盟2》电影中的片段
信息检索技能这一名词在人们的生活中无处不在。可以说,只假如运用了搜索引擎的运用,都会有信息检索的影子。大家一定都用过百度、搜狗、谷歌、必应这些搜索引擎吧?在搜索引擎中搜索“浩克”,可以从海量数据中检索出浩克的基本信息、最新电影状况、干系演员动态等;在电商平台中搜索“浩克”,可以检索出与浩克干系的书本、玩具、游戏等;在社交平台中搜索“浩克”,可以检索出与“浩克”一词干系的用户昵称、网友互动信息、短视频;等等。
信息检索技能极大地方便了人们的生活,能让人们快速定位感兴趣的信息,大大节省了人们的韶光与精力。信息检索的基本事理是什么呢?首先,用户须要明确自己须要检索的信息是什么,并将检索信息输入搜索引擎。例如,刚才提到《复仇者同盟2:奥创纪元》中的情节,钢铁侠须要检索的信息是“浩克在哪里”,这条信息中对应的知识可能便是“绿色”+“大块头”。搜索引擎首先会从全网信息中初步筛选出与浩克干系的信息(即包含“绿色”+“大块头”实体的信息);钢铁侠的需求是明确浩克的地理位置,搜索引擎须要进一步从包含浩克的场景信息中筛选出浩克最有可能涌现的实时地理位置信息并返回给钢铁侠。严谨地说,信息检索技能的基本事理可被概括为:从用户需求出发,对信息凑集与需求凑集进行匹配和选择,根据一定的线索与准则找出干系的信息。
信息检索技能的两种主流技能手段分别是关键词检索与语义检索。我们来聊聊这两种检索技能的实现办法。
图2 信息检索讲解图(选自《科幻电影中的科学:科学家奶爸的AI手绘》)
关键词检索是指用户在搜索引擎的搜索框中键入自己要搜索信息的关键词,并进行检索的办法。在刚才的故事情节中,钢铁侠口述的检索信息中包含两个关键词,即“浩克”与“位置”。通过“浩克”与“位置”这两个关键词,搜索引擎从海量数据中按照关键词匹配规则筛选出搜索结果数据,并通过排序整理得出最有可能的结果。这种检索办法通过解析目标信息的字符,在语料库中搜索与内容相匹配的信息,具有查询信息范围大、精确率高、查全率高档优点,但是这种办法对包含海量数据的语料库的构建哀求也较高。
一样平常来说,检索结果的排序办法有3种。第一种是按韶光排序,最新更新的干系信息优先展示;第二种是按阅读量排序,浏览查阅次数最多的信息优先展示;第三种是干系排序,与关键词匹配度最高的信息优先展示。常日将用户需求以及用户在一段韶光内的偏好作为衡量标准来对检索结果进行排序。当用户查询需求不明确时,可利用推理机制推断用户潜在需求,选择与用户习气最附近的信息进行检索。
语义检索则是在观点体系的根本上,搜索引擎从知识库中检索出知识的过程。这是一种基于知识图谱体系,能够实现知识间的关联,以及观点和观点语义检索的智能化检索办法。举例来说,在基于语义检索的搜索引擎中搜索“浩克”一词,搜索引擎不会通过文本的硬性匹配筛选数据,而是依据浩克这一实体对应的知识,检索与其干系的实体知识信息,如班纳博士、浩克的身高和体重,以及黑寡妇等复仇者同盟成员等。
此外,语义检索可以将搜索的多个实体进行组合,并能够从实体组合中挖掘出更深层次的语义知识。如搜索“浩克”+“黑寡妇”,搜索结果为浩克的情绪状态;搜索“浩克”+“钢铁侠”,搜索结果大部分为浩克和托尼·史塔克开拓的反浩克装甲。相较于关键词检索中纯文本匹配的办法,语义检索更方向于通过检索文本对应的知识,从知识库中检索出最有可能的结果。这种基于研究数据之间的关系的信息检索技能提高了数据检索能力,增强了自然措辞的理解力,提升了查全率,但是也存在检索速率慢、查询繁芜、耗费大量人工的缺陷。
在本文中,我们理解了信息检索技能。它的两种主流技能手段分别是关键词检索与语义检索。更加智能化的信息检索系统仿照人类关于数据处理的思维过程和智能活动,实现知识检索、表示和推理,还可以为用户供应智能赞助决策。信息检索技能已被广泛运用到电商平台、新闻资讯、社交媒体、娱乐视频等软件中,可以帮助人们快速定位自己须要的信息,给人们的生活带来了极大便利。
--------END-------
联系我们:
Tel: 010-81055490
010-81055534
010-81055448
E-mail:bdr@bjxintong.com.cn
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
转载、互助:010-81055307
大数据期刊
《大数据(Big Data Research,BDR)》双月刊是由中华公民共和国工业和信息化部主管,公民邮电出版社主理,中国打算机学会大数据专家委员会学术辅导,北京信通传媒有限任务公司出版的期刊,已成功入选中国科技核心期刊、中国打算机学会会刊、中国打算机学会推举中文科技期刊,以及信息通信领域高质量科技期刊分级目录、打算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中央学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。








