【摘要】搜索引擎是公众快速找到所需信息的重要方式。与商业领域中搜索引擎日益呈现出智能化特征并得到广泛应用相比,政府网站中的政务搜索普遍存在“搜不到、搜不全、搜不准、体验差”等问题。通过分析政务服务中政府信息供给侧与公众需求侧面临的困境,以前台输入、结果返回和后台处理等关键环节为切入点,层层剖解智能化搜索的主要特征和典型应用场景。在此基础上,从基于资源画像建立知识图谱、基于用户画像构建需求模型、基于需求理解实现最佳匹配等方面阐释了智能化功能的实现机理。
文丨孟庆国 王友奎 田红红
孟庆国:清华大学公共管理学院教授、国情研究院研究员
王友奎:清华大学公共管理学院博士研究生
田红红:清华大学公共管理学院研究助理
原文载丨电子政务 E-GOVERNMENT 2020年第02期(总第206期)
原文标题丨政务服务中的智能化搜索:特征、应用场景和运行机理
图 | pixabay.com
一、问题的提出
随着政务公开、“互联网+”政务服务等工作的深入推进,各级政府网站信息内容的快速增加与用户个性化需求之间的矛盾日益凸显。单纯依靠简化优化网站框架来降低信息查找难度的做法难以为继,需要根据公众的使用习惯辅以搜索引擎来查找资源。但从当前政府网站站内搜索的提供情况来看,“搜不到、搜不全、搜不准、体验差”等问题普遍存在,加剧了公众查找、使用在线服务的成本,也严重影响了政府网站甚至服务型政府建设的满意度。
▌(一)政府供给的角度
近年来,我国政府网站的信息量增长非常显著(参见图1)。在信息公开方面,各级政府网站发布的《政府网站工作年度报表》显示,2018年部委网站的平均信息发布总量达23152条,省级政府门户网站达89085条,地市和区县政府门户网站分别为18292条和10496条。在政务服务方面,根据《2019年省级政府网上服务能力调查评估报告》,截至2018年12月31日,32个省级政务服务平台平均提供的本级部门的行政权力事项指南达3378项,最多的高达12620项;具有依申请特征的行政权力事项数达1353项,最多的高达2771项;省本级依职权类行政权力事项数达2025项,公共服务事项数326项[1]。在互动交流方面,根据各政府网站发布的《政府网站工作年度报表》,2018年部委、省市县政府门户网站公开的平均信件数量分别达到962条、12011条、5402条和781条。政府网站年度信息发布和更新数量尚如此巨大,网站累计信息量势必更为庞大。
▌(二)公众使用的角度
通过搜索引擎查询所需的信息或服务,已成为公众获取信息的主要方式。CNNIC于2017-2019年间发布的第40-44次《中国互联网络发展状况统计报告》显示,在中国网民使用的各类互联网应用中,“搜索引擎”使用率长期排名第二位(第一位为即时通信),平均使用率为82.12%;而且在手机端也是如此,“手机搜索”的平均使用率接近81%,仅次于手机即时通信,两种搜索的具体使用规模情况详见图2、图3。
与此同时,随着人工智能等技术的快速发展,各种商业化公共搜索日益呈现出智能化趋势,这在潜移默化中提高了公众对政府网站搜索引擎的期望值。《2018年联合国电子政务调查报告》显示,不少用户不再使用各类导航,而是越来越多地使用高级搜索工具,如自动填充或联想搜索,点击一两下鼠标来获取他们想要的服务[2]。联合国电子政务调查因此将“站内搜索”和“高级搜索”纳入在线服务指数检查指标,用以衡量在线服务的技术支撑能力。
当前,我国多数政府网站都提供了搜索引擎,但实际应用效果并不理想。在2019年中国省级政府网上服务能力调查评估中,评估组通过设定特定的12个关键词和需求场景对搜索功能进行调查,结果显示,可以提供6个及以上需求事项或应用场景的只有11家,仅占34.38%;提供3个及以下的有12家,占37.5%[1]。国务院办公厅发布的《2018年第二季度全国政府网站抽查情况通报》指出,在抽查的网站中,约24%存在搜索不准确、不实用,甚至没有搜索功能的情况[3]。
▌(三)趋势和政策要求
在互联网快速发展、智能化应用层出不穷的当下,多数政府网站和政务服务平台仍然面临着如下困境:供给侧的政府精心整合提供了丰富的信息和服务资源;应用侧的公众却无从知晓,即使知晓也不好找或找不到(参见表1)。这种“庭院深深深几许”的服务,又谈何好用呢?显然,要解决这类困境,迫切需要打通政务服务中政府和公众的“最后一公里”,在政府网站中建设智能化搜索,提高搜索效果。
国务院办公厅在推动政府网站和“互联网+政务服务”的多个文件中明确要求,要优化站内搜索,方便用户查找信息。《国务院办公厅关于印发政府网站发展指引的通知》(国办发〔2017〕47号)指出,政府网站要提供站内搜索功能并不断优化,实现“搜索即服务”[4]。《国务院办公厅秘书局关于印发政府网站与政务新媒体检查指标、监管工作年度考核指标的通知》中,将“站内搜索”视为政府网站的基本功能,纳入扣分指标项,同时将“智能搜索”作为加分项,引导各政府网站在提供基本搜索功能的基础上,提供智能化搜索[5]。《国务院办公厅关于印发“互联网+政务服务”技术体系建设指南的通知》(国办函〔2016〕108号)指出,服务门户的信息检索应具备模糊检索、目录检索、全文检索等功能,能让公众查得方便、看得明白[6]。
二、文献综述
搜索引擎发展已有较长历史,其主要目的是为了帮助用户从众多文档或信息中快速找到符合条件的信息。文献研究发现,多数研究聚焦于搜索引擎的相关技术、算法、模型等[7-9],近年来聚焦智能化搜索的研究日益增多。在中国知网平台以“智能、搜索”为标题关键词进行检索,经过统计处理后得到高频关键词(参见表2)。
可见,较多研究试图将人工智能与传统搜索引擎相结合,利用启发式算法、大数据、数据挖掘、自然语言处理等技术,提高搜索的个性化、智能化水平。进一步对关键词聚类后发现,智能搜索相关文献关键词可分为以下聚类:搜索引擎、智能搜索、人工智能、启发函数、个性化、BI(商业智能)、数据挖掘、用户等。关键词共现关系如图4所示。
相比而言,聚焦于电子政务或政府网站搜索的研究却比较少,相关研究主要从以下三个方面展开:一是关注政府网站信息资源在公共搜索引擎的可见性,以提高政府网站的可见性;二是关注政府网站内搜索引擎的应用和优化,以提高查全率和查准率;三是关注人工智能等技术在搜索引擎中的应用,以提高搜索的智能化程度和搜索效果。
▌(一)政府网站在公共搜索中的可见性优化
政府网站可见性,是指政府网站中所包含的信息内容被互联网用户准确、快捷地查找到的可能性[10]。按照公共搜索引擎的运行机理,通过搜索引擎优化技术[11],对政府网站进行优化以提高可见性,是非常必要的[12]。根据政府网站用户的外部来源渠道、在站内查找信息行为方式的差异性,政府网站“可见性”的影响因素可归纳为六类,即搜索来源用户的可见性、导航来源用户的可见性、直接来源用户的可见性,以及站内搜索可见性、栏目与路径可见性、内容呈现可见性[10]。在具体优化的方法上,较多文章对站内结构优化、链接优化、内容优化、标题和描述信息优化、标签优化、关键词密度优化等进行了探讨[13]。
▌(二)搜索引擎在政府网站中的应用与优化
当前,我国绝大多数政府网站都意识到了搜索功能的重要性和必要性,提供了搜索功能,但与美国等领先国家政府网站相比,我国政府网站的搜索功能在搜索范围、功能、使用体验和推广程度等方面,都还需要更多关注和投入[14]。不管是普通检索功能,还是高级检索功能,在检索结果的内容和排序方面都还有很大的提升空间[15]。具体来看,主要体现在以下几个方面:一是搜索机制单一,多数采用关键词精准匹配原则,只能检索到完全匹配关键词的信息;二是搜索结果杂乱分散,查全率和查准率有待提高;三是人性化与智能化程度低,需求识别率低,用户体验与使用友好度较差[16]。而从长远来看,搜索引擎将成为政府服务公众的首要渠道、聚合展示知识的重要窗口、个性化服务的主要途径,“搜索门户化”“搜索型门户”“个性化搜索”“情境化搜索”“多媒体检索”等很有可能成为现实,而各种复杂的栏目、专题等也终将结束[16]。在评价评估方面,还有学者基于搜索引擎的工作原理,站在用户体验的角度,既关注资源内容,又兼顾服务效果,围绕政府网站信息服务的“可用、可见、可达”三大目标,研究提出了定性定量相结合的评价指标体系,综合评估政府网站信息服务的供给和质量。[17]
▌(三)利用人工智能提高搜索的智能化程度
目前,多数搜索引擎中以基于关键词的检索和匹配居多[18],缺乏对自然语言的语义支持,搜索引擎无法准确理解用户需求,且多数采用基于一般意图的索引方法,而没有考虑用户的个性化需求[19],导致搜索效率低下、无关信息过多、需求关联度低等缺陷。人工智能的快速发展,给搜索引擎带来了质的飞跃[20],有学者甚至表示“人工智能将颠覆未来的搜索形态”[21],智能搜索已成为学术界和产业界高度关注的研究领域。除了提供基本搜索功能,智能搜索还能提供用户兴趣自动识别、内容语义理解、信息过滤和推送等功能,具备知识处理能力和理解能力,能够把信息检索从目前基于关键词层面提高到基于知识和概念层面[22]。搜索结果也更加人性化、更贴近用户需求,响应速度更快、搜索效率更高,注重提供知识和服务,呈现出智能化、个性化、场景化、多元化、协作性和交互便捷化的发展趋势。在实现方法方面,智能搜索不仅要充分利用各种启发式算法[23],改善搜索效果;而且要充分利用中文分词和识别技术[24]、语义标注[25]、网对网技术[26]、数据挖掘技术[27]、智能代理技术[28]等,结合用户兴趣、需求模型和动态场景[19],以更好地获取用户需求、预测用户兴趣和访问偏好等,提高检索效率和精确度。
三、智能化特征与典型场景
政务搜索由于各种原因,其发展和应用水平远滞后于商业类搜索。从实际使用来看,无论是传统政务搜索,还是智能政务搜索,基本流程都是一致的,主要包括“前台输入-后台处理-结果返回”三个阶段(参见图5)。
政务搜索中的“智能化”不是一个绝对概念,而是相对概念,即搜索的智能化程度既超前于当前发展水平,又能在可预见的时期内实现。基于当前搜索引擎原理、技术和应用水平,结合政务搜索特征,在未来一段时间内,政务服务中的“智能搜索”除了具备分类搜索、关键词搜索、精准搜索、模糊搜索、关联度和时间排序等基础性功能外,还将具备以下智能化特征。
▌(一)“前台输入”中的智能化
输入关键词是用户使用搜索引擎的第一个环节,相对于搜索结果,搜索引擎在输入环节的智能化辅助功能没有那么重要,但也可改善用户体验。与传统搜索相比,智能化搜索在“前台输入”环节的智能化特征主要表现为推荐引导、拼音转化、自动纠错、灵活设置等方面。
⒈推荐引导
一方面可根据历史检索信息,在对输入的关键词、结果点击等进行大数据分析后,得到最近一段时期内搜索的热点,结合近期政务中心工作和社会热点,主动推荐给用户,用户点击即可,无需输入。另一方面可在用户输入的过程中,根据用户已输入关键词自动推荐相关词句,如用户输入“机动车”三字时,可在搜索下拉框中主动推荐“机动车限号”“机动车摇号”“机动车违章查询”“机动车过户”等智能化联想构建的长尾关键词,引导用户需求。
⒉拼音转化
当前,较多用户使用拼音输入法,在搜索引擎中输入时很容易没有切换输入法,而直接输入一串拼音。智能搜索可支持拼音搜索,采用词语智能拼音匹配模式,并结合关键词提醒联想等,实现拼音搜索和中文搜索的无缝衔接。例如,用户在前端输入“yaohao”“jidongche”等拼音时,系统可自动理解为“摇号”和“机动车”,并返回相关结果。
⒊自动纠错
对于一些容易输入错误的词语,智能搜索引擎可提供自动纠错功能,提示按正确词语作为关键词进行搜索,减少重复输入操作。如,用户在前端输入“暂住证”时,系统可自动纠正为“居住证”(注:2016年8月,北京市政府发布《居住证暂行条例》,意味着“暂住证”将调整为“居住证”,但很多公众的印象中依然为“暂住证”),并返回相关结果。
⒋灵活设置
公众可根据搜索需要,灵活设置各种检索条件,如搜索信息类别、搜索内容范围、搜索文档范围、搜索内容的时间范围、搜索关键词出现位置、搜索结果显示数量、排列顺序等多种条件,智能搜索引擎支持这些复杂的多条件混合搜索,实现更加精确的信息搜索功能,满足用户对检索的更高要求。
▌(二)“结果返回”中的智能化
从使用角度来看,公众往往对搜索引擎后台如何处理并不关心,而更关注“结果返回”是否智能便捷和贴近需求。政府网站智能搜索在结果返回中不仅要优先呈现与用户输入和潜在需求关联度高的信息,提供多维展现和排序等基础性功能,还应在充分理解用户需求的基础上,实现“搜索即服务”。“搜索即服务”在商业领域中已广泛应用,完全具备在政府网站搜索中实现的可行性。
⒈政策内容可视化
政策文件往往具有原则性强、专业性强等特点,且多以大段文字展现,公众难以理解或不愿花时间理解。
智能搜索可将政策文件中的关键信息抽取出来,通过数字、图表、插件等结构化方式呈现,无疑会大大改善用户体验。如,围绕“限号”“放假”等检索关键词,将《北京市人民政府关于实施工作日高峰时段区域限行交通管理措施的通告》和《国务院办公厅关于2019年部分节假日安排的通知》等文件中的关键信息抽取出来,实现“搜索即服务”(参见图6)。
⒉政务数据可视化
当前,各级政府都会发布年度《国民经济和社会发展统计公报》及行业发展等大量统计数据。在传统模式下,一些公众关注度高的数据被隐藏在大量的信息和数据中,查找难度很大。在智能搜索中,不仅可以将各种关注度高的数据抽取出来,还可以按照时间、地区等维度进行组合展现,搜索体验大大改善。如,针对“北京GDP是多少”“北京人口是多少”等搜索提问,结果可直接返回近年来的具体数据。
⒊政务服务逻辑化
政务服务平台提供的很多事项具有高度关联性和逻辑性。在传统搜索模式下,只是采取列表方式(假设搜索引擎能够检索到,实践中还有很多检索不到)展现,用户体验不佳。在智能政务搜索中,可以围绕用户需求和业务逻辑,将一组关联度高、逻辑性强的事项整合起来,提供集成式、场景式、导航式的一体化服务,而无需“东奔西走”。如,围绕“身份证”关键词整合首次办理、换发、补领和临时身份证等业务,围绕“户口”关键词整合户口迁入、迁移和注销等服务,并且在各场景下可进一步细分(参见图7)。
⒋系统数据实时化
在智能政务搜索中,还可以与电子政务应用系统无缝衔接,实现系统数据的实时呈现。例如,将政务搜索与“北京市小客车指标管理信息系统”“商务部全国商务信息公共服务平台”等系统对接后,可直接在搜索结果中查询小客车摇号情况、查看各类农产品实时价格(参见图8)。
⒌关联信息聚合化
当前,我国政府网站多数是按照信息类别组织资源,如信息公开、在线办事、互动交流等,这样导致围绕特定需求的资源分散在不同的栏目中,并且彼此之间比较分散。在传统的搜索引擎中,也往往采取大列表方式,这样就导致与关键词相关的各种信息混杂在一起,用户体验较差。在智能搜索引擎中,基于资源画像,对信息资源体系进行优化和重构,实现基于关键词的“信息聚合”,搜索结果将相关信息聚合到一起,并且分门别类,形成动态的“专题专栏”。特别是当用户输入的是办事服务相关需求时,智能搜索可汇聚相关动态通知、办事指南、政策文件、政策解读、业务系统及常见问题等信息,构建基于搜索关键词的“专题专栏”式集成服务。
▌(三)“后台处理”中的智能化
要实现前台输入和结果返回的智能化,关键是智能搜索引擎的后台支撑。概括来说,主要有三个方面:一是用户需求的精准理解,这就需要对用户输入的语句或关键词进行精准分词,通过自然语言处理技术和用户画像,能够准确理解用户输入的通俗语言。二是信息资源的彼此关联,这就需要基于用户需求和职能业务,对信息公开、办事服务、互动交流等信息资源进行重构,建立知识图谱。三是需求和资源的无缝匹配,在充分理解需求的基础上,匹配最佳资源,并返回搜索结果。以“百姓体”理解为例,行政用语和公众日常用语不同,具有高度概括性、专业性等特点。而多数公众在使用搜索引擎时并不了解行政用语,而是按照日常口头语输入。智能搜索基于资源画像、用户画像和自然语言处理等能力,准确识别并理解用户输入的通俗语言。如口头语中的“领结婚证”,对应为政务服务事项中的“婚姻登记”及相关资源;口头语中的“上户口”和“落户口”等,对应为政务服务事项中的“户口初始登记”“户口迁移”等相关资源。用户画像、资源画像和相互匹配等具体机理将在第四节详细展开。
四、智能化功能的实现机理
部分观点认为,智能搜索是一个技术问题,只要利用人工智能技术,就可以实现搜索的智能化,至于其实现机理,则是一个“黑箱”。但本文认为,政务服务中的智能搜索,仅靠技术手段是不够的,还需要基于政府业务和公众需求,对政务信息资源和用户进行画像,在此基础上综合利用相关技术,才能提高搜索智能化程度。
在某种程度上,智能搜索不是技术问题,而是业务问题。在实现机理方面,除了一般性的资源整合、索引目录、中文分词等基础性支撑,要实现智能化还需要以下三个方面的支撑:一是资源画像,多维度刻画资源;二是用户画像,多维度了解用户;三是基于资源和用户画像,在知识层面理解需求,匹配最佳资源,从而实现智能化搜索(参见图9)。
▌(一)资源画像,建立知识图谱
信息资源是政府网站对外服务的根本,也是搜索引擎的检索对象。我国政府网站中的信息量快速增加,信息资源日益丰富,但有两个主要特征,给搜索引擎优化带来了难度:
第一,客观特征。政务信息原则性、专业性强,普通公众不易理解。当前,各地区各部门梳理现有行政职权、清理调整行政职权、依法律法规审核确认后公布权力清单,并依据法定职能梳理各类办事服务事项,编制并发布政务服务事项目录。从依法行政的角度来看,这对深化行政体制改革,建设法治政府、创新政府、廉洁政府具有重要意义。但从公众使用的角度来看,权力清单及服务事项目录“政策性强”“原则性强”“专业性强”等特点明显,部分还有一定的“模糊性”,导致一般公众难以理解,查找更是难以下手。
第二,主观特征。多数网站按信息类别展现,围绕特定需求的资源分散。我国政府网站中的信息资源往往按信息类别(如公开、服务、互动等)分类,而非围绕需求主线(如交通出行、社会保障、教育培训、登记注册等)分类,这就导致某一特定需求的信息分散于不同栏目(参见表3)。以办事服务为例,除办事指南外,还可能包括与之相关的政策文件、政策解读、公告公示、统计数据、规划计划、机构名录、常见问题等,而这些信息之间则缺乏关联。
在此情形下,为了提高搜索引擎的智能化程度,就需要对政务信息资源进行画像,通过标签体系建立知识图谱,沿着用户对象、用户需求、职能业务等多条脉络,将相关信息关联起来,并整合各不同系统中的信息资源,构建完善的信息资源目录体系。信息资源画像越完善,搜索引擎也更容易定位到该资源。
基于标签对信息资源的画像,包括以下重点环节:一是标签体系的建立,包括标签规则的研究制定,以及基于该规则的标签设计和标签库建设。二是资源标签化,可采用人工方法、机器学习或两者相结合的方法,实现对历史资源和新增资源的画像。三是标签体系动态更新,需要根据新的要求和需求,持续优化改造。在标签规则方面,由于政务信息资源来源和类别比较复杂,标签研究也需要结合信息资源的具体特征和内容展开。总体而言,可以从基本属性、用户属性(与用户画像部分紧密结合)、业务属性和关联属性等维度进行标签设计和资源刻画(参见表4)。
以“新生儿入户”事项为例,我国各地政府均有该事项,并且绝大多数新生小孩的父母都要办理该业务。该事项涉及群体广、需求度高,并且比较复杂,往往涉及出生地点、父母户口、婚姻状况等多个因素,且每种情形的申请条件、办理材料均不相同。公众在查找该事项时,直接使用“新生儿入户”进行查询的概率较低(该名称虽不复杂,但比较专业),而使用“小孩上户口”“婴儿出生登记”等口语化语言进行搜索的概率较高。这时,就需要对“新生儿登记”事项加注相关标签,以便用户在搜索这些关键词时能关联到该事项(参见表5)。
▌(二)用户画像,构建需求模型
与资源画像的复杂性相比,用户画像则相对简单,商业应用也比较成熟,在商品推荐、商铺推荐、信息推荐、美食推荐等诸多场景中广泛应用。近年来,随着大数据应用的深入,用户画像逐渐在政务领域中应用起来,因为用户画像是勾画用户特征、分析用户需求、对接政务服务、提供主动服务、提升服务质量的基础和前提。与一般性政务服务中的普适性需求不同,用户在使用搜索引擎进行检索时,往往带着特定需求,且需求的个性化、差异化程度非常高。因此,要提高搜索的智能化程度,基于用户画像进行需求分析,是必不可少的。
首先,针对主要用户的多维分类。政府网站是各级政府及其部门面向互联网用户提供服务的综合平台,具有覆盖面广、用户群体大、用户类型多等特点,可根据政府网站历史信息访问和搜索情况,对常见用户进行分类。例如,可根据用户生命周期、个人身份、职业特征、弱势群体等维度进行分类(参见表6)。当然,此处不是为分类而分类,而是基于不同的特征、不同的需求进行分类,为进一步细化分析其潜在和实际需求奠定基础。
其次,针对各类用户的一般性特征和需求分析。在对主要用户类别进行识别的基础上,重点分析各类用户的主要特征和一般性需求,整合关联信息,特别是跨部门、跨层级、跨地区的信息资源,提供关联度高的普适性公共服务。例如,针对“驾驶人”用户对象,除了一般性交通出行需求外,可能在“驾驶证”和“机动车”方面有潜在需求,如《机动车驾驶证》的申领及换证或变更、扣分查询、交通违章处理、机动车摇号或购车及过户等(参见表7)。
第三,基于具体用户特征和行为数据的针对性分析。上述两个步骤,作为用户画像和需求分析的基础性工作,都是站在供给角度,针对一般性用户的推测性分析,还没有精确到具体用户,下一步就需要针对具体用户,基于其特征和行为进行针对性分析。一是基于基本特征数据,如来源网络、所在地区、终端特征等,如果是注册用户,则可直接获取用户的准确特征,如个人的性别、职业、行业、教育程度等,企业的类别、规模、行业、所在地等。二是基于历史行为数据,即该用户登录政府网站后看了什么、搜了什么、问了什么、办了什么等,以及在访问过程中的行为数据,如页面停留时间、转载分享情况等。通过用户的实际行为,可进一步识别用户的个性特征和潜在需求。三是基于兴趣定制数据,当前部分政府网站开始探索建设“个人空间”,不仅可以记录用户的基本信息及历史行为,还可以引导用户定制选择关心的话题和内容。在此基础上,根据用户特征、历史行为、兴趣话题,构建需求分析模型,以便精准识别需求。
▌(三)需求理解,实现最佳匹配
在智能搜索引擎的实现机理中,前述两个环节作为基础性工作,起着至关重要的支撑作用。基于资源画像和用户画像,还有一个重要环节,起着连接用户和资源的“桥梁”作用,就是需求理解和资源匹配。
首先是基于知识的需求理解。与传统搜索相比,智能搜索最大的特征之一,就是不再采取关键词匹配的模式,而是基于知识网络,充分利用各种自然语言处理技术,对用户输入的检索关键词进行处理,尽可能准确识别用户需求。近年来,“以网络(Innernet)对网络(Internet)”得到研究者的广泛关注,被认为是实现智能搜索的重要方案。其中,第一个网络(Innernet)就是指人的认知网络,包括各种概念及概念间关系,反映了人的知识和概念;第二个网络(Internet)则是搜索引擎要检索的对象,“以网络对网络”指的是以“有序的认知网络对无序的信息网络”[26]。在政府网站的智能化搜索引擎中,也应在资源画像的基础上,构建一个丰富的知识库,不仅包括语言层面和本体论层面的知识,还应包括常识层面的知识及各种关联关系。这样,就能够实现搜索引擎从基于关键词的搜索升华到基于知识和概念的检索,再辅以自然语言处理中的分词、同义词处理、概念搜索、短语识别以及机器翻译等技术,实现用户需求的精准理解。
其次是信息资源的精准匹配。搜索引擎在准确理解用户需求后,对后台信息资源进行匹配,就要基于上述机理中构建的认知网络和知识图谱。根据用户输入关键词的知识,采用知识关联、聚类分析、联机分析等挖掘规则,对用户对象和信息资源两个维度进行关联分析,匹配关联信息。在返回结果中,也不再是传统的简单罗列,也不仅仅只包括各种分类,而是按照“信息聚合”的方式,在需求理解的基础上,将与之相关的信息资源按业务类别、办事流程等维度进行聚类,动态配置生成一个“专题专栏”。特别是当用户搜索办事相关信息时,结果返回中按照不同事项,动态组合相关办事指南、相关政策、政策解读、通知公告、表格样表、常见问题、便民地图等信息,以及在线申报、在线查询、在线咨询等相关系统入口和主动推荐信息,形成一个服务专题,实现“搜索即服务”。
以“身份证”为例,在传统的关键词匹配模式下,搜索引擎不对“身份证”一词涉及的知识进行识别,只是在后台信息中筛选出含有“身份证”一词的信息并返回即可。而在知识层面,搜索引擎则会识别出“身份证”主要是指我国的“居民身份证”,是具有证明公民身份的具备法律效力的特定证件,然后基于用户需求和“居民身份证”相关业务进行检索和匹配,如“身份证办理”“身份证丢失”“身份证变更”“临时身份证办理”或“身份证有效期满”等。
本文在前期调研中,在某省会城市政府门户网站中输入“身份证”为关键词进行检索,返回信息列表中前十页几乎都是各种项目招标公告信息。这不禁令人疑惑,招标公告与“身份证”有何关系呢?原来这些招标公告中都有这两句话:“法定代表人报名须提供法定代表人身份证明书原件及法定代表人身份证”及“授权代理人报名须提供法定代表人授权委托书原件、法定代表人身份证复印件、被授权委托人身份证原件”,这两句话中都出现了“身份证”关键词,并且频次不低,于是搜索引擎就返回了这些招标公告信息。这是典型的基于关键词匹配的模式,而根本没有考虑用户需求。而基于知识理解的搜索引擎,则会返回“身份证办理”或“临时身份证办理”等相关服务,以及与之相关的办事指南、政策文件、办理地点、材料要求、表格样表及常见问题等。
五、结语与展望
本文针对当前政府网站平台中搜索引擎应用的困境,分析了政府信息供给和公众使用之间的鸿沟,一方面政府精心准备了丰富的信息和服务资源,但另一方面由于搜索引擎的薄弱,导致公众很难在大量信息中快速找到自己所需的信息或服务资源,大大降低了服务效率和资源价值。
回顾相关文献发现,虽然智能搜索长期以来一直得到学术界和实践界的持续关注,但大量研究聚焦于相关技术、算法、模型等,与政务服务紧密结合的较少,相关研究主要聚焦于政府网站在公共搜索中的可见性优化、搜索引擎在政府网站中的应用与优化、利用人工智能提高搜索引擎的智能化程度等三个方面。综合来看,对于政务搜索中“智能化”的特征、场景和机理进行系统研究的还较少。
在各类智能化商业应用快速发展并被网民习惯的今天,建设智能化的政务搜索,显得如此迫切和必要。
本文围绕搜索引擎“前台输入→后台处理→结果返回”的三个流程,分析了前端的“前台输入”和“结果返回”中的智能化特征及典型应用场景,如推荐引导、拼音转化、自动纠错、灵活设置、政策内容可视化、政务数据可视化、政务服务逻辑化、系统数据实时化、关联信息聚合化等,并重点分析了实现前端智能化的后台运行机理,主要包括三个方面:一是资源画像,优化信息资源体系,建立知识图谱;二是用户画像,构建用户模型,准确理解用户输入的关键词;三是需求理解,在用户和资源间搭建桥梁,实现最佳资源的精准匹配,从而为用户提供实用、好用、易用的搜索服务。
但正如上文分析到,搜索引擎的“智能化”是一个相对概念,是一个不断发展的动态过程,过去的“智能化”现在已成为“常态化”,现在的“智能化”也可能在不久的将来成为“常态化”。本文围绕搜索引擎“智能化”特征、场景和机理等方面所做的分析和预测,也可能在未来一段时间内实现并不断超越,当然我们希望能早点到来。但政务服务没有止境,特别是随着各种新技术的快速发展,各种新理念、新模式、新应用层出不穷,政府网站搜索引擎也要不断优化提升,为公众提供更加智能、更加人性、更加便捷的搜索服务。
*参考文献略
疫情
本文地址:http://lianchengexpo.xrbh.cn/quote/10930.html 迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多