查全率(recall rate)是评估检索成效的一项指标,又称召回率。在资讯检索系统中,系统找出相关资料的笔数与文件库中应有的相关资料总笔数的比值,称为查全率。例如:假设在某一次检索需求中,相关文件的总篇数应该有50笔,而在系统回传的100笔结果中,只有20笔相关文件,则此次检索的查全率为20/50=0.4或是40%。查全率可以用来了解系统找回所有相关资料的能力,或是系统遗漏相关资料的情形。根据上述定义,在大多数的情况下,查全率都不易获得。针对某次检索需求,想知道系统中应有的相关文件总笔数,必须将检索系统中所有的文件,每一篇都经人工判断过才能得知。检索系统中的文件动辄上万篇,甚至上百万篇,一篇篇判断下去,成本非常惊人。因此,在求取系统的查全率时,常以便宜措施,来近似系统中应该有的相关文件总篇数。最常用的方式,是针对同一个查询需求,以M种不同的检索技术或系统,分别找出前N篇文件,取得最多M*N篇文件做相关判断。这种作法的合理性,是假设:不被任何检索技术与系统找出来的文件,都认为其与该次检索需求不相关,因而不用再进行人工判断。与原先的作法相较,只判断这M*N篇文件,可以大幅降低求取查全率的成本。跟查全率非常相关的概念是查准率,其为系统找出相关资料的笔数与系统传回资料笔数的比值。在衡量系统检索成效时,查全率与查准率是一起并用的,单独检视其中一项指标并无意义。例如,假设资料库内有文件10,000篇,就某一个检索主题,其中应有的相关文件有100篇,若系统仅查询出1笔资料,且此资料是相关的,则其查准率为100%,但此时系统漏掉了99篇相关文件。同理,若系统将资料库里所有的文件都当作查询结果回覆使用者,则必然涵盖其中的100篇相关文件,因而其查全率为100%,但此时系统查出9,900篇不相关的资料,浪费使用者检视结果的时间。查全率的取得成本虽高,因有上述的理由,仍是进行严谨的检索成效比较时,不可或缺的指标。查全率与查准率一起并用的方式有数种,详见查准率辞条。在某些资讯检索的任务中,相关文件应有的总笔数,可能非常稀少,只有一笔、二笔。例如,在问答系统(question answering systems)中,询问「孙中山卒于何年?」,系统传回的回答,应该只有公元1925或是1925年是相关的,其他皆非。此时,系统的查全率,很容易出现只有0或是1的极端数值,不利于系统的成效比较。因此