文件名称:分布式信息检索中以用户为中心的操作决策-研究论文
文件大小:657KB
文件格式:PDF
更新时间:2024-06-29 11:31:28
Distributed IR metasearch
互联网上的企业和消费者的信息专家经常使用分布式信息检索(DIR)系统来查询大量的信息检索(IR)系统,合并检索到的结果并展示给用户。 不同 IR 服务器返回的结果质量可能存在相当大的异质性。 此外,由于不同的服务器处理不同大小的集合,具有不同的处理和带宽容量,因此它们的响应时间可能存在相当大的异质性。 因此,分布式 IR 系统中的代理必须根据强加给用户的收益和成本来决定要查询哪些服务器、等待响应多长时间以及要显示哪些检索到的结果。 查询更多服务器并等待更长时间的好处是能够检索更多文档。 成本的形式可能是 IR 服务器收取的访问费用或与等待服务器响应相关的用户成本。 我们将经纪人的决策问题表述为一个随机混合整数程序。 在 IR 服务器的相关性分数和响应时间独立且同分布的特殊情况下,我们给出了最优查询集和等待时间的封闭形式结果。 当服务器异构时,我们提出了一种基于模拟的优化技术,并演示了如何确定最佳查询集和等待时间。 该技术计算效率高,可用于生成相对容易实现的源选择和查询终止的决策规则。 我们使用从两个不同的上下文收集的数据——一个查询几个美国联邦机构的 IR 引擎的 DIR 系统和一个查询多个商店的价格和产品信息的比较购物引擎——来验证我们的技术。 我们的研究表明,通过对用户效用建模并结合有关 IR 服务器性能的历史信息,可以显着提高用户满意度。