首页 > 编程知识 正文

免费文档翻译,哈尼宝贝中文翻译

时间:2023-05-04 19:53:50 阅读:162138 作者:2723

安装与运行

安装并运行Terrier如果希望立即使用Terrier在标准测试集中索引和搜索,请执行以下操作: 为在Linux和Windows上安装Terrier提供一套操作指南,指导您在TREC WT2G测试集中进行初始索引和搜索。

Terrier的必要条件Terrier的唯一要求是安装过Java JRE1.7. 0版或更高版本。 可以从Java website .下载JRE或JDK (如果希望将Terrier用作开发或基于web的界面)。

您可以从Terrier的下载主页([Terrier Home] )下载terrier 4.1版的副本。 网站列出了Terrier的最新编译版本和以前的Unix或Windows版本。

在Unix上下载完Terrier安装程序后,请将其放在要安装他的地方。 在命令行中导航到此位置,然后使用以下命令进行解压缩:

tar-zxvf terrier-core-4.1-axd yt.tar.gz这会在当前目录下创建terrier目录。 然后,检查您的系统是否具有正确版本的Java,并在命令行中输入:

如果设置了echo$Java_home$Java_home环境变量,则此命令将输出您的Java安装路径(e.g. /usr/java/jre1.7.0 )。 如果此命令告诉您已有正确版本的Java ) 1.7.0,如果系统不符合要求,请从JRE 1.7 download website下载Java1.7并设置环境变量。 将以下语句添加到/etc/profile或~/.bashrc files文件中:

export JAVA_HOME='你的java安装绝对路径'想用Windows安装并使用Terrier的你只需要把下载的Zip包的内容解压缩到你选择的地方。 Terrier需要Java版本1.7或更高版本的Java。 如果系统不符合要求,可以从JRE download website进入下一个Java。 最后,因为Terrier假设您的java.exe位于path下,所以必须在控制面板中设置环境变量,以确保javaaxdyt目录位于path环境变量下。

使用Terrier Terrier搭载3个APP应用程序:

batch(TREC ) Terrier使您可以轻松地索引、搜索和评估trec数据集的结果。 下一节我将一步一步地教你如何使用这个APP。

Interactive Terrier是一种允许交互式搜索并快速测试Terrier的方法。 假设在Windows上安装了Terrier,请运行Terrier的axdyt目录中的interactive_terrier.bat文件以获取交互式terrier (interactive tat ) 在Unix系统或Mac上,可以运行interactive_Terrier.sh文件以运行交互式terrier。 您可以使用InteractiveQuerying类中列出的属性设置交互式Terrier的搜索功能。

这是桌面终端的桌面搜索APP应用程序的示例。 如果想了解更多关于桌面终端的信息,请查看他的tutorial。

教程:如何使用batch (trec ) Terrier索引此向导将引导您完成如何使用Terrier为树集创建索引的过程。 这假设在Linux系统下,数据集、查询的Topic和相关性评估(qrels )位于/local/collections/WT2G/目录下。

进入终端文件夹。

cd terrier-core-4.1 2.输入以下命令以安装使用TREC测试集的Terrier:

./axd yt/trec _ setup.sh ' absolute _ path _ to _ collection _ files '在我们的示例中为:

./axd yt/trec _ setup.sh/local/collections/wt2g /这会在" etc "目录下创建collection.spec文件。 此文件包含刚才选择的语料库目录下的文件列表。

3 .根据需要修改collection.spec文件。 如果集合目录下包含不希望索引的文件,则必须这样做。 也可以使用以下命令直接修改:

find/local/collections/wt2g/- typef|grep-v ' pattern ' etc/collection.spec其中' pattern '是正则表达式,且不应被索引

4 .已准备好开始索引文档集。

./axd yt/trec _ terrier.sh-I http://www.Sina.com /如果不想直接保留索引结构,例如不使用查询扩展,请使用axd yt/trec _ terrier.sh-I 3http://ww.Sina.com

我想从刚索引的东西开始检索

的测试集检索,跟着下面的步骤做。

1. 首先我们要做一些配置。 Terrier的大量功能是通过属性来控制的。 你可以在etc/terrier.properties文件里预先设好,或者一个一个在命令行里指定。接下来我们要用命令行指定合适的属性。想要检索和评价批量查询的结果,我们需要知道:

查询的位置(也就是topic文件) – 用trec.topics指定 要使用的加权模型(e.g. TF_IDF)  - 用trec.model指定 – 包括参数 对应topics的相关性评估文件(也叫qrels) – 由trec.qrels指定。

2. 我们来做一次检索:

./axdyt/trec_terrier.sh -r -Dtrec.model=PL2 -c 10.99 -Dtrec.topics=/local/collections/WT2G/info/topics.401-450

这是什么意思呢? "-r" 参数指示Terrier做检索,"-c" 告诉Terrier加权模型的参数。PL2是一个高级的 Divergence FromRandomness加权模型,他往往比 TF_IDF 更高效。(模型细节在 the description of the DFR framework)。

如果一切进展顺利,在var/results目录下将会有一个叫InL2c10.99_0.res的.res文件。

3. 现在我们将用"-e"参数评估得到的结果。

./axdyt/trec_terrier.sh -e -Dtrec.qrels=/local/collections/WT2G/info/qrels.trec8.small_web.gz

注意Terrier可以读压缩文件。(e.g. Gzip压缩 – 由.gz后缀标识).

Terrier会到 var/results目录下去找所有.res文件评价,然后将评价结果保存为一个与对应.res文件同名的.eval文件。

4. 现在我们要再做一次检索,只不过这次是带查询扩展(QE)的,在”-r”的基础上用到参数”-q”:

./axdyt/trec_terrier.sh -r -q -Dtrec.model=PL2 -c 10.99 -Dtrec.topics=/local/collections/WT2G/info/topics.401-450

到the guide for configuring retrieval 获取更多关于查询扩展的内容。 注意你的索引必须具有直接索引结构来支持QE,默认单通道索引的话是不会建立的。 (更多详情看Configuring Indexing ). 随后我们可以用带”-e”参数的trec_terrier.sh再做一次结果评价。

./axdyt/trec_terrier.sh -e -Dtrec.qrels=/local/collections/WT2G/info/qrels.trec8.small_web.gz

5. 现在我们可以执行下面的命令查看所有结果的平均检索精度值(MeanAverage Precision - MAP):

tail -1 var/results/*.eval

第一轮运行的MAP应该是0.3140.

采用查询扩展后的MAP应该是 0.3305

与Terrier交互

你可以用基于web的查询界面与你的索引交互。首先,启动他自带的HTTP server:

./axdyt/http_terrier.sh

然后你可以在 http://localhost:8080输入查询并看到结果。如果你在另一台机器上运行Terrier,就把localhost换成远程主机的hostname。 更多关于配置web界面的内容请看 UsingWeb-based results。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。