标签[nutch]

0
1回复
12

Nutch / Hadoop:regex-normalize.xml和regex-urlfilter.txt找不到错误,即使它们存在

我正在尝试通过Eclipse进行适时的测试,然后按照一些教程进行设置。 我目前停留在nullpointerexception
0
1回复
125

Apache nutch 1.15安装和运行问题

我试图在Windows 10上运行Apache Nutch 1.15(本地),我按照https://wiki.apache.o
0
1回复
80

如何修复.locked已存在于nutch crawler中?

我是nutch的初学者。 当我使用bin / nutch crawl命令重新抓取时,我得到了.locked的错误已经存在。
0
1回复
23

配置Nutch写入Apache Kudu

我正在尝试将Apache Nutch配置为写入Apache Kudu,但是在任何地方都找不到有关如何执行此操作的信息。 我知
0
1回复
62

螺母1.15将使用哪个版本的hadoop

我打算使用nutch和solr构建一个Web爬虫。 我想知道我应该安装哪个版本的hadoop才能与nutt 1.15一起使用
0
1回复
54

使用nutch 0.9创建搜索引擎时出现问题

我已经从这里开始 对于步骤3(e),下面是我的conf / nutch-site.xml <proper
0
1回复
190

Hodoop + Nutch 1.15 + Solr Cloud 7.3.1索引无结果

他,我有一个基于Hadoop的集群。 我成功使用Nutch 1.15,并抓取了一些网址。 我已经安装了Solr 7.3.1
0
1回复
21

更新旧的Nutch插件以能够在Nutch 2.3.1中使用Xpath解析

我正在使用apache Nutch 2.3.1开发一个项目,我需要能够从下载的html页面中提取特定数据。 我找到了一个插件
0
4回复
158

Nutch regex-urlfilter不起作用

我正在搜寻一个包含很多子域的网站。 我想限制两个网址的抓取。 例如,我有一个网站http://www.123.com,而我
0
1回复
89

针对特定语言内容的Apache Nutch排名算法

我已使用Hadoop / Hbase生态系统配置了Nutch 2.3.1来抓取Urdu语言内容。 对于语言检测,我已经自定义
0
1回复
32

语言特定网站的Apache Nutch标题解析问题

我已经用Hadoop 2.7.5和Hbase 0.98配置了Apache Nutch 2.3.1。 我必须爬一些乌尔都语网站
0
1回复
98

使用Apache Nuch爬行基于身份验证的页面

如何使用nutch爬行基于身份验证的页面? 我已经在nutch-site.xml,nutch-default.xml和htt
0
1回复
486

在Windows上安装Apache Nutch

我正在尝试将Apache Solr与Windows 7(64位)上的Apache Nutch 1.14集成,但是在尝试运行Nu
0
2回复
432

Nutch与solr在https上

早上好,我来找你是因为我对Nutch (1.14)和Solr (7.2)有Nutch (1.14) 因此它可以正常工作
0
1回复
472

Apache Nutch 1.x注入crawldb错误

尝试搜索该问题,但找不到任何有用的信息。 在https://wiki.apache.org/nutch/NutchTu
0
1回复
176

Apache Nutch不会在链接中抓取所有网站

我已经使用Hadoop / Hbase生态系统配置了Apache Nutch 2.3.1。 以下是配置信息。 <c
0
1回复
123

安排时间再次访问页面

我已经用Hadoop / Hbase生态系统配置了Nutch 2.3.1。 我要获取数百个域名。 到目前为止,我已经拿走了
0
1回复
37

索引时如何在nutt 1.14中获取rawContent

我正在尝试为Apache Nut 1.14编写自己的index-html插件。 我如何在2.3.1版的1.14版中获取HTM
0
1回复
153

索引器:java.io.IOException:作业失败

我正在使用Solr 5.4.1和Apache Nutch 1.12。 我能够抓取数据,但是在Solr中建立索引的最后一步中出
0
1回复
90

抓取完成后,我们可以在何处通过网络抓取找到数据?

我已经通过apache抓取了网站。 我已经通过顺序注入,分段,获取,解析,updatedb完成了此过程。 在哪个目录中提取