水淼·关键词网址采集器v2.5.1.0 - 小拉资源网

支持百度、搜狗、谷歌、必应、雅虎、360等。每个关键词600到800条，采集例子
关键词可以附带搜索引擎参数，就跟网页里输入关键词搜索一样，
如百度里搜索效果网址中必须包罗bbs的关键词，则输入“关键词 inurl:bbs.”
生存模板可引用的数据：
#网址#采集的原始网址
#标题#网址对应的网页标题
#域名#原始网址的域名部门，如“http://test.shuimiao.net/123.htm”中的“test.shuimiao.net”
#顶级域名#取原始网址的顶级域名部分，如“http://test.shuimiao.net/123.htm”中的“shuimiao.net”
#描述#网页标题下面的一段描述笔墨
Excel导出：
csv是一种文本表格，能被Excel兼容表现为多列多行的数据。只要在保存模板中设置为：
"#网址#","#标题#","#描述#"
这种格式就是csv格式，利用引号围住每个项目，多个项目使用逗号隔开，然后保存扩展名填为csv即可
题目集锦：
1.为什么采集一段时间之后，无法采集？
这大概采集多了被搜索引擎限定。一样寻常换个IP（如使用VPN换IP）即可继承采集，假如不换，只能等候hz搜索引擎取消屏蔽之后才气继续采集。百度的屏蔽时间通常半小时到数小时。
不外，如今hz纵然出现验证码屏蔽，软件也会弹出验证码手动输入的（百度、谷歌）

2.差别批次关键词采集的结果为什么会存在部分网址重复？
尤其是只引用了 #域名# 或 #顶级域名# 之后，这种部分网址重复的环境比力多。这也是正常的，由于每个网站的内页可能包含许多h主题，不同关键词都可能采集到该网站的不同内页，当引用域名后，雷同网站的不同内页的域名结果天然就相同了。
别的，软件里的主动去重，是针对本次采集的结果内部举行去重，从前采集的结果是不在本次去重范围的。如果两次采集的结果存在部分网址重复，可以把他们归并一起，使用软件去重（水淼·文本去重打乱器）。

3.为什么采集返来的网址的主题与关键词不符？
是因为引用了 #域名# 或 #顶级域名# 后，取的是域名部分，域名打开的是该网站的首页，而采集的原网址可能不是首页，而是该网站的某一篇文章的内页，该内页包含关键词主题，因此被搜索引擎收录，软件才能采集得到。但取域名后，你打开的域名首页就不愿定包含该关键词。
为了比对采集是否精确，可以在保存模板里输入：<a href="#网址#" target="_blank">#标题#</a>
，保存为htm文件，采集完后可以本身打开该文件检察h比对。