伪装成搜索引擎蜘蛛google bot访问需网站, 这样能防止爬虫被封
在crawler-beans.cxml 中修改metadata成下面
<!-- CRAWL METADATA: including identification of crawler/operator -->
<bean id="metadata" class="org.archive.modules.CrawlMetadata" autowire="byName">
<property name="operatorContactUrl" value="[see override above]"/>
<property name="jobName" value="[see override above]"/>
<property name="descrip蜘蛛的爬取原理tion" value="[see override above]"/>
<!-- <property name="operator" value=""/> -->
<!-- <property name="operatorFrom" value=""/> -->
<!-- <property name="organization" value=""/> -->
<!-- <property name="audience" value=""/> -->
<property name="userAgentTemplate"
value="Mozilla/5.0 (compatible; Googlebot/2.1; +@OPERATOR_CONTACT_URL@) "/>
</bean>
伪装Googlebot。许多网站访问时需要注册,但用Google、Baidu等搜索引擎搜索时却可以搜索到全文。这是因为网站对访问者的 User
Agent进行了判断,如果是bot,则允许其访问;如果是一般用户,则自动跳转到登陆页面。用User Agent
Switcher就可以把自己伪装成Googlebot,进而不用注册也可以访问这些网站。
那么我们也可以伪装成搜索引擎来进入这些页面。我们需要的是修改浏览器的User-Agent
值。
分享到:
相关推荐
在网上找了许多关于Heritrix的资源,但是关于新版本heritrix3的资源很少,最近由于项目需要,认真读了heritrix的源码,扩展了Heritrix3指定链接提取,内容详细,可以在实际中使用。
Heritrix3(或简称H3)指Heritrix的3.0发布。 目前官方的Heritrix 3.0.0版已经发布(2009年12月)。 后续的发行H3将是3.0.1补丁版包括小的修改和增强将在2010年上半年,3.2.0将包含以使用简单、持续爬行和大规模爬行...
Heritrix爬虫源码,包含使用heritrix对太平洋手机网进行爬取
Heritrix网络爬虫开发包,爬取资源必备开发包。
heritrix3 灵活载入种子的方式进行了详细的介绍,通过学习可以方便的想heritrix3 载入种子!
本文通过一个淘宝信息提取的实例来说明怎么扩展heritrix3
该文档详细介绍了如何利用heritrix3进行网页内容提取,其中内容提取模块可以自己修改,接口已经留好,具有很强的扩展性!
Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。 简介 它的执行是递归进行的,主要有以下 Heritrix 有Web 控制管理界面 Heritrix 有Web 控制管理界面 几步: 1。在预定的URI中选择一个。 2。...
Heritrix是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400...
Heritrix3 - 可扩展、web级别的Java爬虫项目
Heritrix1.14.3配置流程 收索引擎配置 简单的抓包工具
介绍了heritrix爬虫安装和部署,以及运行示例和常见错误
heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置
Heritrix是用来爬取网页的开源工具包,本文档描述了如何在Eclipse环境下配置heritrix
Heritrix用户手册,Heritrix简介与入门 Heritrix配置与开发指南
按照这个步骤安装绝对会让你安装成功的。步骤非常的清晰。Heritrix是一个不错的选择。网络爬虫,更快更好的帮你捕捉到你想要的网页
在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用
已经编译好的工程,直接用,因为官网上的需要maven下载,有些jar下载不到,
heritrix系统使用、一个ppt 介绍heritrix的基本概念、以及原理知识
包含: heritrix-3.1.0-dist.zip heritrix-3.1.0-src.zip 官网下载地址。