❶ 如何屏蔽搜索引擎
我们在做网站时,有些目录或者文件不希望搜索引擎蜘蛛搜索到,比如后台,重要页面或文件。那么我们这时该怎么办呢?最简单的方法是修改robots.txt文件和网页中的robots Meta标签。
robots.txt文件是做什么的,robots文件又称robots协议(也称为爬虫协议、爬虫规则、机器人协议等)robots协议是告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。robots协议不是命令,它只是一个网站国际互联网界通行的道德规范,知名的引擎蜘蛛都会遵守这个协议,只有一些缺乏职业道德的搜索引擎会绕开它。所以修改这个协议也不是万能保险的。
robots.txt文件是一个放置在网站根目录下的记事本文件,当搜索蜘蛛访问网站时,它会先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。网络官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
robots文件屏蔽的写法
下面是一个网站的robots文件的代码样式。
===================================================================================
User-agent: *
Disallow: /plus/ad_js.php
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include
Disallow: /templets
===================================================================================
我们来看一下它的意思。
robots文件中应同时包含2个域,“User-agent:”和“Disallow:”,其中User-agent:代表允许、 Disallow: 代表禁止。每条指令独立一行。并且User-agent必须出现在第一行(有意义的行,注释除外),首先声明用户代理。
User-agent:
User-agent:指定允许哪些蜘蛛抓取,如果给出参数,则只有指定的蜘蛛能够抓取;如值为通配符“*”号,代表允许所有蜘蛛抓取。如:
User-agent: Googlebot
只允许Google的蜘蛛抓取。
User-agent: spider
只允许网络的蜘蛛抓取。
User-agent: *
这个是指允许所有蜘蛛抓取,*为通配符,代表所有。
Disallow:
这个是表示禁止蜘蛛抓取的,以上面的robots文件为例。
Disallow: /plus/ad_js.php
这个是指禁止引擎蜘蛛抓取网站中plus目录中的ad_js.php文件
Disallow: /include
这个是指禁止引擎蜘蛛抓取网站中include整个目录,它和Disallow: /include/不是等同的。
Disallow: /include/
这个是指禁止引擎蜘蛛抓取网站中include目录下面的目录,但include目录中的文件蜘蛛仍然可以抓取。
Disallow: /cgi-bin/*.htm
禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?*
禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$
禁止抓取网页所有的.jpg格式的图片
Allow:
这是允许的意思。
Allow: /include/
这里是允许爬寻include目录下面的目录
Allow: /include
这里是允许爬寻include整个目录
Allow: .htm$
仅允许访问以".htm"为后缀的URL。
Allow: .gif$
允许抓取网页和gif格式图片
Sitemap:
网站地图 告诉爬虫这个页面是网站地图
robot文件的常见用法
例1. 禁止所有搜索引擎访问整个网站。
User-agent: *
Disallow: /
例2.禁止网络蜘蛛访问整个网站。
User-agent: spider
Disallow: /
例3.允许所有搜索引擎访问(也可以建立一个空robots.txt文件或者不建立robots文件)
User-agent: *
Allow:/
User-agent:后的*具有特殊的含义,代表“any robot”,所以在该文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”这样的记录出现。
robots Meta标签屏蔽法
robots.txt是放在网站中,文件级的网络蜘蛛授权;而robots Meta标签是放在网页中,一般用于部分网页需要单独设置的情况下。两者的功能是一样的。
Meta robots标签必须放在<head>和</head>之间,格式:
<meta name=”robots” content=”index,follow” />
content中的值决定允许抓取的类型,必须同时包含两个值:是否允许索引(index)和是否跟踪链接(follow,也可以理解为是否允许沿着网页中的超级链接继续抓取)。共有4个参数可选,组成4个组合:
index,follow:允许抓取本页,允许跟踪链接。
index,nofollow:允许抓取本页,但禁止跟踪链接。
noindex,follow:禁止抓取本页,但允许跟踪链接。
noindex,nofllow:禁止抓取本页,同时禁止跟踪本页中的链接。
以上1和4还有另一种写法:
index,follow可以写成all,如:
<meta name=”robots” content=”all” />
noindex,nofollow可以写成none,如:
<meta name=”robots” content=”none” />
需要注意的是,robots Meta标签很多搜索引擎是不支持的,只有少数搜索引擎能够识别并按给定的值抓取。所以,尽可能的使用robots.txt文件来限制抓取。
❷ 如何禁止搜索引擎访问网站
搜索引擎蜘蛛对您的网站进行爬行 会消耗您的流量的 这个是好事 证明搜索引擎的友好度非常高 搜索引擎的收录数量和速度也会非常好 对您的网站推广是件非常有利的事情
当然不需要过多的搜索引擎蜘蛛爬行来耗费您的流量 您可以屏蔽掉他们 但是 这样做的话 以后搜索引擎的友好度会非常差 你你可以自己考虑下 禁止所有搜索引擎访问网站的任何部分方法↓
创建robots.txt文件,并将文件放置在网站根目录。
robots.txt 文件内容为:
User-agent: *
Disallow: /
❸ 怎样去掉多余的搜索引擎呢求解
这个你没办法进行设置的,是导航网站那边的,去不掉。
❹ 如何挽救被搜索引擎屏蔽的网站
几乎所有的主要搜索引擎,比如网络、Yahoo、搜狗等,都在相关的网站管理员指南中注明:主要网站及时清除作弊内容,是可以申请搜索引擎解除屏蔽站点的。
一般的申请解除的方式为电子邮件,电子邮件解除申请中一般要求注明以下几点:
①需解除的网址;
②作弊方式;
③被惩罚的起始时间;
④作弊行为是否已经清除。
尽管目前为止,通过这种方式解除惩罚的几率非常之小。大部分被解除的都是那些一直坚持高质量站点内容建设、真正受欢迎的站点、无意中涉及作弊的站点。也因为大部分站点,在清除作弊行为后,并没有被搜索引擎解除作弊。因而,搜索引擎也受到了很多网站管理员的指责。认为各站点公布的解除方式不过是虚设而已。
不管如何,在早期,与几乎没有搜索引擎声明只要解除作弊行为就有机会重新被搜索接受的的状况相比,目前的搜索引擎已经人性化多了。
如何清除作弊行为
要清楚作弊行为,首先必须认真阅读搜索引擎的相关规则。如果无法深刻把握搜索引擎的判罚尺度,则最好是选择专业的机构,对站点进行诊断,找出所有可能涉嫌作弊的地方。根据诊断结果,对于作弊行为或涉嫌作弊过渡针对搜索引擎而忽略用户体验的地方,进行改进。
但一定要注意,并非所有的作弊行为都是可以清除的。一般而言,如果是网站本身作弊,比如堆砌关键词等是可以很容易清除的。但对于群发链接,链接工厂等方面是很难清除的。因为我们几乎没有办法控制其他站点的行为。
在提交这个“检讨信”之后,要等多长时间才能得到处理呢?这个时间的长短要取决于搜索引擎来受理你的请求,还要花多长时间来检查你出现过的错误是否还在。因此时间大概在通过你的审查后的6-8个星期,而且最有可能是在各大搜索引擎的大规模更新之后。具有问题严重的网站可能等待的时间要比较长。轻度的问题,这个可能只要2-3周。
另外,如果你有多个网站被禁,那么你最好一次提交一个网站(域名)。
如果你不能发现网站被禁的确切原因,请找一个专业的SEO顾问来帮助分析。在你的请求信中,如果你提及你的网站得到了一个操守良好的SEO公司,搜索引擎会比较相信你的改正结果,加速你的恢复。
结语:如果等了一段时间通过以上方法都不能解决,那么趁早更换网站域名以及空间重新来过,这样至少能为你节省大部分时间来重整旗鼓。
姜文博客:http://jiangwenseo.com/technology/143.html
❺ 如何彻底删除百度搜索引擎
如果你日志已经删了的话,其他网站没有转栽你文章的话。
那么这时只能等网络更新了 。一般2个星期内会消失,慢的话要一个月。
网络更新是最慢的。。。答案补充 把网址和搜索内容发我,我帮助你看看具体你说的东西答案补充 那就要等网络大更新了
没有办法迅速删除。 网络过一段时间会自动删除。 当然,你可以尝试联系网络。 网络客户服务 竞价排名服务热线: 电话: (010) 82618800 (9:00--17:30) Email:[email protected] 网络北京 地 址: 北京市北四环西路58号理想国际大厦12层 邮 编: 100080 电 话: (010)82621188 传 真: (010)82607007 82607008 E-mail: [email protected]
❻ 新人须知如何利用搜索引擎消除噪音
新人须知如何利用搜索引擎消除噪音
搜索引擎的消噪很多情况下都是对于同一个网站的,其中搜索引擎不会因为网站的某个部分而去判断另一个网站对应部分也是噪音,现在搜索引擎消噪原理可以分为三大类:
第一:可视化信息原理
利用页面中元素的布局信息对页面进行划分,并保留页面中间区域,其他区域则被认为是噪音。
第二:网页结构原理
根据html标签对页面进行分区,分出页头、导航、正文、广告等区域,抓住正文等重要部分。
第三:模板原理
从一组网页中提取相同的模板,然后利用模板从网页中筛选有用的信息。
怎样利用搜索引擎消噪
第一:搜索引擎基于可视化信息识别噪音,因此想要尽快消噪就一定要遵循搜索引擎通用原则,把正文内容安排在页面中间区域,不要出现个性化页面,这样会增加搜索引擎识别噪音难度。
第二:搜索引擎基于网页结构识别噪音,根据网页HTML标签先抓取后区分,与正文没有关系的内容不被抓取就是减噪了,有很多区域如页头、广告等内容都是通过JS调用来实现的,因为这些区域的内容很多都是重复的,尤其是广告、版权等这方面,一旦被收录就要进行消噪处理,可能会造成重复,但需要注意的.是放入JS版块的都是不想被抓取的。
第三:搜索引擎会基于网页模版识别噪音,这些是针对同一个网站来说的,网站的模板相同可以更快的处理噪音,我们在建设网页时最好采用同一套模板,不要轻易改动模板,以帮助搜索引擎识别噪音区域,如果网站中页面中每个模板都不一样,那么搜索引擎对每个模板都有重新识别一次,这样就增加了处理时间。
;❼ 如何拒绝搜索引擎收录自己的网站
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
实例分析:淘宝网的 Robots.txt文件
User-agent: spider
Disallow: /
很显然淘宝不允许网络的机器人访问其网站下其所有的目录。
例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)
User-agent: *
Allow:
例3. 禁止某个搜索引擎的访问
User-agent: BadBot
Disallow: /
例4. 允许某个搜索引擎的访问
User-agent: Baispider
allow:/
例5.一个简单例子
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
User-agent:后的*具有特殊的含义,代表“anyrobot”,所以在该文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”这样的记录出现。
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
需要注意的是对每一个目录必须分开声明,而不要写成 “Disallow: /cgi-bin/ /tmp/”。
❽ 怎么把搜索引擎里的网址删掉
1
自定义删除(即想删除哪条历史记录就删除哪条)
在网络搜索网页里的搜索栏中,点击鼠标左键两次,会出现以前搜索过的历史记录。然后用鼠标指向你想要删除的历史记录(注意:是指向,不要点击),这时这条历史记录会深色显示,再点击DEL键,就可以删除这一条历史记录了。这种方法你可以随心所欲,想删哪条都可以。
2
完全删除法
在桌面用鼠标右键点击IE图标,再点属性。选上面的“内容”按钮。再点下面的“自动完成”按钮。然后点击“清除表单”,就可以把以前的所有历史记录删掉。如果想以后也把录用的内容不留历史记录,则把“表单”前面的勾去掉。
3
用修复工具,比如上网助手..
删除搜索框中的历史记录
如何清除搜索框内的搜索历史记录?
答:这是网页浏览器的一项功能。进入IE浏览器的相关菜单选项设置:
·如果您使用IE4.0浏览器,则由“查看→internet选项→内容→自动完成→清除表单→完成”;
·如果您使用IE5.0及以上版本的浏览器,则由“工具→internet选项→内容→自动完成→清除表单→完成”;
·如果您希望IE浏览器以后不再记录查询过的内容,请在“自动完成”设置页面内把“表单”前的选项勾去掉。
------------------------------------------------
其他
有三种方法:
第一种:自定义删除(即想删除哪条历史记录就删除哪条)
在网络搜索网页里的搜索栏中,点击鼠标左键两次,会出现以前搜索过的历史记录。然后用鼠标指向你想要删除的历史记录(注意:是指向,不要点击),这时这条历史记录会深色显示,再点击DEL键,就可以删除这一条历史记录了。这种方法你可以随心所欲,想删哪条都可以。
第二种:完全删除法
在桌面用鼠标右键点击IE图标,再点属性。选上面的“内容”按钮。再点下面的“自动完成”按钮。然后点击“清除表单”,就可以把以前的所有历史记录删掉。如果想以后也把录用的内容不留历史记录,则把“表单”前面的勾去掉。
第三种:用修复工具,比如上网助手..
❾ 如何删除搜索引擎
你说的搜索引擎插件吧?
直接点 控制面板,添加删除程序,然后选择网络索霸,或者Google工具条的那个卸载 就ok! 或者 你用360安全卫士的 那个 清除恶意插件也可以解决。