日记网站
发布时间:2017-02-02 来源: 日记大全 点击:
日记网站篇一:Seo们如何查看网站日志和分析网站日志
Seo从业人员如何查看网站日志和分析网站日志
Seo从业人员如何查看网站日志和分析网站日志
网站日志是什么?
作为一个网站管理人员,我们该除了通过流量统计工具来查看网站访问人数之外,并不能帮助我们很好地了解网站的运行状况,而网站日志的出现很好地帮助我们解决这一问题。网站日志是由网站所在服务器实时记录网站运行状态的各种数据的文件,通过对网站日志的分析,我们可以知道哪些用户访问了网站,访问了哪些页面;同时可以查看到搜索引擎中的蜘蛛在网站中的爬行情况,利用网站日志还能查看到请求中返回的HTTP协议状态码,长期分析网站日志中的HTTP状态码能够发现对网站不利的细节部分,使网站管理人员更好地管理和优化网站。网站日志存放在哪里?
网站日志一般存放在网站根目录下的“log文件夹”或“logfiles文件夹”,文件夹名称视各虚拟主机提供商不同而不同。网站日志是以txt结尾的文本文件。可以通过FlashFxp、Leapftp等网站上传下载工具将日志下载到本地进行分析。
网站日志案例分析:
1、日志语法:
#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2010-08-11 00:00:17
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes
说明:
#Software:表示软件名称;
#Version:表示版本号;
#Date:表示时间
#Fields:说明如下:
date:表示记录访问日期;
time:访问具体时间;
s-sitename:表示你的虚拟主机的代称或机器码;
s-ip:服务器IP;
cs-method:表示访问方法或发生的请求/提交事件,常见的有两种:一个是GET,就是平常我们打开一个URL访问的动作,另一个是POST,提交表单时的动作;
cs-uri-stem:用户在当前时间访问哪一个文件或具体页面;
cs-uri-query:是指访问地址的附带参数,如asp文件?后面的字符串id=12等等,如果没有参数则用“-”表示;
s-port:访问的端口
cs-username:访问者名称,如果没有参数则用“-”表示;
c-ip:访问者IP
cs(User-Agent):访问的搜索引擎和蜘蛛名称;
sc-status:Http状态码,200表示成功,403表示没有权限,404表示打不到该页面,500表示程序有错;
sc-substatus:服务端传送到客户端的字节大小;
cs–win32-statu:客户端传送到服务端的字节大小;
sc-bytes:服务端传送数据字节大小;
cs-bytes:用户请求数据字节大小;
http状态码后面几位数据没有固定格式,如果只有一个表示下载数据字节大小;
2、Http状态码:
1**:请求收到,继续处理
2**:操作成功收到,分析、接受
3**:完成此请求必须进一步处理
4**:请求包含一个错误语法或不能完成
5**:服务器执行一个完全有效请求失败
[案例]案例来源:web168.com的其中一个日志代码如下:
2010-08-09 11:44:32 W3SVC622339 222.186.25.142 GET /index.html - 80 - 123.125.66.70 Baiduspider+(+/search/spider.htm) 304 0 0 283
[说明]
这一记录表示百度蜘蛛在2010-08-09 11:44:32这一时间爬过网站根目录下的“index.html“这一页,通过返回的304状态码表示蜘蛛认为网页内容没有更新或没有修改,283表示蜘蛛下载这一页面的字节大小。
日记网站篇二:教你怎么看自己网站的日志和优化
一、网站日志文件在哪里?
【简单说下网站虚拟主机FTP几个文件夹说明】
虚拟主机开通成功之后,会在您的FTP里面自动生成4个文件夹,分别是:"databases","logofiles","others","wwwroot",他们作用如下:
1、wwwroot文件夹:该文件夹内存放可以通过web访问的文件,您需要将您对外发布的网站文件上传到该目录下,输入域名访问到的文件将是该文件夹下的文件。
2、databases文件夹:该文件夹同logofiles、others文件夹一样,属于不可通过web访问的文件夹,即用户无法通过输入网址来访问这些文件夹下的文件,您可以在这些文件夹下上传一些不希望别人能够访问的文件。比如您可以将access数据库存放在databases文件夹下,这样可以最大化的保证您的数据库安全。
3、logofiles文件夹:logofiles文件夹是日志文件,该文件夹存放您的网站日志文件。通过日志文件您可以查询到网站的一些访问记录。(由于各个空间商的不同,本文件夹的命名也有少许差别有都命为:logofiles或者WEBLOG反正一般都会带上LOG这一个字母)
4、others文件夹:该站点存放您自定义的IIS错误文件。IIS默认的一些错误提示,比如404错误,403错误,500错误等等,如果您觉得这些错误提示不够个性化,您可以将您自定义的错误提示上传到该目录下。
二、怎样分析网站日志文件 分析举例说明
下面已IBM笔记本电脑论坛最近8月份的日志文件为例说明一下,空间日志代码如下:
2009-08-23 16:06:03 W3SVC176 58.61.160.170 GET /nb/html/30/t-12730.html - 80 - 220.181.7.24 Baiduspider+(+/search/spider.htm) 200 0 0 20006
1、首先以百度为例,分析说明:
访问时间:2009-08-23 16:06:03
百度蜘蛛的IP:58.61.160.170
蜘蛛爬这的网址: /nb/html/30/t-12730.html
合来起所表达的意思很明显:IP为58.61.160.170的百度蜘蛛在2009-08-23 16:06:03点43分对此网站上的/nb/html/30/t-12730.html 网页进行收录或更新了。
【补充说明】
2009-08-23 16:06:03是百度蜘蛛来访的日期及时间;
158.61.160.170 是百度蜘蛛的IP
“GET 是服务器的动作,不是GET就是POSP;GET是从服务器上获取内容;/nb/html/30/t-12730.html 使用HTML1.1协议获取相关内容200 是返回状态码,200是成功获取;404是文件没找到;401是需要密码,403禁止查看,500服务器错误。很明显此例子中最后返回是200,为成功获取!
“+(+/search/spider.htm)″表示来路
当然,还有部分空间日志会有这样一些代码,他们表示意思如下:
“Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)” 表示的是用户所使用的电脑是与Netscape兼容的Mozilla浏览器,Windows NT操作系统,浏览器是IE6.0,装有Alexa Toolbar。
2、接下来说说googlebot,我盼googlebot已经好久了,这几天它终于来了,然后我在上输入site:.cn上输入网址即可。不用加前缀site:,还有一点,觉得这几个月的雅虎中国在技术上有改进,在网站收录和关键词搜索上,大家可以自己去体会。
说完三大搜索爬虫,再来看看别的二流搜索引擎的爬虫及门户搜索的爬虫:
1)msn: msn(msn live search beta)的搜索技术我个人觉得是难入流的,似乎比门户搜索更差,beta说明搜索版在测试阶段,现在电信采用msn的搜索技术,不知道电信的是什么眼光,呵呵。
2009-08-23 08:22:15 65.55.213.7 - 218.85.132.68
- 80 GET 200 /html/down/20070129/550.html
2)Alexa:大名鼎鼎的世界排名Alexa,它的蜘蛛比较难记,是ia_archiver。从严格意义上说,它不知道是不是爬虫,它与纯搜索引擎不同,是来侦测流量的居多,并不是来收录网页的。
3)Iask爱问: 2009-08-23 01:24:44 209.237.238.226 - 218.85.132.68 80 GET /html/internet/20070130/631.html - 200 ia_archiver Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html) msnbot-media/1.0+(+http://search.msn.com/msnbot.htm)
2009-08-23 11:56:47 60.28.164.44 - 218.85.132.68
- 80 GET 200 /html/webpromote/20070203/935.html
Mozilla/5.0+(compatible;+iaskspider/1.0;+MSIE+6.0)
4)sogou搜狗:
对于搜狗,我就觉得好笑了。大家记得我说过我的网站是改版过的,Brand是旧网站文件,早被我删除了。而且为了删除除搜索引擎收录的死链接,我在robots.txt文件中写着:Disallow: /Brand ,这当然禁止访问Brand下的文件,我这里想说的是,一、它sogou不遵守robots协议,二、对于已经删除近一个月的文件,它从哪里搜索而来。我真的不太明白了。
2009-08-23 01:34:42 220.181.19.170 - 218.85.132.68 80 GET /404.htm 404;/underwear/Brand/Brand2.htm 200 sogou+spider
5)yodaoice:
对于这个,大家不要感觉惊讶,这是163新开发的搜索引擎,目前处于测试版,界面颇象google风格,但技术年幼,也象搜狗一样乱抓一通。2009-08-23 06:19:29 60.191.80.151 - 218.85.132.68 80 GET /404.htm 404;/underwear/4864.gif 200 yodaoice
日记网站篇三:网站日记分析的重要性
很多站长不习惯查看网站日志,其实经常查看网站日志对于做网站优化有很多的辅助作用,尤其是对于刚刚上线的网站。网站日志能
很多站长在论坛发问,说新站上线多少天了,为什么没有快照,为什么不收录,其实在那里盲目提问的时候,你有没有花点时间用在研究自己站点的日志文件上,日志文件里包含太多的隐藏信息,只要你用心查看,就会发现,所以找到问题关键,才是解决问题必要前提条件。
对于新站没有收录,我们在网站上线后,天天查看前一天统计出来的日志文件,重点查看蜘蛛有没有来访问正常爬行,爬取了哪些目录,哪些页面,在网站停留时间,来访次数,返回状态码是什么。这样就能对网站情况进行掌握了。
1)如果网站没有蜘蛛来爬行,这种情况可能出现在刚提交的几天,我们可以到一些高权重的网站发布自己网站的链接引蜘蛛过来。
2)查看抓取的目录,对于不想让搜索引擎收录的目录和页面,可以用robots.txt来屏蔽掉。
3)对于返回状态,如果有404错误路径记录,我们要做出相就的处理,比如删除死链,或者用robots.txt屏蔽蜘蛛爬行。
天天看日志,就可以了解到网站有没有被搜索引擎抓取了,因为对于新站,刚抓取了不一定会放出来,所以用站长工具不一定看到,只要每天蜘蛛有来访有抓取,迟早是会放出来的,就不再需要我们到网上去问这类问题了。我们只需要做好一项工作,就是坚持更新网站内容,做好用户体验与外部链接。我们应该从哪几个维度来进行数据的整理分析呢?我们从基础信息、目录抓取、时间段抓取、IP抓取、状态码几点分布给大家讲解。
第一、基础信息
我们从日志中能够获取哪里基础信息呢?总抓取量、停留时间(h)及访问次数这三个基础信息,可以从光年日志分析工具中统计出来。然后,通过这三个基础信息算出:平均每次抓取页数、单页抓取停留时间。然后用我们的MSSQL提取蜘蛛唯一抓取量,根据以上的数据算出爬虫重复抓取率。平均每次抓取页数=总抓取量/访问次数???
单页抓取停留时间=停留时间*3600/总抓取量???
爬虫重复抓取率=100%—唯一抓取量/总抓取量
而以上这些数据,我们需要统计出一段时间的数据,看这个时间的整体趋势是怎么样的,这样才能够发现问题,才能够调整网站的整体策略。下面就以一站点()上个月的日志基础信息为例。
这个基础表是上个月的日志的基本信息,我们需要看它的整体趋势来调整,哪些地方需
要加强。
第二、目录抓取
用MSSQL提取出爬虫抓取的目录,分析每日目录抓取量。可以很清晰的看到每个目录的抓取情况,另外可以对比之前的优化策略,优化是否合理,重点的栏目优化是不是预期的效果。
第三、时间段抓取?
通过excel中的数组函数,提取每日的时间段的爬虫抓取量,重在分析每日的抓取情况,找到相应的抓取量较为密集的时间段,可以针对性的进行更新内容。同时,还可以看出,抓取不正常情况。
第四,IP段的抓取
通过MSSQL提取日志中的爬虫的IP,通过excel进行统计,每日每个IP的抓取量,同样我们需要看整体,如果IP段没有明显的变化的话,网站升降权是没有多大问题的。因为在网站升权或者降权的时候,爬虫的IP段会更换的。
第五,状态码的统计
在这个之前你需要了解下,HTTP状态码返回值代表是什么。
热点文章阅读