网站访问统计分析基础

定义

网站访问统计分析(web statistics and analytics)是指为了了解和优化网站访问情况而对访问数据进行测量,收集,分析和并形成报告的过程。这个过程往往没有告知用户并获得许可,在这种情况下,特别是通过第三方Cookie进行统计,并可以不同的网站之间共享,有侵犯用户隐私d的嫌疑。
网站访问统计(web statistics)通常指的是网络数据的测量,收集。
网站分析(web analytics)通常指的是对网络数据的分析。
广义的网站分析包括网站访问统计。

网站访问统计分析基本概念

PV(访问量):即Page View, 即页面浏览量或点击量,用户每次刷新即被计算一次。
UV(独立访客):即Unique Visitor,访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只被计算一次。
IP(独立IP):指独立IP数。00:00-24:00内相同IP地址只被计算一次。
新访客:某客户端首次访问为一个新访客。
最近访客:最近一段时间内访问您网站的客户端。目前显示50条。
当前在线人数:15分钟内在线访问的UV数。
24小时独立IP:指每小时独立的IP地址。因为该数据每个小时是独立去重,所以叫24小时独立的IP。
       例如192.168.1.1  0点-1点 访问了您网站   在这个时段算一个IP。
       如果192.168.1.1  0点-1点 再次访问您的网站 去重不计算IP。
       如果192.168.1.1  1点-2点 又访问您的网站 在这个时段也算一个IP。
最高IP :  指选择时间段范围内,某日访问IP最多的数值。
最高PV:指选择时间段范围内,某日访问量最高的数值。
日均流量:指选择时间范围内,平均每日流量。 (日均流量=总访问量/总天数)
人均访问量:指选择时间范围内,每个访客访问网站的PV数。(计算公式:人均访问量=访问量/唯一访客数)。
访问过程:每个访问者从进入您的网站开始访问,一直到最后离开您的网站,整个过程中发生的一切点击访问行为,称为一次访问过程。
访问入口:每次访问过程中,用户进入的第一个页面为访问入口页面。
访问出口:每次访问过程中,用户结束访问,离开前点击的最后一个页面为访问出口页面。
平均停留时间:所有访客的访问过程,访问持续时间的平均值。
平均访问页数:所有访客的访问过程,连续访问页面数的平均值。
贡献用户数:每个访问来源带来的独立访客数,即UV数;
贡献IP数:每个访问来源带来的独立IP数。
贡献PV数:每个访问来源带来的访客的一切后续访问行为所产生的PV数。
跳出率(Bounce Rate):仅仅访问了单个页面的用户占全部访问用户的百分比,或者指从首页离开网站的用户占所有访问用户的百分比。
退出率(Exit Rate):对网站某一页面而言。当该页为访客此次访问网站的最后一页时,该页面即为此次独立访问的退出页面,统计为有一次退出。相应的,该页面的退出率的计算公式为:
退出率=退出次数/总访问量*100%

网站访问统计分析基础

网站访问统计有下面两种常用方式

服务器日志分析(Web Server Log Files Analysis)
网页标签分析(Page Tagging or Web bugs Analysis),一般通过第三方代码实现
另外,也可以通过客户端软件,例如alexa工具条进行粗略估计

服务器日志分析(Web Server Log Files Analysis)原理 

用户每次访问网页,在服务器端都会记录该访问的一些数据 通过软件对这些数据进行分析,就能获取到访问统计数据 Log Files 包含的数据:客户端 IP 、时间、请求方法、请求文件、 HTTP 协议版本、访问状态码(是否访问成功等)、文件大小、 Referrer 信息、 Agent 信息(浏览器、操作系统等)

服务器日志(Server Log Files)的样例

111.111.111.111 – - [08/Oct/2007:11:17:55 -0400] “GET /support.html HTTP/1.1″ 200 10801 “http://www.google.com/search?q=log+analyzer&ie=utf-8&oe=utf-8 &aq=t&rls=org.mozilla:en-US:official&client=firefox-a” “Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US; rv:1.8.1.7) Gecko/20070914 Firefox/2.0.0.7″

服务器日志分析(Web Server Log Files Analysis)的历史 

90 年代早期,通常用客户端请求数( hits )来计算访问数据。
早期网页格式单一 随着后来图片等其他多媒体元素引入网页,请求数已经不能再代表用户访问情况。
90 年代中期,引入两种数据: Page Views 和 Visits (或 Sessions )
Page View :用户对服务器端页面的一次请求
Visit :唯一可标识客户端发起的一系列请求,在一定时间段不活动(通常 30 分钟)后该客户端再次发起的请求会被计算为一个新的 Visit
90 年代后期,随着搜索引擎爬虫、代理服务器、动态分配 ID 地址的出现,很难确定唯一用户访问者。
分析软件按 cookies 来追踪 visits 忽略可知的爬虫的访问请求,不计算在内 客户端缓存的应用也对 log files 分析带来了问题 用户对一个页面的第二次访问通常会从浏览器缓存里读取,这样不会对服务器产生新的请求 当然可以在服务器段配置不允许缓存,但这样会降低用户访问网站的效率和性能。

Page Tagging 的原理

通过在页面代码中嵌入 JavaScript 代码 当页面加载时, JS 代码被执行 JS 代码将这次访问的数据传回服务器端 Page Tagging 可获取的数据。

Google Analytics 判断用户是不是第一次访问这个网站。它是通过 cookie 来判断, 如果特定 Cookie 不存在它就会认为是新用户,它会种一个用户标识的 cookie ,并在 cookie 中记录下用户第一次访问时的 Referrer ,即来源网站。 如果是从搜索引擎过来的,它还会分离出用户搜索用的关键词并记录下来 判断用户是不是新的访问( New Visit) ,并获取当前浏览的页面 URL ,标题, Referrer (来源网址),客户端信息(如屏幕分辨率,语言, flash 版本,是否支持 java )

Page Tagging 的历史 

90 年代中期,网页计数器随处可见 通常是用图片显示该页面被访问的次数 90 年代后期,用 JS 在页面中引入不可见的小图片,除了计算该图片请求外,还传递一些访问者的其他参数 随着 Ajax 的兴起,页面中不再嵌入图片,而是通过一小段 Ajax 代码传递访问相关参数

Server Log Files 的优势

不需要在页面中加代码,服务器会自动记录 log files Log files 数据在网站自己的服务器上,并且是按标准格式存储,方便切换分析软件 Log files 包含搜索引擎爬虫的访问数据,有利于提供 SEO 数据 可以多域名的日志放在一起分析,在线统计系统对用户的标识是基于 Cookie 的,而 Cookie 是不能跨域名的,在这方面日志分析有天然的优势。
Log files 不需要额外的 DNS 查询,这样不会导致页面加载变慢或者统计 PV 丢失 Page Tagging 如果采用第三方服务提供商,需要因域名不同而产生额外的 DNS 查询 Web 服务器真实记录所有访问,而 Page Tagging 无法真实记录所有访问 Page Tagging 依赖于访问者客户端的配合,当客户端 JS 被禁用,或者 hosts 设置禁止访问某些域名 Page Tag 被漏加或多加 一些无法加 Page Tag ,例如 pdf 文件。

Server Log Files 的劣势

使用比较麻烦,每次要分析日志,而且有的还要配置 web 服务器以输出合适的日志 搜集的客户端信息不如 Page Tagging 丰富,例如 flash 版本,是否安装 java 之类从日志是看不出来的 日志的存储管理也是挺头痛的事,尤其是当每天都产生几十 G 日志的时候 使用 CDN 时,需要合并日志分析

Page Tagging 的优势 

只要打开页面就会记录,即使从缓存中读取页面内容 搜集到一些通过日志不能搜集到的客户端信息,屏幕分辨率,语言, flash 版本,是否支持 java 等 可以记录更多的用户活动和信息,比如鼠标点击、页面停留时间等

通过 Cookie 识别访问者,比依靠 IP 识别要更准确。因为通过 IP 识别用户在遇到很多用户通过代理服务器(比如网吧)时就会不准确。而且当用户过几天后再访问时,通过 Cookie 能很好的识别这是已经来过的用户。而日志分析以 IP 识别用户时,因为用户每次上网拨号可能会被动态分配不同的 IP ,就会比较难准确判断返回用户。

Page Tagging 的劣势 

当客户端禁止 JS 或禁止 Cookie 时,都会影响统计结果,要么是完全统计不到,要么是出现错误的统计 存在一定误差,因为通过 JS 把客户端信息搜集起来再传回服务器实现统计,有时因为网络的延迟(或被屏蔽),会出现没有统计到的情况。而且和页面的载入速度也有关系, 把代码加在页面代码顶部或尾部统计结果都是会有差异的 (有数据显示这个差异会达到 4-5% )。

不能统计用户对图像,视频,音频等文件的访问,因为这些文件不能插入统计代码 不能统计带宽信息 统计信息被第三方掌握,有安全上的危险 Page Tagging 需要在页面中加代码,如果切换统计服务提供商的话,需要大批量更新代码

访问统计分析原则 

看趋势而不是看孤立数据是网站分析最重要的原则 由于网站分析工具是精确的,因此虽然不能准确反映数据,却能够准确反映趋势 因为网站分析工具的精确性,如果整体值比实际准确值偏小 20% 的话,那么构成整体的各部分也会同比比各自的准确值偏小 20% 。因此,比较所需要的细分仍然能够满足分析的需要。

跳出率与退出率分析

Bounce Rate : Bounce Rate 既是衡量整个网站的度量 (即 Bounce Rate 是指 Bounce 掉的 Visit 占所有访问网站的 Visit 的百分比), 也是衡量页面的度量 。 Bounce Rate 在衡量页面时,只能用来衡量 Landing Page (入口页面)。 Exit Rate 只能用来衡量页面,无法衡量整个网站,因此说某个网站的 Exit Rate 是多少是没有意义的。原因在与,每个访问最终都将离开网站,因此每个网站的 Exit Rate = 100% ,毫无疑问。
Bounce Rate 的大小说明了网站 Landing Page (入口页面)的质量。如果一个网站的 Bounce Rate 非常高,那么这个网站所有的 Landing Page 的质量都值得检查。 Exit Rate 的大小则直接说明了每个页面的内容质量的好坏。如果一个页面的 Exit Rate 很高,有两种可能性: a. 页面没有引起读者兴趣,读者没有再点击页面上的其他链接,而是关闭了浏览器窗口。 b. 页面上没有链接(或是链接很少)。

常用第三方访问统计平台

百度统计
CNZZ
Google Analytics
「我要啦」免费统计
 51Yes 
量子恒道网站统计 

参考
http://en.wikipedia.org/wiki/Web_analytics
http://help.cn.yahoo.com/answerpage_2430.html
http://www.slideshare.net/eolcn/ss-4325767