上海交通大学IPv6视频网站日志分析报告
1.概述
http://video6.sjtu.edu.cn(以 下简称video6网站)是上海交通大学网络信息中心在下一代互联网CERNET2上建立的视频服务网站,通过IPv6网络向全球提供服务。目前主要提供 几十个电视台、电台的网上直播,以及测试性提供少量视频点播内容。该网站广受用户好评,是目前国内IPv6网络上流量最大的网站。考虑到当前IPv6网络 资源较少,而该站点电视直播资源丰富,用户群体很大,能够在一定程度上反映出IPv6用户的分布和使用状况。因此我们决定对该站点的Web访问日志进行分 析。我们希望通过初步分析达到以下目的:
了解网站目前的访问情况。这样有助于我们更全面掌握服务器的使用状况,合理配置视频服务的软硬件系统,更好的为用户提供服务。
分析目前IPv6用户的分布状况和接入方式。在当前国内IPv6普及率不高的情况下希望得到用户比较集中的地区分布并进行初步统计分析。
原始日志数据
我们在video6网站的Web服务器端启动了日志记录功能,日志记录的格式为: date time s-sitename cs-method cs-uri-stem cs-username c-ip cs-version cs(User-Agent) cs(Referer) sc-status sc-bytes,收集了从 2008年2月26日到2008年3月27日共一个月的日志。这份日志一共涉及到 129,236个不同的IPv6地址,包含2,930,961条原始记录。
我们依次采用下列手段过滤了一些对于此次统计分析没有意义的访问记录,包括:
1.由于服务器是双栈的,日志中存在来自Baiduspider等搜索引擎和网络扫描产生的少量IPv4地址的访问。因为这些数据不能反映IPv6用户 的真实访问情况,我们首先将这些数据剔除在分析数据集之外。这些记录一共 364条,占所有原始记录的0.012%。
2.考虑到不是所有用户都会访问video6网站的论坛和网速带宽测试栏目,而这种访问可能会使一个用户产生较多的日志记录,对后来的分析产生干扰。我们也过滤了用户访问这些内容的日志记录。这些记录一共 281,189条,占所有原始记录的9.59%。
3.同样是为了避免干扰分析,我们过滤了扩展名是 .zip,.exe 等文件的下载记录。这些记录有20,092条,占所有原始记录的0.686%。
4.我们发现日志里对部分目录的GET请求,显示的IPv6地址会以%0结尾,这可能和Web服务器的处理有关。由于这部分IPv6地址在请求其他文件 时已经有所反映,并不会影响我们此次的分析,所以可以忽略。这些记录有1,818,846条,占所有原始记录的62.1%。
经过这些过滤,最终剩余810,470条访问记录作为此次分析样本,占所有原始记录的27.7%,涉及到 129,236个不同IPv6地址。
用户IPv6地址来源和地区分布
根据我们目前所掌握的信息,用户的IPv6地址主要来源于4种途径。
ISATAP隧道方式
ISATAP隧道方式获取的IPv6地址格式为:Prefix(64bit):0:5efe:IPv4ADDR(IPv4ADDR即隧道端点的IPv4源 地址,常见形式为a.b.c.d),所以在日志记录中我们很容易发现哪些用户使用ISATAP方式接入。一般说来,如果用户的IPv4地址不发生变化,那 么他通过ISATAP隧道方式获取的IPv6地址也不会发生变化。我们经过统计发现存在有34个ISATAP服务器地址,共出现了10,056个不同的 IPv6地址,占分析样本所有地址的7.78%。
表1. ISATAP服务器活跃程度排名Top20
排序. Prefix(64bit):0:5efe 提供者 IPv6地址数
1 2001:da8:1005:1111:0:5efe 南京农业大学 2223
2 2001:da8:21c:6ff:0:5efe 中国人民大学 1669
3 2001:da8:207:1:0:5efe 北京师范大学 1459
4 2001:250:2009:400c:0:5efe 四川西华大学 1004
5 2001:da8:c803:85:0:5efe 西南大学 984
6 2001:da8:200:900e:0:5efe 清华大学 472
7 2001:da8:c800:b:0:5efe 重庆大学 403
8 2001:da8:c003:3:0:5efe 西北师范大学 385
9 2001:da8:8000:3:0:5efe 上海交通大学 334
10 2001:250:5008:2000:0:5efe 江苏工业学院 324
11 2001:da8:205:ffff:0:5efe 北京交通大学 204
12 2001:da8:224:a0d2:0:5efe 中国政法大学 180
13 2001:da8:224:a0ce:0:5efe 中国政法大学 94
14 2001:da8:211:2:0:5efe 北京林业大学 89
15 2001:da8:7007:ffff:0:5efe 石油大学 44
16 2001:da8:224:a021:0:5efe 中国政法大学 34
17 2001:da8:224:a037:0:5efe 中国政法大学 26
18 2001:da8:b8:66:0:5efe 同济大学 26
19 2001:da8:7007:fffe:0:5efe 石油大学 25
20 2001:da8:e800:2:0:5efe 厦门大学 15
从表1中我们可以看出几乎所有ISATAP隧道接入方式都由国内大学或学院提供。分析对应的IPv4地址可以看出这些主要面向校内用户(出现的IPv4地 址是内部地址或校内地址),但是也有部分允许校外接入使用。由于在部分学校存在DHCP自动获取IPv4地址的现象,这样同一个用户在不同时间访问 video6网站,日志记录到的可能是不同的IPv6地址。这会给我们的分析带来一定程度的偏差,所以并不能说出现地址多的学校用户数一定比地址少的用户 多,这仅仅是一个趋势上的大致排名。Top20的ISATAP服务器出现过的IPv6地址总计9994,占全部 ISATAP隧道接入的 99.4%。
6to4隧道方式
6to4隧道方式获取的IPv6地址格式为:2002:IPv4ADDR::/48 (IPv4ADDR即隧道端点的IPv4源地址,常见形式为xxxx:xxxx,是由32位IPv4源地址a.b.c.d转化而来的32位16进制表 示)。我们统计下来出现过2,815个6to4隧道IPv6地址,占分析样本所有地址的2.2%。
我们编写程序对这些地址进行了转换,得到了对应的2773个IPv4地址,再使用网上流行的纯真(CZ88)IP地址库对这些IPv4地址全部做了地域反查然后归类分析,得到结果如下表:
表2. 6to4服务活跃程度排名 Top10
排序 来源 IPv4地址数
1 山东大学 1244
2 重庆大学 366
3 中科院 345
4 兰州大学 340
5 网通 120
6 电信 101
7 上海交通大学 54
8 教育网直通车 29
9 江苏工业学院 11
10 东北大学 9
从表2中我们可以看出大学和科研院所还是使用6to4隧道的主力。需要特别说明的是,6to4并非是IPv6的主流接入方式,很多用户可能只是在安装了 IPv6协议以后,从微软的隧道服务器自动获取到的IPv6地址。在这张表里排名靠前的学校,安装IPv6协议的用户数相对较多。Top10的6to4活 跃用户总计2619,占全部使用6to4隧道接入方式的94.4%。
支持IPv6的Proxy
通过对同一个IPv6地址的出现次数以及用户浏览器代理的关联分析,我们发现了唯一的一个IPv6地址(2001:638:902:1::11),这个地 址在所有的日志中出现了30,420次,占3.75%。通过分析来自这个IP的日志,得到了541个不同的User-Agent。如果操作系统和使用的浏 览器程序不变,一般用户访问时日志记录的User-Agent是不变的。在我们这次分析的包含129,236个IPv6地址的日志样本中,不重复的 User-Agent也只有3292个。那么说明最少有541个用户使用了这个代理服务器(由于不同用户的访问User-Agent信息可能相同,所以实 际数目可能远远超过这个数字)来访问video6网站。对这个IPv6地址反解出来的域名为 proxy.ipv6.uni-leipzig.de,是由德国莱比锡大学提供的IPv6 http 和 ftp proxy,这也是在IPv6网络上广泛使用的一个知名代理服务器。
Native IPv6方式
剩下来的IPv6地址我们认为是Native IPv6接入。这些IPv6地址有116,364个,占分析样本所有地址的90%。我们将这些IPv6地址和对应学校或单位做了区域映射并分类统计,最终得到下表:
表3. Native IP 活跃地区排行Top25
排序 Prefix(48bit): 使用者 活跃IP
1 2001:CC0:2020 中科院研究生院 24318
2 2001:DA8:7000 山东大学 23479
3 2001:DA8:224 中国政法大学 21679
4 2001:DA8:216 北京工业大学 15622
5 2001:DA8:7001 山东大学齐鲁软件学院 6368
6 2001:DA8:215 北京邮电大学 4078
7 2001:DA8:C000 兰州大学 2416
8 2001:DA8:200 清华大学 2262
9 2001:250:217 中国传媒大学 2007
10 2001:DA8:D800 中国科技大学 1644
11 2001:DA8:211 北京林业大学 1385
12 2001:250:1804 华南理工大学 1378
13 2001:DA8:E000 浙江大学 1210
14 2001:DA8:207 北京师范大学 1039
15 2001:DA8:7005 济南大学 911
16 2001:250:1401 兰州理工大学 685
17 2001:256:100 3Tnet网 591
18 2001:DA8:201 北京大学 389
19 2001:DA8:C803 西南大学 380
20 2001:250:2009 四川西华大学 332
21 2001:250:1999 华南理工大学 311
23 2001:DA8:1002 东南大学 281
24 2001:DA8:21C 中国人民大学 277
25 2001:CC0:201C 中科院 206
可以看出,高校和科研单位是Native IPv6的主要使用者。各学校使用普及情况非常不平衡,Top25的学校或单位使用的IPv6地址数为113,248,占全部Native IPv6接入的97.3%,其他高校IPv6的普及推广情况可想而知,不容乐观。我们通常公认的校园网基础建设比较好的学校,IPv6的使用情况也并没有 想象的那么好。但是在部分地区,IPv6还是有相当程度的使用量,这些都值得我们关注和思考。
有一点需要特别指出,出于安全性考虑, Windows操作系统里使用自动配置获得的Native IPv6地址会随着时间的增加而自动改变,因此同一用户在不同时间段内访问video6网站,日志里记录的用户IPv6地址可能是不同的。由于我们暂时无 法分离出这些重复用户,这给我们的分析带来一定程度的误差。在表3排名靠前的学校里,实际使用的用户并没有列出的IP地址那么多,而只是从一个侧面表明其 使用人数和使用频率相对较高。
用户浏览器和操作系统分析
由于使用IPv6代理的用户无法精确统计其信息,我们过滤了来自Proxy的所有日志记录。因为用户可能会多次访问video6网站,在日志里就会留下 不同时段来自同一个用户的访问纪录。为了避免重复统计,因此在下面的分析中,我们认为一个IPv6地址仅代表一个用户,以下内容分析样本中一个IPv6地 址只会出现一次。虽然IPv6网络里不存在NAT等因素引起一个IP对应多个用户的现象,但是实际情况存在有一个用户对应多个IPv6地址的情况,所以下 面的分析不可避免的存在有一些误差。.
4.1 客户端浏览器的统计
我们首先对客户端浏览器做了统计,其分布如表4。
表 4. 浏览器使用比例图
浏览器 独立 IP 数 百分比
IE 6.0 77986 59.1%
IE 7.0 45903 34.8%
Firefox 2.0 6227 4.7%
Opera 980 0.74%
Firefox 3.0 471 0.36%
Firefox 1.0/1.5 271 0.21%
IE 8.0 89 0.07%
Safari 58 0.04%
可以看出绝大部分用户(94.6%)都是使用IE或其内核浏览器来访问video6网站,这也意味着大部分人都选择使用Windows平台。
4.2 客户端操作系统的统计
从日志的User-Agent信息里可以获取用户的操作系统信息,其分布见下表:
表5. 操作系统分布比例图
操作系统 独立 IP 数 百分比
Windows XP 119897 92.7%
Windows Vista 9013 6.97%
Linux 186 0.14%
Windows 2003 154 0.12%
Windows 2000 61 0.05%
Macintosh 12 0.009%
可以看出,由于Windows XP对IPv6的良好支持,大部分用户都选择了使用这种操作系统来访问video6网站,Vista由于内置了IPv6协议,也有相当部分的用户使用,选择其他操作系统的用户非常少。
总结
十年前,中国教育和科研计算机网就已加入IPv6试验网6 Bone,今年CERNET2的建设也即将步入第五个年头。管中窥豹,可见一斑,从我们这份简单的日志分析报告来看,国内大部分地区IPv6推广普及工作 还任重道远,缺少应用支撑的IPv6网络难以得到广大网络管理者和普通用户的关注。随着今年CERNET2驻地网建设项目的实施,接入院校和单位会越来越 多,但网络服务的投入却远远跟不上这张网的建设速度。“Content is King”,如果所有人都能深刻理解到这一点,IPv6未来真正融入我们的生活也许才不是一个梦想。
已经用上ipv6了。