41 个解决方案
#1
机械工业出版的《数据仓库》和《数据挖掘》。都不贵。开发平台的资料书籍看你自己用什么就买什么的了。SQL SERVER有专门的数据仓库方面的书,具体名字我忘了,书店里一般都有的。
#2
我也一样,毕业设计也做数据仓库。数据仓库好像真的好难。看了半年了,还没有入门,极度郁闷。
#3
呵呵,选这个人真是多啊。
我也是一个。
大家共同进步吧。
我也是一个。
大家共同进步吧。
#4
我也是一个啊,大家帮帮忙吧,有资料大家分享啊!!!!数据仓库难啊,还是数据库好弄啊:(
#5
你们和我的情况一样,我做的是超市数据库系统的数据仓库,我也不了解,而且白天要去实习,只有晚上时间,还有一大堆试要考。
今天下午才去广州图书馆站了一个下午找论文。
大家最好留QQ交流,我们算是同病相怜了。
58105238
今天下午才去广州图书馆站了一个下午找论文。
大家最好留QQ交流,我们算是同病相怜了。
58105238
#6
我的QQ
69160593
69160593
#7
我的毕业设计也是做数据仓库,不过还好我们做的是学生学籍数据仓库,已经有数据库了。
有本书不错:机械工业出版社;陈维明,邓苏;数据仓库的原理与应用
有本书不错:机械工业出版社;陈维明,邓苏;数据仓库的原理与应用
#8
evilks520@sina.com
#9
oracle8i数据仓库
机械工业
我的毕业论文也在数据挖掘方面
qq:179534387
e-mail:eureka0891@hotmail.com
机械工业
我的毕业论文也在数据挖掘方面
qq:179534387
e-mail:eureka0891@hotmail.com
#10
jackedfang@sina.com.cn
#11
evilks(傲野)大哥你搞错,是张维明
#12
我目前的研究项目是数据仓库,你可以同我联系
wh_dai@hotmail.com
QQ 183421813
书籍可以找一下 王珊老师的著作 数据仓库
或看一下机械的 数据库系统导论
或 data mining 等书均有涉及
wh_dai@hotmail.com
QQ 183421813
书籍可以找一下 王珊老师的著作 数据仓库
或看一下机械的 数据库系统导论
或 data mining 等书均有涉及
#13
数据仓库??嗯,得好好学~~~
#14
王珊的书不错
我现在是用 sybase 的东西来作
我 的Q13223651 有空大家一起讨论吧
我现在是用 sybase 的东西来作
我 的Q13223651 有空大家一起讨论吧
#15
数据仓库真真热门啊,呵呵,我也是同道中人。
我在用SqlServer开发。这个东西书好像很多,不过真正开发起来,困难重重啊。
qq 11428092
我在用SqlServer开发。这个东西书好像很多,不过真正开发起来,困难重重啊。
qq 11428092
#16
hehe wbstevennudt(境台)
对啊,是张维明,你也看过那本书,不错吧
对啊,是张维明,你也看过那本书,不错吧
#17
Web分析工具概述
挑战
在竞争日益激烈的网络经济中,只有赢得用户才能最终赢得竞争的优势。作为一个网站,你知道用户都在你的网站上干什么吗?你知道你的网站哪些部分最为用户喜爱、哪些让用户感到厌烦?什么地方出了安全漏洞?什么样的改动带来了显著的用户满意度提高、什么样的改动反而丢失了用户?你怎样评价你的网站广告条的效率、你知道什么样的广告条点击率最高吗?“知己知彼,才能百战不殆”,你真的了解自己吗?
机会
所有客户行为的电子化(Click Stream),使得大量收集每个用户的每一个行为数据、深入研究客户行为成为可能。如何利用这个机会,从这些“无意义”的繁琐数据中得到大家都看得懂的、有价值的信息和知识是我们面临的问题。
我们能做什么
3.1 基本分析
流量分析
随时间的变化,网络流量怎样化?每一张网页、每一个目录、每一个内容模块的流量分配情况怎样。
广告分析
我们做的哪些广告给我们带来了最大的访问量?投资收益比是多少?我们自己网站上的广告又有多少点击率,什么位置上的广告点击率最高?
网站出入口分析
用户在哪里进入网站。每次都经过首页?还是通过搜索引擎直接进入感兴趣的页。用户在哪一页过后跳出了网站?有多少人是这样出去的?
访问路径分析
用户的访问路径都是什么样的?他们怎样进入某一特定内容?我们吸引用户进入一个特定目标的措施效果如何?
用户来源分析
我们最重要的用户都来自哪里?什么国家、地区,从哪个网站过来?那个ISP对我来说是最重要的,在来源上我们的用户有哪些特征?
浏览器和平台分析
用户都用什么样的浏览器、什么操作系统访问我的网站?在设计网站时具体要做哪些权衡和优化。
3.2 智能分析(数据挖掘)
网页相关性分析
哪些网页具有密切的关系,如果很多人具有a.htmlà b.htmlà c.html这样的访问模式,则我们可以认定a.html和c.html之间有一定的关系,是否考虑在a.html上直接加上c.html的链接?
用户访问模式分析
有哪一些网页,用户只要访问了其中的一页,则可以断定他也要访问其他的网页?即按不同的用户访问模式,把网页分组,得到一个一个的兴趣点。哪些用户所访问的网页组成比较类似(具有类似的兴趣),即根据用户行为的相似性,把用户按行为模式分类。
用户归类
通过用户填写的信息如何把用户归入某一特定的类别?然后可对同一类别中的用户提供相似的服务。
用户可以得到什么
对网站的修改更加又目的、有依据,稳步的提高用户满意度
发现系统性能瓶颈,找到安全漏洞
查看网站流量模式,找到网站最重要的部分。
发现用户的需要和兴趣,对需求强烈的地方提供优化。
根据用户访问模式修改网页之间的连接,把用户想要的东西以更快且有效的方式提供给用户。
在正确的地方正确的时间把正确的信息提供给正确的人。
测定投资回报率
测定广告和促销计划的成功度
找到最有价值的ISP和搜索引擎
测定合作和结盟网站对自身的价值
提供个性化网站
对大多数Web应用来说,让用户感到真个网站是完全为他自己定制的个性化网站,是Web站点成功的秘诀。针对不同的用户完全按照其个人的兴趣和爱好(数据挖掘算法得到的用户访问模式),向用户动态的提供要浏览的建议,自动提供个性化的网站。
典型商业问题
网站的访问量增加了吗?在什么地方?为什么?
用户对我们的新的应用(功能、内容)反映如何?
我们的新一轮宣传攻势效果如何?
怎样评价我们做的某一项广告?
访问我们网站的都是一些什么人?
用户是否要经过复杂的步骤才能得到他想要的东西?
哪些应用(内容)占据了大部分的网络流量?
哪些用户在使用网站上体现了相似的行为?
技术问题
数据处理
如何得到分析和数据挖掘所用的数据,主要采用两种方法,一是直接使用Web Server的log文件,二是用网络监听的办法,在数据包中提取出HTTP请求和应答。最后两种数据源都要转换成固定的格式存放在数据库或数据仓库内,供统计分析和数据挖掘使用。
统计分析
在数据库的基础上,针对不同的数据运行各种统计函数。
数据挖掘
数据挖掘技术是实现智能分析,得到隐藏在大量繁杂数据内部知识的关键。通过对用户访问网站的历史数据(即我们通过数据处理得到的数据)应用各种数据挖掘技术,得到高层知识,提供给用户作决策支持,或利用这些知识动态生成网页,为用户提供访问建议。
关联规则(Association Rules)
发现server session中请求网页的相关性。
可用于:优化网站组织,网络代理中的预取功能
聚集(Clustering)
使用分组(usage clusters)把具有相似浏览模式的用户分成组
可用于:电子商务应用中市场分片(market segmentation)和为用户提供个性化服务
网页分组(page clusters)按内容的相似性把网页分类
可用于:搜索引擎和Web浏览助手(Web assistance providers),为用户提供推荐链接
归类(Classification)
根据用户的个人资料,将其归入某一特定的类
可使用:决策树、naive Bayesian classifiers、k-最近邻居等算法
序列模式(Sequential Patterns)
发现一个session内部的网页间的时间相关性
可用于:预测用户的访问,而提供建议
挑战
在竞争日益激烈的网络经济中,只有赢得用户才能最终赢得竞争的优势。作为一个网站,你知道用户都在你的网站上干什么吗?你知道你的网站哪些部分最为用户喜爱、哪些让用户感到厌烦?什么地方出了安全漏洞?什么样的改动带来了显著的用户满意度提高、什么样的改动反而丢失了用户?你怎样评价你的网站广告条的效率、你知道什么样的广告条点击率最高吗?“知己知彼,才能百战不殆”,你真的了解自己吗?
机会
所有客户行为的电子化(Click Stream),使得大量收集每个用户的每一个行为数据、深入研究客户行为成为可能。如何利用这个机会,从这些“无意义”的繁琐数据中得到大家都看得懂的、有价值的信息和知识是我们面临的问题。
我们能做什么
3.1 基本分析
流量分析
随时间的变化,网络流量怎样化?每一张网页、每一个目录、每一个内容模块的流量分配情况怎样。
广告分析
我们做的哪些广告给我们带来了最大的访问量?投资收益比是多少?我们自己网站上的广告又有多少点击率,什么位置上的广告点击率最高?
网站出入口分析
用户在哪里进入网站。每次都经过首页?还是通过搜索引擎直接进入感兴趣的页。用户在哪一页过后跳出了网站?有多少人是这样出去的?
访问路径分析
用户的访问路径都是什么样的?他们怎样进入某一特定内容?我们吸引用户进入一个特定目标的措施效果如何?
用户来源分析
我们最重要的用户都来自哪里?什么国家、地区,从哪个网站过来?那个ISP对我来说是最重要的,在来源上我们的用户有哪些特征?
浏览器和平台分析
用户都用什么样的浏览器、什么操作系统访问我的网站?在设计网站时具体要做哪些权衡和优化。
3.2 智能分析(数据挖掘)
网页相关性分析
哪些网页具有密切的关系,如果很多人具有a.htmlà b.htmlà c.html这样的访问模式,则我们可以认定a.html和c.html之间有一定的关系,是否考虑在a.html上直接加上c.html的链接?
用户访问模式分析
有哪一些网页,用户只要访问了其中的一页,则可以断定他也要访问其他的网页?即按不同的用户访问模式,把网页分组,得到一个一个的兴趣点。哪些用户所访问的网页组成比较类似(具有类似的兴趣),即根据用户行为的相似性,把用户按行为模式分类。
用户归类
通过用户填写的信息如何把用户归入某一特定的类别?然后可对同一类别中的用户提供相似的服务。
用户可以得到什么
对网站的修改更加又目的、有依据,稳步的提高用户满意度
发现系统性能瓶颈,找到安全漏洞
查看网站流量模式,找到网站最重要的部分。
发现用户的需要和兴趣,对需求强烈的地方提供优化。
根据用户访问模式修改网页之间的连接,把用户想要的东西以更快且有效的方式提供给用户。
在正确的地方正确的时间把正确的信息提供给正确的人。
测定投资回报率
测定广告和促销计划的成功度
找到最有价值的ISP和搜索引擎
测定合作和结盟网站对自身的价值
提供个性化网站
对大多数Web应用来说,让用户感到真个网站是完全为他自己定制的个性化网站,是Web站点成功的秘诀。针对不同的用户完全按照其个人的兴趣和爱好(数据挖掘算法得到的用户访问模式),向用户动态的提供要浏览的建议,自动提供个性化的网站。
典型商业问题
网站的访问量增加了吗?在什么地方?为什么?
用户对我们的新的应用(功能、内容)反映如何?
我们的新一轮宣传攻势效果如何?
怎样评价我们做的某一项广告?
访问我们网站的都是一些什么人?
用户是否要经过复杂的步骤才能得到他想要的东西?
哪些应用(内容)占据了大部分的网络流量?
哪些用户在使用网站上体现了相似的行为?
技术问题
数据处理
如何得到分析和数据挖掘所用的数据,主要采用两种方法,一是直接使用Web Server的log文件,二是用网络监听的办法,在数据包中提取出HTTP请求和应答。最后两种数据源都要转换成固定的格式存放在数据库或数据仓库内,供统计分析和数据挖掘使用。
统计分析
在数据库的基础上,针对不同的数据运行各种统计函数。
数据挖掘
数据挖掘技术是实现智能分析,得到隐藏在大量繁杂数据内部知识的关键。通过对用户访问网站的历史数据(即我们通过数据处理得到的数据)应用各种数据挖掘技术,得到高层知识,提供给用户作决策支持,或利用这些知识动态生成网页,为用户提供访问建议。
关联规则(Association Rules)
发现server session中请求网页的相关性。
可用于:优化网站组织,网络代理中的预取功能
聚集(Clustering)
使用分组(usage clusters)把具有相似浏览模式的用户分成组
可用于:电子商务应用中市场分片(market segmentation)和为用户提供个性化服务
网页分组(page clusters)按内容的相似性把网页分类
可用于:搜索引擎和Web浏览助手(Web assistance providers),为用户提供推荐链接
归类(Classification)
根据用户的个人资料,将其归入某一特定的类
可使用:决策树、naive Bayesian classifiers、k-最近邻居等算法
序列模式(Sequential Patterns)
发现一个session内部的网页间的时间相关性
可用于:预测用户的访问,而提供建议
#18
我的毕业设计是也是做数据库方面的,现在还没个头绪,还请哪位老兄指导下。
不胜感谢!
h_wei_add@163.net
不胜感谢!
h_wei_add@163.net
#19
我的毕业论文也是,但是做多步流程控制的ETL工具,大家给点建议。ybhe@ynu.edu.cn
#20
mark
#21
先看王珊的《数据仓库及联机分析处理技术》很简单,易理解。
inmon的《数据仓库》是经典级的,虽然简单,但不一定易理解。
反正这两本书都最好买了:)
inmon的《数据仓库》是经典级的,虽然简单,但不一定易理解。
反正这两本书都最好买了:)
#22
王珊的《数据仓库及联机分析处理技术》的确是本不错的书,尤其是对入门阶段的,所以说内容都比较简单,对付本科的毕业论文应该可以了,但是这个太理论化了,要有实质的东西必须加上应用商的软件,入门级的选择SQL server2000,好处多多啊,象容易搞到啊,容易上手啊,后台数据库也简单啊,开发环境也不错.市面上有一堆的书
如果还想深入只能找个项目来了.老祖的书是英文版的,太费劲了.
如果还想深入只能找个项目来了.老祖的书是英文版的,太费劲了.
#23
<数据仓库>有中文版的,机械出版社出版,网上有电子版的下载
#24
!
#25
忽忽。我做的是数据挖掘///一小部门/////
#26
其实Sybase也不错。。:) 我现在所在电信,他们都用Sybase,虽然bug很多:(
#27
我也要做关于数据仓库的毕设,请问到底怎么做才能做出实在的看得见的东西呢?如果全部是理论的话,好像很难通过哎,好怕怕~~~~现在看了好多关于数据仓库的书,可还是没有一点头绪。
#28
我也想学,会不会很难?
#29
    大家好,看了你们的留言,我觉得你们还是应该学习一点东西。推荐你们一本书:《An Introduction To Database System》(Written by C.J.Date)。我觉得你们首先了解了什么是DBMS以及它的内部运行原理就可以了,前提是你的离散数学要学的不错啊。估计需要一个月多一点的时间就能够完成。那时你在了解一下SQL Server 2000中提供的数据仓库解决方案,相信你的设计能够做的不错!
#30
希望大家共同学习
我的QQ :44163393
我的QQ :44163393
#31
prettyqq和nvfeng的建议不错 SQL Server 你可以直接看它的文档,里面的东西就很多,当然市面上的书也不少。
#32
我的毕业论文也是数据仓库,我准备些SQL Server 2000的OLAP技术,各位有什么建议?
#33
我是楼主
想不到有这么多难兄难弟阿...
我的具体任务已经分配下来了,要做个在后台运行的数据抽取的程序,我这一组的另一个同学负责编一个应用程序来使用我处理过的数据。数据库我准备使用Analysis Services自带的Footmart2000。老实说这两天我看了很多理论知识,但是好像没有哪本书是介绍具体编程的。现在一点没有下手的地方,那位达人能够指点一二阿,或者给一个例子也可以,数据仓库这东西理论性太强
想不到有这么多难兄难弟阿...
我的具体任务已经分配下来了,要做个在后台运行的数据抽取的程序,我这一组的另一个同学负责编一个应用程序来使用我处理过的数据。数据库我准备使用Analysis Services自带的Footmart2000。老实说这两天我看了很多理论知识,但是好像没有哪本书是介绍具体编程的。现在一点没有下手的地方,那位达人能够指点一二阿,或者给一个例子也可以,数据仓库这东西理论性太强
#34
看来现在的毕业论文越来越难写了,数据仓库--现在学生做这个太脱离实际了。数据仓库是对大量数据的分析,你们找数据都是空的。这样空的再来做数据仓库真是为难你们啊。去年下半年我们小组为自己银行做了一个,例子倒有可以给你看看。给我你的油箱。
#35
ft! 现在的老师真是会误人子弟 !
Data warehousing要用Web Service! 还要.net, 根本不搭界的东东!
是不是啥新鲜就要用啥? Win server 2003刚出来, 他不会也要求必须应用2003吧!
Data warehousing一小部分的东西也凑够你一篇论文的了.
Data warehousing要用Web Service! 还要.net, 根本不搭界的东东!
是不是啥新鲜就要用啥? Win server 2003刚出来, 他不会也要求必须应用2003吧!
Data warehousing一小部分的东西也凑够你一篇论文的了.
#36
to kneek:
我的邮箱是linlight@vip.sina.com,真是太谢谢你了
另外楼上的,没办法阿,大趋势就是越来越浮躁
我的邮箱是linlight@vip.sina.com,真是太谢谢你了
另外楼上的,没办法阿,大趋势就是越来越浮躁
#37
我只能鼓励你了!加油啊!朋友!你终会成功的!
#38
bismarck(bismarck) 有没有收到啊???
#39
我也是你的一个战友,有好东东要大家分享啊!
#40
真是 误人子弟的老师 。
: lengnuan(冷暖自知)
严重的同意上边兄弟的见解。 各位兄弟,大家想对 数据仓库有点理解,最好
去找个有实施经验。或熟悉相关产品的人来听听他们的介绍。
大学的老师,可以说也是 半点概念都没有。他们很多人对这东西的理解 , 不会比字面
更深。
当然大家如果想应付论文。随便抄抄就搞定了。 注意你如果找了5本参考资料,第一次搜集
的材料最好不要全写到论文里。老师会让你 修改,修改。
: lengnuan(冷暖自知)
严重的同意上边兄弟的见解。 各位兄弟,大家想对 数据仓库有点理解,最好
去找个有实施经验。或熟悉相关产品的人来听听他们的介绍。
大学的老师,可以说也是 半点概念都没有。他们很多人对这东西的理解 , 不会比字面
更深。
当然大家如果想应付论文。随便抄抄就搞定了。 注意你如果找了5本参考资料,第一次搜集
的材料最好不要全写到论文里。老师会让你 修改,修改。
#41
谢谢各位达人的帮助,尤其是kneek
给分先...
给分先...
#1
机械工业出版的《数据仓库》和《数据挖掘》。都不贵。开发平台的资料书籍看你自己用什么就买什么的了。SQL SERVER有专门的数据仓库方面的书,具体名字我忘了,书店里一般都有的。
#2
我也一样,毕业设计也做数据仓库。数据仓库好像真的好难。看了半年了,还没有入门,极度郁闷。
#3
呵呵,选这个人真是多啊。
我也是一个。
大家共同进步吧。
我也是一个。
大家共同进步吧。
#4
我也是一个啊,大家帮帮忙吧,有资料大家分享啊!!!!数据仓库难啊,还是数据库好弄啊:(
#5
你们和我的情况一样,我做的是超市数据库系统的数据仓库,我也不了解,而且白天要去实习,只有晚上时间,还有一大堆试要考。
今天下午才去广州图书馆站了一个下午找论文。
大家最好留QQ交流,我们算是同病相怜了。
58105238
今天下午才去广州图书馆站了一个下午找论文。
大家最好留QQ交流,我们算是同病相怜了。
58105238
#6
我的QQ
69160593
69160593
#7
我的毕业设计也是做数据仓库,不过还好我们做的是学生学籍数据仓库,已经有数据库了。
有本书不错:机械工业出版社;陈维明,邓苏;数据仓库的原理与应用
有本书不错:机械工业出版社;陈维明,邓苏;数据仓库的原理与应用
#8
evilks520@sina.com
#9
oracle8i数据仓库
机械工业
我的毕业论文也在数据挖掘方面
qq:179534387
e-mail:eureka0891@hotmail.com
机械工业
我的毕业论文也在数据挖掘方面
qq:179534387
e-mail:eureka0891@hotmail.com
#10
jackedfang@sina.com.cn
#11
evilks(傲野)大哥你搞错,是张维明
#12
我目前的研究项目是数据仓库,你可以同我联系
wh_dai@hotmail.com
QQ 183421813
书籍可以找一下 王珊老师的著作 数据仓库
或看一下机械的 数据库系统导论
或 data mining 等书均有涉及
wh_dai@hotmail.com
QQ 183421813
书籍可以找一下 王珊老师的著作 数据仓库
或看一下机械的 数据库系统导论
或 data mining 等书均有涉及
#13
数据仓库??嗯,得好好学~~~
#14
王珊的书不错
我现在是用 sybase 的东西来作
我 的Q13223651 有空大家一起讨论吧
我现在是用 sybase 的东西来作
我 的Q13223651 有空大家一起讨论吧
#15
数据仓库真真热门啊,呵呵,我也是同道中人。
我在用SqlServer开发。这个东西书好像很多,不过真正开发起来,困难重重啊。
qq 11428092
我在用SqlServer开发。这个东西书好像很多,不过真正开发起来,困难重重啊。
qq 11428092
#16
hehe wbstevennudt(境台)
对啊,是张维明,你也看过那本书,不错吧
对啊,是张维明,你也看过那本书,不错吧
#17
Web分析工具概述
挑战
在竞争日益激烈的网络经济中,只有赢得用户才能最终赢得竞争的优势。作为一个网站,你知道用户都在你的网站上干什么吗?你知道你的网站哪些部分最为用户喜爱、哪些让用户感到厌烦?什么地方出了安全漏洞?什么样的改动带来了显著的用户满意度提高、什么样的改动反而丢失了用户?你怎样评价你的网站广告条的效率、你知道什么样的广告条点击率最高吗?“知己知彼,才能百战不殆”,你真的了解自己吗?
机会
所有客户行为的电子化(Click Stream),使得大量收集每个用户的每一个行为数据、深入研究客户行为成为可能。如何利用这个机会,从这些“无意义”的繁琐数据中得到大家都看得懂的、有价值的信息和知识是我们面临的问题。
我们能做什么
3.1 基本分析
流量分析
随时间的变化,网络流量怎样化?每一张网页、每一个目录、每一个内容模块的流量分配情况怎样。
广告分析
我们做的哪些广告给我们带来了最大的访问量?投资收益比是多少?我们自己网站上的广告又有多少点击率,什么位置上的广告点击率最高?
网站出入口分析
用户在哪里进入网站。每次都经过首页?还是通过搜索引擎直接进入感兴趣的页。用户在哪一页过后跳出了网站?有多少人是这样出去的?
访问路径分析
用户的访问路径都是什么样的?他们怎样进入某一特定内容?我们吸引用户进入一个特定目标的措施效果如何?
用户来源分析
我们最重要的用户都来自哪里?什么国家、地区,从哪个网站过来?那个ISP对我来说是最重要的,在来源上我们的用户有哪些特征?
浏览器和平台分析
用户都用什么样的浏览器、什么操作系统访问我的网站?在设计网站时具体要做哪些权衡和优化。
3.2 智能分析(数据挖掘)
网页相关性分析
哪些网页具有密切的关系,如果很多人具有a.htmlà b.htmlà c.html这样的访问模式,则我们可以认定a.html和c.html之间有一定的关系,是否考虑在a.html上直接加上c.html的链接?
用户访问模式分析
有哪一些网页,用户只要访问了其中的一页,则可以断定他也要访问其他的网页?即按不同的用户访问模式,把网页分组,得到一个一个的兴趣点。哪些用户所访问的网页组成比较类似(具有类似的兴趣),即根据用户行为的相似性,把用户按行为模式分类。
用户归类
通过用户填写的信息如何把用户归入某一特定的类别?然后可对同一类别中的用户提供相似的服务。
用户可以得到什么
对网站的修改更加又目的、有依据,稳步的提高用户满意度
发现系统性能瓶颈,找到安全漏洞
查看网站流量模式,找到网站最重要的部分。
发现用户的需要和兴趣,对需求强烈的地方提供优化。
根据用户访问模式修改网页之间的连接,把用户想要的东西以更快且有效的方式提供给用户。
在正确的地方正确的时间把正确的信息提供给正确的人。
测定投资回报率
测定广告和促销计划的成功度
找到最有价值的ISP和搜索引擎
测定合作和结盟网站对自身的价值
提供个性化网站
对大多数Web应用来说,让用户感到真个网站是完全为他自己定制的个性化网站,是Web站点成功的秘诀。针对不同的用户完全按照其个人的兴趣和爱好(数据挖掘算法得到的用户访问模式),向用户动态的提供要浏览的建议,自动提供个性化的网站。
典型商业问题
网站的访问量增加了吗?在什么地方?为什么?
用户对我们的新的应用(功能、内容)反映如何?
我们的新一轮宣传攻势效果如何?
怎样评价我们做的某一项广告?
访问我们网站的都是一些什么人?
用户是否要经过复杂的步骤才能得到他想要的东西?
哪些应用(内容)占据了大部分的网络流量?
哪些用户在使用网站上体现了相似的行为?
技术问题
数据处理
如何得到分析和数据挖掘所用的数据,主要采用两种方法,一是直接使用Web Server的log文件,二是用网络监听的办法,在数据包中提取出HTTP请求和应答。最后两种数据源都要转换成固定的格式存放在数据库或数据仓库内,供统计分析和数据挖掘使用。
统计分析
在数据库的基础上,针对不同的数据运行各种统计函数。
数据挖掘
数据挖掘技术是实现智能分析,得到隐藏在大量繁杂数据内部知识的关键。通过对用户访问网站的历史数据(即我们通过数据处理得到的数据)应用各种数据挖掘技术,得到高层知识,提供给用户作决策支持,或利用这些知识动态生成网页,为用户提供访问建议。
关联规则(Association Rules)
发现server session中请求网页的相关性。
可用于:优化网站组织,网络代理中的预取功能
聚集(Clustering)
使用分组(usage clusters)把具有相似浏览模式的用户分成组
可用于:电子商务应用中市场分片(market segmentation)和为用户提供个性化服务
网页分组(page clusters)按内容的相似性把网页分类
可用于:搜索引擎和Web浏览助手(Web assistance providers),为用户提供推荐链接
归类(Classification)
根据用户的个人资料,将其归入某一特定的类
可使用:决策树、naive Bayesian classifiers、k-最近邻居等算法
序列模式(Sequential Patterns)
发现一个session内部的网页间的时间相关性
可用于:预测用户的访问,而提供建议
挑战
在竞争日益激烈的网络经济中,只有赢得用户才能最终赢得竞争的优势。作为一个网站,你知道用户都在你的网站上干什么吗?你知道你的网站哪些部分最为用户喜爱、哪些让用户感到厌烦?什么地方出了安全漏洞?什么样的改动带来了显著的用户满意度提高、什么样的改动反而丢失了用户?你怎样评价你的网站广告条的效率、你知道什么样的广告条点击率最高吗?“知己知彼,才能百战不殆”,你真的了解自己吗?
机会
所有客户行为的电子化(Click Stream),使得大量收集每个用户的每一个行为数据、深入研究客户行为成为可能。如何利用这个机会,从这些“无意义”的繁琐数据中得到大家都看得懂的、有价值的信息和知识是我们面临的问题。
我们能做什么
3.1 基本分析
流量分析
随时间的变化,网络流量怎样化?每一张网页、每一个目录、每一个内容模块的流量分配情况怎样。
广告分析
我们做的哪些广告给我们带来了最大的访问量?投资收益比是多少?我们自己网站上的广告又有多少点击率,什么位置上的广告点击率最高?
网站出入口分析
用户在哪里进入网站。每次都经过首页?还是通过搜索引擎直接进入感兴趣的页。用户在哪一页过后跳出了网站?有多少人是这样出去的?
访问路径分析
用户的访问路径都是什么样的?他们怎样进入某一特定内容?我们吸引用户进入一个特定目标的措施效果如何?
用户来源分析
我们最重要的用户都来自哪里?什么国家、地区,从哪个网站过来?那个ISP对我来说是最重要的,在来源上我们的用户有哪些特征?
浏览器和平台分析
用户都用什么样的浏览器、什么操作系统访问我的网站?在设计网站时具体要做哪些权衡和优化。
3.2 智能分析(数据挖掘)
网页相关性分析
哪些网页具有密切的关系,如果很多人具有a.htmlà b.htmlà c.html这样的访问模式,则我们可以认定a.html和c.html之间有一定的关系,是否考虑在a.html上直接加上c.html的链接?
用户访问模式分析
有哪一些网页,用户只要访问了其中的一页,则可以断定他也要访问其他的网页?即按不同的用户访问模式,把网页分组,得到一个一个的兴趣点。哪些用户所访问的网页组成比较类似(具有类似的兴趣),即根据用户行为的相似性,把用户按行为模式分类。
用户归类
通过用户填写的信息如何把用户归入某一特定的类别?然后可对同一类别中的用户提供相似的服务。
用户可以得到什么
对网站的修改更加又目的、有依据,稳步的提高用户满意度
发现系统性能瓶颈,找到安全漏洞
查看网站流量模式,找到网站最重要的部分。
发现用户的需要和兴趣,对需求强烈的地方提供优化。
根据用户访问模式修改网页之间的连接,把用户想要的东西以更快且有效的方式提供给用户。
在正确的地方正确的时间把正确的信息提供给正确的人。
测定投资回报率
测定广告和促销计划的成功度
找到最有价值的ISP和搜索引擎
测定合作和结盟网站对自身的价值
提供个性化网站
对大多数Web应用来说,让用户感到真个网站是完全为他自己定制的个性化网站,是Web站点成功的秘诀。针对不同的用户完全按照其个人的兴趣和爱好(数据挖掘算法得到的用户访问模式),向用户动态的提供要浏览的建议,自动提供个性化的网站。
典型商业问题
网站的访问量增加了吗?在什么地方?为什么?
用户对我们的新的应用(功能、内容)反映如何?
我们的新一轮宣传攻势效果如何?
怎样评价我们做的某一项广告?
访问我们网站的都是一些什么人?
用户是否要经过复杂的步骤才能得到他想要的东西?
哪些应用(内容)占据了大部分的网络流量?
哪些用户在使用网站上体现了相似的行为?
技术问题
数据处理
如何得到分析和数据挖掘所用的数据,主要采用两种方法,一是直接使用Web Server的log文件,二是用网络监听的办法,在数据包中提取出HTTP请求和应答。最后两种数据源都要转换成固定的格式存放在数据库或数据仓库内,供统计分析和数据挖掘使用。
统计分析
在数据库的基础上,针对不同的数据运行各种统计函数。
数据挖掘
数据挖掘技术是实现智能分析,得到隐藏在大量繁杂数据内部知识的关键。通过对用户访问网站的历史数据(即我们通过数据处理得到的数据)应用各种数据挖掘技术,得到高层知识,提供给用户作决策支持,或利用这些知识动态生成网页,为用户提供访问建议。
关联规则(Association Rules)
发现server session中请求网页的相关性。
可用于:优化网站组织,网络代理中的预取功能
聚集(Clustering)
使用分组(usage clusters)把具有相似浏览模式的用户分成组
可用于:电子商务应用中市场分片(market segmentation)和为用户提供个性化服务
网页分组(page clusters)按内容的相似性把网页分类
可用于:搜索引擎和Web浏览助手(Web assistance providers),为用户提供推荐链接
归类(Classification)
根据用户的个人资料,将其归入某一特定的类
可使用:决策树、naive Bayesian classifiers、k-最近邻居等算法
序列模式(Sequential Patterns)
发现一个session内部的网页间的时间相关性
可用于:预测用户的访问,而提供建议
#18
我的毕业设计是也是做数据库方面的,现在还没个头绪,还请哪位老兄指导下。
不胜感谢!
h_wei_add@163.net
不胜感谢!
h_wei_add@163.net
#19
我的毕业论文也是,但是做多步流程控制的ETL工具,大家给点建议。ybhe@ynu.edu.cn
#20
mark
#21
先看王珊的《数据仓库及联机分析处理技术》很简单,易理解。
inmon的《数据仓库》是经典级的,虽然简单,但不一定易理解。
反正这两本书都最好买了:)
inmon的《数据仓库》是经典级的,虽然简单,但不一定易理解。
反正这两本书都最好买了:)
#22
王珊的《数据仓库及联机分析处理技术》的确是本不错的书,尤其是对入门阶段的,所以说内容都比较简单,对付本科的毕业论文应该可以了,但是这个太理论化了,要有实质的东西必须加上应用商的软件,入门级的选择SQL server2000,好处多多啊,象容易搞到啊,容易上手啊,后台数据库也简单啊,开发环境也不错.市面上有一堆的书
如果还想深入只能找个项目来了.老祖的书是英文版的,太费劲了.
如果还想深入只能找个项目来了.老祖的书是英文版的,太费劲了.
#23
<数据仓库>有中文版的,机械出版社出版,网上有电子版的下载
#24
!
#25
忽忽。我做的是数据挖掘///一小部门/////
#26
其实Sybase也不错。。:) 我现在所在电信,他们都用Sybase,虽然bug很多:(
#27
我也要做关于数据仓库的毕设,请问到底怎么做才能做出实在的看得见的东西呢?如果全部是理论的话,好像很难通过哎,好怕怕~~~~现在看了好多关于数据仓库的书,可还是没有一点头绪。
#28
我也想学,会不会很难?
#29
    大家好,看了你们的留言,我觉得你们还是应该学习一点东西。推荐你们一本书:《An Introduction To Database System》(Written by C.J.Date)。我觉得你们首先了解了什么是DBMS以及它的内部运行原理就可以了,前提是你的离散数学要学的不错啊。估计需要一个月多一点的时间就能够完成。那时你在了解一下SQL Server 2000中提供的数据仓库解决方案,相信你的设计能够做的不错!
#30
希望大家共同学习
我的QQ :44163393
我的QQ :44163393
#31
prettyqq和nvfeng的建议不错 SQL Server 你可以直接看它的文档,里面的东西就很多,当然市面上的书也不少。
#32
我的毕业论文也是数据仓库,我准备些SQL Server 2000的OLAP技术,各位有什么建议?
#33
我是楼主
想不到有这么多难兄难弟阿...
我的具体任务已经分配下来了,要做个在后台运行的数据抽取的程序,我这一组的另一个同学负责编一个应用程序来使用我处理过的数据。数据库我准备使用Analysis Services自带的Footmart2000。老实说这两天我看了很多理论知识,但是好像没有哪本书是介绍具体编程的。现在一点没有下手的地方,那位达人能够指点一二阿,或者给一个例子也可以,数据仓库这东西理论性太强
想不到有这么多难兄难弟阿...
我的具体任务已经分配下来了,要做个在后台运行的数据抽取的程序,我这一组的另一个同学负责编一个应用程序来使用我处理过的数据。数据库我准备使用Analysis Services自带的Footmart2000。老实说这两天我看了很多理论知识,但是好像没有哪本书是介绍具体编程的。现在一点没有下手的地方,那位达人能够指点一二阿,或者给一个例子也可以,数据仓库这东西理论性太强
#34
看来现在的毕业论文越来越难写了,数据仓库--现在学生做这个太脱离实际了。数据仓库是对大量数据的分析,你们找数据都是空的。这样空的再来做数据仓库真是为难你们啊。去年下半年我们小组为自己银行做了一个,例子倒有可以给你看看。给我你的油箱。
#35
ft! 现在的老师真是会误人子弟 !
Data warehousing要用Web Service! 还要.net, 根本不搭界的东东!
是不是啥新鲜就要用啥? Win server 2003刚出来, 他不会也要求必须应用2003吧!
Data warehousing一小部分的东西也凑够你一篇论文的了.
Data warehousing要用Web Service! 还要.net, 根本不搭界的东东!
是不是啥新鲜就要用啥? Win server 2003刚出来, 他不会也要求必须应用2003吧!
Data warehousing一小部分的东西也凑够你一篇论文的了.
#36
to kneek:
我的邮箱是linlight@vip.sina.com,真是太谢谢你了
另外楼上的,没办法阿,大趋势就是越来越浮躁
我的邮箱是linlight@vip.sina.com,真是太谢谢你了
另外楼上的,没办法阿,大趋势就是越来越浮躁
#37
我只能鼓励你了!加油啊!朋友!你终会成功的!
#38
bismarck(bismarck) 有没有收到啊???
#39
我也是你的一个战友,有好东东要大家分享啊!
#40
真是 误人子弟的老师 。
: lengnuan(冷暖自知)
严重的同意上边兄弟的见解。 各位兄弟,大家想对 数据仓库有点理解,最好
去找个有实施经验。或熟悉相关产品的人来听听他们的介绍。
大学的老师,可以说也是 半点概念都没有。他们很多人对这东西的理解 , 不会比字面
更深。
当然大家如果想应付论文。随便抄抄就搞定了。 注意你如果找了5本参考资料,第一次搜集
的材料最好不要全写到论文里。老师会让你 修改,修改。
: lengnuan(冷暖自知)
严重的同意上边兄弟的见解。 各位兄弟,大家想对 数据仓库有点理解,最好
去找个有实施经验。或熟悉相关产品的人来听听他们的介绍。
大学的老师,可以说也是 半点概念都没有。他们很多人对这东西的理解 , 不会比字面
更深。
当然大家如果想应付论文。随便抄抄就搞定了。 注意你如果找了5本参考资料,第一次搜集
的材料最好不要全写到论文里。老师会让你 修改,修改。
#41
谢谢各位达人的帮助,尤其是kneek
给分先...
给分先...