数据仓库研究之二--mondrian入门

时间:2022-06-11 23:29:31
 以前一直是用MS Anylize Service的,最近要做的项目是java的,小项目预算有限,所以想找一个开源的java的数据仓库解决方案来用用。

  在网上查了一下,发现了Mondrian。Mondrian是基于JAVA的数据仓库引擎,可以集成到web项目中,这一点最吸引我。另外与他搭配的表现层的方案也有不少选择,Jpivot是元老,pentaho,openi看起来是后起之秀。不管怎样,还是先研究一下modrian吧

  网上的中文资源比较少,在csdn上找了一下,只发现了两篇比较有用的

http://dev.csdn.net/develop/article/31/31791.shtm   Mondrian——有影响的“艺术家”     选择自 kswaking 的 Blog

http://dev.csdn.net/develop/article/68/68661.shtm  穷人的通用OLAP方案III--JPivot表现层     选择自 calvinxiu 的 Blog

照着做了一下,发现了一些问题,也有了一些心得。

一.环境准备

1.1 首先介绍一下环境

操作系统:Linux

服务器:Tomcat 5.5

数据库:MySQL 5.0.21

1.2 下载程序。Mondrian在http://mondrian.sourceforge.net 可以下载,最早他是用MS Analyze Service的教程中FoodMart数据库作为demo的,那个是access的数据库。还好现在他有了Platform-Independent的版本,我就下载了那个mondrian-2.1.1-derby.zip 解压缩之后在lib目录里面有一个mondrian-embedded.war,把这个直接放到tomcat的webapps目录里面就能够看到mondrian的demo了。不过后面的测试,我把这个war解开之后放到webapps里面去,并且目录把名字改短了点mondrian。启动tomcat,在浏览器输入http://localhost/mondiran 看到了demo。需要说明一下的是,mondrian的发布包含了Jpivot,用它来做展示层,所以不用再去单独下载Jpivot了。

1.3 数据库建表,在MySQL数据库里面建立table,借用了kswaking的数据库结构

在这个tiny的系统中,数据库有3个表tb_employee(职员表),tb_time(时间表),tb_salary(薪酬表)。表结构如下:

drop table tb_employee;

create table tb_employee

(

     employee_id     number,             --职员id    

     employee_name   varchar2(10)        --职员姓名

);

 

drop table tb_time;

create table tb_time

(

    time_id   number,        --时间id

    the_year  char(4),       --

    the_month char(2)        --

);

 

drop table tb_salary;

create  table tb_salary

(

    employee_id  number,                --职员id   

    time_id      number,                --时间id

    salary       number(19,4)           --薪酬

);

 

当然,为了使系统能够运行,还需要读者向数据库表中插入一些数据。

二. mondrian测试

  需要说明的是mondrian使用了MS一样的MDX语言实现查询,这对于从MS Analyze Services入门的人真是一个好消息。

2.1 先编写schema。

<?xml version="1.0"?>
  <Schema name="Mondrian">
    <Cube name="CubeTest">
    <Table name="tb_salary"/>

    <Dimension name="Employee" foreignKey="employee_id">
      <Hierarchy hasAll="true" primaryKey="employee_id">
        <Table name="tb_employee"/>
        <Level name="employeeID" column="employee_id" uniqueMembers="true">
           <Property name="employeeName" column="employee_name"/>
       </Level>
       </Hierarchy>
    </Dimension>

    <Dimension name="Time" foreignKey="time_id">
      <Hierarchy hasAll="false" primaryKey="time_id">
        <Table name="tb_time"/>
        <Level name="year" column="the_year" uniqueMembers="false"/> 
        <Level name="month" column="the_month" uniqueMembers="false"/>
      </Hierarchy>
    </Dimension>

    <Measure name="Salary" column="salary" aggregator="sum"/>

  </Cube>
</Schema>

这个schema定义了一个cube,包含两个Dimension和一个Measure。很容易看懂,就不解释了。
文件路径为webapps/mondrian/WEB-INF/queries/mondriantest.xml。

为了后面的测试方便,我把文件放到了queries目录里面。

因为用MySQL建表的时候都用小写的,所以schema里面的字段名也都用了小写(我一开始也使用大写的,结果出错,找不到字段),calvinxiu的文章说如果是Oracle数据库,这里的字段要用大写。

 

 

2.2 编写JSP

 

<%@ page import="mondrian.olap.*"%>
<%
  Connection connection = DriverManager.getConnection("Provider=mondrian; Jdbc=jdbc:mysql://localhost/mondrian; JdbcUser=root; JdbcPassword=; Catalog=file:///usr/local/apache-tomcat-5.5.12/webapps/mondrian/WEB-INF/queries/mondriantest.xml; JdbcDriver=com.mysql.jdbc.Driver", null, false);

  String querystr = " select {[Measures].[Salary]} ON COLUMNS, {[Employee].[employeeId].Members} ON ROWS from CubeTest ";

  Query query=connection.parseQuery(querystr);
  Result result = connection.execute(query);
  out.println("get result");
%>

可以看到mondrian也使用jdbc来连接数据库的,其中要特别注意的是Catalog指名了schema的位置。

 

文件路径webapps/mondrian/mondriantestmdx.jsp

 

2.3 测试

在浏览器输入http://localhost/mondrian/mondriantestmdx.jsp 可以看到显示的结果 get result,说明一切正常。

 

 

到目前为止,我们只测试了Mondrian,它只负责数据的提取和组织,所以在画面上没有看到任何的数据,下一篇文章将继续研究数据的展现 - Jpivot。