Spring Controller统计数据库的百万行数据(Aggregate Millions of Database Rows in a Spring Controller)

时间:2022-02-16 16:33:51

了解如何使用Spring和Speedment在Java中执行超快速聚合,即使是具有数百万行的大型数据集。

只要API与数据库的结构相匹配,Spring Framework就可以使用JPA和Spring Web快速地建立关系型数据库的RESTful API。 然而,在许多API中,REST端不对应于特定的表,而是对应于一些聚合的字段。在这些情况下,你仍然需要编写自己的REST Controller,但如果数据库具有数百万行,那么这些聚合可能需要一些时间来计算。

Spring Controller统计数据库的百万行数据(Aggregate Millions of Database Rows in a Spring Controller)

在本文,我将向你展示如何使用Speedment Enterprise中的json-stream插件来编写一个非常高效的表示聚合JSON的的REST Controller,它可以快速聚合大型JSON序列,而不会在堆中实现。该演示使用Speed Speed的企业版,你可以使用Speedment网站上的Initializer进行免费试用。

背景

Speedment是一个开源的面向流的Java ORM框架,它使用关系数据库作为来源生成实体和管理器类。 然后使用标准Java 8流查询数据,而不需要单行SQL。

Speedment Enterprise为ORM增加了高效的JVM内存数据存储区。 流可以在内存本地执行,而不是将流转换为SQL。 为避免垃圾回收限制,实体存储在主堆外的DirectBuffers中。 只有在流中使用的列需要在堆上实现,大多数prediate可以快速找到,而不需遍历整个集合。

json-stream是Speedment Enterprise的官方插件,它可以以非常高效的方式将Speedment流聚合为JSON对象。 与Jackson和Gson不同的是,它知道Speedment Enterprise中使用的内部存储,因此不需要实现实体聚合成JSON。

介绍

在本文中,我使用一个名为Employees的MySQL示例数据库来讲解常见的聚合问题。 一家公司记录了每名员工从1985年开始的工资。他们希望能够根据用户指定的标准选择一段时间,看看那段时间内的平均工资是多少。

使用常规SQL,我们可以这样表达:

mysql> select count(emp_no),min(from_date),max(to_date),avg(salary) 
       from salaries where from_date < '1989-01-01' 
                       and to_date  >= '1988-01-01';
+---------------+----------------+--------------+-------------+
| count(emp_no) | min(from_date) | max(to_date) | avg(salary) |
+---------------+----------------+--------------+-------------+
|        133923 | 1987-01-01     | 1989-12-31   |  55477.8502 |
+---------------+----------------+--------------+-------------+
1 row in set (0.66 sec)

如果我们要在Spring中创建一个简单的REST服务,执行此计算并将其作为JSON对象返回,我们可以执行以下操作:

@GetMapping
Result getEmployeeSalaries(@RequestParam String from,
                           @RequestParam String to) {
    return template.queryForObject(
        "select count(emp_no),min(from_date),max(to_date),avg(salary) " +
        "from salaries where from_date < ? and to_date >= ?;",
        (rs, n) -> new Result(rs),
        to, from
    );
}

Result类定义如下(使用Project Lombok来减少引用):

@Data
static class Result {
    private final long count;
    private final String from, to, average;

    Result(ResultSet rs) throws SQLException {
        count   = rs.getLong(1);
        from    = rs.getString(2);
        to      = rs.getString(3);
        average = Utils.CASH.format(rs.getDouble(4));
    }
}

如果我们现在将浏览器定向到/ jdbc?from = 1988-01-01&to = 1989-01-01,我们将看到聚合结果:

{
    "count":   133923,
    "from":    "1987-01-01",
    "to":      "1989-12-31",
    "average": "$55,477.85"
}

然而,性能表现远远不够。 这个简单的服务大约需要700 ms来生成聚合。

Spring Controller统计数据库的百万行数据(Aggregate Millions of Database Rows in a Spring Controller)

当然,我们可以在服务器上缓存最常见的查询,但是还是需要时间来计算从未被请求的结果。 相反,我们尝试使用Speedment重写相同的服务。

步骤一:配置

我准备了一个Speedment配置文件,并在项目中新建了/src/main/json目录。 然后我可以调用mvn speedment:generate来生成所有必需的实体和管理器类。

接下来,我们需要配置Speedment应用程序。 为此,我创建了一个名为SpeedmentConfig.java的文件,如下所示:

@Configuration
public class SpeedmentConfig {

    private final Environment env;

    SpeedmentConfig(Environment env) {
        this.env = requireNonNull(env);
    }

    @Bean(destroyMethod = "stop")
    EmployeesApplication getApplication() {
        return new EmployeesApplicationBuilder()
            .withConnectionUrl(env.getProperty("spring.datasource.url"))
            .withUsername(env.getProperty("spring.datasource.username"))
            .withPassword(env.getProperty("spring.datasource.password"))
            .withBundle(DataStoreBundle.class)
            .withBundle(JsonBundle.class)
            .build();
    }

    ...
}

用户名和密码在Spring application.properties文件中配置。 但是,我仍然需要另外定义三个bean。 我们需要一个Manager,以便我可以查询Salaries表,一个DataStoreComponent,它允许我们初始化Speedment DataStoreComponent,以及一个JsonComponent,以便我们可以设置自定义的JSON聚合器。

@Bean
DataStoreComponent getDataStoreComponent(EmployeesApplication app) {
    return app.getOrThrow(DataStoreComponent.class);
}

@Bean
JsonComponent getJsonComponent(EmployeesApplication app) {
    return app.getOrThrow(JsonComponent.class);
}

@Bean
SalaryManager getSalaryManager(EmployeesApplication app) {
    return app.getOrThrow(SalaryManager.class);
}

我们现在已经用Spring集成Speedment了。

步骤二:控制器类(Controller Class)

我们来看看Controller类。 首先,我们需要通过注入它们以便可以在控制器中使用这三个bean。我喜欢让所有的成员变量为final,所以我将使用Project Lombok来生成一个包含所有参数的构造器。

@RestController
@AllArgsConstructor
@RequestMapping("/speedment")
public class SpeedmentController {

    private final SalaryManager salaries;
    private final DataStoreComponent datastore;
    private final JsonComponent json;

    ...
}

接下来,我们需要告诉Spring一旦bean被初始化,就可以填充内存中的存储。 我们可以用@ PostConstruct注解来做到这一点。

@PostConstruct
void loadInitialState() {
    datastore.load();
}

控制器逻辑与前面几乎相同,只是我们将使用Java 8 Stream来查询数据库而不是SQL。 这样做的最大优点在于,我们稍后只需要对代码做很少的改动就可以给服务添加更多的条件。 过滤流就像添加.filter()操作一样简单。

@GetMapping
String getEmployeeSalaries(@RequestParam String from,
                           @RequestParam String to) {
    return salaries.stream()
        .filter(Salary.FROM_DATE.lessThan(Utils.toEpochSecond(to)))
        .filter(Salary.TO_DATE.greaterOrEqual(Utils.toEpochSecond(from)))
        .collect(
            json.collector(Salary.class)
                .put("count", count())
                .put("from", min(Salary.FROM_DATE, Utils::fromEpochSecond))
                .put("to",   max(Salary.TO_DATE,   Utils::fromEpochSecond))
                .put("average", average(Salary.SALARY, Utils::toCurrency))
                .build()
    );
}

(出于性能原因,我已将日期映射为Speedment的秒数。 这就是为什么你在上面的逻辑中看到Utils.toEpochSecond和Utils.fromEpochSecond。)

步骤三:重新部署

如果我们重新运行服务,我们可以看到终端仍然像以前一样工作:

{
    "count":   133923,
    "from":    "1987-01-01",
    "to":      "1989-12-31",
    "average": "$55,477.85"
}

不同的是,请求速度提高了60倍。 想象一下,你现有应用程序的加速因子为60:例如,不是延迟10秒,你的延迟时间小于200 ms,终端用户几乎不会察觉到。

Spring Controller统计数据库的百万行数据(Aggregate Millions of Database Rows in a Spring Controller)

总结

使用带有数据存储和jso-stream插件的Speedment Enterprise可以非常高效地完成Spring里关系数据的JSON聚合。它很适合与其他的Spring组件搭配,也非常容易配置。

如果你想自己尝试这个例子,你可以从这个GitHub页面下载它。 可以在Speedment网站上免费试用Speedment Enterprise

原文:Aggregate Millions of Database Rows in a Spring Controller