Apache Kylin : Analytical Data Warehouse for Big Data

Page tree

Welcome to Kylin Wiki.

 

Kylin 用户大家好啊, 2020一晃进入了下半年; 我们在这里和大家更新下过去的七月份的工作进度, Kylin 社区在进行以下工作内容.

月度更新

新版本发布的后续

Kylin PMC 在七月三号宣布了 Kylin 3.1 的发布, 之后的几周陆续收到社区用户的反馈和咨询.
其中一部分是关于新的特性的一些疑问, 例如 Hive Global Dictionary; 此外也有一些bug被陆续发现, 我们会在下一个小版本进行陆续修复.

Parquet Storage的开发

在这个月的的大部分时间中, Kylin 开发小组在进行 Kylin4.0 的开发工作, 我们通过 JIRA 来追踪开发进度(https://issues.apache.org/jira/browse/KYLIN-4659), 主要内容包含以下:

  1. 收集大家对 Kylin4 的意见, 发起社区讨论, 见链接(https://lists.apache.org/thread.html/rfe09c3d2813ee2758e15ba70b168d334a8b680b4c066d7c2e9dbef63%40%3Cdev.kylin.apache.org%3E)
    大家或许已经了解到 Parquet Storage 的开发工作已经进行了一段时间, 目前开发进度已经接近初步完成的阶段, Parquet Storage的计划于 Kylin4.0 发布. 目前仍有一些问题需要解答, 例如是否需要保持对 HBase存储引擎的兼容, 何时将代码向主分支迁移等问题, 经过社区讨论, 我们准备在Kylin4.0不再兼容HBase存储引擎, 开发工作仍然在 kylin-on-parquet-v2 分支上进行.
  2. 进行代码清理工作
    Parquet Storage的开发工作已经基本完成, 由于重写了Kylin 核心的查询和构建引擎, 有一些旧引擎特有的特性不再支持, 这些"死掉的"代码如果留下来将非常不利于代码的可读性, 我们在逐步清理中, 目前已经完成清理工作的第一阶段.
  3. 梳理新增的配置项, 测试和验证发生改变的文档部分
    新的存储引擎和查询引擎引入了很多新的参数, 并且改变了需要原有功能的使用方式, 这部分需要补充新的使用文档和技术文章, 目前在进行中的文档梳理包含
    1. 新的全局字典,
    2. 新的读写分离
    3. 新的构建引擎
    4. 新的查询引擎
  4. 梳理测试和验证 Kylin 的核心功能
    在目前的开发分支上, 有一些已有的功能需要分阶段开发来逐步支持, 例如 JDBC 数据源/Cube Planner, 我们也在持续梳理和制定开发计划. 见链接(https://cwiki.apache.org/confluence/display/KYLIN/Kylin+4.X+Feature+Listhttps://cwiki.apache.org/confluence/display/KYLIN/FAQ+Kylin+4.X)
  5. 对接社区版本的Spark
    由于目前Parquet Storage依赖了一个 fork 版本的 Spark, 通过用户反馈, 我们了解到一部分用户希望支持官方的 Spark 版本, 以满足其可以持续升级Spark和自定义开发Spark的需求, 这个目前在进行中中.

Next Month

下一个月工作集中在 Parquet Storage 的文档更新和撰写, 以及测试验证工作.

3.1.x的 bugfix 版本计划于9月份发布.


  • No labels