几个配置让Drill更像Mysql – 司马顿的博客

对于csv文件，很多人用excel打开它，然后用excel内置函数来操作数据。

我不喜欢界面化的东西，一般在linux shell里来操作这些数据。

对csv的处理，不管spark, hive, 还是drill, impala都是可以的，这些工具都提供了一个SQL引擎来访问csv，你可以编写sql语句来访问数据。

显然，drill是最方便的。其他工具有如下问题：

Hive：要定义schema，并且依赖于HDFS，查询很慢
Spark：体积比较庞大，它的SQL操作从dataframe转换而来
Impala：依赖于Hive的metadata

相对来说，drill开箱即用，足够灵巧。它不需要定义schema，可以自由读取多种外部文件格式。虽然它也可以部署成分布式服务，但你只把它当作一个工具，用起来也很不错。

登陆linux服务器，运行drill-embedded打开本机的一个drill实例。然后，可以从浏览器访问drill的web管理端口：http://xx.xx.xx.xx:8047/

进入web页面后，稍微调整几个设置，让drill用起来更像Mysql。谁让我们都很熟悉Mysql呢？

如下图，在顶部Storage栏目，点击dfs的update按钮：

我们在这里定义本地文件系统的路径，以及目标文件（比如csv）的加载格式。

点击进去后，是一个Json文件，需要手工编辑这个Json文件。

首先在workspace里增加一节内容，对应用户的家目录的路径，这个路径用于放置输入文件。如下：

"workspaces": {
    "tmp": {
      "location": "/tmp",
      "writable": true,
      "defaultInputFormat": null,
      "allowAccessOutsideWorkspace": false
    },
    "root": {
      "location": "/",
      "writable": false,
      "defaultInputFormat": null,
      "allowAccessOutsideWorkspace": false
    },
    "pyh": {
      "location": "/home/pyh/tmp",
      "writable": false,
      "defaultInputFormat": null,
      "allowAccessOutsideWorkspace": false
    }
  },

上述加粗的内容，就是新增的路径。这个路径，在drill里对应着database的概念。比如，在drill shell里，可以如下访问这个database：

use dfs.pyh;

这里的dfs是默认的存储插件名称，pyh就是数据库的名称。在drill里，路径对应着database名称，输入文件对应着table名称。

接着，继续编写上述Json，找到csv文件定义，修改如下：

    "csv": {
      "type": "text",
      "extensions": [
        "csv"
      ],
      "extractHeader": true
    },

上述加粗的字体，就是新增的。表示对于csv文件，可以infer header，也就是从输入文件的第一行去infer header。当然，这就要求输入的csv文件第一行包含header名称。

如果不做上述修改的话，drill里每行的输出就是一个数组，列的内容挤在这个数组里，不伦不类的。而修改后，drill就自动把每行按照csv的分隔符拆开，并且自动按拆开的内容组装成列，看起来跟Mysql一样。

现在回到drill shell，执行相应的查询，如下：

apache drill (dfs.pyh)> use dfs.pyh;
+------+-------------------------------------+
|  ok  |               summary               |
+------+-------------------------------------+
| true | Default schema changed to [dfs.pyh] |
+------+-------------------------------------+
1 row selected (0.122 seconds)
apache drill (dfs.pyh)> select * from `people.csv` limit 3;
+--------------+-----------+--------+---------+-----------------------------+
|     name     |   born    |  sex   |   tel   |             job             |
+--------------+-----------+--------+---------+-----------------------------+
| Romeo V.F.   | 1973-4-10 | Male   | 5158581 | Delivery Truck Driver       |
| Preston D.I. | 1974-8-2  | Male   | 3719958 | Home Health Aide            |
| Ophelia D.A. | 1972-9-14 | Female | 9417846 | Maintenance & Repair Worker |
+--------------+-----------+--------+---------+-----------------------------+
3 rows selected (0.177 seconds)

你看，这就跟Mysql一模一样了。参考上篇博客，我们也可以执行更复杂的查询：

apache drill (dfs.pyh)> select job,count(*) as dd from `people.csv` group by job order by dd desc limit 10;
+--------------------------------------+-----+
|                 job                  | dd  |
+--------------------------------------+-----+
| School Counselor                     | 231 |
| Customer Service Representative      | 231 |
| Veterinary Technologist & Technician | 230 |
| Insurance Agent                      | 229 |
| Clinical Social Worker               | 227 |
| Financial Advisor                    | 225 |
| Accountant                           | 225 |
| Carpenter                            | 223 |
| HR Specialist                        | 222 |
| Painter                              | 221 |
+--------------------------------------+-----+
10 rows selected (0.208 seconds)

因为drill的操作是内存映射，这个过程是很快的。当然，缺点是比较耗内存，一个drill实例，默认就要求4G内存，挺消耗资源。

对于csv的操作，spark也很快。但spark的确不如drill方便，它的SQL是基于dataframe的，要从dataframe才能生成一个sql对象。作为对比，spark的优势还在于对非结构化数据的处理（RDD引擎），以及流处理的能力。对于高度结构化数据，drill甚至更为强大。

而在SQL引擎表现上，drill和spark比较类似，性能也接近。各自都有一个优化器，负责sql语句解析与优化（逻辑计划、物理计划），以及执行规划。它们的执行规划甚至都是类似的，只是概念不同而已，如下表对比：

总体上，对于高度结构化的数据，drill是个不错的查询引擎，性能很好。稍微配置下，就跟传统的Mysql很像，用起来顺手。

Print this entry