今使わないと時代遅れになるApache Drill(OLAP・統計用)

Apache Drillは

Apache財団がサポートしている

データコネクタエンジンの一つである。

https://drill.apache.org/

csv、json、Parquet、RDBなど

異なるデータタイプでも繋いで

統計などを作成するのができるのですごい！

Google Analyticsなどのデータを

CSVに落としてRDBの会員データと繋いで

イベントの検索と統計を抽出したり、

オンラインゲームパブリッシャーなどの

異なるDBを使うしかない分野で

最高のパフォーマンスをもたらすエンジンなので

必ず導入を検討した方がいいと思います。

詳細はDocumentationを…

https://drill.apache.org/docs/

しかし！

まだまだ弱点があり、

それを記録します。

もし改善できたらいいけど

色々試した結果を残しますので

導入にご参考を！

これはODBC・JDBCみたいなものではない！

OpenOLAPみたいに

Selectのみできるツールなので

今までのR-OLAPのお悩みの方に最適だと思います。

テーブル名に決まりがあります。

規則がはっきり分かりませんが、

deviceという名のテーブルはダメ！

もしこの様な読み取れないテーブル名があったら

DBMSからViewを作成するのをお薦めします。

そして use dfs.tmp などの

書き込みができるファイルシステムを選択すると

自分のViewなどが作れますよ！

https://drill.apache.org/docs/create-view/

JSONとかCSVのフィールドの読み取りが

上手くできないケースがあるが、

それはSubQueryで解決できる

Flattenマニュアル

https://drill.apache.org/docs/flatten/

ネスト(Nest、繰り返し)構造のJSONファイルをQueryする

http://nagix.hatenablog.com/entry/2014/12/18/191324

Apache Parquet(パケイ？)フォーマットに
すると統計がより高速になる。
https://parquet.apache.org/
Parquetはファイルの記録方法の一つであり、
HDFS(Hadoop File System)との相性がいい、
HDFSに記録するときParquetにして
読み取ると大きいデータの統計が上手くいける！
今まで4TBまでのテキストを試しましたが
まだまだ行けそうです！
ファイル分け方などのコツが必要ですが…。
適当にするとCSVより遅くなるケースもあります。
https://dev.classmethod.jp/cloud/aws/amazon-athena-using-parquet/

ということで

データ構造の理解と
Queryの能力によって

まだまだ無限の可能性を持っている

と思ってます！

Talk Lowy(jp)

このブログを検索

今使わないと時代遅れになるApache Drill(OLAP・統計用)

ラベル

コメント

コメントを投稿

このブログの人気の投稿

コピペができないときチェックすべきこと！ :: よく迷うUiPathのコツ

面倒くさいORACLEの文字化け状況

UiPath - Excelのシート名が存在した場合の処理