Apache Drillは
Apache財団がサポートしている
データコネクタエンジンの一つである。
csv、json、Parquet、RDBなど
異なるデータタイプでも繋いで
統計などを作成するのができるのですごい!
Google Analyticsなどのデータを
CSVに落としてRDBの会員データと繋いで
イベントの検索と統計を抽出したり、
オンラインゲームパブリッシャーなどの
異なるDBを使うしかない分野で
最高のパフォーマンスをもたらすエンジンなので
必ず導入を検討した方がいいと思います。
詳細はDocumentationを…
しかし!
まだまだ弱点があり、
それを記録します。
もし改善できたらいいけど
色々試した結果を残しますので
導入にご参考を!
これはODBC・JDBCみたいなものではない!
OpenOLAPみたいに
Selectのみできるツールなので
今までのR-OLAPのお悩みの方に最適だと思います。
テーブル名に決まりがあります。
規則がはっきり分かりませんが、
deviceという名のテーブルはダメ!
もしこの様な読み取れないテーブル名があったら
DBMSからViewを作成するのをお薦めします。
そして use dfs.tmp などの
書き込みができるファイルシステムを選択すると
自分のViewなどが作れますよ!
JSONとかCSVのフィールドの読み取りが
上手くできないケースがあるが、
それはSubQueryで解決できる
Flattenマニュアル
ネスト(Nest、繰り返し)構造のJSONファイルをQueryする
Apache Parquet(パケイ?)フォーマットに
すると統計がより高速になる。
https://parquet.apache.org/
Parquetはファイルの記録方法の一つであり、
HDFS(Hadoop File System)との相性がいい、
HDFSに記録するときParquetにして
読み取ると大きいデータの統計が上手くいける!
今まで4TBまでのテキストを試しましたが
まだまだ行けそうです!
ファイル分け方などのコツが必要ですが…。
適当にするとCSVより遅くなるケースもあります。
https://dev.classmethod.jp/cloud/aws/amazon-athena-using-parquet/
ということで
データ構造の理解と
Queryの能力によって
Queryの能力によって
まだまだ無限の可能性を持っている
と思ってます!
コメント
コメントを投稿