スキップしてメイン コンテンツに移動

投稿

ラベル(flatten)が付いた投稿を表示しています

今使わないと時代遅れになるApache Drill(OLAP・統計用)

Apache Drillは Apache財団がサポートしている データコネクタエンジンの一つである。 https://drill.apache.org/ csv、json、Parquet、RDBなど 異なるデータタイプでも繋いで 統計などを作成するのができるのですごい! Google Analyticsなどのデータを CSVに落としてRDBの会員データと繋いで イベントの検索と統計を抽出したり、 オンラインゲームパブリッシャーなどの 異なるDBを使うしかない分野で 最高のパフォーマンスをもたらすエンジンなので 必ず導入を検討した方がいいと思います。 詳細はDocumentationを… https://drill.apache.org/docs/ しかし! まだまだ弱点があり、 それを記録します。 もし改善できたらいいけど 色々試した結果を残しますので 導入にご参考を! これは ODBC・JDBCみたいなものではない ! OpenOLAPみたいに Selectのみできるツールなので 今までのR-OLAPのお悩みの方に最適だと思います。 テーブル名に決まりがあります。 規則がはっきり分かりませんが、 deviceという名のテーブルはダメ! もしこの様な読み取れないテーブル名があったら DBMSからViewを作成するのをお薦めします。 そして use dfs.tmp などの 書き込みができるファイルシステムを選択すると 自分のViewなどが作れます よ! https://drill.apache.org/docs/create-view/ JSONとかCSVのフィールドの読み取りが 上手くできないケースがあるが、 それはSubQueryで解決できる Flattenマニュアル https://drill.apache.org/docs/flatten/ ネスト(Nest、繰り返し)構造のJSONファイルをQueryする http://nagix.hatenablog.com/entry/2014/12/18/191324 Apache Parquet(パケイ?)フ