Talk Lowy(jp)

投稿

ラベル（BI）が付いた投稿を表示しています

今使わないと時代遅れになるApache Drill(OLAP・統計用)

Apache Drillは Apache財団がサポートしているデータコネクタエンジンの一つである。 https://drill.apache.org/ csv、json、Parquet、RDBなど異なるデータタイプでも繋いで統計などを作成するのができるのですごい！ Google Analyticsなどのデータを CSVに落としてRDBの会員データと繋いでイベントの検索と統計を抽出したり、オンラインゲームパブリッシャーなどの異なるDBを使うしかない分野で最高のパフォーマンスをもたらすエンジンなので必ず導入を検討した方がいいと思います。詳細はDocumentationを… https://drill.apache.org/docs/ しかし！まだまだ弱点があり、それを記録します。もし改善できたらいいけど色々試した結果を残しますので導入にご参考を！これは ODBC・JDBCみたいなものではない！ OpenOLAPみたいに Selectのみできるツールなので今までのR-OLAPのお悩みの方に最適だと思います。テーブル名に決まりがあります。規則がはっきり分かりませんが、 deviceという名のテーブルはダメ！もしこの様な読み取れないテーブル名があったら DBMSからViewを作成するのをお薦めします。そして use dfs.tmp などの書き込みができるファイルシステムを選択すると自分のViewなどが作れますよ！ https://drill.apache.org/docs/create-view/ JSONとかCSVのフィールドの読み取りが上手くできないケースがあるが、それはSubQueryで解決できる Flattenマニュアル https://drill.apache.org/docs/flatten/ ネスト(Nest、繰り返し)構造のJSONファイルをQueryする http://nagix.hatenablog.com/entry/2014/12/18/191324 Apache Parquet(パケイ？)フ...