スキップしてメイン コンテンツに移動

投稿

ラベル(Apache)が付いた投稿を表示しています

Apache-Drillを利用してData Scientistになろう!初級編!

何も知らない人のための講座になります。 まずはApache Drillをインストールしましょう。 https://drill.apache.org/ Apache Drillを自分のパソコンにインストールしましょう! 下記のファイルをまずダウンロード! ダウンロード: https://drill.apache.org/download/ JDKが要ります: https://www.oracle.com/java/technologies/javase-jdk8-downloads.html もしUnzipが必要なら: https://www.7-zip.org/download.html インストールマニュアル: https://drill.apache.org/docs/installing-drill-on-windows/ インストール時チェック事項 ・JAVA_HOME設定しました? ・Drill UDFフォルダを作成しました? ・Drill UDFフォルダに権限を与えました? ではダウンロードしたDrillを起動しましょう! 圧縮を解凍するとフォルダができます。 apachi-drill-..... この中にbinフォルダに入ります。 apache-drill-embedded.bat を実行します。 しばらく待ったらプロンプトが出ます。 apache drill> と表示されたらOKです! プロンプトでもSQLの実行ができますが 見やすいWebUIを提供してくれるので ブラウザを立ち上げます。 localhost:8047 に接続すると 何か出ました! Queryをクリックしましょう。 Queryを入力する画面に早速自分のデータを入れてみましょう! UTF-8で保存したCSVファイルを用意しましょう。 今回はtest01.csvと名付けました select  *  from  dfs. `C: \l wwork \t est01.csv`   limit   10 ; と入力して実行!(ctrl + enter) CSVデータがウェブ上に表示されたら成功です! ここでいくつかのTipをだすと、 基本的にCSVのフィールド名は無

今使わないと時代遅れになるApache Drill(OLAP・統計用)

Apache Drillは Apache財団がサポートしている データコネクタエンジンの一つである。 https://drill.apache.org/ csv、json、Parquet、RDBなど 異なるデータタイプでも繋いで 統計などを作成するのができるのですごい! Google Analyticsなどのデータを CSVに落としてRDBの会員データと繋いで イベントの検索と統計を抽出したり、 オンラインゲームパブリッシャーなどの 異なるDBを使うしかない分野で 最高のパフォーマンスをもたらすエンジンなので 必ず導入を検討した方がいいと思います。 詳細はDocumentationを… https://drill.apache.org/docs/ しかし! まだまだ弱点があり、 それを記録します。 もし改善できたらいいけど 色々試した結果を残しますので 導入にご参考を! これは ODBC・JDBCみたいなものではない ! OpenOLAPみたいに Selectのみできるツールなので 今までのR-OLAPのお悩みの方に最適だと思います。 テーブル名に決まりがあります。 規則がはっきり分かりませんが、 deviceという名のテーブルはダメ! もしこの様な読み取れないテーブル名があったら DBMSからViewを作成するのをお薦めします。 そして use dfs.tmp などの 書き込みができるファイルシステムを選択すると 自分のViewなどが作れます よ! https://drill.apache.org/docs/create-view/ JSONとかCSVのフィールドの読み取りが 上手くできないケースがあるが、 それはSubQueryで解決できる Flattenマニュアル https://drill.apache.org/docs/flatten/ ネスト(Nest、繰り返し)構造のJSONファイルをQueryする http://nagix.hatenablog.com/entry/2014/12/18/191324 Apache Parquet(パケイ?)フ