Apache-Drillを利用してData Scientistになろう！初級編！

何も知らない人のための講座になります。

まずはApache Drillをインストールしましょう。

https://drill.apache.org/

Apache Drillを自分のパソコンにインストールしましょう！
下記のファイルをまずダウンロード！

ダウンロード：https://drill.apache.org/download/
JDKが要ります：https://www.oracle.com/java/technologies/javase-jdk8-downloads.html
もしUnzipが必要なら：https://www.7-zip.org/download.html

インストールマニュアル：https://drill.apache.org/docs/installing-drill-on-windows/

インストール時チェック事項
・JAVA_HOME設定しました？
・Drill UDFフォルダを作成しました？
・Drill UDFフォルダに権限を与えました？

ではダウンロードしたDrillを起動しましょう！

圧縮を解凍するとフォルダができます。

apachi-drill-.....

この中にbinフォルダに入ります。

apache-drill-embedded.bat を実行します。

しばらく待ったらプロンプトが出ます。

apache drill>

と表示されたらOKです！

プロンプトでもSQLの実行ができますが
見やすいWebUIを提供してくれるので
ブラウザを立ち上げます。

localhost:8047

に接続すると
何か出ました！

Queryをクリックしましょう。

Queryを入力する画面に早速自分のデータを入れてみましょう！

UTF-8で保存したCSVファイルを用意しましょう。

今回はtest01.csvと名付けました

select * from dfs.`C:\lwwork\test01.csv` limit 10;

と入力して実行！(ctrl + enter)

CSVデータがウェブ上に表示されたら成功です！

ここでいくつかのTipをだすと、
基本的にCSVのフィールド名は無視されます。
Column[0], Column[1] のように入力する必要があります。
よく使うファイルの場合先に名付けをしましょう

select 
  columns[0] as ProcDt
  , columns[1] as ProcStat
  , columns[2] as ProcFreq
  , columns[3] as ServiceName
  , columns[4] as JobName
  , columns[5] as ApplyLink
  , columns[6] as OutFileName
  , columns[7] as OutSheetName
  , columns[8] as StHeader
  from dfs.`C:\lwwork\test01.csv` limit 10;

このように名付けたら活用しやすくなります。

Apache-DrillはInsertとUpdateはできません。
しかし！

Create Table As Select

を利用して調合した内容を新しいテーブルとして入れられます！
この場合ちゃんとColumnsじゃなくコラム名を入力することができます！
このようにCreate Table asをうまく使うと過去の結果の再活用もできて
より早く便利に使えます！
ちなみにCreate Tableで作られたデータは最初のdfsという設定に入ります
(中身は見れません。)

そして、Oracle、MySQL、Sql ServerなどのRDBMSとMongoDB、HadoopなどのNoSQLとの照会が直接にできます。
ちなみに、MySQLのテーブルとOracleのテーブルをJoinしてGoogle AnalyticsからダウンロードしたCSVを入れてユーザーのサービス統計などの取得ができます。

基本的にUTF-8で処理ができるのでANSIまたはShift_JISなどのフォーマットは文字化けになります。WebUIで色々試してみましたが、元のファイルをUTF-8に落としてからやったほうが楽でした。

作業フォルダとかファイルフォーマットなどを定義できます。

http://localhost:8047/storage

ストレージ(Storage)メニューをクリックして
Enabled Storage Pluginsのところを修正するか
dfsのところをUpdateを押してソースJSONデータをコピーし、
Createを押して
自分の好みに合わせて
再作成したJSONを入れると fromのところを好みに合わせていじれます。

外のRDBMSなどの接続に関してのご説明は

https://github.com/LowyShin/KB-KnowledgeBaseHome/wiki/Apache-Drill

考えによって色んな分野で使えるので是非お試しを！

Talk Lowy(jp)

このブログを検索

Apache-Drillを利用してData Scientistになろう！初級編！

ラベル

コメント

コメントを投稿

このブログの人気の投稿

コピペができないときチェックすべきこと！ :: よく迷うUiPathのコツ

UiPath - Excelのシート名が存在した場合の処理

面倒くさいORACLEの文字化け状況