スキップしてメイン コンテンツに移動

投稿

ラベル(Data Scientist)が付いた投稿を表示しています

Apache-Drillを利用してData Scientistになろう!初級編!

何も知らない人のための講座になります。 まずはApache Drillをインストールしましょう。 https://drill.apache.org/ Apache Drillを自分のパソコンにインストールしましょう! 下記のファイルをまずダウンロード! ダウンロード: https://drill.apache.org/download/ JDKが要ります: https://www.oracle.com/java/technologies/javase-jdk8-downloads.html もしUnzipが必要なら: https://www.7-zip.org/download.html インストールマニュアル: https://drill.apache.org/docs/installing-drill-on-windows/ インストール時チェック事項 ・JAVA_HOME設定しました? ・Drill UDFフォルダを作成しました? ・Drill UDFフォルダに権限を与えました? ではダウンロードしたDrillを起動しましょう! 圧縮を解凍するとフォルダができます。 apachi-drill-..... この中にbinフォルダに入ります。 apache-drill-embedded.bat を実行します。 しばらく待ったらプロンプトが出ます。 apache drill> と表示されたらOKです! プロンプトでもSQLの実行ができますが 見やすいWebUIを提供してくれるので ブラウザを立ち上げます。 localhost:8047 に接続すると 何か出ました! Queryをクリックしましょう。 Queryを入力する画面に早速自分のデータを入れてみましょう! UTF-8で保存したCSVファイルを用意しましょう。 今回はtest01.csvと名付けました select  *  from  dfs. `C: \l wwork \t est01.csv`   limit   10 ; と入力して実行!(ctrl + enter) CSVデータがウェブ上に表示されたら成功です! ここでいくつかのTipをだすと、 基本的にCSVのフィールド名は無

人工知能(AI)のお仕事って一つ?

最近流行ってる人工知能(AI, Artificial Intelligence)のお仕事 全てが同じ? だと思ったら問題あります。 まずAIを語る前にデータ分析のお話から始めましょう。 データを分析するとき必要な分野は大きく3つに分けられます。 出典:  https://towardsdatascience.com/introduction-to-statistics-e9d72d818745 Data Analyst:数学と科学専門のデータだけ分析できる人 Domain Specialist : 該当分野のビズネスをはっきり分かってデータが意味するのを分かっている業界専門家 Hacker : コンピュータ専門のサーバーとデータストレージを自由にコントロールできる人。 この中でDomain Specialistは元々その業界にいるのであまり気にしてません。 今一番Data Scientistとして知られているのがData Analystです。 この人はMLライブラリを利用してデータを回すだけ。もちろん経験によって分析の品質と分析の方法、手順が変わって全然違う結果になってしまいますが、これはある程度決まってました。 実は、これだけでありません! データ収集専門家: 必要なデータの大半はインターネット上にあるのであれを大量に持ってくる技術をCrawlまたはScrapingと言います。今までは検索エンジンなどでしかあまり使ってないですが、現在はMLでは必ず必要な部門になりました。 インターネットからHTMLデータを抽出してURLをParsingしたらイメージ、リンクなどを分けてまたCrawlを続け必要な本文だけ持ってくるのにかなりの経験が必要です。 これが前処理の最初に必要な技術でこれだけの専門家がいます。 一つの検索エンジンからたくさんのリクエストをしたりするとブロックされるのでProxyを自由に利用するとかの細かい経験が必要な分野です。技術力より経験が必要な部分ですね。 自然語処理専門家(言語処理専門家): 次は拾ったデータと元々あったデータの中で言語から必要な単語抽出及び基本形を単語とか名詞だけ抽出するのがNLP(Natural Language Proces