最近流行ってる人工知能(AI, Artificial Intelligence)のお仕事 全てが同じ? だと思ったら問題あります。 まずAIを語る前にデータ分析のお話から始めましょう。 データを分析するとき必要な分野は大きく3つに分けられます。 出典: https://towardsdatascience.com/introduction-to-statistics-e9d72d818745 Data Analyst:数学と科学専門のデータだけ分析できる人 Domain Specialist : 該当分野のビズネスをはっきり分かってデータが意味するのを分かっている業界専門家 Hacker : コンピュータ専門のサーバーとデータストレージを自由にコントロールできる人。 この中でDomain Specialistは元々その業界にいるのであまり気にしてません。 今一番Data Scientistとして知られているのがData Analystです。 この人はMLライブラリを利用してデータを回すだけ。もちろん経験によって分析の品質と分析の方法、手順が変わって全然違う結果になってしまいますが、これはある程度決まってました。 実は、これだけでありません! データ収集専門家: 必要なデータの大半はインターネット上にあるのであれを大量に持ってくる技術をCrawlまたはScrapingと言います。今までは検索エンジンなどでしかあまり使ってないですが、現在はMLでは必ず必要な部門になりました。 インターネットからHTMLデータを抽出してURLをParsingしたらイメージ、リンクなどを分けてまたCrawlを続け必要な本文だけ持ってくるのにかなりの経験が必要です。 これが前処理の最初に必要な技術でこれだけの専門家がいます。 一つの検索エンジンからたくさんのリクエストをしたりするとブロックされるのでProxyを自由に利用するとかの細かい経験が必要な分野です。技術力より経験が必要な部分ですね。 自然語処理専門家(言語処理専門家): 次は拾ったデータと元々あったデータの中で言語から必要な単語抽出及び基本形を単語とか名詞だけ抽出するのがNLP(Natural Language Pr...