スキップしてメイン コンテンツに移動

投稿

ラベル(データ科学)が付いた投稿を表示しています

誰もが嘘をついている!Everybody Lies:GoogleのBigdata分析担当から言われる嘘と現実

  タイトル: Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are みんな嘘つき:ビックデータ、新しいデータ、そしてインターネットが教える本当の私たち 元グーグルのデータサイエンティストであるSeth Stephens-Davidowits(ダヴィドウィッツ)によるインターネットでマーケティングが必要な側と顧客になる一般人の言葉遣いの差をデータからみて判断することが書いてあります。 人が嘘をついているのにそれを利用して企業のマーケティングは今まで動いていた事実に関して正確に説明した本で今まで信じていたデータからの嘘が判別できるマーケティングがしたい人への必読書だと思います。 1.人は調査に嘘をつく 答えづらい質問または正確に答えたくない質問などがあります。例えばセックスをするときの製品に関して等々。 しかし今までは調査機関からは顧客に質問してその答えを反映したのです。これがSocial Desirability Bias(社会的に望ましい答えをしてしまうバイアス)だとして自分の正直な話はしずらいことを意味します。 2.検索ウインドウは教会の懺悔室 オンラインは誰も気にしない言葉の検索ができます。それを教会の懺悔室と同じだと言われてます。誰にも言えない言葉が拾える力があります。 3.失業者が求職サイトより検索するもの 失業した人には新しい就職先探す検索が多いと思っても実は他の単語がもっと上に上がってしまうのが真実です。もし自分でも経験があるのでは? 4.社会科学は本当の科学になるか 今までの社会科学は「ソフト・サイエンス」だったらオンラインが加えた今こそがリアルの社会科学ではないか! との話がかかれてます。 今までのオンラインマーケティングにあまり効果がなかったらそれは今までの典型的なマーケティングをみんなやったからかもしれません。 これからのオンラインマーケティングはリアルタイムで収集したデータをもとに今社会の動きが取れた人が先取りになれるので動く流れの読める力が必要な時期ではないかと思います。

ガートナー(Gartner)さんが言いました。データは21世紀の原油だと!

なのに未だにも データがいくら重要なのかが分からず 捨て続けてるところが多いですね。 現在データ科学というジャンルが流行ってて なんとなく分かってると思います。 しかし 本当にデータが重要なのが分かってますでしょうか? データ原本はそもそも原油なんです。 そのまま使えません。 原油と同様 しかしその原油から 飛行機油、ガソリン、軽油等等 色々出てきてます。 それが精油ですね。 このデータの精油作業が データ科学者のMLなどのお仕事でしょう。 ある人が言いました。 データだけは売れないから顧客に必要なレポートを売らないと! データを売りに来た私のパートナーさんに言いました。 しかし、これおかしくないですか? 原油を抽出したら色んな国から精油企業が買いに来てます。 データも同じだと思います。 データを加工する企業はそのドメイン(Domain、地域または業界)専門家ではないと分かるはずないです。しかしその専門家が全世界のデータを抽出できるわけありません。 だから データを抽出専門と 原油を入れるタンクを持って運ぶ専門家 抽出したデータの1次加工ができる前処理専門家 そしてそれを製品として売れるように最終加工プロダクト専門家 と分ける必要があります。 各分野で専門家がいて 自分の分野で専門になればいいんです。 なんで抽出専門家に最終プロダクトを求めてるのですか? もしデータのお悩みがございましたら 一度相談してみたら如何でしょうか? お問い合わせ

人工知能(AI)のお仕事って一つ?

最近流行ってる人工知能(AI, Artificial Intelligence)のお仕事 全てが同じ? だと思ったら問題あります。 まずAIを語る前にデータ分析のお話から始めましょう。 データを分析するとき必要な分野は大きく3つに分けられます。 出典:  https://towardsdatascience.com/introduction-to-statistics-e9d72d818745 Data Analyst:数学と科学専門のデータだけ分析できる人 Domain Specialist : 該当分野のビズネスをはっきり分かってデータが意味するのを分かっている業界専門家 Hacker : コンピュータ専門のサーバーとデータストレージを自由にコントロールできる人。 この中でDomain Specialistは元々その業界にいるのであまり気にしてません。 今一番Data Scientistとして知られているのがData Analystです。 この人はMLライブラリを利用してデータを回すだけ。もちろん経験によって分析の品質と分析の方法、手順が変わって全然違う結果になってしまいますが、これはある程度決まってました。 実は、これだけでありません! データ収集専門家: 必要なデータの大半はインターネット上にあるのであれを大量に持ってくる技術をCrawlまたはScrapingと言います。今までは検索エンジンなどでしかあまり使ってないですが、現在はMLでは必ず必要な部門になりました。 インターネットからHTMLデータを抽出してURLをParsingしたらイメージ、リンクなどを分けてまたCrawlを続け必要な本文だけ持ってくるのにかなりの経験が必要です。 これが前処理の最初に必要な技術でこれだけの専門家がいます。 一つの検索エンジンからたくさんのリクエストをしたりするとブロックされるのでProxyを自由に利用するとかの細かい経験が必要な分野です。技術力より経験が必要な部分ですね。 自然語処理専門家(言語処理専門家): 次は拾ったデータと元々あったデータの中で言語から必要な単語抽出及び基本形を単語とか名詞だけ抽出するのがNLP(Natural Language Proces