Skip to content
Menu
Masayuki Ida Official Blog
  • Short Bio in English
  • ホーム
Masayuki Ida Official Blog

データを読む力

Posted on 2009年10月11日

統計データを何に使うのか?我々にとっては、さまざまな小さな気づきをならされてしまってデコボコがなくなってしまった統計の中で何を読むのか、それが課題である。統計学の理論を駆使して、多量のデータの中にある全体的な傾向を見つけ出す、それも重要な働きである。しかし、全体的な傾向を知るためというのなら、「個客」の息遣いを見つけ出すことはできない。その人の生きている環境から出てくる背景をえぐりだすことはできない。読みすぎ、考えすぎにも注意をしなければならないが、少なくとも、単純なグラフになったときに、「なぜ」そういう単純な、そして自分の常識とは異なる、シェイプになるのか?その疑問を持つことは重要だと思っている。

ある文具サイトのアクセスログ。時間帯別のデータにまとめた。このデータは、ほとんどが日中のアクセスになる。夜のアクセスは著しく少ない。日曜のアクセスはほとんどない。そこで何をいうか。「したがって、これは法人ユーザが利用している」。と、結論するのは浅すぎる場合がある。そう、このデータはベトナムのサイトのデータなのだ。それは解析者も事前によく知っている。法人ユーザだ、と結論する解析者についてデータがあがってくる。この人は、おそらく日本国内の多数のこうしたパタンを見ていて、その職業的な反応で判断を出した、ベトナムのインターネット普及の状況を知らないあるいはそのことには興味をもたない、さんすうは知っているから単純にそのまま素直に棒グラフでかかれていることをそのまま読んだ、どうだ、それで間違いないだろうと。おそらくこの三つのどれかではないか。1番目のタイプであれば、これを機会に前提条件を吟味・確認することから今後スタートするようになってほしい。2番目のタイプであれば、国が違えば事情が違うことを理解してほしい。3番目のタイプであれば、あなたは今後、使えない統計学を振り回すようにならないように願う。

データマイニングの出発点である。大規模なデータの集まりを統計処理する、とげとげをとる、ということの他方に、ある程度の少数のデータからなる統計「的」情報から個別のデータを拾いだそうと努力する、そういう世界もある。たとえば、アルカイダの連絡Eメールなのかどうか、あるいは迷惑メールなのかどうか、あるいは、どうしたらどういう人がうちの商品を買ってくれるか、そういう判断のネタを拾い出す努力、これは統計学ではないが。

最近の投稿

  • Moves that were not played
  • 人工知能ってなんなんだ
  • 半分の世界だけでは意思決定までいかない
  • A Narrative History of Artificial Intelligence
  • 「二つの超大国」を観て

アーカイブ

カテゴリー

  • IT
  • グローバルIT
  • 人工知能
  • 家族生活
  • 教員生活
  • 教育
  • 未分類
  • 未分類
  • 生活
  • 経済

最近のコメント

  • シングルシステムのもろさ に 原 清己 より
  • 切手収集がその原点(子供の頃その2) に Masanobu Taniguchi より

メタ情報

  • ログイン
  • 投稿フィード
  • コメントフィード
  • WordPress.org
©2025 Masayuki Ida Official Blog | WordPress Theme by Superbthemes.com