過去3回目の連載では、テキストマイニングの概論と、意図したインサイトを導き出す手法をご紹介した。しかしこれだけですべて上手く分析できる、というわけではない。テキストマイニングには、分析結果の信頼性を大きく左右するさまざまなワナが存在するのだ。第4回は、正確なインサイトを導き出すため、分析のプロセスにおいて注意すべきポイントについてお伝えしよう。
先月実施されたアンケートで、インターネットの利用率が100%となっていたことが明らかになった。評論家は「これは政府主導によるIT政策の効果の現れと言っていいだろう」とのコメントを発表した。調査したのは◯◯センターなど。インターネット上でアンケートを実施し、約2万3000人から回答を得た。
ギョッとされた方もいるかもしれないが、これは10年以上前にインターネット上で流行したジョークだ。実際のところ現在の日本におけるインターネット普及率は82.8%である(総務省:「通信利用動向調査」2014年6月発表)。インターネットで行ったアンケートでの利用率調査なのだから、利用率が100%になるのは当たり前だ。しかし、一瞬それらしい調査結果に見えてしまう。少し極端な例であるが、このような「ワナ」は実は我々の周りに溢れている。
Copyright © ITmedia, Inc. All Rights Reserved.