改めてテキストマイニングについて調べてみた。 - こちら株式会社プライムネットワーク所属MT部

8月の営業日も残すところ今日1日となりました。

4月入社の新人も、ある程度一人で仕事をこなせるようになり、「もう教えることはなくなってきたな」と一息付いている頃、いきなり新人から質問を浴びせかけられました。

「先輩、テキストマイニングって何ですか？」

これには、僕も面食らいました。
「えっ、テキストマイニング？・・・・そりゃ、あれだろ、テキストをデータマイニングすることだろっ・・・」

もう最悪です。
考えられる限り一番最低な答えを出してしまいました。

知らないのであれば知らないとはっきり答えればよかったものを、ほんの小さな見栄と一端の先輩面を張ってしまったため、恐らく後輩からはなんて小さな男だと思われたのではないでしょうか

そんなわけで、今回は罰の意味を込めて「テキストマイニング」について、しっかりと勉強してみたいと思います。

テキストマイニング（text mining）は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。

まぁ、これだけ見ると、あながち僕の答えも聞こえ的には間違いではないのですが、残念ながらその具体的な方法を知らなかったので、今回に限っては残念な先輩だと言わざるを得ません。

それではテキストマイニングをもっと知るためには、データマイニングを知らなければなりませんね。

このデータマイニングというものは、様々な統計解析手法を用いて大量のデータを分析し、そこに隠された関係性や意味を見つけ出す知識発見の手法のことです。

この命名なのですが、mining（マイニング)という英語には「発掘」という意味があるようで、「テキストの山から価値ある情報を掘り出す」といったような意味が込められているそうです。

そして、データマイニングにおける統計・解析アルゴリズムは、相関ルール、クラスタリング、ニューラルネットワーク、遺伝アルゴリズムなど数多くがあるようで、これについても調べようと思ったのですが、かなりヘヴィーな内容になりそうなので、今回はパス。また次の機会にでもどっしりと腰を下ろして調べたいと思います。

さてさて、本題であるテキストマイニングなのですが、手法として文章を単語ごとに切り分ける処理が必要となってくるので、英語などの外国語に比べるとやはり日本語は分析が難しく、遅れているそうです。

それでは、なぜ急激にこのテキストマイニングの需要が増えてきたのかというと、インターネットの進化によって膨大なデータがデータベースや電子ファイルシステムに蓄積されており、このテキストデータをうまく活用するために、データ分析の必要性が望まれ発展していったようです。

確かにネット環境が一般的になっている今、各企業には様々なデータがそれぞれのサーバに蓄積されているでしょうね。

株式会社プライムネットワークでも、マーケティングを行っていく上で必要な市場分析、アンケート調査などの資料が多く蓄積されています。

ただ、テキストマイニングをしっかりとできているのかと言われると、まだまだ不十分なこともあり、これを機会に現在保有しているデータをしっかりと分析し、今後のマーケティングに繋げていきたいと思います。