形態素解析をやってみよう!

けいたいそかいせきってなんですか?

「テキストマイニング」という言葉が流行っています。

世の中的に流行ってるかどうかは知りませんが、少なくともR&D事業部の中では大流行中です。

「テキストマイニング」とはテキストデータ中の単語の出現頻度や相関関係を解析し、アイデアや情報を抽出する分析手法の事です。

この手法を用いる事でアンケートのフリーアンサーや掲示板の書き込みなどから顧客や市場のニーズを抽出したりすることが可能!と言われています。

R&D事業部ではこのテキストマイニングの基礎とも言える「形態素解析」をやってみました。

「形態素解析」とはある文章を意味を持つ最小単位に分割してその品詞を判別するという作業です。

なんのことやらさっぱりわかりませんね…

例えば「僕は福岡に住んでいます。」

この文章を形態素解析すると

●僕:名詞-代名詞-一般
● は:助詞-係助詞
●福岡:名詞-固有名詞-地域-一般
●に:助詞-格助詞-一般
●住む:動詞-自立
●で:助詞-接続助詞
●いる:動詞-非自立
●ます:助動詞

となります。

なんとなくイメージは掴めたでしょうか?

中学生のときに国語の授業でやっていた内容に似てますね。

しかし膨大な量のテキストデータを手動で分析していく事はさすがの金田一先生でもムリなお話。
そこで登場するが形態素解析ソフトです。
「結局ソフトつかうんじゃん!」という声が聞こえてきますが、利用できるものは全て利用するのがR&Dの心意気(本当に?)今回は有名な「茶筌」というソフトを利用します。
実際にこのソフトはテキストデータを入力してポチッとボタンを押すとと「あっ」と言う間に解析が終了します。

形態素解析結果こんなカンジで分析結果が表示されます。(clickで拡大)

さてさて形態素解析をやっただけではただ単に「文章が品詞別に分解された」だけですので、ここからテキストマイニングの初歩「キーワード抽出」を簡単にやってみました。

品詞分解するとデータには品詞単体では意味を持たない助詞や非自立語が 多く含まれていますのでキーワードとして意味を持つであろう言葉をここから抽出していきます。

今回は以下のルールのもとキーワードを抜出して比較しています。

「動詞、形容詞、名詞で自立語」

わー分かりやすいルール…

実際に育児関連商品アンケートのフリーアンサーを月齢別に比較するとこのような結果が出ました。

アンケート結果(clickで拡大)

例えば妊娠中には出現していなかった「価格」というキーワードが出産後には出現したり、9ヶ月以降の赤ちゃんが飲む「フォローアップ」というキーワードが該当月齢のみ出現したりとちゃんと傾向が現れてきました。

実際のテキストマイニングはここから各キーワードの相関や係り受け、ポジティブネガティブ判定などをおこなっていくのですが、キーワードの出現率をみるだけでも随分と見えてくるものがありますね。

データ化できないと言われていたフリーアンサーですが、しっかり「定量的データ」として扱えるようになってきているのです。

今後はターゲット属性との関連性などをもうちょい細かくみていきたいなーなんて考えています。

ブックマークプラス by SEO対策