今日はMacBookProでデータサイエンスを進めて行くシリーズの18回目となります。マーケティング領域で使えるデータサイエンス手法をテーマに記事を書いて行きます。今回は”テキストマイニング”をご紹介していきます。是非最後まで読んでいって下さい!
- テキストマイニングとは
- テキストマイニングの流れ
- テキストマイニングのコツ
- テキストマイニング関連の統計解析・機械学習アルゴリズム
- 注意点
1.テキストマイニングとは
テキストマイニングは、テキスト(=文字、文章)を対象にデータ解析をする手法のことです。文章を単語や文節、形態素といわれる品詞など”言語上、意味のある最小単位”で区切ることで、出現頻度、語句の相関関係、時系列による変化などの傾向やパターンなど、有用な知見を抽出することを目的にしています。大量のテキスト情報の中から様々な有益な情報を発掘することができる技術とも言えます。
<活用例>
例えばマーケティングにおいては、アンケートのテキスト(回答部分)の解析、SNSやブログなどの傾向分析、論文や特許などの動向分析などその活用用途は広がっています。
<基礎用語>
テキストマイニングでは、形態素解析、構文解析、自然言語処理、共起ネットワークという言葉がよく使われます。
・形態素解析・・・自然言語処理の一部で、自然言語で書かれた文を言語上で意味を持つ最小単位(=形態素)に分け、それぞれの品詞や変化などを判別することです。
・構文解析・・・形態素解析で分割した品詞を利用して単語と単語動詞の修飾/被修飾を特定します。
・自然言語処理・・・自然言語とは例えば日本語、英語、中国語などをさし、これらの言語を処理することを自然言語処理と言います。自然言語処理は(NLPとも言われています)
※NLP・・・Natural Language Processingの略です。
・共起ネットワーク・・・n個の連続する単語を各頂点とし、それらを接続することで、単語の関係性をネットワークにして表現します。 共起ネットワークにより、単語の関連性を可視化することができるので、出現頻度の高い表現の把握や文全体の趣旨の理解などで活用されています。
2.テキストマイニングの流れ
・形態素解析、構文解析等による自然言語処理で文章を単語ごとに分割する
・言葉の使用頻度はどのくらいあるのかなどを解析する
・共起ネットワークなどから単語の重要度・関連度を分析する
・結果を解釈する
3.テキストマイニングのコツ
実際に分析する際の参考にして下さい。
–1.KH Coderを活用する
KH Coderは、計量テキスト分析またはテキストマイニングのためのフリーソフトウェアです。 アンケートの自由記述・インタビュー記録・新聞記事など、さまざまなテキストの分析で使用可能です。
※以前はMac OSには対応していませんでしたが、現在は一部で利用可能なようです。
–2.User Local
こちらも無料でテキストマイニングできるサービスです。クラウド上のサービスになりますのでKH Coderと違ってローカルPC上では処理できずクラウド上に対象ファイルをアップロードする必要があります。
4.テキストマイニング関連の統計解析・機械学習アルゴリズム
テキストマイニング手法 | 概要 | Pythonライブラリ/モジュール |
形態素解析 | 文章を意味を持つ最小単位(→形態素)に分割する | Mecab-Python3 |
センチメント分析 | 文章、文面等の文章データからその人が持つ感情を読み取る | oseti |
クラスター分析 | 変数から似ている性質の個体をグルーピングする | |
主成分分析 | 似ている性質を持つ変数がないか分析し、それらをまとめて表す新たな「変数」を作成する | |
ワードクラウド | 長めの文章、例えばスピーチ原稿やあるアカウントの今までの全てのコメント等から各単語の出現回数をカウントし、そして出現回数に応じた大きさの単語を一枚に並べて表現する | wordcloud |
参考URL:https://crystal-method.com/topics/text-mining_python/
5.注意点
英語に比べて日本語は文章全体を最後まで読まないと本質的な意味が理解できないため、非常に難易度高いです。またこれまた英語と比べる単語と単語の間にスペースがないため、どこで切るのかも難しいというデメリットがあります。また解析している機械(=PC)は文章の特徴を学習しているだけで、文章の意味を理解して分析しているわけではないです。あくまでも曖昧な解釈を分析者自身が行なっているため”曖昧さ”がどうしても残る分析手法と言っても過言ではありません。
今回は以上となります。最後まで読んで下さりありがとうございました。
コメント