どうも、とがみんです。
この記事では、Twitterの分析や書いた文章の分析する際に有用な形態素解析をプログラミング言語Pythonを用いてする方法について紹介します。
形態素解析とは
形態素解析とは、普段日常で使うような言葉や、文章を形態素にまで分割する技術のことです。
例えば、「私は勉強します」だと、
代名詞/副助詞/名詞/動詞/助動詞
といった感じに文章を形態素にまで分割します。
形態素とは、言葉が意味を持つまとまりの最小単位のことです。
今回目指すもの
今回目指すものは、以下のようなものです。
【python】
pythonで形態素解析 pic.twitter.com/tFn96k9xaW
— Fresopiya@究極の自由を追求するブログ (@fresopiya) March 28, 2019
プロフィールの文章を形態素に分解するプログラムを作成します。
前準備
Homebrewのインストール
Homebrewとは、Macにソフトウェアやライブラリをインストールするパッケージ管理システムです。
これを用いて、形態素解析に必要なライブラリをインストールしていくので、まずはこの「Homebrew」をインストールします。
ターミナルを開き、以下のスクリプトを実行します。
==> Installation successful!が表示されたら、インストールの成功です。
MeCabと辞書のインストール
Homebrewを利用して、「Mecab」と辞書のインストールをします。
MeCabとmecab-ipadic
「MeCab」とは、オープンソースの形態素解析エンジンです。
「mecab-ipadic」は、MeCabで使用する辞書です。
ターミナルで以下を実行します。
$ brew install mecab-ipadic
また、「mecab-ipadic」という辞書だけでなく、「mecab-ipadic-NEologd」という辞書も併用することによって、あらゆる語彙に対応することができます。
mecab-ipadic-NEologd
「mecab-ipadic-NEologd」のインストールは、ターミナルで以下を実行します。
上記でクローンしたリポジトリに移動します。
そして、以下のコマンドを実行します。
Do you want to install mecab-ipadic-NEologd? Type yes or no.といった質問がされるので、yesと入力します。
これで、「mecab-ipadic-NEologd」のインストールが完了します。
mecab-python3のインストール
PythonからMeCabを使えるようにするために「mecab-python3」をインストールします。
ターミナルで以下を実行します。
$ pip install mecab-python3
これで、必要なものを全てインストールしました。
実際にPythonで形態素解析をしていきます。
Pythonで形態素解析
以下のコードを実行し、解析したい文章を入力すると解析されます。
1 2 3 4 5 | import MeCab mecab = MeCab.Tagger ('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd') text = input("解析する文章を入力してください:") result = mecab.parse(text) print(result) |
まとめ
Pythonを利用して形態素解析する方法について説明しました。
形態素解析を利用すれば、自分のブログの記事や他者のブログの記事、検索結果上位記事のキーワードの使用頻度を調べたり、
Twitterでどういうフォロワーが自分をフォローしているのかとかを分析できそうですね!
そんなに難しくないと思うので、皆さんも挑戦してみてはどうでしょうか!