プログラミング

【Python】MeCabを利用した形態素解析の方法

どうも、とがみんです。

この記事では、Twitterの分析や書いた文章の分析する際に有用な形態素解析をプログラミング言語Pythonを用いてする方法について紹介します。

形態素解析とは

形態素解析とは、普段日常で使うような言葉や、文章を形態素にまで分割する技術のことです。

例えば、「私は勉強します」だと、

私/は/勉強/し/ます
代名詞/副助詞/名詞/動詞/助動詞

といった感じに文章を形態素にまで分割します。

形態素とは、言葉が意味を持つまとまりの最小単位のことです。

今回目指すもの

今回目指すものは、以下のようなものです。

プロフィールの文章を形態素に分解するプログラムを作成します。

前準備

Homebrewのインストール

Homebrewとは、Macにソフトウェアやライブラリをインストールするパッケージ管理システムです。

これを用いて、形態素解析に必要なライブラリをインストールしていくので、まずはこの「Homebrew」をインストールします。

>Homebrew

ターミナルを開き、以下のスクリプトを実行します。

/usr/bin/ruby -e “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)”

==> Installation successful!が表示されたら、インストールの成功です。

MeCabと辞書のインストール

Homebrewを利用して、「Mecab」と辞書のインストールをします。

MeCabとmecab-ipadic

「MeCab」とは、オープンソースの形態素解析エンジンです。

「mecab-ipadic」は、MeCabで使用する辞書です。

ターミナルで以下を実行します。

$ brew install mecab
$ brew install mecab-ipadic

また、「mecab-ipadic」という辞書だけでなく、「mecab-ipadic-NEologd」という辞書も併用することによって、あらゆる語彙に対応することができます。

mecab-ipadic-NEologd

「mecab-ipadic-NEologd」のインストールは、ターミナルで以下を実行します。

$ git clone –depth 1 https://github.com/neologd/mecab-ipadic-neologd.git

上記でクローンしたリポジトリに移動します。

$ cd mecab-ipadic-neologd

そして、以下のコマンドを実行します。

$ ./bin/install-mecab-ipadic-neologd -n

Do you want to install mecab-ipadic-NEologd? Type yes or no.といった質問がされるので、yesと入力します。

これで、「mecab-ipadic-NEologd」のインストールが完了します。

>mecab-ipadic-neologd

mecab-python3のインストール

PythonからMeCabを使えるようにするために「mecab-python3」をインストールします。

ターミナルで以下を実行します。

$ brew install swig
$ pip install mecab-python3

これで、必要なものを全てインストールしました。

実際にPythonで形態素解析をしていきます。

Pythonで形態素解析

以下のコードを実行し、解析したい文章を入力すると解析されます。

まとめ

Pythonを利用して形態素解析する方法について説明しました。

形態素解析を利用すれば、自分のブログの記事や他者のブログの記事、検索結果上位記事のキーワードの使用頻度を調べたり、

Twitterでどういうフォロワーが自分をフォローしているのかとかを分析できそうですね!

そんなに難しくないと思うので、皆さんも挑戦してみてはどうでしょうか!

参考文献

>Homebrew

>Python3からMeCabを使う