てきとーなブログ

てきとーに書き綴ります。なので、正しいかは責任を負えません。

ngramして頻出順に並べる&グラフにする

暇つぶしとしてpythonを使ってある文書をngramで切り取りそれを頻出順に並べることをしてみます。 あと、その結果をmatplotlibを使ってグラフに描画してみました。

プログラムは以下のような感じで、カウントしたくない単語リストをstop.txtとして事前に用意してください。

ngramして頻出順に並べる&matplotlibでグラフにする

で、結果としては日本語の文章、英語の文章それぞれ以下のような感じでした。 形態素解析とかもっと工夫すれば良くなったかもしれません。ちなみに使った文章はwikipediaの記事です。

f:id:azoay:20150623001616p:plain

f:id:azoay:20150623001752p:plain