ngramして頻出順に並べる&グラフにする
暇つぶしとしてpythonを使ってある文書をngramで切り取りそれを頻出順に並べることをしてみます。 あと、その結果をmatplotlibを使ってグラフに描画してみました。
プログラムは以下のような感じで、カウントしたくない単語リストをstop.txtとして事前に用意してください。
ngramして頻出順に並べる&matplotlibでグラフにする
で、結果としては日本語の文章、英語の文章それぞれ以下のような感じでした。 形態素解析とかもっと工夫すれば良くなったかもしれません。ちなみに使った文章はwikipediaの記事です。