http://chasen.naist.jp/chaki/t/2009-09-30/doc/mecab-cabocha-nlp-seminar-2009.pdf
形態素解析とは
● 文を単語に区切り品詞を同定する処理
明示的な単語境界が無い言語では必須の処理
全文検索 Spam フィルタリング 人工無能...
● 以下の3つの処理
単語への分かち書き(tokenization)
活用語処理(stemming, lemmatization)
品詞同定(part-of-speech tagging)
● MeCab:
汎用テキスト処理フレームワーク
形態素解析もできる
かな漢字変換等にも応用可能
MeCabについて
●MeCabは 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。 言語, 辞書,コーパスに依存しない汎用的な設計を 基本方針としています。 パラメータの推定に Conditional Random Fields (CRF) を用 いており,ChaSenが採用している 隠れマルコフモデルに比べ性能が向上しています。また、平均的に ChaSen, Juman, KAKASIより高速に動作します。 ちなみに和布蕪(めかぶ)は, 作者の好物です。
●ダウンロード
ここ:
https://code.google.com/p/mecab/downloads/list?can=2&q=&colspec=Filename+Summary+Uploaded+ReleaseDate+Size+DownloadCount
●使ってみる