2014年5月27日火曜日

形態素解析のMeCab

  出典:工藤 拓  日本語解析ツールMeCab, CaboCha の紹介
    http://chasen.naist.jp/chaki/t/2009-09-30/doc/mecab-cabocha-nlp-seminar-2009.pdf

形態素解析とは
● 文を単語に区切り品詞を同定する処理
   明示的な単語境界が無い言語では必須の処理
   全文検索 Spam フィルタリング 人工無能...
● 以下の3つの処理
   単語への分かち書き(tokenization)
   活用語処理(stemming, lemmatization)
   品詞同定(part-of-speech tagging)
● MeCab:
   汎用テキスト処理フレームワーク
   形態素解析もできる
   かな漢字変換等にも応用可能

MeCabについて
MeCabは 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。 言語, 辞書,コーパスに依存しない汎用的な設計を 基本方針としています。 パラメータの推定に Conditional Random Fields (CRF) を用 いており,ChaSenが採用している 隠れマルコフモデルに比べ性能が向上しています。また、平均的に ChaSenJumanKAKASIより高速に動作します。 ちなみに和布蕪(めかぶ)は, 作者の好物です。

●ダウンロード
   ここ
https://code.google.com/p/mecab/downloads/list?can=2&q=&colspec=Filename+Summary+Uploaded+ReleaseDate+Size+DownloadCount

●使ってみる

MeCab (和布蕪-めかぶ)を使ってみる