predicate.jp - Yusuke Oda

Ckylark の文法モデル

概要

Ckylark は UTF-8 エンコードされた単語列であれば言語を問わず解析可能です。

ただし、ある言語を解析する場合は、適切な文法モデルを読み込む必要があります。

ここでは Ckylark 用の学習済みモデルファイルの配布と、ユーザ独自のモデルの作成方法を解説しています。

モデルの使用方法

下記の学習済みモデルをダウンロード後、解凍して生成されるファイル群を適切なディレクトリ (/path/to/Ckylark/model など) に配置して下さい。

モデルの読み込みは --model オプションにモデルファイル群の接頭辞を指定します。

(WSJ モデルの場合の例)

$ tar xf wsj.tar.gz
$ mv wsj/* /path/to/Ckylark/model
$ /path/to/Ckylark/src/bin/ckylark \
    --model /path/to/Ckylark/model/wsj

学習済みモデル一覧

Google Drive からダウンロードして下さい。

モデル 言語 ドメイン 学習データ 備考
WSJ 英語 新聞記事 Penn Treebank Section 2-22 デフォルトで付属。
JDC 日本語 新聞記事書籍Web辞書例文特許 Japanese Word Dependency Corpus デフォルトで付属。単語分割には KyTea を使用する必要があります。
CTB 中国語 Penn Chinese Treebank 単語分割には KyTea を使用する必要があります。(KyTea 用の中国語モデルが公開されています)

ユーザ独自モデルの作成方法

もし Ckylark の利用者が独自のツリーバンクを持っている場合、Berkeley Parser の学習器で作成したモデルのテキスト出力を使用することができます。

$ java -cp /path/to/BerkeleyParser-*.jar \
    edu.berkeley.nlp.PCFGLA.GrammarTrainer \
        -path /path/to/my-treebank.mrg \
        -out /path/to/my-grammar.gr \
        -treebank SINGLEFILE
$ java -cp /path/to/BerkeleyParser-*.jar \
    edu.berkeley.nlp.PCFGLA.WriteGrammarToTextFile \
        /path/to/my-grammar.gr \
        /path/to/Ckylark/model/my-grammar
$ /path/to/Ckylark/src/bin/ckylark \
    --model /path/to/Ckylark/model/my-grammar