CAT
(Corpus Analysis Toolkit)Last Modified : 2003/12/03
CATは、数10MBの比較的小規模のコーパスを対象にして基本的なコーパス分析機能を提供するPerlスクリプトです。GNUフリーウェアです(無保証です)。テキストファイルからXML文書のコーパスファイルを作成し、以下の分析を行なうことができます。
単語頻度
n-gram頻度
grep
KWICコンコーダンス
コロケーション(頻度順)
コロケーション(統計値)
プログラムの詳細については、以下の学会ハンドアウトをご覧ください。後半に詳しい解説があります。いずれマニュアルも公開する予定です。Active Perl v5.8.0で動作確認しています。Windows環境以外でも動作するはずですが、未確認です(ファイルのパス区切りを修正する必要があるかも知れません)。
CATのダウンロードv1.01 (自己解凍ファイル)
サンプルCAT-XML文書コーパス (George B. Shawの36タイトル、約112万語、自己解凍ファイル)
■ 英語コーパス学会第22回大会ワークショップ 『コーパス言語学のためのPerl入門―Windows環境でのコーパス分析』
ハンドアウト(PDFファイル) (ローカルディスクに保存するときは右クリック)
ハンドアウト(Powerpointファイル) (ローカルディスクに保存するときは右クリック)
ハンドアウト(htmlファイル)(オンライン)
ご意見、ご要望がございましたら、aka-san@mx.biwa.ne.jpまでお寄せください。バグ報告もよろしくお願いします。