makeindex は jperl で書かれたツールで、From やSubject などのメールヘッ ダーの情報と単語情報を抽出します [リスト2] 。次のように起動します。
makeindex -h header_data_file -b file1 file2...
[リスト2: makeindex]
header_data_file は、メールヘッダーの抽出情報を格納するファイルです。 すでにファイルが存在する場合は、データは末尾に追加されます。メールの本 体から抽出した単語は標準出力に書き出されます。file1, file2... は抽出の 対象となるメールファイルのパスで、1ファイル/1メールメッセージであるこ とを前提にしています。単語抽出の際には、英数字の大文字/小文字、全角/ 半角の統一及び平仮名のみからなる単語など、検索に不要な単語の削除処理を 行っています。 リスト3 にメールから抽出した情報の例を示します。
今回は紙面の都合でプログラムの内容を解説しませんが、kakasi を使ってい る以外は単純なテキスト処理なので、比較的容易に内容を理解できると思いま す。