Categories

  • Android開発
    android marketで目指せ億万長者(ウソ)
  • cocos2d
    pythonでも使えるゲームフレームワーク
  • Google
    ここには未来を開くためのAPIがたくさん用意されている。
  • GoogleAppEngine
    どこまでもスケールアウトするクラウドサービス。使いこなすのが大変
  • Hack
    様々な電子機器を本来の用途とは別の用途に使ってみる。
  • iPhone開発
    app storeで目指せ億万長者(ウソ)
  • python
    LightWeightLanguageで一番難しいがLispにも通じるところがある面白い言語。
  • TIPS
    覚えておくともしかしたら役に立つかもしれないチョットしたこと。
  • うまくいきません
    やってみたけど、うまくいかなかった失敗記事
  • ネット世界
  • 夢見るソフトウェア
    こんなのいいな、できたらいいな、いつかつくろう
  • 開発環境
    開発するまえに環境を整えた記録、次に同じことをするためめの忘備録
無料ブログはココログ
My Photo

« Google Desktop 3 のサイドバーでオリジナルのプラグインを作る | Main | 文字コード問題 »

February 18, 2006

英辞郎とわたし

 ハードディスクの整理をしていたら、英次郎というディレクトリを発見した。テキスト形式の英和辞典だ。

これが、読んでいて結構面白い。そもそも口語表現がこれほどたくさん載っている辞書はない。実体験に基づく使い分けの説明などは、 下手な海外レポートより引き込まれる。はてなでの説明にある、 生きている辞書というのは言いえて妙である。

 今でもあるのかと気になって検索すると、140万語を越えて収録された最大級の辞書となりCD- ROMは20万枚を越えて売り上げているそうだ。失礼しました。

 英次郎サイト:http://www.eijiro.jp/

5年前に取得した古い辞書を消すのはもったいないので、とりあえずデーターベースに突っ込んでみることにした。

 まずはmysqlで create table dic (word text,type text,mean text);で簡単なテーブルを作る。いまどき、手打ちでテーブルを作らないとか言う人は、phpmyadminでも何でも使って、 textフィールドを3つ使ってください。

 次に挿入するプログラムをperlで書いてみる。

#!/usr/bin/perl
use DBI;
$d = 'DBI:mysql:dic';
$u = 'dbUser';
$p = 'dbPassword';
$dbh = DBI->connect($d, $u,$p);

open(I,"nkf -e $ARGV[0]|")|| die;
while(<I>){
chomp;
s/\"/\\"/g;
if(/■(.*){(.+)} : (.*)/){
$w = $1;
$t = $2;
$m = $3;
$t =~ s/\s+$//; #末尾の空白
$t =~ s/^\s+//; #先頭の空白
$t =~ s/^\d$//; #数字だけ
$t =~ s/^\d\-//; # 1-品詞名
$t =~ s/\-\w+$//; # 品詞名-1
$t =~ s/^-//; #先頭のハイフン
$w =~ s/\s+$//;
$s=sprintf( 'insert into dic set word="%s",type="%s",mean="%s";',$w,$t,$m);
$sth = $dbh->prepare($s);
if(!$sth->execute){
print "ERROR:$s\n";
}
}
}
close(I);

$sth->finish;
$dbh->disconnect;

というプログラムだ。jcode関係がインストールされていないマシンで試したので、nkfを使って文字コードを変換した。 ■の文字コードが鍵なので、プログラムはeucで保存すること。

 品詞についてはそのままレコードにぶち込むと

 あとは、SQLの使い方次第では面白い発見があるかも。たとえば英字3文字の組み合わせは、17576通りあるが、 そのうち辞書に載っているのは1500程度であるとか。

 ドメインの検索とか、meanのフィールドをさらに茶筅で分けてみるとか、まあ色々。結構楽しめます。

« Google Desktop 3 のサイドバーでオリジナルのプラグインを作る | Main | 文字コード問題 »

パソコン・インターネット」カテゴリの記事

Comments

Post a comment

Comments are moderated, and will not appear on this weblog until the author has approved them.

(Not displayed with comment.)

TrackBack

TrackBack URL for this entry:
http://app.cocolog-nifty.com/t/trackback/48058/8726327

Listed below are links to weblogs that reference 英辞郎とわたし:

« Google Desktop 3 のサイドバーでオリジナルのプラグインを作る | Main | 文字コード問題 »