人気ブログランキング | 話題のタグを見る
Google日本語入力
 (パソコンに関心があるむきを)わずか1日で,日本中を席巻したと言ってもいいのでは?
 突拍子もないところから,いきなり出てきた。それが,Googleらしいと言えば,Googleらしい。



・グーグル、日本語入力ソフト「Google日本語入力」を公開
http://internet.watch.impress.co.jp/docs/news/20091203_333009.html
> 高い変換精度を実現するために、Web上の大量のデータから統計的言語モデルを構築し、
> 変換エンジンを構成している

 変換辞書にネットワークを使うのは,まだわかるけど,Webに散らばっている情報から変換処理を作っているのが,これまでにないところか。
 ATOKなど古くからあるプログラムは,文法とか,構文解析とか,オーソドックな手法から入っていったのに,Googleのは,あるものを集めるという手法。
 うがった見方をすれば,Googleがやるとすれば,Web抜き(検索用に溜め込んだ情報を含む)にはならず,Web前提だから,こうなってしまっただけかもしれませんけど。
 そういう点でも,新しいモノ好きじゃない,当方にしては,珍しく関心がありまして...発表当日にインストールしてしまいました(笑
> 「20%プロジェクト」により開発を開始
 ほー。
 Googleの20%プロジェクトとは,勤務時間の20%を自分の好きなことに使って良いというGoogleの社内ルールのこと。サラリーマン的に言わせて貰うと,5%や10%なら,まだわかるが,20%というのは大きい。単純計算では,月曜~金曜のうち丸々1日を好きにしていい事になるわけで,本来業務は80%でいいという事です。それも,Googleらしいかな。

・「Google 日本語入力」はATOKやMS-IMEを超えることはできるのか、実際に使って実用に耐えるかどうか試してみた
http://gigazine.net/index.php?/news/comments/20091203_google_japanese_input/
> MS-IMEよりは割と上な感じ、辞書を鍛えまくったATOKよりは少し下、という感じです
 同感。
 至らない点,改善が必要と思われる箇所も散在していますが,いきなり登場して,これだけの完成度は立派。と,認めざるを得ない。

 試しに,名前を変換してみたのが,これ↓
 読み方        入力文字    変換候補
---------------------------------------------------------------------------
 いがらしうめ     いがらしう   五十嵐梅(第一候補)
 にったこずえ     にったこ    新田梢恵(第二候補)
 ますもとなな     ますもとな   桝本奈生(第一候補)
 えはらみゆき     えはらみ    江原美有紀(第三候補)
 にしかわはるか    にしかわは   西川春花(第三候補)
 かいざんまお     かいざんま   海山真央(第一候補)
 くれはゆな      くれはゆ    暮羽優奈(第一候補)
 ふじむらえみり    ふじむらえ   藤村えみり(第一候補)
 えんじょうじよしこ  えんじょうじよ 円城寺佳子(第一候補)

 もりしおり      もりしお    森史織(第二候補)
 いのうえかなこ    いのうえかな  井上可南子(第二候補)
 みずのまな      みずのまな   水乃麻奈(第一候補)
 ひなたみどり     ひなたみど   日向碧(第一候補)
 あおいゆりか     あおいゆり   葵ゆりか(第一候補)
 さとうまいみ     さとうまい   佐藤まいみ(第一候補)

 すぎぶちゆきこ    すぎぶちゆきこ (変換出来ず)
 はたようこ      はたようこ   (変換出来ず)
 つだみほこ      つだみほこ   (変換出来ず)

 Webで収集した情報を活用しているので(狭い世界ではありますが)一定の知名度がある人ですと,(一切,学習がなくても)苗字+名前の1文字目で,フルネームを推察してくれます。
 苗字+名前の2文字目が必要だったのは,森さん~佐藤さんのグループのところ。それでも,フルネームの入力が必要だったのは,水乃麻奈ちゃんだけ。「の」が入っているのがマイナスポイントだったのでしょう。
 杉渕さん~津田さんのところは,ナレーターさんなので,知名度がなく変換出来なかったと思われ。
 Webに名前が載るか?載らないか?の差でしょう。
 載っていれば,こんなのも↓OK
 にゅうたばるきち   にゅうたば   新田原基地(第二候補)
 にこじい       にこじ     ニコ爺(第一候補)
 きやのぼう      きやのぼう   (出ない)
 きゃのぼう      きゃのぼう   (出ない)

 たーだ名詞に強いだけ。といえば,それまでですが,それを単語登録したり,センテンスを区切って変換したりするのに手間を要していたのですから,これは,これで意味があるでしょう。
 今回のリリースは,ベータなので,いわば最終試作品。まだ至らない点の検討と製品の特長にぶつかるところは少ないと思われるので,改良を施せば,それなりに行けるような気がします。
 ATOKからみると見劣りするところも間々ありますが,味見を兼ねて,しばらく使ってみることにします。
by rainbow-5 | 2009-12-03 23:54 | 日記


<< 最近,見たもの(写真関連) The Simmer of t... >>