2010-10-24

「日本語入力 T-Code のススメ」〜 Google 日本語入力 TechTalk ライトニングトーク

2010-10-23 (土) に、Google が主催する「Google 日本語入力 TechTalk」に参加した。

そして、飛び入りでライトニング・トークをやってきた。5 分ほどのライトニング・トークだったけど、発表資料と質問の答えをエントリーにしておく。

T-Code って何?

T-Code は、いきなり漢字を直接入力する日本語入力。漢字変換の必要がない。

その入力する様はまるで「ルパン三世のタイトル入力」のように見える。

補足説明

ぼくらは英語入力をする時、26 のアルファベットと 10 の数字、あと少しの記号の位置を記憶して入力を行なっている。つまり、「a」という文字を打つには「a」というキーがどこにあるかを憶えていて、その対応関係を思い出して「入力」を行なっている (タッチタイプするほとんどの人は、もう反射の域に達しているでせう)。

キーの数は 40 ちょっと (26 + 10 + 記号が少し)。余分な記号は削って、ここではキーの数は 40 とする。

さて、ここで発想の転換。キーを 2 打うつ組み合わせは、40 x 40 = 1,600。この 1600 の組み合わせ一つ一つに文字 (漢字) を割り当てて、その組み合わせを全部覚えてしまったらいいんじゃないか? これが T-Code。

実際は、ユーザー用領域や特殊キーがあって、割り当てられている漢字は 1200 程。

ぼくはそのうち、約 800 を憶えているが、自分のブログでチェックすると 95% の文字はこの 800 字だけで入力できている。

では残り 5% はどうするか? T-Code は 2 つの方式を用意している。部首合成変換と交ぜ書き変換の二つ。

合成

例えば、「仏」という文字を入力したいとする。

この場合、「jf」と入力してから「イ」と「ム」を入力する。すると「イ」と「ム」が合成されて「仏」という文字になる。

「jf」の 2 ストロークは、部首合成変換を始めるプレフィックス。読みが分からなくても、似た漢字を知っていたら「合成」で漢字を作れてしまうのが利点。

交ぜ書き変換

一つ有名な文章を入力しませう。

記者が汽車で貴社に帰社した

この入力は次のように行なう。

記者がき車 fj でき社 fj に帰社した

「fj」の 2 ストロークで交ぜ書き入力を行なう。注目すべきは、この時、変換候補が一つも現れないこと。例えば、「き車」という入力に対して結果は「汽車」しかないので変換候補は一つも現れない。

「貴社」と「帰社」の場合は少し複雑。普通に「き社」を変換しようとすると、「記者」や「汽車」は変換候補に現れないけれど「貴社」と「帰社」は変換候補に現れる。ユーザーはたった 2 つの候補の中から、自分が入力したい漢字を選ぶ。ただ、幸いなことにぼくは「帰」という漢字を憶えていた。T-Code には、憶えた漢字を「交ぜ書き変換辞書」から削除する機能がある。そこでぼくは「帰」という漢字を辞書から削除した。そういうわけで、「き社」の入力に対して変換候補は一つだけ「貴社」に絞られる。一つだけなので変換候補ウィンドウは現れなかった。

このように、変換候補の数を減らしていけるのが交ぜ書き変換の良いところ。

質問・その他

T-Code を始めたきっかけは?

1998 年頃か? 当時、ぼくは ATOK を使っていた。その頃の ATOK はこんな変換をした (口語モードにしたのに!!)

○○なんだ世

この語尾を修正するのが、たまらなく苦痛だった。そこで出会ったのが SKK だった。

極めるととともに、小指がつった。

他の入力方式を探した。そして T-Code に出会った。

T-Code を選んだ理由は?

T-Code のやうに直接漢字を入力できる方式は T-Code だけではない。他にも数多くある。例えば、ひらがな入力だけは普通と同じにして、余った部分に漢字を割り当てる方式など。そう。誰でも考える。漢字直接入力方式は敷居が高すぎる。

その中にあって、T-Code は一つ異色だった。

T-Code は東京大学理学部情報科学科山田研究室で開発された。新聞のデータを集め単語の出現確率を求めた。(どうやってか知らないけれど) 2 打鍵入力する際の効率表を得た。その 2 つを組み合わせて T-Code の配列は決まった。

元は (新聞社なんかの) コピーライター向けの研究だったという。記者の手書きの原稿を電子データにする職業ね。海外のコピーライターは、仕事に携わる前に 400 時間の研修時間を持つ。ならば、日本でも同じように研修時間を取るべきである。T-Code はそういうプロのための研究であり、入力手法だった。だから、素人が手を出すなんて想定していなかった。ある意味、ストイックな入力方式だった。

そのストイックさに惚れた。

憶えるのは大変ではないか?

Emacs 用の T-Code パッケージには、EELLL という練習用プログラムが付いてくる。

まず、3 単語「の」と「が」と「、」の入力位置が表示され、練習用文章が表示される。これをクリアすると、次のレッスンに進むかと聞かれる。十分、入力位置を憶えたと思ったら次のレッスンに進む。新しい単語 (と古い単語) による練習用文章が現れる。こうやって、まずはひらがなを覚える。

レッスンを続ければ全ての漢字を憶えることができるけど、一まず「ひらがな」まで憶えれば十分。「ひらがな→カタカナ」変換と「交ぜ書き変換」を使って最低限の入力は出来るやうになる。

後は、少しずつ良く使う漢字の位置を憶えていく。漢字の位置を憶えると、交ぜ書き変換辞書から (手動で) 漢字を削除できるので、交ぜ書き変換の変換候補が少なくなって変換効率が上がる。すると、楽しくなってどんどん漢字を憶えたくなる。

T-Code は速いのか?

十分に訓練された人間が、新聞のコピーライトに使う分には最強だと思う。しかし、そんな人間が一体何人いるかしらん?

もう少し現実的に、一般人がコピーライトする場合。対象が新聞なら最速に近いと思う。ただし、対象が小説だと疑問。元データが「新聞」なので、新聞によく現れる「殺(人事件)」「(東)芝」「渋(谷)」といった文字が比較的打ち易い場所に配置されている。一方、新聞では絶対に現れない一人称「僕」は T-Code のコード表に存在すらしない。交ぜ書き変換で入力するしかない。それでも、単語頻度が大きく変わることはないので、十分速いと思う。

更につっこんで、コピーライトの需要はあるのか? ほとんどの人は自分で考えた文章を入力するのに「日本語入力」を使うでせう。その場合、タイピング・スピードだけなら Google 日本語入力を始めとした「日本語変換系」の方が速い。なんせ、どんな漢字を打つか考えないで良いんだから。だけど、そこから、変換候補を選ぶのに時間がかかる。頭も使う。一方、T-Code は入力時に「どの漢字を使うか」も一緒に考えて入力する。これはノートに文字を書くのと同じ感覚。特に T-Code を使い始めると、「日本語をちゃんと正確に入力したい」という誘惑が強くなる。「遇う」と「遭う」は使い分けたい。「会う」と「逢う」も使い分けたい。といった感じ。ここら辺で時間をロスしているやうに思う。

少し話しを極端にして、Google 日本語入力と T-Code を両方「極めた」としませう。この場合、どちらが文章を書くのが早いか? きっとスピードは同じ。入力速度 (手の早さ) よりも、文章を考える時間 (頭の早さ) の方がボトルネックになる。どんなに速く入力できる人間も、自分が考えるより速く入力は出来ない。

話しを戻して、現実的な話。ブログなんかを書くんなら、T-Code より Google 日本語入力の方が速いかもしれない。ただし代償はある。「変換候補を選ぶ」という作業。これはかなり頭を使う。T-Code を使っている時は交ぜ書き変換を使うにしても「変換候補が少なくて楽だな」と感じたことはなかったのだけど、ATOK に戻ったとたん「変換候補を選ぶ」だけでえらく疲れた。一度、T-Code の「直接入力」に慣れると、変換の煩わしさには堪え難い。

まとめると、(ある程度の域に達したことを前提に) 普通に文章を書くのであれば T-Code も Google 日本語入力も大きな差はない。ただし、T-Code の方が「楽」。

入力スピード・蛇足

入力スピードに興味のある方は、日本語入力だけでなく英語配列においても関心があることと思う。そういう方は、安岡氏の「キーボード配列 QWERTY の謎」がお勧め。詳細はレビュー記事をどうぞ。

開発は止まっているか?

T-Code の開発ページはこちら。

Unicode 化されていない Emacs で動く tc-2.3.1 が公開中。

ただ、ここ一、二年忙しくって体を壊した

当てなきゃいけない色んなパッチがあるし、Unicode 版 Emacs で動くかテストもしなくちゃいけない。課題は山積みだけど、もう少しお待ち下さい。

T-Code のローマ字テーブルファイルはまだかっ

ローマ字テーブルはインポート・エクスポートできるみたいなので、t-codeのローマ字テーブルファイルはまだかっ!!

Twitter より引用

えっと。頑張る。

あとがき

今回、Google 日本語入力 TechTalk に申し込んだ時は、まさか自分が LT をすることになるなんて思ってもみなかった。それが場の勢いに乗せられて、飛び入り参加。実は初 LT。

資料の用意もないし、講演は聞かなくちゃいけないし、でも話す内容はまとめなきゃだし。もう大変。そして、たった四行のプレゼン資料が出来上がった。時間配分も計からずに、LT 本番に突入。でも、何かウケが取れてたようなので良かった。時間ピッタリ (?) だったのは奇跡だね。

懇親会では三人の方から質問を受けることができて感無量。

それから、MacBook 用に DVI-D-sub 変換アダプタを買ったなんてエントリーを書いておきながら、持っていかなかった自分を反省。いや、まさか LT するなんて自分ですら知らなかったから。。。ええ、人生何が起きるか分からないので、まさかの準備はしておくべきですね。変換アダプターを貸して下さった方、直接お礼を言う機会がありませんでしたが、ありがとうございます。

No comments:

Post a Comment