BITの原稿         500字   20枚 富士通株式会社 「日本語情報処理のために JEF、OASYSの過程から」    神田 泰典 1.なぜ日本語? 私はコンピュータの技術者として主としてハードウェ アの設計に携わってきた。 昭和50年ころになると、さすがに日本のコンピュー タの技術も一流になって、ハードウェアのほうは設計し て、組み立てればすんなりと動くようになった。 外観は一応できるが調整をしても思うように動かない で、「コンピュータ動かなければ、只のハコ」という苦 労をしてきた者にとっては、周囲を見る余裕もでてきた 。 コンピュータがどのように使われているかと思って、 まわりの様子を調べてみると、苦労してコンピュータを 作っているわりには、どうも適切に使われていないので はないかという気がしてきた。 電子計算機は名前の通り計算が得意で、科学用の数値 計算や事務用の計数処理には人間では不可能な仕事をや ってくれている。しかし、コンピュータを計算だけに使 うのであれば、用途はそんなに拡がる見込はなく、テク ノロジーの進歩で、コンピュータの価格が下がる分だけ 、売り上げが下がり、結局技術者は自分の首を締めるた めに仕事をしていることになる。こんな不公平な話はな いわけで、コンピュータの使い方の方にも問題があるの ではないかと考えた。 私もコンピュータの設計にはコンピュータを使ってき た。昭和40年代はコンピュータを使った設計システム を開発したので、コンピュータの設計の品質は極度に向 上した。従来は手書きだったコンピュータの論理設計図 はコンピュータに記憶され、メインテテンスされて、そ の論理設計図から自動的にコンピュータが製造されるよ うになった。 このようにコンピュータのハードウェアの設計、製造 にはコンピュータが導入されてその生産性、信頼性が向 上したが、ソフトウェアの方はこれはもう大変な状況で ある。人類の歴史的な問題であり簡単には解決しそうに はないとしても、あまりにも状況が悪いと思った。 ソフトウェアの問題点を産業革命以来のハードウェア のノウハウに照らして考察すると、二つの問題点がはっ きりした。その一つが日本に固有の問題でソフトウェア の世界で日本語を使っていないことであると確信した。 (文献1) このように、コンピュータの用途を拡大するためと、 ソフトウェアの問題を解決するために、コンピュータで 日本語が容易に扱えることが必要だと感じた。 2.当時の状況 大成建設の窪田弘氏のご意見では(文献2)われわれ が日常使っている文字が自由にコンピュータで使えてこ そ「一人前の情報処理装置」ということができるとし、 問題点として次の2点を挙げておられる。 Sメーカー側が漢字処理に不熱心だった。これは国産メ ーカーがIBMに追いつき、追い越せと本体ばかりに 関心が向いて、漢字処理に取り組む余裕が無かった。 Tユーザーにも問題がある。図はそれを棒磁石に見立て て、メーカー側思考(N極)とユーザー側思考(S極 )の関係を模擬化したもので、棒磁石は切るとそれぞ れの切片にN極とS極ができる。N極側にいる人はど うしても、メーカー的、機械知識思考型の考え方をし がちになる。 (この棒磁石の例は日本語処理のみならず他にも当ては まることで、口を開けばエンドユーザーのニーズに応え てと軽々しく言うが、そのうち罰が当たって口が腐って くるのではないかと心配である。) 当時のメーカーの状況としては、「漢字処理」という のは、特定の業種の仕事だと考えていた。例えば、テレ メータリングとか卸小売システムとかと同列に考え、「 漢字」を扱う報道、出版、宛名業務のための専用システ ムであり、そのための漢字入出力装置であった。 3.日本語情報処理の構想 このような状況で、それまでの漢字処理ではない汎用 の日本語処理の必要性を痛感し、社内のプロジェクトと して意識的に日本語処理という言葉を使って新しいシス テムを開発することにした。 その構想は情報処理学会の53年7月のプログラミン グ・シンポジウム(日本語処理特集)に「日本語情報処 理の方向」という論文で発表して、(文献3) h人間を良く勉強することの必要性 i専用のシステムでは駄目なこと j日本語の創成入力の必要なこと kプログラムも当然日本語で書くべきである。 という意見を述べたが、討論では「どの程度研究して発 表しているのか」という失礼な質問や、「そんなに大見 栄を切るならもっと文章をまともに書いてほしい。」等 と専門家からの風当たりは強かった。 富士通日本語情報システム(JEF)は S 汎用システムである。 T EDPシステムの拡張機能として日本語処理機能を 持たせる。 (Japanese processing Extended Featureの名前は  これから付けた) U 価格は従来のシステムの2割アップを目標とする。 という具体的目標で社内の総力をあげて開発を進め、昭 和54年4月に発表して、その後順調に富士通のコンピ ュータの特長ある商品として納入実績を上げている。 4.開発の途中で感じたこと 4.1 人間を良く勉強することの必要性について 技術者は、人間のことを余り知らないのではないかと 思った。私は工学部出身だから学生時代には、物理学は 勉強したが心理学は受講しなかった。受講しなくても大 学は卒業できた。そんな人達が、日本語の処理を研究す る資格があるのかというのが大問題である。 人間のことを余り勉強していないから、いきおい、人 間はコンピュータの少し高級なものくらいに思いがちで ある。プログラミング言語と自然言語の間には、非常に 大きな差がある。これは認識についても同じで、人間が 人の話を認識しているのと、音声認識装置で音声を認識 するのでは、同じ認識という単語を使っているけれども 全然違う、機械の方には認識という言葉を使わない方が 誤解の原因が減って良いと思うくらいである。 技術者はコンピュータのことはよく知っているけれど も、利用する対象についてはそんなに知っているわけで はない。コンピュータの工学的利用なら類似の学問であ るが、人間の言葉を扱うのはかなり分野が違う。しかも 、困ったことに、人間のことは学問の水準としても、良 く分かっていないのが現状である。 4.2 漢字処理の世界の閉鎖性 専門家は得々として語り、門外漢の発言には拒否反応 、一般の人はえてして耳学問が多いという状況であった 。 漢字の数は字典には5万もあるとか、人名に使用され ている漢字は戸籍係が間違って書いたものまで含めて、 何万あるか分からないという。 文頭に句読点があるといけないという禁則処理等は、 素人をおどかす格好の道具になっている。話を聞いてみ ると、タブーのようなものであまり理屈はない。句読点 にはやたらにうるさいが、一つの熟語が改行して半分に 切れようが、一切おかまいなしである。句読点は、読者 が読みやすいように印を付けることから起こったらしい から、切れ目の後に付けるのが当然で、行の最初にはな い。書き手が句読点を付けるようになったのは新しいこ とだが、タブーとして引き継がれているのではないかと 思う。 4.3 高度の要求 関係者はいかに漢字を扱うことが難しいか、いかに苦 労して来たか強調する。文字の品質は非常に大切で、1 00×100ドット位のものでも不十分であるとか、日 本語にはルビが必要だとか、すぐに極端な議論になって しまう。日本人は漢字にうるさいから、中途半端なこと では使い物にならないという。宛名の漢字の形が違うと 郵便物の受け取りを拒否されることがあるという。しか し、日常カタカナ書きの宛名を平気で使っているのはど ういうわけか?一般の常識から考えると不可解なことが 多かった。 5.日本語文章入力の必要性 日本語情報処理を入力と処理と出力の3つに別けて考 えると、処理と出力は単なるテクノロジーの問題に帰す ることができる。日本語を処理し、出力することは、英 語より少し余分にお金がかかるかもしれないが、日本語 だけ特に大変だということはない。 しかし、入力の問題はテクノロジーでは解決しない別 の問題である。日本語は日本人から発生する情報で、そ れをコンピュータに渡さなければならない。 日本語の入力装置は高いのではなくて、良いものがな かったのである。このため、JEFを実用化することと 並行して、日本語入力の良い方法を開発することにした 。 入力という言葉はあいまいな言葉で、いろいろな意味 に使われて混乱していると感じた。本来EDPの世界で は、伝票を見てカードパンチをするのが入力である。漢 字処理の世界でも、顧客のデータベースの作成や、印刷 のために、紙に書かれた原稿をオペレータが見て入力装 置でフロッピーに落とすことを入力と言っている。 原稿をオペレータに渡して入力するにしても、原稿を 作らなければならない。その原稿を作る機械が欲しいの である。これは入力装置というよりは文章の作成装置で ある。首尾よく機械で原稿が作れるのであれば、それは すでに機械に入っている情報だから、オペレータにわざ わざ依頼する必要はないわけである。 このように、原稿が作成されるときにこそ使える入力 装置が必要である。 頭の中にある文章が、すらすら出てきてそのまま原稿 になるわけではない。原稿を書きながら、原稿を考える というのが実態であり、入力装置というよりは日本語文 書作成装置が必要である。 ということで53年のシンポジウムの論文では以下の ように書いた。(文献3) 創成用の入力装置 紙とえんぴつの作業をおきかえる創成用の入力装置 ・自分が考えているアイデアを文字にして出す。 ・その文字を見ながら、また考えて文章を作る。 ・入力装置は考えを進めるのに役立ち、考えを中断した りはしない。 ・入力装置側の都合により文章を変更することも許容で きる。(漢字が無いと表現を変える等) ・かな漢字まじり文が自然に入る。 以上の条件を満たすものとして、 氈@キーボード入力かな漢字変換 かなキーボード等でかなを入れ、持っているテーブル で漢字に変換する。同音異字は多いが、熟語でとらえる なり用途を限定すれば実用性がある。日本人にとっては 、不自然なので慣れるのに問題がある。速度は原理的に 手書きより早い。  手書きタブレット入力漢字認識 オンラインでインタラクティブに手書きをした文字を 認識していく方法で、認識については、OCRより楽な 面がある。英数字ではすでに実用されている。この方法 は、日本人にとって自然な方法で誰でもすぐ使える。し かし、速度は手書きの速度により制限される。漢字も当 初は楷書しか受け付けないだろう。 。 音声入力かな漢字変換 音声で日本語を入れ、かな漢字変換をする方法である 。日本人には自然で速度も一番早いはずである。しかし 、音声はかな表記の通り発音されていない(外人のよう なタドタドしい発音になる)。また、正確にも発音され ていない。人間は意味を理解しながら聴くので発音も理 解できる。従って、技術的にも難しく開発は遅れるだろ う。 現状では氈Aキーボード入力かな漢字変換が最有力であ る。 6.種々の日本語入力の方法について 和文タイプライタを自分で使ってみたが、文章の創成 用には使えないことがわかった。その理由としては、日 本語の漢字の表記は、表音ではなく言葉の単位で漢字が 対応しているので、言葉からそれを構成する漢字を一文 字ずつ離散的に入力するのは、使用者にかなりの負担を 必要とすることが原因らしく思えた。 和文タイプライタには漢字が沢山並んでいて、覚える のが大変だから一般の人は使わないように思いがちだが 、実は創成用には使えないというのが本質である。文章 作成に使えるなら、漢字が書けなくても、場所を覚えれ ばよいのだから楽だし、結構便利に使えそうである。 カナ2文字で入力する方法は、入力のプロが使う方法 として開発されているから、最初から検討しなかった。 手書きタブレットも良いように思ったが、実際に検討 してみると問題が多い。漢字の種類がどうしても限定さ れる。認識が完全でない以上、別の手段で入力する必要 がある。キーボードの訓練を必要としない一般の人が直 接使えるというメリットがあるが、実際にどういうアプ リケーションで使えば効果が上がるかはっきりしない。 音声認識も実際にうまくいけば結構なことである。し かし、文章の入力に使えそうなものが、直ぐできる見込 みはない。 日本人はキーボードにかなりの違和感を持つので、音 声認識に期待する声が大きいように感ずる。よく「アメ リカ人はキーボードに慣れているが、日本人は慣れてい ないから」という意見を耳にする。 しかし、アメリカ人がキーボードに慣れたのは、タイ プライタが発明されてからでも100年しかたっていな いので、数十年のことにすぎない。現在のタイプライタ のキーボードが非常に良くできているので、英語の文章 は、タイプライタが非常にうまく使えるというだけのこ とである。 日本人でも、本当に良いキーボードができれば、簡単 に慣れて、使うようになるだろうと思った。 本当にそのキーボードを使って、メリットがあれば訓 練することは、さして問題ではない。自動車の運転でも 免許をとるまでが大変なのは、承知の通りである。 7.オアシスの開発の経緯 日本語入力装置としてかな漢字変換方式を開発する場 合にも、変換することよりも文章を作ることに着目して 開発した。 かな漢字変換そのものの研究は、昭和30年代から、 原稿を見てかなを紙テープにパンチして、バッチ処理で コンピュータに持っている辞書で、正しいかな漢字混じ り文を自動的に再現することはできないかということか ら始まった。しかし、研究は壁につきあたり、正しく変 換することはコンピュータの能力が少しくらい向上して も、かなり困難であるということがはっきりしてしまっ ていた。 我々は変換に重点を置かず、うまく文章を作りながら 入力できるものという目標で装置を開発した。ちょうど 紙の上に鉛筆で文章を考えながら、書いてゆくのに一番 近い形にしようと思った。だから、バッチ処理ではなく 、かなを入力して変換すると瞬時に漢字に変換されるよ うにした。同音異義語は一度選択すると次にはそれが最 初にでるようにしたので、対話式の良さが生かせるよう になった。 人間の言葉は確率事象ではなく、人間の明確な意図に 基づいて、発せられるものである。したがって、同音異 義語の選択に言葉の出現頻度の情報を重視しても、全然 うまくゆかない。それよりは、一度選ぶとそのつぎには それが最初にでてくる論理のほうが、はるかに変換率が 高い。従来の研究はバッチ式であるために、このような 処理ができないが、オアシスでは対話式にしたので可能 になった。 かなのキーボードも大きな課題であった。英文のキー ボードは、非常に良くできていることが分かった反面、 かなはアルファベットより文字数が多いのでJISキー ボードは日本語の文章入力としては適切ではないと思っ た。JISキーボードではほとんどブラインドタッチが 行われていないのが現状である。ブラインドタッチが出 来ないのでは、文章の作成用には使えないと思った。 そこで、試行錯誤のすえ、親指シフトキーボードを考 案した。これは英文キーボードの良さを拡張したもので 、思いつきと言われればその通りであるが、実際に使用 してみると非常に使いやすいことがわかった。 54年正月には、ミニコンで作った試作システムが動 き、全員で使った。このシステムは、54年のビジネス ショウとデータショウに参考出品したし、1年半も実際 に使った。私もキーボードにはすぐになれて、実際に使 って見せると、見た人はなるほどずいぶん早いなと感心 するようになった。 使ってみると、便利なものであることが実感として良 く分かり、コンパクトで安いものを作れば、日本人は誰 でも使うようになると自信を持った。そこで、商品設計 をしてOASYS100を55年5月に発表した。 OASYS100は最初から、専門家ではなくて一般 の人に使って欲しかったので、最初のビジネスショウの ときから、展示場には装置を沢山出品して、来場者に実 際に操作してもらうようにした。 日本人はキーボードは違和感があり、かな漢字変換方 式は取っ付きにくい点が多いが、実際に使った人は、着 実にOASYS100のファンになってゆき、順調にビ ジネスを拡大することができた。 文章の入力速度は普通の人で、50〜60文字/分く らいはできる。これは手書きの2倍くらいで、実用上十 分である。また、速記の反訳に使用しているプロは、大 体150〜180文字/分にも達する。 OASYS100に次いで、56年8月には小型のO ASYS100Jを発表した。 56年6月からは宿願が叶いそれまで共用で使ってい たのを、自分用専用にOASYS100Jを持てるよう になった。昔最初に自家用車を購入したときのような嬉 しい気分であった。この機械は会社の机の横において、 づっと自分専用に使っている。自分専用で持つか、共通 で持つかでは使い方が全然違ってくるというのが実感と して分かった。ステレオや自家用車なら当然のことだが 、使いたいときに使えるというのはこれほど楽しいこと はないのである。 文章は全部これで作るようになった。業務日誌も、ノ ートではなくてフロッピーに入っている。もちろん、こ の原稿も愛用の機械で作成しているところである。 57年5月には75万円のパーソナル版マイ・オアシ スを発売した。マイ・オアシスもOASYS100と同 じ入力方式で文章作成機能の部分を中心に小さくまとめ たものである。 社内では、現在300台くらいのオアシスが設置され て利用されている。大抵は専任の人が使うのではなくて 、周囲の沢山の人が使っている。用途はいわゆる総務関 係の資料、営業の資料作成、技術の資料作成などあらゆ る資料の作成に使われており、機械が足りなくて困って いるのが現状である。 これは使ってみないと分からないことだが、使うこと が実に楽しいのである。そのため、オアシスなら残業し てでも使いたいというふうになっている。 ソフトウェアの資料には好都合で、社内のソフトウェ ア部隊がオアシスで資料を管理する割合が急激に増えて きた。これはソフトウェアの生産性の向上につながるも ので、最初のもくろみ通りになってきている。 8.まとめ 日本でコンピュータを利用してゆくには、日本語情報 処理や日本語入力が必要なことは論をまたない。しかし 、具体的に進めるにあたっては、コンピュータの技術者 は種々のハンディを持っていることが分かった。これを 乗り越えて開発を促進するためにどうするかが、緊急課 題であると感じる。     (以上)           参考文献 〔1〕神田:「日本におけるソフトウェア」,電子通信 学会誌,昭和53年9月号 〔2〕窪田:「漢字入出力装置の導入プロセスと評価」, 事務管理,昭和52年6月号 〔3〕神田:「日本語情報処理の方向」,情報処理学会 日本語情報処理シンポジウム,昭和53年7月