森井教授のインターネット講座 最新版(2003年12月15日掲載記事)



第246回 コンピューターの中の日本語(上)


解説イメージ

日本語をめぐる環境は大きく変わろうとしています。日本の場合、 外国からの侵攻が太平洋戦争直後を除いて、有史以来なかったこと もあって、比較的閉ざされた地域内の言語として緩やかな変化を遂 げてきました。交通と通信の発達によって、外国語、特に英語から の影響は、近年、無視できませんが、さらにコンピューターの出現、 特にパソコンの一般化によって、日本語を取り巻く環境は大きく変 わろうとしているのです。最近、徳島に本社を置く、日本語と言う 観点に立った知識処理の会社に変貌を遂げた「ジャストシステム」 が日本語を取り巻く環境についての調査を行い、その結果を発表し ました。  http://www.justsystem.co.jp/atok/nihongo/ 今では、年齢、職業、性別に関係なく、日常、書く文字の70%は パソコンに入力していると言う驚くべき調査結果が出ています。

書き言葉、話し言葉としての日本語のほかに、「打ち言葉」として の日本語も存在しているのです。今でこそ、日本語をパソコンで 入力することは難しくなくなりましたが、もともとコンピューター で日本語を扱わせるのは非常に困難だったのです。残念ながら、コ ンピューターの生まれも育ちも主にイギリス、アメリカであり、英 語圏で生まれ育っています。コンピューターを動かす命令やプログ ラムも、英語の文法に基づいており、英語を扱うのは得意でも、日 本語は苦手なのです。コンピューターの世界では、英語を含めて欧 米の言語を「1バイトコード」、それに対して、日本語を「2バイ トコード」であると言われます。この意味は、英語などが基本的に A,B,C,Dといったアルファベット26文字といくつかの記号で表される のに対して、日本語には漢字があり、社会生活に必須とされる当用 漢字だけでも1850字、一般には2000字以上の漢字がありま す。つまり、英語では、1バイト、すなわち8ビットあれば、2の 8乗が256であることから、アルファベットの大文字小文字、数 字、記号をすべて表すことができるのです。どの8ビットがどの文 字に対応しているのかを表すことができ、それが与えられたときに 対応する文字を印刷やディスプレイに表示するのです。日本語では、 ひらがな、カタカナ、および漢字をすべて表すためには、少なくと も12ビット必要になります。パソコンを含めてコンピューターは 英語を意識して、8ビット単位、つまりバイト単位で処理するよう になっています。日本語を扱う場合、どうしても2バイト必要にな るのです。英語を表すには、1バイトづつ独立に処理すれば良いの ですが、日本語の場合、2バイトをまとめて処理しなければならず、 その処理が複雑になるのです。もし、コンピューターが日本で生ま れ、そして日本で育ったならば、1バイトが8ビットではなく、 12ビットや13ビットであったかも知れません。そのほうが、日 本語を扱うためには非常に都合がよいのです。


前回掲載記事はこちら
次回掲載記事はこちら

森井教授のインターネット講座ホームページ