『舟を編む × 辞書出版社11社タイアップ』第二回「大辞泉 第二版」プレゼント企画に寄せ、小学館 辞書編集部より寄稿を頂きました

舟を編む


ヘリコプターが見つからない!?


昨今、辞書の市場は、紙からデジタルに主戦場を移しました。
現在、さまざまな辞典が、電子辞書・Web辞書・アプリで検索できるようになっています。

紙からデジタルへ。
その黎明期のころ、とんでもない事件が発生しました。

それは、、、

【ヘリコプター】
【へリコプター】

どうでしょう?
何かお気づきになりませんか?

実は「へ」が別の文字なのです。
1つは平仮名、もう1つは片仮名!

な~~んだ。^^;
いえいえ、デジタルでは『な~~んだ』ではすまされないのです。

『日本国語大辞典(日国)』をデジタル化する際に、OCR(=光学式文字読み取り装置)が使われました。
そうやってデジタル化されたデータで、【ヘリコプター】がヒットしないという、大事件が起こったのです。

OCRの性能は、当時でも読み取り率96%という高率でした。
しかし4%は決して小さな数値ではありません。特に『日国』にとっては、です。
『日国』の総文字数は1億文字。『大辞泉』の初版が約1,500万文字ですから、
約6.7倍の分量となります。その4%となると、400万文字!!!

変換結果と書籍を比較して、変換に失敗した「4%」は漢字や記号の類だと、
編集者は思い込みました。ここに大きな落とし穴があったのです。

後に検索システムに搭載された「日国データ」で【ヘリコプター】がヒットしない!

そりゃそうでしょう!平仮名の「へ」と、片仮名の「ヘ」は文字コードが違います。
人間の目では「ヘリコプター」であっても、機械の目では全く別の言葉になるというわけですね。

デジタルデータの恐ろしさを垣間見た事件でした。

余談ですが、平仮名と片仮名だけではありません。
有名な女子アナ

【水ト】
【水卜】

さて、どちらが正しいのでしょうか?

(o^^o)

小学館『大辞泉編集部』担当
大辞泉公式サイト https://www.daijisen.jp/
大辞泉facebook https://www.facebook.com/Daijisen/

  *  *  *  *  *  *  *
【あなたの言葉を辞書に載せよう。2016】https://kotoba.daijisen.jp/
【大辞泉が選ぶ新語大賞 あなたの新語も辞書に載せよう。】https://www.daijisen.jp/shingo/
 大辞泉クイズ【ことばの総泉挙】https://ssl.japanknowledge.jp/daijisen/


(じしょたんず海くんが、小学館・編集部様に遊びに行った時の様子)


IMG_0158.JPGIMG_3382.jpgIMG_0170.JPGIMG_0169.JPG