ホーム > 企業情報 > ニュースルーム > ニュース > 2013年 > 視覚情報処理の仕組みを利用し、手書き文字を認識する技術を開発

視覚情報処理の仕組みを利用し、手書き文字を認識する技術を開発

約3万文字の多言語の文字認識を可能に

2013年4月12日

富士フイルムグループの富士ゼロックス株式会社(本社:東京都港区、社長:山本 忠人)は、脳神経科学の分野で解明が進んでいる視覚情報処理の仕組みをソフトウェア上で実現した文字認識技術を開発(図1)いたしました。

富士ゼロックスは、人間の脳内細胞の抑制的なはたらき注1に着目し、そのはたらきとよく一致する新たな構造注2をソフトウェアに取り入れることで、手書き文字も含め、約3万文字注3の多言語の文字認識を実現しました。この構造を取り入れた技術をソフトウェアとして実用化したのは、世界初です。

本技術は、ソフトウェア上で人間と同じように文字を学習することができます。たとえば、人間は幼いころから読み方を何度も教わっているうちに、文字を読めるようになります。これと同じように、異なる形状の文字をソフトウェアに登録し、学習させることにより、活字も手書き文字も区別なく読めるようになります。また、さまざまな国の文字を学習させることで、多言語を認識することも可能になります。

従来の技術注4では、約3,000文字しか認識できなかったものが、約3万文字を認識することが可能になり、認識文字数が約10倍に向上しています

認識できる文字数10倍、認識できる文字の例

今後は、本技術を当社のサービスに盛り込み、ビジネスコミュニケーション支援をさらに加速してまいります。

図1 人間の視覚情報処理の仕組みを利用した文字認識技術

図の上部では、脳神経科学が解明した人間の脳内の視覚情報処理の仕組みを模式的に示しています。網膜から入力された視覚情報は、大脳第1次視覚野(V1)に伝わります。V1ではさまざまな傾きを持つ線分を抽出します。次に視覚情報は十字、L字等のような形状を抽出する第2次視覚野(V2)で、さらに複雑な形状を認識します。このように人間の脳は階層的な処理を通じて線分などの単純な形状から文字や顔など複雑な形状を認識していると考えられています。

図の下部では、当社がソフトウェアで実現した、人間の視覚情報処理の仕組みを利用した文字認識技術の内容を示しています。本技術では、線分や十字等の形状を抽出する畳み込み演算部と、抽出された特徴を集約するサブサンプリング部が、V1、V2といった脳の領野に相当します。脳の階層的な処理と同じように、これらの畳み込み演算部とサブサンプリング部が階層的に接続され、文字の特徴を抽出します。最後の文字種判定部で文字を判定します。当社では、サブサンプリング部で特徴を集約する際に、方位交差抑制に相当する処理を行う構造を取り入れることにより、細かな文字の差異を区別する約3万文字の文字認識を可能としました。