Discovery Sagaサイレントキーワード俯瞰

デーヴァナーガリー文字OCRの開発とサンスクリット文献データベースの構築

【研究領域課題番号】20K20692 (KAKENデータベースで見る）

【研究キーワード】

サンスクリット / OCR / デーヴァナーガリー / 光学文字認識 / データベース

【研究成果の概要】

本研究プロジェクトでは、AIエンジンによるデータ分析の材料となるデーヴァナーガリー文字の「字形データセット（教師データ）」作成を中心に行った。2021年7月には一度目のAI-OCRを生成して認識精度を検証した。その後もデータの追加とチューニングを繰り返し、最終的には1604文字種、48770文字数からなる字形データセットを完成した。このデータセットをもとに二度目のAI-OCRを生成し、サンプル文書を読み取って認識精度を検証した。この検証では、総文字数2434文字のところ96.14%（認識結果が正解文字のみの場合）、98.48%（認識結果の候補に正解文字が含まれる場合）という結果が得られた。

【研究の社会的意義】

本研究によって開発されたデーヴァナーガリー文字ＯＣＲは、第一の目的としてサンスクリット語文献（版本）をテキストデータ化するためのものであるが、その延長線上に開けた可能性として、インド国内外に大量に保存されているサンスクリット語写本資料をテキストデータ化への応用も視野に入れている。かつてマイクロフィルムに残されたものが、最近ではデジタル撮影・デジタルスキャンによって電子アーカイブ化が進められている。今後はこうした写本資料のテキストデータ化、さらには構造化が必要となってくるだろう。今回のＯＣＲ共同開発プロジェクトは、こうした研究の進展を見越したものである。

【研究代表者】

加藤隆宏東京大学大学院人文社会系研究科(文学部) 准教授 (Kakenデータベース)

【研究種目】挑戦的研究(萌芽)

【研究期間】2020-07-30 - 2022-03-31

【配分額】6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円)