Discovery Sagaサイレントキーワード俯瞰

本年度は過去2年間の実績の蓄積をふまえて、プレーンな形のテキストから内容情報を自動的に抽出するソフトウェアの開発に専念した。テクニカルライティングの際に教育されるさまざまなルールが、読者のスキムリーディングを可能にするために表面情報と対応つけて規定されていることを確認し、具体的にひとつの教科書を「インプリメント」することにした。具体的に、まず英語用のテクニカルライティングの規則がどの程度日本語の論文に適用されるかをマニュアルで解析した。結果として、英語でのルールは日本語の論文でも十分適用可能であることを確認した。この際に、文章中の論理展開に使われる特定のシグナルワードを抽出した。さらにLATEX中、重要な位置を占める環境のうちで、特に重要なものとして章節構造、並列構造などに対応する環境を抽出した。これらを総合してLATEXからHTMLへの内容構造を反映したトランスレータtexaを作成した。プログラムtexaは従来作成されたLATEXからHTMLへの変換プログラムの機能を包含し、さらに内容情報を抽出し、それに対応したハイパーテキストを出力することができる。ここでは文章全体に対する目次、さらに段落に対するトピックセンテンスに代表される抽象化がなされるようになっている。さらに、段落のその文章中での役割をシグナルワードから決定し、関連する段落にリンクをはることができる。これらはブラウジング用にNetScape2.0以上を利用することで出力されたハイパーテキストを効率よくブラウズすることができる
さらにこれらのプログラムの開発の結果得られた知見をまとめて報告書を作成した。

【研究分担者】
渡部善隆 (渡辺善隆)	九州大学	大型計算機センター	助手	(Kakenデータベース)
松延栄治	九州大学	大型計算機センター	助手	(Kakenデータベース)
石田慶樹	九州大学	大型計算機センター	講師	(Kakenデータベース)
天野浩文	九州大学	大型計算機センター	助教授	(Kakenデータベース)
佐藤周行	九州大学	大型計算機センター	助教授	(Kakenデータベース)
木實新一	九州大学	大型計算機センター	助手	(Kakenデータベース)
古川哲也	九州大学	大型計算機センター	助教授	(Kakenデータベース)