オントロジーと深層学習の融合による生命情報推論システム
【研究キーワード】
分散表現 / オントロジー / ナレッジグラフ / 自然言語処理 / 疾患 / 薬剤 / 深層学習 / 推論 / 知識表現 / 遺伝子変異 / セマンティックウェブ
【研究成果の概要】
本研究は、専門家が作成したオントロジー(用語とそれらの関係)と、テキストから自動生成した分散表現(多次元ベクトル)を相補的に活用し、その結果を用いた新たな推論技術の開発を目的としている。これまでに、テストケースとなる分野を検討し、「がん」と「アルツハイマー」に選定した。それらの分野でのテキストデータ、オントロジーデータ、およびデータベース(主に知識を表現できるもの)を扱う。
現在、分散表現の獲得方法で注目される研究の多くは、自然言語のコーパスデータを利用して分散表現を獲得する自然言語志向の方法と、ある程度情報が整理されたグラフデータベースに登録されたEntityとrelationから分散表現を獲得する「グラフ志向」の方法に分けられる。本研究では2つを並行してすすめている。
昨年度は自然言語志向の方法としてはPubMed Central (PMC)のテキストデータの一部に対して自動獲得を行っていた。本年度は、アルツハイマーのGWASや疾患の分子機序に関するデータベースのデータを利用し、グラフ志向の方法による分散表現の構築をすすめた。Alzheimer's disease ontology (ADO)やAlzPathwayなどの複数データベースから利用できる関係を収集し、グラフにもとづく知識グラフの分散表現学習をComplEx等の方法を用いて行った。さらに、テキストからの分散表現とグラフからの分散表現の比較を行い、一部の不一致が自動修復できることが確認できた。今後は、これらの結果を複数の視点で評価する。
【研究代表者】
【研究分担者】 |
高松 邦彦 | 神戸常盤大学 | 教育学部こども教育学科 | 准教授 | (Kakenデータベース) |
|
【研究種目】基盤研究(C)
【研究期間】2018-04-01 - 2023-03-31
【配分額】4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)