情報検索システムの軽量化・高速化へテンソル分解の二値化に成功!!
研究成果のポイント
・テンソルを低ランクの二値潜在ベクトル空間へと分解する手法を発見
・これまでは実数潜在ベクトル空間への分解が一般的であったが、潜在ベクトル空間の学習時に量子化関数を導入することで分解性能を落とすことなく、二値化を実現した
・情報抽出・アイテム推薦・質問応答などの情報検索システムを軽量化・高速化することが可能になる
概要
大阪大学産業科学研究所の林克彦助教らの研究グループは、テンソル データを低ランクの二値潜在ベクトル空間 へと分解する手法を開発しました。
二値化 により、ベクトル空間の容量が単純には1/32に縮約され、検索の速度は約10倍に高速化されます。
これまでのテンソル分解(ここではCP分解 を対象)ではテンソルを低ランクの実数潜在ベクトル空間へと分解するのが一般的であり、二値潜在ベクトル空間では分解性能を著しく悪化させる危険性がありました。
今回、林助教らの研究グループは、潜在ベクトル空間の学習時に量子化関数 を導入することで分解性能を落とすことなく、二値化を実現しました。これにより、情報検索システムの軽量化・高速化が可能になります。
本研究成果は、国際会議「41st European Conference on Information Retrieval」に採録され、2019年4月15日(月)13時(中央ヨーロッパ夏時間)に発表を行いました。
図1 二値化CPテンソル分解の概念図と空間の縮約・検索速度性能
研究の背景・内容
テンソルデータを低ランクの実数潜在ベクトル空間へと分解(テンソル分解)することで、データに内在する潜在的な特徴量を抽出することができます。テンソル分解の応用先の1つとして文書検索があり、類似した文書の意味的な近さをベクトル空間の内積や距離で計量することができます。一方、ベクトル空間での検索はモデルの容量が大きく、検索効率も悪いことが知られており、この課題を解決する方法の1つとして、潜在ベクトル空間を二値化することが考えられます。しかし、二値化は元のデータを近似する際の誤差が増大するため、分解性能が著しく悪化する危険性がありました。
林助教らの研究グループでは、テンソル分解に対して、潜在ベクトル空間の学習時に量子化関数を導入することで、分解の性能を落とすことなく、潜在ベクトル空間を二値化することに成功しました。これによりベクトル空間の容量を単純には1/32に縮約でき、ベクトルの内積計算を高速化することができます。
本研究成果が社会に与える影響(本研究成果の意義)
本研究成果により、セマンティックWeb検索等の情報検索システムの軽量化・高速化につながることが期待されます。さらに、テンソル分解は画像圧縮等への応用も知られており、提案法はさらなる応用の可能性を秘めています。
特記事項
本研究成果は、2019年4月15日(月)13時(中央ヨーロッパ夏時間)〔4月15日(月)20時(日本時間)〕に情報検索に関連する国際会議「41st EuropeanConference on Information Retrieval」で発表を行いました。
タイトル:“Binarized Knowledge Graph Embeddings”
著者名:Koki Kishimoto, Katsuhiko Hayashi, Genki Akai, Masashi Shimbo and Kazunori Komatani
なお、本研究は、科学研究費補助金・基盤研究(C)の一環として行われました。
参考URL
大阪大学産業科学研究所 知識科学研究分野 駒谷研究室
http://www.ei.sanken.osaka-u.ac.jp/index.html
用語説明
- テンソル
ベクトルを2次元に拡張したものが行列であるとすると、テンソルはそれを3次元、4次元と多次元化していったデータ形式。テンソル分解とは、元のテンソルを低ランクのテンソルで近似する手法です。
- 潜在ベクトル空間
低ランクの潜在ベクトル空間:
統計学で利用される主成分分析において、生徒の5教科の成績から低ランクのベクトル空間へと射影することを考える。一般に、この低ランクのベクトル空間における各基底は理系・文系のように元のデータの潜在的な特徴を捉えることができる。実数潜在ベクトル空間では、各要素が実数、二値潜在ベクトル空間では、各要素が1か-1の二値となる。
- 量子化関数
連続的な実数値をある区間で区切られた離散値へと変換する関数
- 二値化
実数値を二値にすること。例えば、正の実数(ここでは0も含める)を全て1、負の実数を全て-1にすることである。
- CP分解
テンソル分解法の一種であり、元のテンソルをD個のランク1テンソルの線形和で近似する方法。