研究テーマ

情報検索、自然言語処理、電子図書館

(1) ユーザ適応型情報検索、推薦システム

Webページ
Web検索エンジンは、WWW上の情報を検索するための有用な手段である。 しかし、同じ検索語が異なるユーザによって入力されたとしても、 どのユーザが検索語を入力したかに関わらず、同じ結果を提示する という問題点がある。一般に、各ユーザは自分の検索語に対して、 異なる検索要求を持つと考えられる。そこで、各ユーザの検索要求に 応じて、検索結果を適応させるための手法について研究している。



学術論文
また、世の中で新たに生成される知識のほとんんどは、電子的な媒体で取得され、 電子図書館システムにおいて格納されるのが一般的になっている。しかし、こうした 傾向は情報洪水の原因となり、ユーザは、検索語に一致するが、自分の情報要求に ほとんど適合しない出版物の数に圧倒されることになる。そこで、 研究者の情報要求に適合する学術論文を推薦するための手法について 研究している。



携帯アプリ
ユーザは、アプリ・ストアを通じて、非常に数多くの携帯アプリにアクセスすることができる。さらに、 新たな携帯アプリは、日々公認され、公開されているので、アプリ・ストアで選ぶことのできる数は、 急速に増え続けている。この増加によって、ユーザは無数のユニークで、有用なアプリの提供を 受けることができる一方、自分の興味に適合するアプリを見つけることが、ますます難しく なっている。この問題を解決するために、アプリ・ストアにおける正式なユーザの評価に 先行するツイッターの情報、ならびに、アプリに特有なバージョン情報を用いた携帯アプリの 推薦システムについて研究している。本研究課題では、グラフに基いた手法を用いて、意外性のある アプリを推薦するシステムについても研究している。


[主な発表文献]
Webページ
学術論文
携帯アプリ

(2) 文書の特徴付け手法

ベクトル空間法に基づいた情報検索システムや文書の分類・クラスタリングなどの 研究においては、しばしばTF-IDF法によって文書が特徴付けられる。しかし、 TF-IDF法は、その文書を特徴付ける単語に必ずしも高いスコアが割り当てられる とは限らない。また、Webページのようなハイパーリンク構造を有する文書に 対しては、対象ページの内容だけではなく、その隣接ページの内容を用いて 特徴付けをするべきであると考えられる。そこで、
(a) 単語の頻度情報とともに、それ以外の文書内における単語の情報を用いて文書を特徴付けるための手法、
(b) ハイパーリンクで結ばれた隣接ページの内容を利用することで、 Webページ向けにTF-IDF法を改良するための手法、
について研究している。


[主な発表文献]

(3) Web検索結果における人名の曖昧性解消

Web検索エンジンで人物を検索した場合、その検索結果には同姓同名人物に 関するWebページが含まれる。例えば、``William Cohen''という人名で検索した 場合、この名前を有する情報科学の教授、政治家、外科医などの人物が検索結果中に 混在している。この問題に対し、各人物の実体ごとに検索結果を精度良く クラスタリングするための手法について研究している。

[主な発表文献]

(4) 日本語コーパスにおける語義の曖昧性解消

単語の用例をクラスタリングする場合,(a) 教師用例として, 語義タグ付きの単語の用例を使用することができる, (b) 語義タグ付きの用例の周りに集められた単語の用例は同じ意味を 持ち得るので,その集められた単語の用例から計算される素性を利用すれば, 教師有り語義曖昧性解消の精度を高められると期待される, という考えに基づき,語義タグ付きの用例を導入し, 半教師有りクラスタリングを適用した,教師有り語義曖昧性解消の 手法について研究している.

[主な発表文献]

(5) 生物学文献からの情報抽出

生物学などの生命科学分野においては、タンパク質同士、あるいはタンパク質と 生体分子の相互作用に関して、論文中に表現されている知識が積極的に利用されている。 しかし、多数の論文からタンパク質の相互関係を認識し、新たな知識として体系化 するには、相当な労力を必要とする。そこで、生物学の研究を支援するために、 機械学習の手法を用いて、生物学文献からタンパク質相互作用について述べている文を 同定するための方法について研究している。


[主な発表文献]