サイトアイコン TechWave(テックウェーブ)

Studio Ousiaの言語処理エンジン、「エンティティ・リンキング」の国際コンペティションにて大差で優勝 @maskin

Studio Ousia(神奈川県藤沢市:代表取締役 渡邉安弘 山田育矢)は、2015年5月18日から22日にかけてイタリア・フィレンチェで開催されたウェブ研究に関する世界最大の学術国際会議 International World Wide Web Conference (以下、WWW2015)が開催した「エンティティ・リンキング」に関するコンペティション「NEEL(Named Entity rEcognition and Linking) Challenge」に参加。二位に大差をつけて優勝する快挙を成し遂げた。

(写真はStudio Ousia 代表取締役CTO 山田育矢 氏)
「エンティティ・リンキング(Entity linking)」については以下の通り

「テキスト中のキーワード(固有表現)を Wikipediaなどのナレッジベースに結びつけて処理するための自然言語処理の技術です。これによって、ナレッジベース上の高品質な情報を直接用いてテキストを解析することができます。例えば、「ジョン・F・ケネディ」という言葉を抽出し、それが大統領なのか空港なのかまでを識別することができます。また、言葉同士の近さを計算し、関連の強さを数値化することで、例えば、映画の作品名から直接出演者や監督を紐付けることなどが可能になり、より直感的にキーワード同士の近さを用いた言語処理を行うことができるようになります。

従来の言語処理の処理方法に比べて、言葉の曖昧性の問題を解消し、よりノイズの少ない高品質な言語処理が可能になるため、文書分類やタグ付け、感情分析、意味解析など様々な言語処理を高い精度で実現することができます」(Studio Ousia社)

世界的に注目をあびている「エンティティ・リンキング」のコンペティションとして2013年よりスタートした「NEEL CHallenge」。世界的に著名な研究者によって毎年開催されるようになっており、2014年度は米 Microsoft Research が優勝している。今年度は企業や大学を含む 21 チームが世界中から参加したとのこと。

このコンペティションでは、文章中からエンティティを検出する性能を数値を解析精度としてスコアにしたものを評価する。Studio Ousiaが提案したシステムはスコア「80.67」を獲得し、二位のスコア(47.57)に対し、33.1 の大差をつけ優勝した。

Studio Ousiaは、「モノ」と「情報」を適切に結びつけるプラットフォームを作る研究開発を通して、情報提供基盤を作ることを目標としている企業で、当研究の成果も2015年夏に「Semantic Kernel」という名前で製品化する予定とのこと。



【関連URL】
・WWW2015
http://www.www2015.it/
・NEEL
http://www.scc.lancs.ac.uk/microposts2015/challenge/index.html
・株式会社 Studio Ousia
http://www.ousia.jp



蛇足:僕はこう思ったッス
エンティティとは、テキストの中におけるエンティティ地名・人物・組織などの実存する概念のこと。例えばWikiPediaのようなエンティティの集合体のような情報空間の中であったとしても、同じ固有名詞が冒頭で使用されている単語でも、ただしいかといよりもリンク数が多い方が優先表示されるなど誤りがある。これらテキストとエンティティの正確な結びつけ方がエンティティ・リンキングということで、米NISTや米Microsoft Research、日本の言語処理学会でもヤフー!JAPANが論文を投稿するなどの動きがある。注目すべき一つの分野。ちなみに、Studio Ousiaは、ウェブエクステンションなど多様な関連技術をリリースしてたりする(アプリ博 http://techwave.jp/archives/apphackl_linkify_studioousia.html)
モバイルバージョンを終了