特許、論文データベースを統合した検索環境および動向分析ツールの構築

プロジェクトの目的
背景
プロジェクトの概要
関連文献

プロジェクトの目的

本プロジェクトでは，特許や論文等の技術文献から自然言語処理技術を用いて様々な知識を抽出・体系化し，これらをジャンル横断検索，技術動向マイニング等に応用する研究に取り組んでいます．

背景

大学における特許検索

大学研究者のこれまでの業績は，著書や論文数によって評価されるのが一般的でしたが，これに加え，近年ではどれだけ特許を出願しているかも，業績のひとつとして重視されるようになってきています．これに伴い，大学の研究者自身が自分の研究と関連のある特許を検索するという機会が増えつつあります．

しかしながら，特許検索の場合，自分の知っている専門用語をいくつか入力して検索しても，目的の特許が得られない場合が少なくありません．なぜならば，一般的に特許は権利の範囲をなるべく広く確保するために，可能な限り一般性の高い用語を使って記述されるためです．また，使用する用語は可能な限り統一する，という慣習が特許では徹底されていないため，ある用語の同義語が大量に存在する，といったことも珍しくありません．

このため，例えば「ワードプロセッサ」に関する特許を検索するには，以下のような検索式が必要になります．

ワードプロセッサ or 文書編集装置 or 文章編集装置 or 文書作成支援装置 or 文章作成支援装置 or 文書作成装置 or 文章作成装置...

さらに，上述のとおり，特許は一般性の高い用語で記述されるため，キーワード検索では関係のない特許が大量に検索結果に含まれてしまう可能性があります．そこで，特許検索の専門家は、キーワードとIPC，FI，Fタームといった特許固有の分類記号を組み合わせて検索します．しかし，このような検索方式は特許に馴染みのない人には敷居が高いため，より簡単で効率的な特許検索方法が必要とされています．

企業における論文検索

企業において，ある製品を作る過程で，どうしても同業他社がすでに特許出願している技術を使わなければ実現できない，といった場合，他社の特許の権利を無効化もしくは範囲を狭めることのできる論文が特許出願以前に発表されていないか調査する場合があります．この場合，特許検索の専門家にとって検索しやすい論文検索システムが必要とされています．

プロジェクトの概要

本プロジェクトでは3つの研究課題に取り組んでいます．

技術文献からの知識抽出および体系化
特許と論文データベースの統合
技術動向の分析

技術文献からの知識抽出および体系化

シソーラスの自動構築および情報検索への応用

一般に，「A等のB」という表現があった場合，Bの下位語がAであると考えられます．例えば，以下はある公開特許公報中の一文です．

「フロッピーディスクやハードディスク等の磁気ディスクでは、大容量化の要望に応えて高密度記録化が進められている。」

この文から「フロッピーディスク」と「ハードディスク」は「磁気ディスク」の下位語である，という知識が得られます．このような知識を公開特許公報から網羅的に集めることにより，180万語のシソーラスを自動的に構築しています．[難波2007]

この他，「フロッピーディスク（FD）」といった表現から，ある用語とその略語を抽出したり，特許間の引用関係を用いて同義語を自動的に収集する研究も行っています．さらに，これらの知識を用いることで特許の検索精度が向上することも確認しています．[Nanba2007]

入出力に基づいた専門用語の分類

「何を処理するのか」，「システムの入出力は何か」という観点から用語を自動分類する手法を開発しています．専門用語の中には，用語の直後に「する。」を加えることで動詞になるものがあります．例えば，「形態素解析」や「機械翻訳」といった用語に「する。」を加えると「形態素解析する。」や「機械翻訳する。」という表現が得られます．このような表現は，特許や論文中に実際に存在します．こうした用語の多くは，何らかの入力があり，それを処理して新たなものを出力する用語であると考えられます．

ここで，このような文は｢AをBにCする。｣という文構造になっている場合が少なくありません．この時，ヲ格(A)とニ格(B)を抽出すれば，それがCの入力と出力になっていると考えられます．例えば，Cが｢機械翻訳｣の場合，ヲ格から「日本語文」や「文書」や「文字列」などが，ニ格から｢英語｣などが抽出できます．同様に，「形態素解析する。」の場合，ヲ格から「日本語文書」などが抽出できます．そこで，用語ごとに入出力情報を抽出しそれらを比較することで，入出力が似た用語同士をグルーピングすることが可能になります．(特願2007-053771，[近藤2007])

特許と論文データベースの統合

「特許」と「論文」といったジャンルの異なる文書を効率的に検索するためのシステム構築を行っています．具体的には以下の課題に取り組んでいます．

特許中の引用文献の自動抽出
論文用語の特許用語への自動変換(例えば「DRAM」を「半導体記憶装置」に変換)

特許中の引用文献の自動抽出

特許中の「従来の技術」の項目を解析し，引用特許および引用論文を自動抽出する技術を開発しています．([安善2005] [安善2006] [小栗2007])

(クリックで画像を拡大)

ユーザは2種類の方法で特許と論文を検索することができます．ひとつはキーワード検索で，もうひとつは特許，論文間の引用関係を用いた検索です．ユーザは，まずキーワード検索を行います．図はキーワード検索の画面です．ユーザは図の検索フォームに，論文の場合はタイトル中の語や著者名などを，特許の場合は発明の名称に含まれる語や発明者や出願人などを入力し，「検索」ボタンを押すと関連する特許や論文が一覧表示されます．なお，この図は特許と論文を同時検索する場合のインタフェースですが，特許のみあるいは論文のみを検索することも可能です．その場合，図の「論文検索に変更」あるいは「特許検索に変更」というボタンを押すことで，検索条件の入力フォームが論文検索用または特許検索用のものに変わります．

(クリックで画像を拡大)

図は「要約」というキーワードで論文検索を行った場合の例です．検索結果の中でユーザが入力したキーワード(この場合「要約」)は赤字で強調表示されます．検索結果の一覧表示画面では、文献ごとに書誌情報と共にチェックボックスが表示されます．ユーザが興味のある複数の文献にチェックし，「チェックした文献をグラフ表示」というボタンを押すと，チェックした文献およびこれらの文献と引用関係にある特許や論文が，以下の図に示すようなグラフとして表示されます．

(クリックで画像を拡大)

図において，■は特許を，●は論文を示しています．さらに，「論説根拠型」，「問題点指摘型」，「その他」で表されます．技術文献間の引用関係の種類［6］が矢印の色の違いにより表示されます．なお，グラフ中の■や●の座標は縦軸は著作年であり横軸はランダムな数値を割り当てています．この図では引用関係を示すだけではなく，■や●をクリックすることにより，著者名，表題等の特許や論文の詳細情報を表示することができます．このように，あるトピックに関連する複数の特許や論文をグラフとして提示することで，そのトピックに関する研究や技術動向の直感的・視覚的な理解が可能という利点があります．

論文用語の特許用語への自動変換

この技術は，例えば「DRAM」を「半導体記憶装置」に自動変換することで，より簡単で効率的なジャンル横断検索を実現するというものです．(特開2007-4240，特願2006-065052，[釜屋2006] [釜屋2007])

(クリックで画像を拡大)

技術動向の分析

テキストマイニング技術を用いて科学技術の進展と動向を視覚的に見ることができるシステムを開発しています．(特願2006-225145，特願2007-053771，[難波2006] [近藤2007])

(クリックで画像を拡大)

図は技術動向分析システムの動作例です．「形態素解析」という用語をシステムに入力した時の解析結果を示しています．図において，左端に「形態素解析」の要素技術名が列挙してあり，その用語が論文表題中で使われた年が各技術の右側に示してあります．例えば図3の「コスト最小法」の場合，この用語を論文表題に含んだ形態素解析に関する論文が1987年に1件，1993年に2件発表されています．これらは図中で「●」として表示されており，その間が直線で結ばれています．ユーザが●上にカーソルを重ねると，その論文の書誌情報がポップアップ表示されます．図では「コスト最小法」(一番右端の●)にカーソルを重ねた時のポップアップ表示として「小松, コスト最小法に基づく逐次確定型・形態素解析，1993」が例示されています．

(クリックで画像を拡大)

図において要素技術として提示されている用語をユーザがクリックすると，その要素技術が他にどのような分野で利用されているのかが一覧表示されます。図は前の図中の“hmm”(隠れマルコフモデル)をクリックした結果を示しています．この図からわかるとおり，1988年には“speech recognition”(音声認識)の分野で，また2001年には“summarization”(要約)の分野でそれぞれ利用されていることがわかります．

研究助成

科学研究費補助金(若手研究(B))(2010-2012) (3,000,000円): 難波英嗣「同義語抽出手法を利用した論文用語の特許用語への自動変換および情報検索への応用」
受託研究費(日本マイクロシステムズ株式会社)(2008) (1,000,000円): 難波英嗣，竹澤寿幸「テキストマイニング要素技術の研究・開発」
科学研究費補助金(若手研究(B))(2007-2009) (3,200,000円): 難波英嗣「連接語に着目した専門用語の体系化および技術動向分析への応用」
新エネルギー･産業技術総合開発機構(NEDO) 産業技術研究助成事業 (2004-2006) (27,300,000円): 難波英嗣, 奥村学, 高村大也「特許、論文データベースを統合した検索環境および動向分析ツールの構築」

特許、論文データベースを統合した検索環境および動向分析ツールの構築

プロジェクトの目的

背景

大学における特許検索

企業における論文検索

プロジェクトの概要

技術文献からの知識抽出および体系化

シソーラスの自動構築および情報検索への応用

入出力に基づいた専門用語の分類

特許と論文データベースの統合

特許中の引用文献の自動抽出

論文用語の特許用語への自動変換

技術動向の分析

関連文献

論文

特許

国内出願

国際出願

その他

研究助成