自然言語処理
自然言語処理とは,簡単に言うと「人間の言葉(自然言語)を理解できるコンピュータをつくる」ことを目指す研究です.
Webからの観光情報の自動抽出
2007年1月に「観光立国推進基本法」が施行され,2008年10月には国土交通省に「観光庁」が設置されるなど,日本では今,「観光」を基幹産業と位置付けた多様な取り組みが,国をはじめとして,さまざまな自治体レベルでも積極的に推進されています.観光を支援する媒体としては,ポータルサイトや旅行雑誌などの観光情報データベースが既にいくつか作成されていますが,これらは人手で構築されたものであり,作成に多大なコストを要します.そこで本研究室では,ブログなどのWeb上のテキストから自動的に観光情報を抽出することで,低コストでのデータベース生成を目指しています.
自然言語処理技術と画像認識技術を用いて旅行ブログを地図上にマッピングし、旅行者の行動を様々な観点から分析できるシステムの開発に取り組んでいます。
YouTube動画 on Leaflet
YouTubeから収集した旅行関連動画約150,000件をLeafletで地図上にマッピングしています。
VIDEO
旅行ブログの位置情報を特定し、Google Earth上にマッピングしたシステムです。
(クリックで画像を拡大)
Web上のニュースサイトから自動抽出したイベント情報を検索することができます。
(クリックで画像を拡大)
地図上の複数の旅行ブログを要約するシステムを開発しています。
VIDEO
VIDEO
※ 字幕をオンにしてください。
Iinuma, S., Nanba, H., and Takezawa, T. (2019) “Investigating the Effectiveness of Computer-produced Summaries Obtained from Multiple Travel Blog Entries” Information Technology & Tourism, Vol.21, No.1 , 83-103. [Springer]
この他,旅行経路や旅行記(旅行ブログ)など,観光情報を様々な観点から検索できるシステムを開発・公開しています。
2015〜2016年度は総務省 戦略的情報通信研究開発推進事業(SCOPE)に採択されました。研究成果をこちら で公開しています。
学術論文,特許検索・分析システムの開発
インターネット上の学術論文データを自動的に集めた論文データベース,PRESRIを作っています.このシステムは,日本語と英語の論文をウェブブラウザから検索することができます.このシステムを通じて,情報検索,情報抽出,専門用語辞書の構築,専門用語の翻訳,自動要約,テキスト情報の可視化に関する研究を行っています.また,2004年7月から2007年6月まで,新エネルギー・産業技術総合開発機構(NEDO)の産業技術研究助成事業の支援を受けて,広島市立大学自然言語処理学講座,東京工業大学奥村研究室,IRD国際特許事務所,ほか3社と共同で,PRESRIのデータと特許データベースを統合した検索環境および動向分析ツールの開発に取り組みました.このシステムでは,翻訳技術と検索技術を組み合わせ,入力されたキーワードとは異なる言語で書かれた論文や特許を検索したり,論文用語を特許用語に自動変換 (例えば「フロッピーディスク」を「ディスク状記録媒体」に変換) して,特許と論文を横断的に検索したりすることができます.
(クリックで画像を拡大) (クリックで画像を拡大)
この研究成果をまとめた論文が,2010年度情報処理学会論文誌データベース優秀論文賞を受賞致しました.
難波 英嗣,釜屋 英昭,竹澤 寿幸,奥村 学,新森 昭宏,谷川英和. (2009) “論文用語の特許用語への自動変換”『情報処理学会論文誌データベース』,Vol.2,No.1,81-92. (374KB)
難波英嗣.(2011) “2010年度論文賞の受賞論文紹介:ジャンル横断情報アクセスを目指して” 情報処理学会誌,Vol.52,No.8,1005. (191KB)
詳しくは「特許、論文データベースを統合した検索環境および動向分析ツールの構築 」をご覧下さい.
この他,以下の研究を実施しています.
国立情報学研究所主催の第7回および第8回NTCIR(情報アクセス技術のオリンピックのような国際ワークショップ)において,特許マイニングタスクを企画・実施し,国内外の多くの研究機関からこのタスクに参加していただきました.
2009年から,国立情報学研究所相澤研究室 と共同で,NII論文情報ナビゲータCiNiiを使ったテキストマイニングに関する研究に取り組んでいます.その成果のひとつとして、CiNiiを使った技術動向分析システムCiNii Mining を構築・公開しています.
2009年から,産業技術総合研究所,東京工業大学,筑波大学と共同で,特許の先行技術文献調査に関する次世代技術とその利用技術に関する研究を行なっています.
テキスト要約
長い文章をコンピュータで簡潔にまとめる,いわゆるテキスト要約という研究は,自然言語処理の中でも最も古い研究分野の一つですが,インターネットの普及とともに,電子化された文書が爆発的に増え続けている今日,たくさんの情報の中から知りたいものを素早く見つけるための技術として,世界的に注目を集めています.
そこで,複数テキスト要約システムの開発,要約結果の可視化表示,要約評価等,自動要約に関する様々な研究に取り組んでいます.2003年には,この分野では初めての日本語で読むことのできる教科書を翻訳しました.
Inderjeet Mani 『自動要約』 (奥村 学,難波 英嗣,植田 禎子訳),共立出版,2003. ISBN:4320120736
また,2005年3月にはオーム社から『知の科学 テキスト自動要約』という教科書を出版しました.興味のある方は手にとってみてください.
奥村学,難波英嗣著『知の科学 テキスト自動要約』 ,オーム社 (ISBN:4274200426)
最近の研究成果は、上述の複数旅行ブログ要約などがあります。
オントロジーの自動構築
大量のテキストデータからオントロジーを自動構築する研究を行っています。
企業との共同研究
特許公報から生成したシソーラスを用いた特許分類(株式会社アイ・アール・ディー)(2017-)
自然言語処理技術を持ち、特許公報からシソーラスを自動構築したり、このシソーラスを特許分類などに応用したりする研究に取り組んでいます。成果の一部は、同社が開発・販売するシステムの一部 で使われています。
学術文献へ国際特許分類を自動付与するプログラム開発およびサービス実装(株式会社ジー・サーチ)(2018-)
学術論文に国際特許分類(IPC)を自動付与するシステムの開発に取り組んでいます。2019年より、日本最大級の科学技術文献情報データベースJDreamIII で、IPCを用いた検索が利用可能です。
自然言語処理技術を用いた分類付与アルゴリズムおよび文章作成アルゴリズムの作成検討(株式会社ブリヂストン)(2017-2020)
深層学習を用いて日本語、英語、中国語(簡体字)で記載された特許に社内独自の分類コードを自動付与し,さらに各特許の技術的な特徴を自動的に要約する研究に取り組んでいます。
外国語ブログ等からの訪日観光情報の自動抽出法に関する研究(オリックス株式会社)(2017)
英語、中国語(簡体字、繁体字)、韓国語で記述された旅行ブログを収集し、旅行者の行動分析を行うシステムを開発しています。
特許・論文テキストマイニング分析関する研究(パナソニックIPマネジメント株式会社)(2016-2017)
深層学習を用い、特許マップを自動作成する研究に取り組んでいます。
AI技術によるWebニュースの分類、要約に関する研究(パナソニック株式会社)(2016)
投資や企業買収や技術などの報道に関連する記事を収集・分類することで、経営判断を支援するシステムを開発しています。
関連
テキスト自動要約の評価ワークショップ
TSC(Text Summarization Challenge)
特許分析に関する評価ワークショップ
NTCIR-7 特許マイニングタスク (評価用データの入手 )
NTCIR-8 特許マイニングタスク (評価用データの入手 )