研究テーマ

現在進行中

これまでに取り組んだ研究

日本語文の構造解析(IBUKI)

日本語文の構造解析とは日本語の文章がどのような仕組みで構成され、どのような意味合いを持つのかを調べる事を意味します。

処理方法としては、まず文を形態素(ほぼ単語と同意)に分割し、同時に文節にまとめ上げる文節解析を行い、その後、修飾語・被修飾語の関係のような係り受けの関係の認定をする構文解析を行います。

文の構造解析は、自然言語処理の様々の応用において欠かすことの出来ない大切な処理です。例えば機械翻訳では構文解析の後、文の意味を抽出する意味解析、相手側の言語の構造への変換、文生成の処理へとつないで、翻訳作業の自動化という大きな課題の達成を目指します。

我々の研究室ではIBUKIと命名した日本語文解析システムを開発しています。

ibuki_パネル1

ibuki_パネル2

上に戻る

大規模コーパスの解析と言語分析

コーパスとは文書データの集まりのことです。近年、大規模なテキストコーパスや計算機用辞書が盛んに開発されるようになってきました。これらの大規模データを使った研究開発によって、自然言語処理技術はさらに飛躍を遂げつつあります。

我々の研究室でも新聞記事などの大規模コーパスを使って、機能語辞書のためのデータ収集、誤り解析のためのデータ収集など様々な研究を進めてきました。

現在は、ibukiBを用いて文節構造パターンや文パターンの出現頻度などを分析しており、機械翻訳への利用などに役立てています。

上に戻る

機械翻訳システム(jaw)

機械翻訳システムについてはこの40年ほどの間に、世界各地で大きなプロジェクトがいくつも行なわれてきました。完璧な翻訳システムというは難しいもので、それには程遠いとしても、それでも間違いなく進歩してきています。しかし、ほとんどの翻訳システムは英語との間の翻訳システムです。

我々はアジア各国からの留学生と協力して、日本語とアジアの諸言語との機械翻訳システムに挑戦しています。今のところ、日本語から中国語、およびスリランカの国語であるシンハラ語、およびベトナム語への翻訳システムに取り組んでいます。

アジアの諸言語も日本語と比較対照するととても興味深いものです。(言語と機械翻訳に関心のある学生・留学生の方はこのJAWプロジェクトへの参加を歓迎します!)jawは、from Japanese to Asian and World Languageから。

jaw_パネル1

jaw_パネル2

jaw_パネル3

上に戻る

日本語-手話機械翻訳(jaw/SL)

聴覚障害者のコミュニケーションの手段である手話も、日本語や中国語というのと同じく一つの言語です。日本語と手話との間の翻訳は、情報保障という点で重要な応用分野ですが、それだけでなく言語の本質を探るという点でも大変面白い研究対象のように思えます。

音声言語は本来の音声の他に文字というもう一つの表現手段を持っていて、文字によって記録・伝達をすることができます。しかし視覚言語である手話には今のところ文字表現がありません。

我々は、手話認識、手話生成を大きな目標において、そのための基礎研究として、まず手話を書き取ること、手話/手話動作を記号表現することをテーマとして、手話言語に関する研究を始めています。

今までに、手話電子化辞典中の手指動作記述文の解析を行って、それをもとに、動作の断片から検索できる手話電子化辞典検索システム、動作が類似している手話単語の検索システムを開発しました。

さらに、日本語の文から手話単語列への機械翻訳システムの開発を目指して研究を進めています。

jawSL_パネル1

上に戻る

自動点字翻訳(IBUKI-TEN)

点字は視覚障害者にとっての文字です。現在、大部分の点字出版物は多くのボランティアの努力で作成されています。点字化して欲しい文書の量は、潜在的な要求まで含めると相当のものがあると考えられます。原則的に言えば、すべての文書は点字化して欲しいわけです。現在はとてもそのようなことは出来ません。

私達は、自動点字翻訳システムIBUKI−TENを開発しました。これは私達の日本語解析システムIBUKIを応用したものです。使っている辞書がカバーしているジャンルにも依るわけですが、98%程度の翻訳精度があり、さらに校正支援機能を使って校正すれば、入力文書の6%程度を点検するだけで99%以上の精度にすることが出来ます。

このシステムは、フリーウェアとして公開しています。既に全国の多くの点訳ボランティアの間で、IBUKI-TENは活用されています。

なおこの研究は、岐阜県の情報関連拠点である財団法人ソフトピアジャパンとの共同研究として行なったものです。

ibukiTen_パネル1

ibukiTen_パネル2

上に戻る

セマンティックタイポロジーによる言語の等価変換と生成技術(CRESTプロジェクト)

このテーマは、科学技術振興事業団の研究プロジェクトの枠組みであるCREST(戦略的基礎研究推進事業)の研究領域:「高度メディア社会の生活情報技術」における研究課題の一つ「セマンティックタイポロジーによる言語の等価変換と生成技術」で、我々もその一員として参加しています。プロジェクトリーダーは、鳥取大学の池原悟教授です。(http://unicorn.ike.tottori-u.ac.jp/crest/index.html)

このプロジェクトは、文法的解析を基本とした従来の言語処理から、意味類型論に基づく言語処理へのパラダイムシフトをねらっています。意味類型に基づく意味的パターン対に基づいて、新しい機械翻訳の方式とそのための知識ベースを開発しようとするものです。

上に戻る

医療診断支援システム開発(知的クラスター創成事業)

このテーマは、文部科学省による知的クラスター創成事業の一つで、岐阜・大垣地域「ロボティック先端医療クラスター」の中のテーマです。

X線CT画像等の医療画像や超音波画像から画像認識技術を用い、また診療時の音声、画像、テキスト情報等から、マルチモーダル情報処理技術、テキストマイニング技術を用いて、医療に有用な情報を自動的に抽出し、医師の診断を支援する医用診断支援システム、医療支援システムの開発を行っています。(http://www.gifu-u.ac.jp/%7Eeng/ja/square/syo.html)

私たちの研究室では、この中で言語処理技術を医療関連文書に適用し、テキスト・マイニングの技術について研究・開発しています。

上に戻る

テキストの要約・換言

インターネットの時代になって、我々がアクセスできる文書の量は膨大になってきました。しかし、我々はそれらの全部に目をとおすことは出来ません。どれに目を通すべきか選ばなければなりません。そのために情報検索の技術は大変重要になってきています。しかし、検索されてきた文書もまた大量です。インターネットの検索システムで検索してみると実感することです。

そこで、文書の内容を自動的に要約する技術が注目されています。要約された文書を読んで、さらに詳しく元の文書を読むかどうかを判断することになります。

テキストを要約すること、あるいは別の易しい表現・標準的な表現に言い換えることは、文書検索のためという他に、外国人のために日本語を易しい言葉で言い換える、あるいは日本語を手話に置き換える際に別の同等な表現に置き換えて手話にする、テレビや映画の字幕を作る、などいろいろと広い応用をもつ技術分野です。機械翻訳でも応用できます。

しかし、要約・換言は本質的には言語理解が必要であり、なかなか難しい課題です。

我々は、このテーマに取組みはじめたばかりの段階ですが、今のところ文書中の重要と思われる文を抽出するということについて研究しています。

上に戻る

情報検索-全文検索/構造検索/類似用例検索

全文検索とは、対象とする文書集合に含まれる文字列全体を対象に検索を行う検索手法です。

構造検索とは、単語のandやorだけでなく、文の構造をもとに検索を行う検索手法です。

例えば、AやBの単語が出現するか否かでなく、『AがBをする』というAとBの構文関係をも指定して検索することが出来ます。

類似用例検索は、ある語を検索した時、その語と意味的に類似した単語についても同時に検索してしまう手法です。

我々は、TwiXと名づけた類似用例検索システムを開発しました。これは構造検索と類似検索を並行して行うもので、翻訳支援の一つとして、和英辞書に対する便利な用例検索を想定して開発したものです。

また通常の全文検索に加え係り受け共起の情報を提供する事によって、和英辞書中の欲する用例によりすばやくたどりつける事をねらった和英辞書用例検索システムも開発しました。(CD-ROM版 科学技術和英大辞典 オーム社 編, 富井 篤 原著編集, 兵藤安昭/池田尚志 電子化プロダクツ)URL:http://www.ohmsha.co.jp/data/link/4-274-02440-7/index.htm

上に戻る

解析誤り・入力誤りなどの検出/校正支援

最近のOCRは大変高精度になっていますが、それでも読み取り誤りはゼロではありません。人間のワープロ文書にも入力誤りがあり得ます。入力誤りでなくても、「てにをは」などを間違った文章はあります。また入力される文章は正しくても、解析システムが解析を誤ることはあります。これらの誤りを検出することが出来れば、校正支援その他いろいろのところで役立てることができます。我々は、このような誤り検出の研究にも取り組んでいます。

上に戻る

池田研究室(http://www.ikd.info.gifu-u.ac.jp/)