HOME    About Institutional Repository    mypage        Japanese    library    university    Feedback

茨城大学機関リポジトリ >
College of Engineering >
Conference Material >

 
Title :2連続平仮名文字列を2次情報とした文検索
Title alternative :Sentence retrieval with index of two consecutive Hiragana characters
Authors :新納, 浩幸
Authors alternative :SHINNOU, Hiroyuki
Issue Date :20-Sep-1994
Abstract :近年,用例ベースの翻訳を応用したシステムとして,対訳ベータベースから類似の用例を検索し,その対訳を提示することで,翻訳の支援を行うシステムの研究が盛んである.このようなシステムでは類似の捉え方が重要であるが,その上で類似用例の高速な検索法も必要とされている.ここでは,入力文字列を含む用例を検索するという最も基本的な利用方の上での高速な検索法を提案する.テキストデータベースから入力文字列を含む文を検索するには,一致アルゴリズムを用いて全文検索を行えばよい.また,これを高速化するためには,専用ハードウェアの作成や一致アルゴリズムの改良の他に,2次情報の作成,利用が効果的である.2次情報とはデータをあるカテゴリで分類し,それら個々の分類グループにインデックスをつけたものである.検索キーからインデックスを得ることで,検索対象範囲を絞り込み,実際の検索はその絞り込んだ部分に対してだけ行なえば良いため,検索が効率化される.従来,用例検索用の2次情報としては,文に含まれる単語あるいは文字をインデックスとしたものがあった.各単語(or文字)に対してその単語(or文字)を含む文番号の集合(2次情報)を作成しておき,それを利用して検索文字列中の単語(or文字)を含む文の集合が得られる.しかし単語の場合は,形態素解析が必要であり,2次情報の作成が困難である.また文字の場合は,比較的短い平仮名列に対して,絞り込みの効果が低い用例検索の場合,翻訳しづらい構文パターン(ex 「~すれば~するほど」),定型的な句(ex 「に関して」),文末表現(ex 「~とも思える」)などが検索の対象となることが多く,検索文字列に平仮名が多用されるた,十分に絞り込みが行なえない場合もある.本論文では上記の単独文字による2次情報と,2連続平仮名文字列による2次情報とを合わせて利用する手法を提案する.また本手法をそのまま実装すると2次情報が大きくなり過ぎる.これを避けるため,利用頻度の低い2次情報を作成しないことも試みる.
Type Local :会議発表論文
Publisher :情報処理学会
URI :http://hdl.handle.net/10109/1806
Citation :全国大会講演論文集 Vol.49 no.3 p.213 -214
Appears in Collections:Conference Material

Files in This Item:

File Description SizeFormat
20100371.pdf206KbAdobe PDFView/Open