Title :Webページ内の目的部分の自動抽出(情報抽出・翻訳知識獲得)
Title alternative :Automatic extracion of target parts from a web page
Authors :新納, 浩幸 / 佐々木, 稔
Authors alternative :SHINNOU, Hiroyuki / SASAKI, Minoru
Issue Date :15-Jul-2004
Abstract :本論文ではWebページから目的部分のテキストを自動抽出する手法を提案する.本論文で扱うタスクは,Webニュースのページからそのニュース記事のタイトルと本文を抽出するというタスクである.本手法ではまずテキストブラウザを利用して,Webページをテキスト化する.このテキストファイルをもとに抽出規則の学習を行なう.具体的には行を事例としたSTART/END法とクラス間の出現順序や位置情報などの制約を取り入れた状態遷移図を利用する.本手法はWrapper学習の一種であるが,従来までのWrapper学習とは異なり,HTMLのタグを抽出手がかりとして使わない.そのためにサイトの異なるページに対しても適用できる抽出規則を学習することが期待できる.実験では訓練データの元になったサイトから取り出したページと別サイトから取り出したページを使って抽出実験を行なった.単純なレイアウトのページであれば,高精度に抽出できたが,複雑なレイアウトのページでは抽出に失敗していた.また本手法は様々な応用が可能である.ここでは対訳コーパスの自動構築に応用できることを示した.今後は自然言語の情報を素性に組み入れる.本タスクに関しては,タイトルの判定の精度を高めて改善を行なう.
This paper proposes a new method to extract target parts from a web page. Our task is to extract the title and the article from a web news page. First, our method translates the HTML formatted web page into the plain text file, and then learns the extraction rule by using such plain text files. In concrete, we use the START/END method using a line as an instance and the state transition diagram incorporating constrains of the class sequence, the distance between classes and so on. Our method is a Wrapper learning method. However, our method does not use HTML tags as clues for extraction, unlike traditional Wrapper learning methods. Therefore, our method might be expected to learn the extraction rule which can be applied to other various site pages. We conducted experiments using other pages on the same site and pages on the other site. The extraction rule learned by our method worked well for pages with the conducted the experiment constructing a bilingual corpus automatically, to introduce the wide usefulness of our method. In future, we will use the language information as the features, and improve the judgment of the title part for this task.
Type Local :テクニカル・レポート
Publisher :情報処理学会
URI :http://hdl.handle.net/10109/1786
Citation :情報処理学会研究報告. 自然言語処理研究会報告 Vol.2004 no.73 p.33 -40
