第73回研究会

出典: SigDD

2009年8月20日 (木) 12:04時点における Ryoji.akimoto (会話 | 投稿記録) による版

目次

第73回デジタルドキュメント研究会・概要

主査:今村誠(三菱電機)

幹事:中挾知延子(東洋大学)、斎藤伸雄(凸版印刷)、細見格(NEC)、天笠俊之(筑波大学)

日時:平成21年9月25日(金)

会場:東京大学本郷キャンパス工学部2号館231号室


テーマ

「文書情報の構造化とその活用,および一般」

 IT技術の発展とコモディティ化により,組織や個人が扱う情報資源の量は爆発的に増加しています.ディジタルドキュメント分野においても,増加するドキュメント資源の管理,運用とその有効利用が望まれています.本研究会では,文書情報の構造化をキーワードに,

・構造化文書データモデル
・文書の構造化・部品化による文書作成・管理・配信への応用
・構造化文書データベース
・マルチメディア構造化文書処理
・Web文書からの情報抽出・知識発見

に関連した研究発表を行います.また,専門家による招待講演,パネリスト数 名によるパネル討論を行い,文書情報の構造化とその活用の今後の展望につい て議論します.

※発表者の方が当日使用されたパワーポイント等を研究会報告として研究会のホームページにてPDFで後日公開させていただくことを予定しております.趣意にご了承いただける方はよろしくお願い申し上げます.

※今年度から研究発表会はペーパレスとなります。公知日も開催日の1週間前(9月18日(金))となりますのでご注意ください。

ペーパーレス研究発表会の開催手順 & 良くある質問


プログラム

議題: 文書情報の構造化とその活用,および一般

一般講演(発表20分+質疑応答10分)

■9月25日(金)午前「Webサービスとコンテンツライフサイクル」(11:00-12:00)

(1) Web APIマッシュアップのためのE4Xサービス

○杉本正勝(東京情報大学)

(2) デジタルコンテンツのライフサイクル管理

○園田俊浩,竹林知善,井谷茂寛(株式会社富士通研究所)

-- 昼食(75分) --

■9月25日(金)午後「情報抽出」(13:15-14:15)

(3) テキスト圧縮を用いた言語に依存しないテキストアート抽出法

○林和幸,鈴木徹也(芝浦工業大学)
我々はテキストデータ中のテキストアートを抽出する方法を提案してきた。その手法は機械学習によって得られる決定木を用いており、テキストの言語に依存せずテキストアートの抽出を行うことが出来る。本研究では、その機械学習に用いる属性として、テキストのデータ圧縮率に注目する。どのようなデータ圧縮アルゴリズムによる圧縮率が、テキストアートの抽出に適しているかを実験により確認する。

(4) Webページを対象としたXMLデータ抽出手法の検討

○天笠俊之,ゴー シー ヴィエト フー,北川博之(筑波大学)
Webコンテンツなどの非構造情報からレコード情報を抽出する手法として情報抽出手法が注目され,この数年活発に研究されている.しかし,既存の手法は単純な構造を持つレコード情報に特化しており,XMLのような複雑な構造を有するレコードを抽出するには,いくつかのクリアすべき技術課題が存在する.本稿では,WebコンテンツからXMLデータを抽出するための技術課題について議論するとともに,提案するXMLデータの抽出手法について述べる.

-- 休憩(15分) --

■9月25日(金)午後「招待講演」(14:35-15:30)

講師:国島丈夫氏(岡山県立大学)

内容:HTML5.0に関する講演を予定(詳細は後日アナウンス)

-- 休憩(15分) --

■9月25日(金)午後「情報推薦と検索インタフェース」(15:45-17:15)

(5) オノマトペロリ:オノマトペを利用した料理レシピ推薦システム

○カンウィパー ラートサムルアイパン,渡辺知恵美(お茶の水女子大学),中村聡史(京都大学)
日本では料理や味覚を擬音語、擬態語を表すオノマトペを用いて「ふわふわケーキ」のように表現することが多い。そこで本研究では、オノマトペを利用した料理レシピ推薦システムの開発をしている。具体的にはWeb上の料理掲載ページよりレシピを収集し、レシピ内の文章を解析する。それにより、オノマトペと固有名詞(料理名、食材など)、形容詞、一般名詞、動詞の関連性を数字化する。これらの関連より、レシピに含まれる語からオノマトペとの関連度を算出することで、キーワードサーチと比べて精度の高いレシピ検索システムを目指す。

(6) 異種XMLデータに対するファセット探索手法の提案

○駒水孝裕,天笠俊之,北川博之(筑波大学)
近年の情報爆発に伴い増加したデータを保存する形式として,XML(Extansible Markup Language) が普及している.本稿では,XMLデータに対するファセットナビゲーションの適用の定式化をし,さらにその応用として,多種多様なXMLデータ群に対するファセットナビゲーションにも対応できるように定式化された手法を改良する.

(7) Wikipediaの連想ネットワークを利用した情報検索とタグ付けインタフェースの試作

○中山浩太郎(東京大学)
Wikipediaが幅広い分野に関する知識の集合として成長するに従い,知識抽出のコーパスとして解析することで,概念間の(連想)関係を抽出する研究が盛んに行われている.これらの研究によって抽出された構造化データの主なアプリケーションは情報検索の高度化であり,いくつかの先行研究でその有用性が確認されている.本研究では,Wikipediaから抽出した概念間の連想ネットワークを利用した新しいタグ付け・検索インタフェースを提案する.


問合せ先

デジタルドキュメント研究会

〒305-8573 つくば市天王台1-1-1

筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻

E-Mail: amagasa [AT] cs.tsukuba.ac.jp

個人用ツール