第73回研究会
出典: SigDD
目次 |
第73回デジタルドキュメント研究会・概要
主査:今村誠(三菱電機)
幹事:中挾知延子(東洋大学)、斎藤伸雄(凸版印刷)、細見格(NEC)、天笠俊之(筑波大学)
日時:平成21年9月25日(金)11:00 - 17:15
テーマ
「文書情報の構造化とその活用,および一般」
IT技術の発展とコモディティ化により,組織や個人が扱う情報資源の量は爆発的に増加しています.ディジタルドキュメント分野においても,増加するドキュメント資源の管理,運用とその有効利用が望まれています.本研究会では,文書情報の構造化をキーワードに,
- ・構造化文書データモデル
- ・文書の構造化・部品化による文書作成・管理・配信への応用
- ・構造化文書データベース
- ・マルチメディア構造化文書処理
- ・Web文書からの情報抽出・知識発見
に関連した研究発表を行います.また,専門家による招待講演,パネリスト数 名によるパネル討論を行い,文書情報の構造化とその活用の今後の展望につい て議論します.
※発表者の方が当日使用されたパワーポイント等を研究会報告として研究会のホームページにてPDFで後日公開させていただくことを予定しております.趣意にご了承いただける方はよろしくお願い申し上げます.
※今年度から研究発表会はペーパレスとなります。公知日も開催日の1週間前(9月18日(金))となりますのでご注意ください。
プログラム
議題: 文書情報の構造化とその活用,および一般
一般講演(発表20分+質疑応答10分)
■9月25日(金)午前「Webサービスとコンテンツライフサイクル」(11:00-12:00)
(1) Web APIマッシュアップのためのE4Xサービス
- ○杉本正勝(東京情報大学)
(2) デジタルコンテンツのライフサイクル管理
- ○園田俊浩,竹林知善,井谷茂寛(株式会社富士通研究所)
-- 昼食(90分) --
■9月25日(金)午後「情報抽出」(13:30-14:30)
(3) テキスト圧縮を用いた言語に依存しないテキストアート抽出法
- ○林和幸,鈴木徹也(芝浦工業大学)
- 我々はテキストデータ中のテキストアートを抽出する方法を提案してきた。その手法は機械学習によって得られる決定木を用いており、テキストの言語に依存せずテキストアートの抽出を行うことが出来る。本研究では、その機械学習に用いる属性として、テキストのデータ圧縮率に注目する。どのようなデータ圧縮アルゴリズムによる圧縮率が、テキストアートの抽出に適しているかを実験により確認する。
(4) Webページを対象としたXMLデータ抽出手法の検討
- ○天笠俊之,ゴー シー ヴィエト フー,北川博之(筑波大学)
- Webコンテンツなどの非構造情報からレコード情報を抽出する手法として情報抽出手法が注目され,この数年活発に研究されている.しかし,既存の手法は単純な構造を持つレコード情報に特化しており,XMLのような複雑な構造を有するレコードを抽出するには,いくつかのクリアすべき技術課題が存在する.本稿では,WebコンテンツからXMLデータを抽出するための技術課題について議論するとともに,提案するXMLデータの抽出手法について述べる.
-- 休憩(15分) --
■9月25日(金)午後「招待講演」(14:45-16:00)
(5) 招待講演
- タイトル
- HTML 5の過去、現在、未来
- 概要
- 現在、マークアップ言語に関する技術で最も注目を集めているものはHTML 5であろう。しかしHTML 5は、その名前とは反して、単なるHTML 4/XHTMLの後継となるマークアップ言語ではなく、CSSやDOM、各種APIを含むWeb技術の集大成と位置づけられる。本講演では、XHTMLからHTML 5へ至った経緯、HTML 5の現状と今後について、主にマークアップ言語の視点から述べる。
-- 休憩(15分) --
■9月25日(金)午後「情報推薦と検索インタフェース」(16:15-17:15)
(6) オノマトペロリ:オノマトペを利用した料理レシピ推薦システム
- ○カンウィパー ラートサムルアイパン,渡辺知恵美(お茶の水女子大学),中村聡史(京都大学)
- 日本では料理や味覚を擬音語、擬態語を表すオノマトペを用いて「ふわふわケーキ」のように表現することが多い。そこで本研究では、オノマトペを利用した料理レシピ推薦システムの開発をしている。具体的にはWeb上の料理掲載ページよりレシピを収集し、レシピ内の文章を解析する。それにより、オノマトペと固有名詞(料理名、食材など)、形容詞、一般名詞、動詞の関連性を数字化する。これらの関連より、レシピに含まれる語からオノマトペとの関連度を算出することで、キーワードサーチと比べて精度の高いレシピ検索システムを目指す。
(7) 異種XMLデータに対するファセット探索手法の提案
- ○駒水孝裕,天笠俊之,北川博之(筑波大学)
- 近年の情報爆発に伴い増加したデータを保存する形式として,XML(Extansible Markup Language) が普及している.本稿では,XMLデータに対するファセットナビゲーションの適用の定式化をし,さらにその応用として,多種多様なXMLデータ群に対するファセットナビゲーションにも対応できるように定式化された手法を改良する.
問合せ先
デジタルドキュメント研究会
〒305-8573 つくば市天王台1-1-1
筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻
E-Mail: amagasa [AT] cs.tsukuba.ac.jp