カテゴリ

メンバー

作品#16 blogshere accumulator


blogshere accumulator
tak
http://updatenews.ddo.jp/
web上には(限らないですが)類似情報が非常に多く存在します。

それらが完全に同一の情報(テキスト情報、文字列)であれば、その特定は非常に容易ですが、実際には異なる語句、異なる言い回し、異なる表現で類似した意味を表していることが非常に多いです。



しかも、その「意味」、「情報」は、一つの分割できる単位(固体)として、明示的にここからここまででで何らかの事象を記述していると区切られてはいません。任意の「意味」、任意の「情報」が、「どこ」から「どこ」までに存在しているかは事前には不明です。




実際のBlogの文章などのような、 口語的表現、 スラング 、 新語、 文法に反する文字列、顔文字、アスキーアート、など  より汚いデータに対しても意味、情報のアラインメントを行うための技術です。
http://updatenews.ddo.jp/r/yaplog.xml

コメント

コメントを書く