Webページの表示結果から単語の重みを計算する

Web検索なんかでも単語の重みは重要

Webページに含まれる単語の重みを計算し重要度を算出することは一般的
例えばTF-IDF法なんかが有名。単語を抽出するために形態素解析を使ったり、N-gramを使ったりする
他にも、形態素解析構文解析係り受け解析で文章中の重要語を抜き出したりもする

で、確かにWebページを一連の文字列だと見なせばこれらの手法が適していると考えられる

ただし、Webページは一連の文字列とだけとして見なしてよいのか?

多分大多数の人たちは、Webページの文字だけを見てそのページの重要性を計っていない
文字列+レンダリングされた結果

色情報は重要だと思う

例えば、背景が白で地の文が黒で表示されているWebページを考える。このページで文字の色が赤で表現されている部分があれば、人はきっと強調しているのだと判断する。逆に、文字の色が灰色であったならば、あまり重要で無いと判断する

Webページのページレイアウトは定型化つつある。

例えば、Webページのレイアウトは上部、左部、右部、下部、中央部に分けることができる。大抵、上部はWebサイト全体のメニュー、左部右部はサブメニュー、下部は備考、中央部に対象とするコンテンツ
何を探しているかによるが、「ある文字列がどこに書かれているか」によって重要度を判断していないか?

この辺の話を単語の重みを計算する際に使えないかなぁっと

で、どういう風にするかってさ

色を使った方法は簡単そう

例えば、HTMLを解析する際にそのHTMLだけではなくCSSなんかも合わせて解析
背景や地の文、別途色を指定されている部分や文字の大きさが操作されている部分を判別
なんかの評価式を使って、特別に装飾されている部分により大きい重みを与える。みたいな

レイアウトは難しい

上と同じようにCSSやHTMLを解析するか
Webページを一旦標準的な(何をもって標準的と見なすかは難しいが)Webブラウザでレンダリングしたのと同等の画像データに落とす
画像解析を使って、一般的なWebページのレイアウトと比較
比較した結果をHTMLにフィードバック(どうやってやるんだ・・・)

例えばこれをすると

よくエロサイトなんかである、背景と同じ色でキーワードを羅列する手法は弾ける
あと、人がそのWebページを見たときと同じような評価ができればちったぁ面白くなるかも

っていうか、できたとしても処理が大変そう