ブログから本文抽出するためにHTML

http://d.hatena.nh.jp/dkfj/20081205/1228441267を参考に

インストール

$ perl -MCPAN -e shell

install HTML::ExtractContent  

<<

サンプル

上記参考サイトのものをそのまま流用

|perl|
use strict;
use warnings;
use HTML::ExtractContent;
use LWP::UserAgent;

my $url = shift @ARGV;  
my $ua = LWP::UserAgent->new;

$ua->agent('Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)');

my $res = $ua->get($url);

my $extractor = HTML::ExtractContent->new;  
$extractor->extract($res->decoded_content);

print $extractor->as_text,"\n";  

||<