2012年6月5日火曜日

Perl - CPANモジュール "HTML::ExtractContent" サンプルコード


HTMLの内容を判断しコンテンツの本文らしき部分を抜きせるモジュール


サンプルコード 


#!/usr/bin/env perl

use strict;
use warnings;
use utf8;
use feature qw/say/;
use Encode qw/encode/;
use HTML::ExtractContent;
use LWP::UserAgent;

my $url = 'http://kentayx.neofig.com/2012/05/blog-post_17.html';

my $agent = LWP::UserAgent->new;
my $res = $agent->get($url);

my $extractor = HTML::ExtractContent->new;
$extractor->extract($res->decoded_content);
say encode( 'utf-8', $extractor->as_text );


実行結果


$ perl html_extractcontent.pl
チューブで人気上昇 あぶみ柚子こしょう / 西日本新聞
農家の女性グループが作ったチューブ入りの「あぶみ柚子こしょう」が、みやこ町犀川生立(おいたつ)の農林産物直売所「よってこ四季犀館(しきさいかん)」で販売され、好評だ。従来の瓶入りの商品よりも中身が乾燥しにくく、使い切りやすいという。
中身が乾燥しにくいというのはいいですね。お店のホームページを見てみると「 粉末タイプ柚子こしょう」というのもあるようです。 
よってこ四季犀館 よってこ みやこ町 | 農産物直売所「よってこ四季犀館」

0 件のコメント:

コメントを投稿