2008-02-01から1ヶ月間の記事一覧

Rubyのマニュアルはひどい

Ruby のコミュニティはマニュアルを整備する気はないのかな…。 CSV::Writer - Rubyリファレンスマニュアル 日本で開発がされているのに、英語のマニュアルの方が充実しているのは何故…。 Ruby Standard Library Documentation

Web::Scraper と scrapi をインストールする

% sudo cpan install Web::Scraper % sudo gem install scrapi

scrAPI

scrAPI Cheat Sheet ruby のスクレイピングツールキット scrAPI(参考)

THE API IS STOLEN FROM SCRAPI

WEB::Scraper の Description DESCRIPTION Web::Scraper is a web scraper toolkit, inspired by Ruby's equivalent Scrapi. THIS MODULE IS IN ITS BETA QUALITY. THE API IS STOLEN FROM SCRAPI BUT MAY CHANGE IN THE FUTURE Ruby の scrAPI を探そう。 L…

Web::Scraper

やりたいことは、このモジュールだけで大半が実現できそう orz まずはドキュメントを読もう。 Web::Scraper

Shell を利用する際に気をつけるべきこと

それは find コマンド ディレクトリ名に 0x20 (空白)が入る Mac OS X 環境で find に -print0 を使わずに xargs で受け取るのはヤバい。かなり危険。一度 Apple が iTunes のアップデートスクリプトで 0x20 デリミタの想定外動作をやらかして、誤消去した…

Mac OS X でER図の作成ができる「WWW SQL DESIGNER」を利用してみる。 特徴としては、 ブラウザで利用できるので、OS に依存しない。 PHP5 と Apache があれば、ローカルで動作させられる。 作成したER図を XML などに書き出すことができる。 書き出した XML…

Perl と UTF-8 と文字コードのメモ

後で読むので、リンクを残す。 Webページの文字コードをUTF-8にする方法

複数の文字コードを利用する難しさ

Google へ検索クエリーを送り、取得した HTML を表示する。 下記の2つのスクリプトを試してみた。最初のスクリプトは、ファイルの文字コードが EUC-JP。もうひとつは、UTF-8 とした。 最初のスクリプトは、入力されるデータは UTF-8 で、出力形式は EUC-JP …

意味不明のエラー 続

意味不明なエラーを調べてみたところ、エラーの内容を正確に把握していなかった。 実行スクリプトでエラーが起こっているのではなく、モジュール内でエラーが発生している。 Use of uninitialized value in substitution iterator at /opt/local/lib/perl5/s…

意味不明なエラー

LWP を利用してクエリー文字列を投げてみる。実行後、意味不明なエラーが出力される。syntax が間違っている訳ではなさそうだし。 検索をしてみると、MT 設置時のエラーとして表示されるとのこと。全然手がかりがない。 #!/opt/local/bin/perl -w use strict…

decode と encode 関数

明示的に説明をしている資料が見つからなかったが、もしかして下記の文が正解なのか? 標準入出力,標準エラー出力以外のデータについては,Encode モジュールの encode, decode 関数を使い,個別にエンコードを指定する必要があります。これは特にファイル…

不可解なところ

use encoding 'euc-jp'; 上記は、すべての文字列を EUC-JP で利用する宣言と理解した。しかし、 $content = decode('shiftjis', $content); # コンテンツのコード変換 なぜ、Shift-JIS で取り込んだテキストデータを、Shift-JIS にデコードをして出力するの…

書いたコード

#!/opt/local/bin/perl -w use strict; use LWP::Simple; use Encode; use encoding 'eucjp'; binmode(STDERR, ':raw :encoding(eucjp)'); my $id = shift @ARGV || '074'; # 引数の取得 # 外務省海外安全ホームページ my $url = "http://www.anzen.mofa.go.…

CPAN モジュールをインストールする

自宅にあったオライリー社の「SPIDERING HACKS」を利用して、勉強の材料にする。 まずは、CPAN モジュールをインストールする。 % sudo cpan Password: cpan shell -- CPAN exploration and modules installation (v1.9205) ReadLine support enabled cpan[1…

男もすなる Perl というものを、女もしてみむとて、するなり。

Perl の文字コード変換にはまる

文字コードの変換にいきなりつまる。 問題点を確認してみるが、わからずじまい。 あとで、下記のサイトを確認する。 perl 5.8における日本語コード変換のメモ Perl 5.8でUTF-8の文字コードを扱う Encode モジュール簡単な使い方