【機能一覧】
1.複数Webページの情報を一括取得 |
2.シナリオ実行 |
URLが異なる以下のようなページの一括取得が可能。
http://www.aaa.com/A.html、http://www.bbb.org/B.html.... |
Aページにリクエスト後、リンクをクリックしてA2ページへ遷移し、情報取得を実施する等が可能。
|
3.特定リクエストの順次実行及び
|
4.特定リクエストのパラレル実行及び
|
以下のURLでパラメータを替えて順次実行して取得したい等の対応が可能。
その際、1リクエスト実行後にインターバル秒数も指定可能。 http://www.aaa.com/foo?id=1 |
以下のURLでパラメータを替えて順次実行して取得したい等の対応が可能。その際、1リクエスト実行後にインターバル秒数も指定可能。
http://www.aaa.com/foo?id=1 |
5.多数の保存形式に対応 |
6.処理状況のコンソール出力
|
CSV、TSV、JSON、MongoDB
その他のRDBも対応可能(要カスタマイズ) |
log4js設定ファイルにより出力レベルやメッセージ形式変更可能。
メール送信も対応可能。(要カスタマイズ) |
【注意事項】
- 当ツールはNode.jsのcheerio-httpcliを使用したものです。SPAページのJavaScript実行後のリクエスト等には対応できません。
- 要素の指定にid属性、class属性等CSSセレクターを使用しますが、idやclassが動的に変更されるページはスクレイピングできません。
- スクレイピングを明示的に禁止しているサイトは対応できません。
- 上記以外の保存形式が必要な場合は別途カスタマイズが必要です。(料金別途)
- 処理状況はデフォルトでコンソール及びログファイルに出力されます。メッセージ形式は以下の形式になります。変更可能です。
[YYYY-MM-DDTHH:mm:ss.mi] [DEBUG/INFO/ERROR] (hashvalue) - (メッセージ内容) - その他のカスタマイズについてもご相談承ります。(料金別途)