WAQWAQプロジェクト2014どうしましょ?にて、以下のように愚痴ったところ、
- 定期的なプロジェクト進行状況のチェック&公開
- 1週間に一度ぐらい賛同者の方がどのくらい記事を新規作成&編集してくれたのかを調べて、その結果をまとめ公開する
- 2011年は手動でがんばったけど結構しんどかった。
- なんかプログラムかけば自動化できそうな気もする。でも、具体的なアイデアなし
こーのいけさんがスクリプトを書いてくださった。
Wikipediaの利用者ごとの投稿記録を取得し、必要な情報を切り出してExcel形式で表示してくれるスクリプト。なるほど、うまい手。ぜひ、使わせていただきたいと思う。
作っていただいたスクリプトにて現在情報として取り出されているのは以下のデータ。
- 変更日時
- 変更種別(新規、ちょっとした編集、編集、削除)
- 変更バイト数
- ページ名
- スコア(変更種別に応じて得点を累積加算している)
定期的に進捗報告を行うという観点からすると以下のことを行いたい。
- 期間中に変更種別ごとに何件の貢献があったのかを数えたい
- 期間中に誰が変更種別ごとに何件の貢献があったのかを数えたい
- 期間中の作成・編集ページを紹介したい
- 現在の当該ページ
- その執筆者が編集した当該ページの版
上記の行いたいことからすると現在のスクリプトで得られるデータや出力ファイルは少し足りない。なので、以下のようにスクリプトを変更していただけるとありがたいです。
- プロジェクト参加者全員分の投稿記録を1ファイルにまとめて欲しい
- 項目として「執筆者」という項目を作って欲しい
- 「当該ページのURL」という項目を作って欲しい
- 「当該ページの当該版のURL」という項目も作って欲しい
- 取得範囲の期間の限定をできるようにしてほしい(特に過去の投稿記録に対する制限)
- Wikipedianの人が参加してくださったときに、期間の限定ができないとスクリプトの実行時間が長くなりすぎる
- 「スコア」は累積加算でなく、各行(貢献)ごとに表示して欲しい
- 他のスクリプトで処理するケースも考えて出力ファイルの形式はCSVにしてほしい
それにしても、Pythonで提供されているライブラリを使うと、こんなに短くてもスクレイピングプログラム簡単にかけるのね。