uBlacklist向けのルールです。
こちらから最新版の購読が可能です。
https://raw.githubusercontent.com/ncaq/uBlacklistRule/master/uBlacklist.txt
Firefox for Androidの、 uBlock Origin で利用するためのルールはこちらです。 Firefox for Androidでしかテストしていません。 https://raw.githubusercontent.com/ncaq/uBlacklistRule/master/uBlockOrigin.txt
arosh/ublacklist-stackoverflow-translation: Stack Overflow の機械翻訳サイトの除外用フィルタ など、 すばらしい先駆者様が居ます。
ただ、 このリポジトリの対象はあくまで機械翻訳サイトのみなので、 もっと広くブロックする自前のルールを作っていました。
メンテナンスが結構大変になってきたので、 生成ツール付きで独立リポジトリとして公開することにしました。
Stack Overflowなどから機械翻訳した内容を大量生成するサイトです。
翻訳してないで単にコピーしているサイトも入ってることがあります。
特に新しい情報を生み出さないスパムサイト。 いわゆるデッドコピーです。 webプロキシなども対象です。 webプロキシを使いたい場合普通検索結果経由では行きませんよね?
5ちゃんねるなどから内容をコピーした、 機械生成の割合が高いサイトです。
一つは、 あまりにもサイト数が多いので対処しきれないためです。
もう一つは、 5chは条件付きでまとめサイトの生成を許可しているためです。 5chまとめブログ・5chまとめアプリ運営者の皆さまへ
インラインで動画を出していたりメタデータを転載しているサイトです。
他の情報源からゲームの攻略情報をコピーしていたり、 「工事中」でページを埋めたりする、 いわゆる企業型攻略サイトです。
完全な主観ですが、 主にゲームに関するネガティブなデマを多く含む情報を撒き散らすことでPVを稼ぐサイトはゲームを楽しむ上で障害になるので除外します。
要らない検索結果はガンガン排除していきます。
コピーサイトはドメインの一部分を変えるなどの方法でどんどん増えていきます。 増えるたびにリストに追加するのは面倒です。 機械増殖には機械増殖で対応します。 よってこちらもURLを自動生成します。
uBlacklistの現在のバージョンでは、 ルールに正規表現を使うことが出来ます。
これを使えば同じサイトのトップレベルドメインだけ変えたものだけを簡素に1行でブロックすることが可能です。
しかし私はあえてそれを使っていません。 その理由は複数あります。
1つめの理由は、 このサイトがブロックされているか確認したいといった時に、 単純なテキストの並びならすぐにgrepやテキストエディタの検索などで検索できますが、 正規表現はどのルールがマッチするかどうか確認するツールを作るのが必要です。 それは面倒です。
2つめの理由は、 テキストデータをそのまま作るだけなら正規表現で無駄な繰り返しを除外するのは大いに有用ですが、 Haskellプログラムでデータを生成する場合、 正規表現より書きやすく除外出来るので、 わざわざ正規表現を使う意義があまり無いためです。
Issue, Pull Requestを是非ともお待ちしております。
Issueだけ建てるのも歓迎しますし、 uBlacklistRule/Host.hs at master · ncaq/uBlacklistRule などに書き込んでくださるのも歓迎いたします。