アダルトサイト見つけます

KDDI研究所が有害サイト(というか成人向けサイト?)の新しい検出プログラムを開発したそうです。Webページの中から背景色や画像数などの特徴量をもとに判定するというもので、90%程度の精度で検出できるそうです。

背景色などの外形的特徴から有害サイトを高速検出、KDDI研究所が技術開発

気になるのは『有害サイト1万件・無害サイト1万件で実験した結果』とあるところ。どうやって有害サイトを1万件も集めたんでしょう(^^;。ある意味楽しい研究かも?!

この手の判定技術は複数用意して合議制でもいいと思うので、検出精度は低いものの短時間で検出できるパターンと、高精度だが時間がかかるパターンの組み合わせなどさまざまなパターンを用意するといいのではないかと思います。(最近の将棋のプログラムにはそういうのもあるようです)

KDDI研究所プレスリリース