Хуже спама – только борьба со спамом
Народная мудрость
Что такое RBL
Сервисы RBL (Realtime Blackhole List) были первым эффективным средством борьбы со спамом. Первый такой сервис появился в 1997 году и достаточно быстро стал популярным. Все эти сервисы устроены практически одинаково – имеется список “плохих” IP-адресов, доступ к которому осуществляется в реальном времени по протоколу DNS. Использующие RBL почтовые серверы в момент приема очередного сообщения запрашивают сервис (или несколько RBL-сервисов) о том, является ли IP-адрес отправителя письма “плохим”, и, на основании ответа RBL, либо принимают, либо отвергают письмо. Большинство серверных почтовых программ в настоящее время могут работать с сервисами RBL.
Простота идеи имеет и очевидный недостаток – сообщение принимается или отвергается только на основании IP-адреса посылающей стороны (пользователя или другого почтового сервера). В результате, если какой-то почтовый сервер попал в RBL-список, то почта с этого сервера не принимается всеми почтовыми службами, использующими данный RBL. Хочется еще раз подчеркнуть – не принимается вся почта с такого IP-адреса, как спам, так и “не спам” (конечно же, возможны и более мягкие настройки на принимающей стороне, но на практике в большинстве случаев сообщение отвергается, если отправитель попал в используемый RBL-список).
В настоящее время существует множество разнообразных RBL-сервисов, отличающихся, в первую очередь, политикой их администраторов. Существуют как “экстремистские” сервисы (например, blars.org, который обещает помещать в свой черный список, в частности, за угрозы судебного преследования), так и более умеренные – с хорошо определенными правилами попадания в черный список и выхода оттуда.
RBL-сервисы в настоящее время широко используются интернет-провайдерами, почтовыми службами и организациями. Во многих случаях качество RBL оценивается по единственному параметру – количеству спама, который проходит через почтовый сервер. Если количество спама удается уменьшить, данный RBL-сервис считается “хорошим”. В то же время есть и другая, не менее важная характеристика – сколько “нормальных” писем не попало к получателям.
Проблема ложных срабатываний
Ложным срабатыванием (False Positive) принято считать тот случай, когда нормальное письмо (которое получатель не посчитал бы спамом) до получателя не дошло. Сам получатель об этом обычно не узнает, либо узнает по другим каналам связи (“я тебе писал” – “а я ничего не получил”), поэтому проблему во многих случаях не замечает.
Впервые я столкнулся с проблемой ложных срабатываний летом 2001 года, когда ждал очень важного для меня E-mail сообщения, но так его и не получил. Так как было известно, что отправитель его точно отправил, то я стал читать лог-файлы своей почтовой системы и, к своему ужасу, обнаружил, что письмо было отвергнуто, так как почтовая система отправителя (почтовый сервер интернет-провайдера) находилась в RBL-списке сервиса ORDB. Очевидно, что все почтовые системы, использовавшие в тот момент ORDB для фильтрации спама, одновременно не принимали почту от всех клиентов этого провайдера (не самого маленького – “Россия Он-Лайн”). Начиная с этого дня, я не использую сервисы RBL для неприема почты – потери одного важного для меня письма мне хватило.
В то же время, многие интернет-провайдеры используют RBL для неприема (вредной) почты. В интернет-сообществе распространено мнение, что, если не использовать “экстремистских” RBL-сервисов, доля ложных срабатываний будет ничтожно мала (есть и другие мнения, например “если кто-то шлет почту с машины, находящейся в RBL, то это его проблемы”). Одновременно автору приходилось слышать, что “RBL у нас ловят весь спам. Ну, почти весь”. Оба утверждения нуждаются во взвешенной оценке.
Как оценить эффективность RBL и долю ложных срабатываний
Как уже упоминалось выше, оценить долю ложных срабатываний RBL-сервисов затруднительно, т.к. та почта, на которой RBL ложно сработал, до получателя не дошла. Чтобы оценить эффективность в борьбе со спамом, нужно сравнить количество отвергнутого по RBL спама (это отвергнутая почта минус ложные срабатывания) с количеством спама пропущенного к получателям.
Таким образом, лучше всего иметь большие подборки почты, отсортированной какими-то другими методами на “спам” и “не-спам”. Так получилось, что у автора имеется подобный архив за довольно длительный период, что и дало возможность провести оценку.
В исследовании использовались три группы сообщений:
СПАМ – 17077 сообщений, полученных на почтовой системе автора за период c 26.06.2003 по 31.08.2003 (да, я получаю много спама!). Спам был выделен из всего потока автоматическим фильтром (SpamAssassin + Spamtest) и вручную просмотрен на ложные срабатывания.
НЕ-СПАМ 1 – важные сообщения (те, на которые был написан ответ, либо которые были отдельно сохранены), 6537 сообщений за май-август 2003 года. Это те письма, которые я не согласен потерять ни в коем случае.
НЕ-СПАМ 2 – вся входящая почта (кроме спама), включая рассылки и подобные вещи. 18928 сообщений за май-август 2003 г.
Из всех этих писем были извлечены IP-адреса серверов, с которых они пришли на мою системы, и проверены по ряду списков RBL. Исследование проводилось 1 сентября 2003 г.
Необходимо отметить, что RBL – динамические базы данных; IP-адреса, которые были в списке на момент приема конкретного письма, могут там уже не находиться, равно как адреса, которые есть сейчас, могли не быть в RBL на момент приема письма. В то же время, стоит ожидать, что на порядок величины эффективности и ложных срабатываний не изменились.
В исследовании принимали участие два списка RBL с реальных почтовых систем. Эти списки были любезно предоставлены участниками рассылки [email protected]. Содержание этих списков и детальная информация о результатах приведена в приложениях.
Результаты тестирования
Эффективность ловли спама.
В подборке спама было 17077 сообщений, пришедших с 9557 разных IP-адресов.
Первый список RBL обнаружил 10437 сообщений (61%), пришедших с 6750 адресов (70%)
Второй список обнаружил 7572 сообщения (44%) пришедших с 4968 адресов (52%).
Эффективность ловли IP-адресов выше, чем сообщений – то есть IP-адреса, с которых идет много спама, имеют больше шансов попасть в RBL. Эффективность по фильтрации спам-сообщений не очень высокая – чуть больше половины и чуть меньше половины, соответственно. Ложные срабатывания на “важной” почте.
В подборке важной почты было 6537 сообщений, пришедших с 685 IP-адресов.
Первый список RBL сработал (“ложно отверг”) 175 сообщений, пришедших с 136 адресов. Доля ложных срабатываний – 2.7%
Второй список RBL ложно отсеял 98 сообщений (1.5%), пришедших с 16 IP-адресов.
Другими словами, при использовании этих списков RBL автор потерял бы каждое 40-60-е письмо. С моим объемом переписки – это два важных письма в день, что очень много.
Ложные срабатывания на всей не-спам почте.
Вся входящая почта более разнообразна, в подборке было 18928 сообщений, пришедших с 1401 IP-адреса.
Первый список RBL отсеял 783 сообщения (4.1%), второй – 440 сообщений (2.3%).
Как видим, эффективно работающий против спама первый список одновременно убивает каждое 25-е легальное письмо.
Заключение
Полученные автором цифры – не догма. Очевидно, что если вы получаете почту от небольшого круга адресатов, то вероятность попадания их в черные списки – мала. Чем шире круг общения и чем дальше он от интернет-сообщества, тем больше шансов у вашего корреспондента оказаться в RBL-списках. Приводимые в данном тексте цифры нужно рассматривать только как примерные – потери легальной почты в среднем могут достигать нескольких процентов.
В то же время, возможен и резкий рост числа потерь в вашем конкретном случае. Чем более “экстремистские” RBL-сервисы использует системный администратор вашей почтовой системы, тем больше легальной почты вы теряете. Правда, спама тоже приходит меньше.
Для автора очевидно, что единицы процентов ложных срабатываний и всего около половины отловленного спама – это неприемлемые на сегодня характеристики для спам-фильтра. Приемлемые – это доли процента (а лучше – сотые доли) ложных срабатываний и 80-90-95-98% обнаруженного спама.
Приложение 1. Эффективность избранных RBL-сервисов
Как видно из приведенных ниже таблиц, эффективность RBL по ловле спама и количество ложных срабатываний связаны непосредственно. Чем эффективнее ловим спам, тем “эффективнее” ловим нормальную почту.
Эффективность ловли спама различными RBL-службами RBL-сервис Обнаружено
IP-адресов Обнаружено
спам-сообщений
t1.bl.reynolds.net.au 3025 4578
bl.spamcop.net 685 1298
blackholes.easynet.nl 2826 4236
dnsbl.njabl.org 2847 4207
list.dsbl.org 2968 4374
proxies.blackholes.easynet.nl 2553 3803
cbl.abuseat.org 2141 3408
proxies.relays.monkeys.com 1737 2613
dynablock.easynet.nl 1602 2445
sbl.spamhaus.org 285 666
comcast.blackholes.us 345 552
att.blackholes.us 199 314
relays.ordb.org 81 154
dul.ru 48 94
interbusiness.blackholes.us 61 80
bellsouth.blackholes.us 57 71
rogers.blackholes.us 35 50
qwest.blackholes.us 21 36
swbell.blackholes.us 0 0
Ложные срабатывания на “важной почте” RBL-сервис Обнаружено
IP-адресов Обнаружено
сообщений
t1.bl.reynolds.net.au 109 134
proxies.relays.monkeys.com 4 71
dynablock.easynet.nl 22 30
dul.ru 17 25
att.blackholes.us 7 13
dnsbl.njabl.org 7 8
list.dsbl.org 4 5
relays.ordb.org 2 3
bl.spamcop.net 2 2
blackholes.easynet.nl 2 2
proxies.blackholes.easynet.nl 2 2
interbusiness.blackholes.us 1 1
cbl.abuseat.org 1 1
Ложные срабатывания на всей не-спам почте RBL-сервис Обнаружено
IP-адресов Обнаружено
сообщений
blackholes.easynet.nl 49 350
proxies.relays.monkeys.com 25 327
t1.bl.reynolds.net.au 121 170
dynablock.easynet.nl 79 128
dnsbl.njabl.org 56 122
list.dsbl.org 65 89
dul.ru 73 83
att.blackholes.us 14 67
proxies.blackholes.easynet.nl 43 49
sbl.spamhaus.org 12 45
relays.ordb.org 5 21
comcast.blackholes.us 2 16
cbl.abuseat.org 7 7
interbusiness.blackholes.us 4 6
bl.spamcop.net 5 5
qwest.blackholes.us 4 4
bellsouth.blackholes.us 1 1
Приложение 2. Использованные списки RBL
Список RBL 1 lds.net.au
bl.spamcop.net
blackholes.easynet.nl
dnsbl.njabl.org
list.dsbl.org
proxies.blackholes.easynet.nl
dynablock.easynet.nl
sbl.spamhaus.org
comcast.blackholes.us
att.blackholes.us
qwest.blackholes.us
bellsouth.blackholes.us
rogers.blackholes.us
interbusiness.blackholes.us
swbell.blackholes.us
dul.ru
relays.ordb.org
Список RBL 2 bl.spamcop.net
proxies.relays.monkeys.com
blackholes.easynet.nl
list.dsbl.org
cbl.abuseat.org
+ список IP-адресов и сетей предоставленный отдельно
Оба списка используются реальными интернет-сервисами