Visit Russian America, Russian Community in USA
  Новости    События    Yellow Pages    Знакомства    Объявления    Форум    Чат    Юмор 
Журнал
 Рейтинг
 Архив
Рубрики
Политика
Экономика
Спорт
Hi-Tech
Здоровье
Кино/Театр
Музыка
Животные
Путешествия
Светская жизнь
Происшествия
Война
Автомобили
Пикантные новости
Не пропустите
Мода
Астрология
Интернет
Community
 News Central
 Дайджест Форума
 Рейтинг ресурсов
 Знакомства
 Дискуссионный клуб
 Чат
 Фотоальбомы
 Yellow Pages
 Объявления
 Читальный Зал
 Гороскопы
 Top Rating
     America TOP

 
Журнал » Интернет «Back
От спама спасет теория вероятности
2002-10-03 02:10:31
Непрошенные рекламные рассылки по электронной почте являются одной из наиболее серьезных проблем интернета. На их чтение и удаление тратится большое количество рабочего времени, а существующие на сегодняшний день фильтры не отличаются совершенством.
Однако работа по совершенствованию спам-фильтров продолжается. Американский программист и предприниматель Пол Грэм опубликовал в интернете статью, подробно описывающую эффективный метод борьбы с рекламными письмами. Этот метод основывается на теории вероятности и использует для фильтрации спама алгоритм Бейеса. В настоящее время большинство фильтров относят письмо к спаму на основании наличия у него определенного набора признаков. Это могут быть слова или их сочетания, целые предложения или тэги HTML. Такие методы могут оказаться весьма эффективными. Например, созданный Грэмом простой фильтр смог обнаружить 79,7% спама, и лишь в 1,2% случаев к спаму были отнесены обычные письма.

Однако усовершенствование этой системы оказалось более сложной задачей. Грэм посвятил ее решению более полугода, пока ему не пришло в голову использовать для фильтрации спама статистические алгоритмы. В разработанном Грэмом прототипе фильтра каждому встречающемуся в электронной переписке слову или тэгу присваивается значение вероятности его наличия в спаме. На основе этих вероятностей с помощью алгоритма Бейеса вычисляется вероятность того, что данное письмо является спамом.

Высокая вероятность присваивается как излюбленным спамерами словам, вроде sexy или promotion, так и таким неожиданным, на первый взгляд, сочетаниям как ff0000 - код ярко-красного цвета в HTML. Соответственно, низкая вероятность соответствует профессиональным терминам или просто редко использующимся в рекламе словам вроде standardization или mandatory.

В процессе испытания системы фильтрации спама Грэм пропустил через нее 8000 писем, половина из которых являлась спамом. В результате, через фильтры смогли просочиться лишь 0,5% рекламных сообщений, а количество ошибочных срабатываний фильтра на основе бейесовского подхода оказалось нулевым, передает Компьюлента.

По мнению Грэма, для того чтобы система была действительно эффективной, она должна поддерживать возможность индивидуальной настройки, поскольку терминология, использующаяся в электронной переписке разными людьми, отличается. Если же пользователь будет регулярно помечать рекламные письма как спам, то программа сможет накопить достаточно информации для эффективной фильтрации электронной почты.

Грэм разработал вариант своего фильтра на созданном им самим языке Arc (вариант LISP). В свою очередь, группа энтузиастов в настоящее время работает над проектом spambayes. Его целью является разработка спам-фильтра на основе бейесовского алгоритма и языка Python.

Корреспондент.net
Вернуться
Другие Новости в этой рубрике
  • Японское Министерство Финансов приторговывает монетами на eBay
  • На eBay продаются приглашения в группу тестирования
  • Модемы для сетей 3G: в Интернет - без проводов
  • Китайцы победили порнографию
  • Мужчины и женщины используют интернет по-разному
  • Новая опасность: интернет атакован
  • Количество рекламы в электронной почте будет увеличиваться
  • Изобретен новый способ борьбы с порнографией в интернете
  • Из Napster сделают крупнейший пункт обмена порнографией в интернете
  • Домен .ORG в ожидании вердикта
  • Microsoft не дает пользователям Netscape ''латать дырки'' в своем ПО
  • Онлайновый кинорынок, еще не родившись, начинает со скандала
  • В интернете произошло крупнейшее похищение номеров кредитных карт
  • AOL переместила концерты в интернет
  • 7% пользователей интернета ''подсели'' на киберсекс
  • www. помогите мне развестись c моим мужем . com
  • Хакеры Хаттаба атаковали 10 европейских банков
  • В Китае разрешили Google
  • За владельца sex.com предлагают $50 тысяч
  • Вторая часть ''Властелина колец'' уже в интернете
Еще »
Дайджест / Архив / Рейтинг 
   
Terms of Service | Privacy Policy | Contact | Advertise
  Рейтинг@Mail.ru Russian America Top © 2025 RussianAMERICA Holding
All Rights Reserved • Contact