Разделы

Интернет Цифровизация Бизнес-приложения Веб-сервисы

Как вести бизнес-разведку в "невидимом" интернете?

Интернет является каналом оперативного доступа к чужой критической бизнес-информации, правда, более 97% ее - невидимо. Но, используя авторские методы интернет-поиска и бизнес-разведки, можно получить легальный доступ к конфидециальным данным. Предложенная технология поиска позволяет обеспечить на любых поисковых системах интернета высокий уровень точности, увеличить число найденных документов в 20 раз.

Административные и технические барьеры не позволяют увидеть через поисковую систему как существующий на сайте документ, так зачастую и весь сайт (нужный текст исключается согласно негласной политике индексирования конкретной поисковой системы). Причины такого исключения могут быть самыми разнообразными: официальные предписания и судебные решения, авторское право, корпоративная политика, требования хостинг-провайдеров, высокая стоимость перекачки всего подряд, предполагаемое дублирование, поисковый спам, провокации конкурентов,произвол системных администраторов и др. При достаточности ресурсов надо использовать программы для полного перекачивания сайтов из интернета в паре с программами поиска на локальных дисках и/или корпоративное хранилище.

Результат индексирования крупнейшими поисковыми машинами отдельных сайтов. Доля проиндексированных документов *

Доменное имя индексируемого сайта www.fuld.com computer-forensics-lab.org cyber-crimes.ru
Число уникальных страниц 425 175 5453
Можно ли все индексировать? Нет Да Да
Где размещен США Россия США
Когда начал работать Март 1996 года Март 2005 года Май 2005 года
www.google.com 51% 22% 5%
www.yahoo.com 59% 7% 16%
www.msn.com 58% 3% 16%
www.alltheweb.com 31% 34% 5%
www.yandex.ru 0% 0% 29%
www.rambler.ru 0% 24% 54%

* По состоянию на 11 ноября 2005 года. В приведенной таблице для оценки числа уникальных страниц использовались программы для создания локальных копий сайтов (WinHtTrack и Offline Explorer Pro), для оценки числа проиндексированных документов - запросы Google / Yahoo! / AllTheWeb MSN: site:www.fuld.com, запрос Yandex: #url="www.fuld.com".

Источник: CNews Analytics, 2005

Неполнота известных поисковых систем. Поисковая система расширяет индексы, в основном, двумя способами: по ссылкам из известных ей документов и по информации web-мастеров, введенной через формы "регистрации в поисковой системе". Если сайт интересующей компании или нужная информация никак не находится через известные поисковые системы, ищите другие подходящие поисковые системы, используйте национальные и глобальные метапоисковые системы, базы данных национальных регистраторов доменных имен, а также поиск по базам газетных публикаций (традиционная реклама).

Страницы только для персонала. Для авторизованного доступа служащих компании и партнеров предназначена закрытая часть корпоративных сайтов. Из-за некомпетентности и/или неаккуратности их администраторов в ряде случаев конфиденциальная информация предприятий может быть легально получена через интернет. В некоторых случаях роботы поисковых систем проникают на закрытую часть сайтов, но это скорее исключение, чем правило. Попытки интуитивного поиска закрытой информации на корпоративных сайтах собственными силами, как правило, малопродуктивны. Аутсорсинг такого рода услуг может быть квалифицирован как заказ на промышленный шпионаж и приводит к судебным разбирательствам, утечкам информации и быстрой ликвидации "ценных" брешей. Для выявления ошибок и уязвимостей на корпоративных сайтах конкурентов, а также аудита защищенности собственного сайта можно использовать специализированные программы для копирования сайтов и поиска на локальных дисках, сеансовые роботы, базы известных уязвимостей сайтов и типовых ошибок системных администраторов, а также все прочие технологии интернет-разведки.

Сложность процесса индексирования массы документов сильно замедляет процесс обновления индексов. В этой связи практически полностью выпадают из индекса поисковых систем общего назначения новости, объявления, дискуссии, блоги (персональные дневники), форумы, рассылки, пресс-релизы, тендерная информация и т.п. В этом случае применяются специализированные сервера и службы для поиска и мониторинга актуальной информации – агрегаторы новостей, а также специализированные приложения.

Феномены Сети

У интернета есть много особенностей и присущих ему явлений, которые затрудняют поиск необходимой информации. Но, в то же время, их знание может значительно повысить качество интернет-разведки.

Разнообразие протоколов интернет. Документы доступны по иным (не только http) протоколам передачи и поиска данных (WAIS, Gopher, WAP, ftp, telnet, gopher, z3950, rss, imap, pop3, smtp ). Информация части сервисов интернета просто мимолетна – это сообщения электронной почты, чаты. Нужно уметь искать или знать адреса http-шлюзов для поиска в соответствующих коллекциях, либо установить специализированные программы мониторинга и просмотра (клиенты telnet, z3950, rss) или конверторы. Рекомендуется для сбора нежелательной корреспонденции регистрировать на бесплатных почтовых серверах корпоративные почтовые ящики-ловушки и обязательно сохранять любые сообщения, затрагивающие интересы предприятия. В ряде случаев оказываются полезными базы данных борцов со спамом.

Альтернативы Сети. Клиенты для обмена файлами по фирменным протоколам (Ares, BitTorrent, DirectConnect, ED2K, EDonkey, EMule, Gnutella, Kazaa/FastTrack, Magnet, Napster, OpenNapster, Overnet, Piolet, Torrent) и поиска в файловых архивах (FTP) позволяют находить весьма интересные материалы. Для повышения эффективности нахождения файлов используются специальные стратегии поиска.

Интернет неоднороден в пространстве. На практике интернет является лишь частично прозрачной для сетевого трафика сетью, в которой согласно трехлетнему исследованию (отчет 2001 года) специалистов Arbor Networks из-за различных организационных и технических проблем между отдельными подсетями и узлами существуют т.н. "черные дыры". Это сегменты сети, постоянно или временно доступные только через конкретную подсеть и невидимые через остальные конкурирующие подсети. Черные дыры интернета обуславливают малую вероятность индексирования и обновления информации более 5% серверов. Если критическая информация обнаружена на таком сервере, качайте ее на рабочую станцию или в хранилище, используя местных агентов и провайдеров услуг мониторинга, поиска и доступа к базам данных. В качестве хорошей, не недешевой альтернативы Сети и решения проблемы ее черных дыр можно рассматривать технологии агентурной разведки.

Интернет не является единой сетью. Целенаправленная политика властей Китая по регулированию национального сегмента интернета и защиты граждан и интересов Поднебесной от вредоносного воздействия США и др. иностранных государств естественным образом завершилась введением с 1 марта 2006 года национальной системы регистрации доменных имен в четырех зонах: .cn (англоязычный домен), а также .china, .net и .com (китайскоязычные), каждый из них представляет собой два иероглифа. Создан прецедент – национальный сегмент интернета, адресация в котором не обеспечивается зарубежными DNS-серверами, принадлежащие американской организации ICANN. Для работы в таких сегментах интернета используйте несколько местных сотрудников, работающих под хорошим прикрытием через национальных провайдеров интернета.

Интернет неоднороден во времени. Вчера критическая для бизнеса информация или доказательство правонарушения были обнаружены, а сегодня ее по-тихому убрали с сайта. Нужные тексты могут быть недоступны из-за проблем на серверах (реорганизация, отказы в обслуживании, простои оборудования) . Для получения доступа к таким документам следует использовать метапоисковые сервера и программы и обязательно смотреть сохраненные поисковыми системами копии документов (кэш поисковых систем). Применяйте программы мониторинга страниц и сайтов интернета, а также интернет-архивы.

Неизвестные домены. Служебная часть корпоративных сайтов может быть размещена не только на основном корпоративном домене второго уровня, но и на доменах третьего и четвертого уровней. При этом на "закрытый" домен третьего или четвертого уровня может не быть ни одной ссылки с домашней и других открытых страниц изучаемого сайта, а его просмотр может быть открытым. Роботы поисковых систем их могут не видеть. Для обнаружения таких доменов на корпоративном домене второго уровня используются специализированные публичные поисковые сервера доменных имен.

Вместо заключения

В условиях нарастающей глобальной конкуренции фактором выживания предприятий является их способность быстрее предоставить потребителям большую или уникальную ценность при меньших издержках. Сильной стороной интернет-разведки является невысокая стоимость, безграничность охвата и высочайшая оперативность. Но она не может заменить иные виды деловой разведки, в частности, работу персонала на местах. Она не может компенсировать недостатки традиционного (репрессивного) управления предприятием, а лишь до предела обнажает его слабости.

Сергей Кузнецов / CNews

Учебный курс « Конкурентная разведка.Новые методы и приемы » C 28 по 29 сентября