"Новые технологии поиска"

«Новые технологии поиска, обработки и хранения информации по вопросам безопасности»

1. Современные технологии поиска информации в сети ИНТЕРНЕТ

Информационные ресурсы Интернет
Информационные ресурсы, доступные через Интернет, - это десятки миллионов разнообразных документов, представленных различными способами. Число этих документов увеличивается в геометрической прогрессии.
Классификация сетевых информационных ресурсов по способу представления:
1. Web-страницы - основной и наиболее распространенный тип информационных ресурсов. Представляют собой страницы гипертекста, то есть текста, который может содержать в себе ссылки.
Взаимосвязанная логически и посредством ссылок совокупность гипертекстовых страниц, расположенная в одном месте, представляет собой единицу, называемую сайтом (site).
С помощью специальной программы - броузера можно осуществлять переход на другую страницу, расположенную, возможно, совсем в другом документе. Таким образом, все Web-страницы оказываются связаны между собой достаточно произвольным образом. Такой способ представления информации получил название Всемирной паутины (World Wide Web, или WWW).
Помимо текста и ссылок, Web-страница может содержать информацию, представленную в произвольной форме: графической, звуковой, видео и т.д.
2. Базы данных - могут иметь интерфейс в Интернете и быть доступны через Сеть.
Базы данных могут содержать произвольную информацию: публикации, табулированные данные и т.д. Доступ к базам данных обычно платный и осуществляется с помощью стандартных броузеров.
3. Файловые серверы - представляют собой компьютеры, часть дискового пространства которых доступна по Сети. Традиционный способ хранения данных в Интернете. Доступ к ним на таком сервере осуществляется с помощью специальных программ, поддерживаемых стандартными броузерами.
4. Телеконференции - представляют собой способ общения людей, имеющих доступ в Сеть, и предназначены для обсуждения каких-либо вопросов или распространения информации.
Телеконференции разбиты по тематическому признаку на рубрики, иначе называемые группами новостей (news groups). Информация, помещенная в телеконференцию, как правило, носит неофициальный характер и становится на определенное время доступна всем желающим. Возможно получение немедленной обратной связи от множества лиц, детальное обсуждение какой-либо проблемы территориально разобщенными людьми.

Классификация сетевых информационных ресурсов по национально-территориальному признаку:
1. По языковому признаку.
В сети Интернет представлены практически все основные языки мира. Основным языком является английский. Некоторые из сайтов поддерживают несколько языков - на выбор пользователя.
2. По географическому признаку.
Произвольный информационный ресурс обычно принадлежит организации, осуществляющей свою деятельность на определенной территории. Территориальное разделение не относится к возможности доступа к ресурсам - он может быть осуществлен из любой точки.

Классификация сетевых информационных ресурсов по характеру содержащейся информации:

Информационное наполнение – контент (content) является решающим при отборе источников. По виду и характеру содержащейся на ресурсе информация возможно её разделение на следующие категории:
1. Тематическая информация. Наиболее ценный тип информации, непосредственно относящейся к конкретной предметной области: техническая, технологическая, маркетинговая и т.п. Редко присутствует в Сети "в чистом виде".
2. Научные публикации. Статьи, рефераты, обзоры и др. публикации научного характера, хранящиеся в Интернете. Статьи некоторых телеконференций.
3. Рекламная информация.
4. Справочная информация. Справочные материалы, ссылки на Web-сайты компаний, нормативную базу и т.д.
5. Новости. Обычно "сырая", необработанная информации, ценная в контексте прочих событий или в динамике развития. Часто нуждается в последующей обработке.
6. Вторичная информация. Систематизированная и предварительно обработанная информация: специализированные тематические сайты, обзоры, подборки рефератов, каталоги и др.

Средства поиска информации

Классификация средств поиска по принципу их организации и использования:
1) каталоги (справочники, директории);
2) поисковые машины.

Каталоги

Каталоги являются справочниками, содержащими списки адресов Интернет, сгруппированные по определенным признакам. Как правило, списки адресов объединяются по тематике (наука, искусство, новости и т.д.), где каждая тема разветвляется на несколько подуровней.
Особенности:
1. Создание структуры, базы данных и их постоянное обновление осуществляется "вручную", коллективом редакторов и программистов.
2. Процесс поиска требует непосредственного участия пользователя, самостоятельно переходящего от ссылки к ссылке.
Поисковые машины
Действие поисковых машин заключается в постоянном последовательном исследовании всех узлов Интернет, доступных данной системе поиска, со всеми их связями и ответвлениями.
В связи с постоянным обновлением информации машина поиска регулярно возвращается к уже изученным узлам, чтобы зарегистрировать изменения. Вся прочитанная информация индексируется, т.е. создается специализированная база данных, в которой закодированы все исследованные страницы Интернет.
При поступлении запроса от пользователя машина рассматривает всю индексированную информацию и выдает список документов, соответствующих задаче поиска. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте.
Машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.
Тенденции развития средств поиска
Поисковые средства постоянно развиваются. Системы, долгое время не внедряющие новых элементов и не оптимизирующие уже имеющиеся функции, постепенно выходят из активного использования. Примерами постоянного обновления являются WebCrawler, Lycos и Alta Vista.
Основные направления совершенствования:
1. Увеличение зоны охвата и глубины просмотра информационных ресурсов
Современные системы в среднем индексируют порядка 50 миллионов документов: от 31 миллиона Alta Vista до 69 миллионов в Lycos.
Поисковые механизмы последнего поколения индексируют все слова на web-странице или в статье из конференции. Ранее область индексирования ограничивалась названием, заголовками, первыми несколькими строками и адресом документа.
2. Развитие внутреннего поискового механизма

Растёт число операторов и других элементов составления запросов, что повышает релевантность получаемых результатов.

1). Несколько лет назад применялись только два-три классических булевых оператора: AND (и), OR (или) и NOT (не). Теперь появились NEAR (рядом, около) в Alta Vista и FOLLOWED BY (следует за) в OpenText - операторы расстояния, дающие возможность максимально конкретизировать запрос.
2). Многие системы позволяют усекать окончания терминов, ограничивать поиск по дате создания документа, искать ключевые слова только в обозначенных элементах web-страниц (названии, заголовках, электронном адресе и т.д.), вести разыскание на точное словосочетание.
3). Новейшие разработки позволяют выявлять файлы определенного вида (например, графические или аудио), обладают чувствительностью к строчным и заглавным буквам. Общепринятой становится возможность искать данные на любых языках.

3. Совершенствование интерфейса

1). Системы последнего поколения имеют детализированное многоуровневое меню, освобождающее пользователя от необходимости знать принципы работы булевой логики.
Примеры: меню Power search (углубленного поиска) в OpenText и Modified search (модифицированного поиска) в HotBot.
2). Системы предоставляют детализированную "помощь", примеры составления запросов, файлы "часто задаваемых вопросов". В зависимости от полученных результатов генерируются подсказки и рекомендации.

4. Оптимизация выдачи результатов поиска

Возрастает способность поисковых средств ранжировать результаты в зависимости от соответствия конкретному запросу. Программа анализирует расположение слов в документе, их повторяемость и общее количество. На этой основе перечень ссылок выдается в порядке соответствия запросу, причем ссылки на наиболее ценные источники, выдаются в начале списка.
Проблема: «информационный шум», связанный с ростом в Интернете материалов низкой содержательной ценности.

5. Разнообразие сервисов

1). Формирование добавочных баз данных по определенным направлениям (электронные адреса частных лиц, справочники компаний, перечни последних новостей и т.д.).
2). Размещение на своих страницах ссылок на популярные справочные ресурсы Интернет: электронные словари, тезаурусы, энциклопедии, интерактивные карты и др. источники. Это превращает интерфейс поисковых систем в хорошую отправную точку для любого, работающего с Интернет.
3). Наиболее продвинутые системы (UltraSeek) предлагают услуги персонального сетевого информатора, который обеспечивает текущий поиск новых материалов по заявленной тематике.

6. Специализация и диффузия

1). Образование местных поисковых серверов, дробление поисковых средств: выделение поисковых инструментов региональной или отраслевой направленности, учитывающих материалы по отдельным странам или на определенном языке (чисто русскоязычных систем – уже не менее десяти) или по определенной тематике (например, юриспруденция).
2). Распространение вширь наиболее крупных компаний поискового бизнеса. Yahoo!, Alta Vista, InfoSeek создают множество "зеркальных" и специальных профильных серверов в различных регионах для захвата рынка сетевой рекламы.

7. Технологичность и коммерциализация

1). Ожидается появление совершенно новых средств поиска на базе последних технологических достижений.
2). Доходность бизнеса по созданию и поддержке поисковых серверов - залог дальнейшего повышения качества поисковых систем.

Методы информационного поиска

Методы поиска заметно отличаются по эффективности поиска, качеству поиска и по типу извлекаемой информации.
Основные методы поиска информации в сети Интернет:
1. Непосредственный поиск с использованием гипертекстовых ссылок
Поиск информации осуществляется путем последовательного просмотра связанных страниц с помощью броузера. Применяется на заключительных этапах информационного поиска, а также при использовании каталогов, классифицированных и тематических списков, всевозможных небольших справочников.
2. Использование поисковых машин
Один из основных методов и фактически единственный при проведении предварительного поиска.
Применение поисковых машин обычно основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать.
3. Поиск с применением специализированных программ
Полностью автоматизированный метод, основанный на применении специализированных программ - спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию. Аналогичен методу, применяемому поисковыми машинами. Может быть весьма эффективным для проведения первичного поиска при нестандартном запросе.
4. Поиск по новообразованным ресурсам
Целесообразен при проведении повторных циклов поиска, поиске наиболее свежей информации, а также при проведении анализа динамики изменений объекта исследования.
Эффективен при проведении поиска в узкоспециальной предметной области, поскольку большинство поисковых машин обновляет свои индексы со значительной задержкой. Обычно задержка тем значительнее, чем менее популярна заданная тема.

Технология поиска с использованием поисковых машин
1. Определение географических регионов поиска
2. Составление тезауруса

Для эффективного использования поисковых серверов необходим список ключевых слов, организованный с учетом семантических отношений между ними, т.е. тезаурус. При составлении тезауруса необходимо предусмотреть обработку синонимов, омонимов и морфологических вариаций ключевых слов.
3. Отбор поисковых машин
Устанавливается последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины.
Известно около 180 поисковых серверов, различающихся по регионам охвата, принципам проведения поиска (а следовательно, по входному языку и характеру воспринимаемых запросов), объему индексной базы, скорости обновления информации, способности искать "нестандартную" информацию и т.п.
Основными критериями выбора поисковых серверов являются объем индексной базы сервера и степень развитости самой поисковой машины, то есть уровень сложности воспринимаемых ею запросов.
4. Составление и выполнение запросов к поисковым машинам
Наиболее сложный и трудоемкий этап: на основе тезауруса формируются запросы к выбранным поисковым серверам. После получения результата возможно уточнение запроса с целью отсечения очевидно нерелевантной информации.
5. Анализ ресурсов и сбор информации
Первичный анализ ресурсов - по аннотациям. Иногда требуется ознакомление с информационным наполнением ресурса.
Типы информационных Web-ресурсов: - коммерческие сайты компаний; - вторичные информационные сайты; - источники аналитической информации; - региональные информационные ресурсы.
Составление списка ключевых слов
Для составления оптимального набора ключевых слов:
1. Берут любой текст-источник, близкий к искомой теме, в качестве «образца» текста. «Образцом» может служить книга, статья, Web-страница, любой другой документ.
2. Анализируют «образец», выделяя значимые слова.
Рекомендуемый алгоритм анализа:
1. Удаляются из текста стоп-слова (предлоги, частицы, местоимения, в английском – артикли и т.п.).
2. Вычисляются частоты вхождения каждого слова и составляется список, в котором слова расположены в порядке убывания их частоты.
Для автоматизации анализа текста можно использовать специальную программу (адрес: wwwshipbottle.ru/ir/). Программа вычисляет частоту вхождения каждого слова, отсеивает стоп-слова, но не учитывает морфологию.
3. Выбирается диапазон частот, лежащий в середине списка, и отбираются из этого диапазона слова, наиболее полно соответствующие смыслу текста.
4. Составляется запрос к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором ИЛИ (OR).
Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов.
Число документов, полученных по этому запросу, может быть огромно. Однако, на первых страницах списка практически все документы окажутся релевантными, поскольку поисковая машина ранжирует документы, то есть располагает их в порядке убывания частоты вхождения слов запроса в документ.
AltaVista позволяет использовать структуру тезауруса в виде так называемых семантических срезов, где для каждого основного термина отдельно строится таблица сопутствующих слов и слов шумовых, которые не должны встречаться в источнике. Таким образом, вместо единой иерархической структуры терминов мы задаём пакет таблиц, которые могут расширяться и модифицироваться отдельно.
Формирование запросов
• Запросы составляются так, чтобы область поиска была максимально конкретизирована и сужена.
• Предпочтение отдается использованию нескольких узких запросов по сравнению с одним расширенным.
Языки запроса, в основном, являются сочетанием следующих функций:
 Операторы булевой алгебры AND, OR, NOT:
AND (И) - осуществляется поиск документов, содержащих все термины, соединенные данным оператором;
OR (ИЛИ) - искомый текст должен содержать хотя бы один из терминов, соединенных данным оператором;
NOT (НЕ) - поиск документов, в тексте которых отсутствуют термины, следующие за данным оператором.
 Операторы расстояния - ограничивают порядок следования и расстояния между словами, например:
NEAR - второй термин должен находиться на расстоянии от первого, не превышающем определенного числа слов;
FOLLOWED BY - термины следуют в заданном порядке;
ADJ - термины, соединенные оператором, являются смежными.
 Возможность усечения терминов: использование символа " * " вместо окончания термина позволяет включить в искомый список все слова, производные от его начальной части (шаблона).
 Учет морфологии языка: машина автоматически учитывает все формы данного термина, возможные в языке, на котором ведется поиск.
 Возможность поиска по словосочетанию, фразе.
 Ограничение поиска элементом документа (слова запроса должны находиться именно в заголовке, первом абзаце, ссылках и т.д.).
 Ограничения по дате опубликования документа.
 Ограничения на количество совпадений терминов.
 Возможность поиска графических изображений.
 Чувствительность к строчным и прописным буквам.

Обработка результатов запроса. Проблемы поиска.

Последовательность обработки результатов запроса (списка ссылок):
1. Проводится отсечение очевидно нерелевантных источников, попавших в выборку из-за несовершенства поисковой машины или недостаточной "интеллектуальности" запроса.
2. Параллельно проводится семантический анализ запроса для уточнения тезауруса и модификации последующих запросов.
3. Дальнейшая обработка проводится путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации.
Проблемы поиска:
1. Оптимизация решения двух противоположных задач: увеличения охвата для извлечения максимального количества значимой информации и уменьшения охвата для минимизации шумовой информации.
Пути решения: введение явных ограничений - запрещенных слов; правильное формирование запросов, предпочтение нескольких конкретизированных запросов одному общему.
2. Необходимость учёта многовариантности человеческого языка: наличия синонимов, морфологических вариаций и различных значений некоторых слов.
3. Нестабильность ресурсов сети Интернет, особенно её русскоязычной части, при малой периодичности обновления поисковыми машинами своих баз индексированных данных.
Периодичность обновления баз данных большинства поисковых машин – около месяца. Яndex-Web обновляет свои данные раз в неделю.

Средства поиска информации в сети ИНТЕРНЕТ.

Каталоги.
Каталоги представляют собой систематизированные группы адресов, сгруппированные по тематике в соответствии с определённым рубрикатором.
Преимущества:
1. Если известна тема искомого документа, достаточно исследовать соответствующую ветвь каталога, не отвлекаясь на посторонние, не относящиеся к делу документы.
Недостатки:
1. Объем каталога ограничен физическими возможностями редакторской группы и ее субъективностью в выборе материала.
2. Может отсутствовать информация по узким специальным темам.
3. Тематику искомого документа не всегда удаётся сформулировать в пределах рубрикатора каталога.
Примеры каталогов:
Yahoo! - первый уровень иерархии содержит 14 тематических категорий, которые разветвляются еще на 4…5 подуровней. Имеет собственную машину поиска.
Excite Reviews - содержит обзоры 60 тыс. узлов Интернет, систематизированные в иерархический каталог.
Citi.Net - каталог сведений о разных странах и городах.
Galaxy - иерархический каталог с подробным описанием тематических категорий на первой странице. Осуществляет поиск по категории поиска, по одному или нескольким ключевым словам, краткий и подробный вывод результатов поиска, переход на страницы Gopher и Telnet.
Yellow Pages - персональные данные и электронные адреса частных лиц, поиск информации о 16 млн. американских компаниях в различных областях деятельности.
Русскоязычные каталоги
Паук - широкий охват русскоязычного WWW. Глубина поиска: название, первые строки, электронный адрес документов. Поддерживает все русские кодировки, возможность усечения терминов. Большой объем, разветвленная иерархическая структура. Слабая оперативность обновления информации.
Созвездие Интернет - охватывает около 400 серверов. Возможность усечения терминов. Содержит названия и краткие характеристики серверов. Привлекательная графика. Небольшая зона поиска, слабая иерархия.
Желтые страницы Интернет - около 1200 Web-серверов. Большой объем информации, хорошо продуманная структура.
Russia on the Net - первый каталог русских ресурсов.
АУ! - быстроразвивающийся каталог.
Сокрровища Интернет - каталог Web-ресурсов на сервере Relcom.

Каждый сайт имеет свою структуру и может содержать свой каталог.

Пример: Разделы каталога на сайте http://www.agentura.ru
► Досье. ► Таймлайн. ► Инфраструктура. ► Библиотека. ► Музей.
► Техника. ► Культура 007. ► Терроризм. ► Спецназ. ► Форум.
Подразделы раздела «Техника»:
 Специальные технические средства
 Шифр
 Базы данных
 Радиошпионаж
 Оружие
 Космическая разведка
 Информационное оружие
 Психотронное оружие
 Средства обеспечения безопасности
Структура подраздела «Средства обеспечения безопасности»:
 средства обнаружения взрывчатых веществ
 средства визуального досмотра
 средства обнаружения радиоактивных материалов
 ренгтеновоское и ренгтгеноскопическое оборудование
 металлодетекторы
 системы видеонаблюдения
 средства защиты силовой электросети
 средства уничтожения информации
 спецавтотранспорт
 средства личной безопасности (бронежилеты и т.п.)

Поисковые машины
Cтандартные системы поиска:
Yahoo! AltaVista Infoseek HotBot
Excite Lycos WebCrawler OpenText
Magellan EuroSeek
Специализированные системы поиска:
► по конференциям Usenet
DejaNews
► по адресам электроной и обычной почт
Four11 Switchboard WhoWhere
► по программному обеспечению
Shareware
► по FTP-сайтам
FTP-search Filez
Системы поиска, работающие с русским языком:
AltaVista EuroSeek Rambler Яndex
"Апорт" Weblist "Ау!"
Русская машина поиска

Достаточно полный список поисковых машин содержит более 500 наименований.
Lycos - охватывает 68 млн. страниц. Параметры поиска: одно, несколько ключевых слов или фраза; усечение терминов; ограничения на число совпадений; степень соответствия результатов поиска ключевым словам. Можно выбрать форму вывода результатов ( краткую или подробную ); количество найденных терминов на каждой странице.
Невысокие быстродействие и оперативность обновления информации.
Alta Vista - охватывает более 30 млн. страниц на 225000 серверах, обеспечивает доступ к 3 млн. статей в 14000 телеконференциях Usenet. В режиме Simple можно вводить шаблоны для поиска не менее, чем с тремя указанными символами в начале слова. Если слово содержит хотя бы одну заглавную букву, ведется поиск с учетом регистра. Ниже строки ввода выдаются советы по поиску. В режиме Advanced можно создавать сложные запросы, основанные на логических операторах AND, OR, NOT, NEAR и указывать критерии сортировки полученных результатов. Удобный интерфейс. Высокое быстродействие, многовариантное поисковое предписание, возможность поиска на русском языке с учетом морфологии.
Система не упорядочивает результаты поиска. Целесообразно применять для специфического или исчерпывающего поиска.
Infoseek Guide - охватывает 1,5 млн. страниц. Язык запросов позволяет использовать все возможные варианты логических выражений. Менее полные, чем на других серверах, результаты поиска, неудобный интерфейс.
Infoseek Ultra - 50 млн. страниц WWW, возможен поиск на русском языке, поиск изображений.
WebCrawler - охватывает WWW, Usenet, Gopher, FTP, Telnet. Возможен поиск на русском языке. Простота в обращении, быстрота. Менее обширная база узлов, чем на других серверах.
HotBot - охватывает 54 млн. страниц. Многовариантное поисковое предписание. Возможен поиск на русском языке.
Русскоязычные поисковые машины
Rambler
1. Зона поиска: Около 4000 Web-узлов, недельный архив телеконференций Relcom. 2. Глубина поиска: Все слова в документе. 3. Язык запроса: Операторы AND, OR, NOT. Возможность усечения терминов. Ограничения по дате. Простой запрос - 30 ссылок, углубленный - 1000. 4. Вывод результата: Название документа, резюме, размер файла, адрес, дата последнего обновления, степень соответствия, кодировка. 5. Достоинства и недостатки: Удобный интерфейс, высокое быстродействие, полная информация на выходе. Слабая оперативность обновления информации.
Апорт!
1. Зона поиска: 16 серверов. 2. Глубина поиска: Все слова в документе. 3. Язык запроса: AND и OR. Поиск по фразе (в двойных кавычках). Возможность усечения терминов. Чувствительность к строчным и прописным буквам. 4. Вывод результата: Название документа, резюме, размер файла, адрес, дата последнего обновления, степень соответствия запросу, кодировка. 5. Достоинства и недостатки: Удобство для пользователя, высокое быстродействие.
Русская Машина Поиска
1. Зона поиска: Более 900 русскоязычных узлов. 2. Глубина поиска: Все слова в документе. 3. Язык запроса: AND и OR. Поиск по отдельной фразе. Ограничения поиска определенными элементами Web-страниц (название, ключевые слова, автор и т.д.). пользователь может установить или отменить чувствительность к строчным и прописным буквам и указать количество возможных ошибок в искомом слове, если нет уверенности в его написании. 4. Вывод результата: Название документа, резюме, адрес, степень соответствия запросу. 5. Достоинства и недостатки: Многовариантность поискового предписания. Непривычная форма выдачи результата.
Яndex-Web
1. Зона поиска: 5000 серверов - вся русская часть Интернет, включая домены "RU", "SU", а также русскоязычные ресурсы в других доменах. 2. Глубина поиска: Все слова в документе. 3. Язык запроса: AND, OR, NOT. Позволяет осуществлять поиск внутри абзаца, документа, в заголовках и других полях, а также с указанием расстояния между словами. Поиск по фразе. Учет морфологии русского языка. Чувствительность к строчным и прописным буквам. Возможность простого и сложного запроса. Поиск в найденном. 4. Вывод результата: Заголовок, начало текста документа, размер файла, дата и адрес, степень соответствия запросу, кодировка. Возможность "подсвечивания" слов в тексте, соответствующих поисковому предписанию. 5. Достоинства и недостатки: Индексация обеспечивает нормализацию слов и уникальность документа. Широкий охват, удобный интерфейс, высокое быстродействие, высокая оперативность обновления информации (раз в неделю).
Наиболее распространенные адреса поисковых машин:
Российские поисковые машины:
Rambler (Рамблер) - (http://www.rambler.ru);
Yandex (Яndex, Яндекс) - (http://www.yandex.ru);
Aport (Апорт) - (http://www.aport.ru);
Портал Mail.ru (http://www.mail.ru);
«Улитка» - (http://www.ulitka.ru);
Зарубежные поисковые машины:
Google - (http://www.google.com);
AltaVista - (http://www.altavista.com);
Yahoo - (http://www.yahoo.com).

Языки запросов поисковых машин

Язык запросов поисковой машины Яндекс
Для ограничения поиска и сокращения нерелевантных результатов поиска можно конкретизировать запрос путем указания максимального в тексте искомого документа расстояния между словами, указанными в запросе.
► Если все указываемые слова должны идти подряд.
Необходимый порядок слов указывается в запросе с помощью кавычек.
   Пример:
Запрос: «системы физической защиты»
Из результатов поиска будут исключены страницы, содержащие, например, такой текст: «Физические упражнения – лучший способ защиты от болезней. Система физических упражнений должна включать…».
► Если все указываемые слова должны быть в одном предложении.
Слова запроса следует соединить оператором &.
   Пример:
Запрос: информация & утечка
Будут найдены страницы, где встречаются сочетания «утечка защищаемой информации» или «информация об утечке охраняемых сведений» и им подобные. Будет исключено: «…опасность утечки тормозной жидкости. Информация об этом на панели управления…».
► Если все указываемые слова должны быть в одном документе.
Если не важно, на каком расстоянии и в каком порядке в документах должны быть указанные в запросе слова, следует соединить их оператором &&.
   Пример:
Запрос: угроза & безопасность && АЭС
Будут найдены страницы, где в одном предложении будут слова «угроза» и «безопасность», и в любом месте страницы обязательно встретится слово «АЭС».
► Если слова должны идти на расстоянии нескольких слов.
Максимально допустимое число слов между словами запроса указывается с помощью оператора расстояния / , за которым должна следовать цифра максимально допустимого числа слов.
   Пример:
Запрос: разведывательные /2 комплексы
Будут найдены страницы, в тексте которых содержатся, например, «разведывательные сигнализационные комплексы», но не может встретиться выражение «разведывательные, а также другие комплексы».
► Если слова должны идти на расстоянии нескольких предложений.
Максимально допустимое расстояние между словами запроса указывается с помощью оператора расстояния &&/ , за которым должна следовать цифра максимально допустимого числа предложений.
   Пример:
Запрос: «радиационная безопасность» &&/4 ЛАЭС
Будут найдены страницы, где выражение «радиационная безопасность» отстоит от слова «ЛАЭС» не далее, чем на четыре предложения.
► Если слова должны следовать в определённом порядке на нужном расстоянии.
Если точно известно, на каком расстоянии и в каком порядке должны встретиться в документе заданные запросом слова, следует указать между оператором расстояния / и цифрой (числом) расстояния символ + для прямого порядка слов или - для обратного.
   Пример:
Запрос: Владимир /+1 Путин
Можно узнать отчество человека, имя и фамилия которого известны.

Другие варианты конкретизации запроса для ограничения поиска:
► Если нужно найти документы с любым из заданных выражений.
Необходимо между задаваемыми в запросе выражениями вставить символ |.
   Пример:
Запрос: «закладочные устройства» | закладки | «специальные технические средства» | СТС.
Будут найдены страницы, в тексте которых содержится хотя бы одно из указанных выражений.
► Если нужно исключить в искомом документе определённое словосочетание со словом, указываемым в запросе.
Следует использовать оператор ~ , слева от которого указывается слово запроса (что искать), а справа – что не должно встретиться в найденном документе.
   Пример:
Если нужна информация о г-же Кузькиной, то запрос «Кузькина ~ мать» исключит страницы, где в одном предложении со словом «кузькина» встречается слово «мать».
► Если ищется только описание изделия и нужно исключить рекламу и прайс-листы магазинов.
Применение скобок позволяет создавать сложные запросы, указывая, к каким выражениям относятся действия выбранных операторов.
   Пример:
Запрос: (сейсмические | давления) датчики && (виды | действие | конструкция |    эффективность) ~ ~ (фирма | магазин | цена | прайс | рубли | доллары)
Будут найдены все страницы, где встречаются термины «сейсмические датчики» или «датчики давления», хотя бы одно из слов «виды», «действие», «конструкция», «эффективность» и не встречается ни одно из слов, указанных в скобках справа от оператора ~ ~.
Для того, чтобы задать наиболее часто используемые ограничения, не обязательно запоминать операторы. Можно использовать сервис «расширенный поиск».

Мета-средства поиска
Позволяют усовершенствовать процесс путем запуска одновременно нескольких средств поиска. Повышается качество поиска, т.к. объединяются достоинства и возможности всех используемых поисковых средств.
Недостатки:
1. Поиск с применением мета-средств может оказаться очень медленным, так как им приходиться координировать во времени поступления результатов обработки запроса от нескольких серверов и проблемы, возникшие у одного из них, могут приостановить работу всей системы.
2. Мета-средства не позволяют использовать возможности языка запроса каждого из применяемых поисковых средств и не дают возможности заглянуть в их справочные руководства.
Примеры:
MetaCrawler
Подключает девять поисковых систем одновременно. Проверяется возможность доступа к найденной информации, соответствие содержимого заданному критерию. Можно сортировать информацию по территориальной близости, по близости к определенному узлу, по отношению к компании и т.д. Возможен поиск на русском языке. Есть возможность персональной настройки интерфейса.
SavvySearch
Запускает одну из четырёх групп, состоящих из трех поисковых систем: - WebCrawler, Yahoo!, Lycos - Galaxy, Excite, DejaNews - FTPSearch95, Yellow Pages, Infoseek - Magellan, NlightN, PointSearch. Поисковое предписание с использованием операторов AND и OR. Возможен поиск на многих языках, в том числе на русском.
All-in-One
Хорошо структурированная мета-машина, имеющая древовидную классификационную структуру, на верхнем уровне которой размещены группы: , весь Internet, личные интересы, ПО, странички частных лиц, новости и погода, литература и прочее. Уточняя содержание каждой группы, можно попасть на следующий уровень. Использует около 200 поисковых средств.
Internet Sleuth
Охватывает 1500 баз данных. Можно запустить одновременно до десяти поисковых систем из 24, имеющихся в меню. Использует операторы AND, OR, NOT, усечение терминов. Для каждой поисковой машины можно задать свой критерий и свое ограничение времени поиска. Возможен поиск на русском языке. Тематический поиск ведется по большому количеству периодических изданий и информационных служб многих стран. Для группы "НОВОСТИ" используется 39 источников.

Проблема несанкционированного доступа к защищаемой информации через сеть ИНТЕРНЕТ

ИНТЕРНЕТ может использоваться:
 для выявления среди пользователей Интернетом лиц с определёнными наклонностями;
 для несанкционированного просмотра содержимого компьютера, подключенного к Интернет;
 для несанкционированного копирования информации с компьютера, подключенного к Интернет;
 для несанкционированного искажения или уничтожения информации на компьютере, подключенном к Интернет;
 для внедрения в компьютер вредоносных программ («троянский конь», логическая бомба и др.)

Борьба с НСД через сеть ИНТЕРНЕТ:

Пароли - для аутентификации пользователя.
Ключи - для различных видов преобразования информации.
Брандмауэры - специальные программы для защиты от несанкционированного доступа.
Основные методы защиты компьютеров от НСД:
 дискреционный принцип контроля доступа (для каждого пользователя в явном виде указывается, какие права он имеет по отношению к какому-либо объекту: запрет, только чтение, чтение/запись, добавление);
 мандатный принцип контроля доступа (несколько статусов пользователей: супервизор, администратор, пользователь, гость);
 гарантированная очистка памяти;
 изоляция модулей;
 маркировка документов;
 защита ввода и вывода на отчуждаемый физический носитель информации;
 сопоставление пользователя с устройством;
 идентификация и аутентификация;
 регистрация;
 надежное восстановление;
 целостность компьютерной системы защиты;
 тестирование.

2. Современные технологии обработки информации СМИ

Программы полнотекстного поиска
1. Программные продукты с технологией прямого поиска.
Перебирают файлы и выполняют поиск в каждом из них. Недостаток - значительные временные затраты. Подобные утилиты присутствуют во всех операционных системах, файловых менеджерах и инструментальных пакетах.
AVSearch - работа с текстовыми файлами и файлами формата RTF, поиск в архивах. Распространяется бесплатно (wwwavtlab.ru).
SSScanner - работа с документами Word, WordPerfect, PDF, HLP, возможность нечеткого поиска (по контексту).
2. Программные продукты с технологией поиска с индексированием.
Просматривают и анализируют текстовые файлы, создавая собственную базу данных ("индекс"), по которой затем осуществляется быстрый поиск.
Advanced Document Server - работа с документами Microsoft Office, PDF, некоторых баз данных; поиск в архивных файлах. Имеет встроенный Web-сервер для удаленного доступа. Распространяется бесплатно (http://ads.newmail.ru).
Greenstone - создает каталог документов, конвертирует их в HTML-формат, обеспечивает к библиотеке удаленный доступ посредством броузера. Распространяется бесплатно (http://www.Qreenstone.ru).
dtSearch Desktop - распознает два десятка форматов файлов. Виды поиска: морфологический, фонетический, поиск синонимов. В базах данных и гипертекстовых документах - поиск по содержимому конкретных полей и тегов. Индексирует защищенные PDF. Стоимость около $200 (http://www.dtsearch.com).
Российское программное обеспечение:
"Ищейка« (wwwisleuthhound.com или wwwisleuthhound.ru) (iSleuthHound Technologies) - персональная поисковая система, работа напоминает поисковые системы Интернета AltaVista, Yahoo, Rambler. При первом запуске создает базу данных по имеющимся документам и индексирует ее. Поиск ведется по ключевым словам, которые должен содержать документ. Работает даже с защищёнными документами. Стоимость профессиональной версии $15.
«Следопыт» (wwwmedialingua.ru). ("МедивЛингва"). По функциональности напоминает dtSearch. Имеет несколько вариантов поиска: нечеткий, строгий и формальный. Стоимость профессиональной версии $48.
«Cronos» (wwwcronos.ru) ("Кронос-Информ") - создает «индекс» указанных текстовых файлов, копирует их в собственный архив, сжимает и индексирует. Поиск осуществляется уже по своему архиву. Не имеет ограничений по объему информации, экономит пространство на жестком диске. Цена однопользовательской версии $140.
«Евфрат Office» - осуществляет полнотекстовый и реквизитный поиск документов по запросу с использованием логических операций "И", "ИЛИ", "НЕ", контекстный поиск (запрос по выделенным словам документа в режиме просмотра его текста). Дополнительный модуль Евфрат Document Server обеспечивает одновременную работу нескольких пользователей с единой базой данных.
Новые разработки специального программного обеспечения
Поисковые комплексы:
Информационное агентство «Интегрум-Техно» предлагает информационную поисковую систему Артефакт. Предназначена для накопления и хранения больших объемов текстовой и графической информации и выполнения эффективного поиска по всей коллекции накопленных баз данных.
ЗАО «МедиаЛингва» предлагает поисковую систему «Серверный Следопыт» для полнотекстового поиска документов на отдельном вэб-сайте или сервере корпоративной интрасети.
Поисково-аналитические комплексы:
Компания «Convera Technologies International Ltd.» (ранее Excalibur) предлагает программный продукт RetrievalWare. Обеспечивается поиск, анализ и выделение информации путём задания поисковых запросов к информации, хранящейся как в неструктурированном виде, так и формализованных базах данных, расположенной как в локальной корпоративной сети, так и в сети Internet.
Компания НейрОК Интелсофт предлагает программный продукт NeurOK Semantic Suite для создания информационно-поисковых систем. Документы в различных форматах в реальном времени автоматически раскладываются по тематическим рубрикам в зависимости от их содержания и атрибутов. С каждой рубрикой ассоциирован запрос, содержащий несколько десятков или сотен относящихся к данной проблеме терминов. Рубрика-запрос может фильтровать документы по наличию в них обязательных терминов и по другим формальным атрибутам. Это позволяет формировать специализированные рубрики типа «Все о …», содержащие все публикации, в которых упоминалось то или иное имя.
Компания Информбюро предлагает для работы с массивами информации программный комплекс Intellectum.BIS™. Программа выстраивает причинно-следственные цепочки данных, позволяющие определять тенденции и направления развитий ситуации.
Корпорация “Галактика” предлагает автоматизированную систему поиска и аналитической обработки информации Galaktika-Zoom. Обеспечивается поиск по ключевым словам и формирование информационных массивов по конкретным аспектам исследуемой проблематики.
НИЦИ при МИД России разработал Информационно-аналитический программный комплекс «Дипломат». Позволяет оперативо обрабатывать поступающую информацию и формировать фонд взаимосвязанных баз данных. В состав входит информационно-поисковая система, автоматически индексирующая входную информацию.

3. Интегрированный банк данных службы безопасности

Единое информационное поле предприятия – совокупность информационных массивов, необходимых для принятия управленческих решений. Обычно массивы формализуются в виде банков и баз данных, позволяющих строить информационные модели.
Банк данных – система специальным образом организованных данных, предназначенная для их накопления и использования. Создаётся для многоцелевого использования информации по определённой теме. Структура банка определяется составом баз данных и их связями между собой.
База данных – относительно самостоятельная часть банка данных. Содержит в себе описание информационных объектов (объектов учёта).

Два основных способа представления информации в банках и базах данных:
1. Неструктурированное - реализуется накоплением текстовых и графических файлов. Эта форма позволяет осуществлять контекстный поиск (например, по ключевым словам). В полнотекстовых базах данных накапливаются электронные версии СМИ, дайджесты, нормативная и служебная документация.
2. Структурированное – с помощью различных видов формальных моделей данных, различающихся способами представления взаимосвязей между объектами. В рамках таких моделей информационные объекты обладают эволюционной самостоятельностью, позволяющей им «обрастать» новыми подробностями и связями по мере поступления новых данных. При такой структуре достаточно выйти на один информационный объект, чтобы по связям исследовать его окружение.
Виды формальных моделей данных:
1. Иерархическая модель данных – совокупность элементов, расположенных в порядке их подчинения от общего к частному и образующих «перевернутое дерево» (граф). Навигационная модель, быстрый доступ, недостаточная гибкость.
2. Сетевая модель данных – каждый объект может участвовать в любом числе взаимосвязей (пример: инструментальная модель СУБД «Cronos Plus»).
3. Реляционная модель данных – объекты и взаимосвязи между ними представляются с помощью таблиц, взаимосвязи также рассматриваются в качестве объектов. Простота схемы, удобство (примеры: СУБД Microsoft Access и Borland Paradox).
4. Объектно-ориентированная модель данных – процедуры обработки хранятся вместе с данными. Навигационная, но объекты могут участвовать в любом числе взаимосвязей.

Интегрированный банк данных – обеспечивает автоматическое объединение (интеграцию) в общем банке данных разнородных данных по одним и тем же объектам (лицам, фирмам, адресам) путём их идентификации и отождествления (слияния). В процессе интеграции образуются цепочки взаимосвязанных объектов, выражающих признаки рисковых ситуаций, каналы нанесения ущерба предприятию, каналы экономической разведки конкурента, партнёра и др.
При этом решаются:
► учётно-справочные и статистические задачи: кадры, контакты, события, партнёры, конкуренты, реклама и др.
► информационно-логические задачи: экспресс-оценка делового партнёра, оценка инвестиционного риска, анализ событий, изучение деловых связей конкурента, оценка сферы влияния, конфликтных и кризисных ситуаций и т.д.
Программное обеспечение для создания собственного интегрированного банка данных: «Cronos Plus», «Бинар», «Саиб», «Лагуна» , «Галактика», «Ватсон».

При создании интегрированного банка данных необходимо определить структуру предметной области базы данных. Выбранная схема должна использоваться в качестве классификатора:
1) при отборе информации в систему
2) при формализованном описании информации
3) при вводе формализованной информации в компьютер.
В условиях правильного описания структуры предметной области достаточно выйти на один информационный объект, чтобы по связям исследовать его окружение.
Если в процессе работы лицо или адрес раньше появлялись по другому сообщению, система при закладке информации вторично сама, без какой-либо команды со стороны пользователя сливает по указанным объектам учета то, что было, и то, что внесено в данный момент. При таком слиянии образуются и наращиваются цепочки причинно-следственных связей

ЧАТ ~ Virt-Life~

~Virt-Life~

Меню навигации

Пользовательские ссылки

Объявление

Информация о пользователе

"Новые технологии поиска"

Сообщений 1 страница 1 из 1

Поделиться104-11-2009 11:02:54