Автор24

Информация о работе

Подробнее о работе

Страница работы

Разработка и программная реализация модуля для и сбора поиска информации в глобальных сетях

  • 85 страниц
  • 2014 год
  • 398 просмотров
  • 1 покупка
Автор работы

Wednesday

Преподаю. Занимаюсь программированием в С# и php.

100 ₽

Работа будет доступна в твоём личном кабинете после покупки

Гарантия сервиса Автор24

Уникальность не ниже 50%

Фрагменты работ

Автоматический поиск и сбор информации, парсинг контента очень популярен, при этом он применяется как владельцами небольших и разви-вающихся сайтов, так и крупными компаниями в целях сбора контента, от-слеживания тематических статей, баз для рерайтинга. Даже крупные компании, такие как Google, для новостей используют, в основном информацию со специализированных порталов информационных агентств – Лента.ру, РИА Новости, РБК, Утро.ру и т.д.
В целом в работе рассматриваются вопросы информационного поиска и сбора информации, рассматриваются различные инструменты и источники информационного поиска. Практическая часть представляет собой реализацию программного модуля для автоматического поиска и сбора информации из заданных источников.

Содержание
Введение 5
1 Средства и инструменты реализации поиска и сбора информации в глобальных сетях 6
1.1 Основные средства информационного поиска 6
1.2 Информационные источники 7
1.3 Инструменты информационного поиска 9
2 Средства реализации модуля для поиска информации в глобальных сетях 25
2.1 Постановка задачи и выбор средств ее реализации 25
2.2 Библиотека cURL 32
2.3 Расширение DOM 40
3 Реализация модуля для поиска и сбора информации в глобальных сетях 44
3.1 Постановка задачи 44
3.2 Парсинг целевого ресурса 45
3.3 Интерфейс разработанного модуля 52
3.4 Использование библиотеки cURL 53
3.5 Сохранение скачанной информации в файл 53
3.6 Тестирование и отладка 54
3.7 Эксплуатация 57
4 Безопасность жизнедеятельности 59
4.1 Характеристика производства 59
4.2 Потенциальные опасности и вредности на производстве. 60
4.3 Мероприятия по устранению этих опасностей и вредностей. 62
4.4 Производственный микроклимат 63
4.5 Вентиляция, отопление 64
4.6 Производственное освещение 65
4.7 Воздействие шума и вибрации 66
4.8 Электро- и пожаробезопасность 67
4.9 Расчет заземлительного контура 70
5 Экономическая часть 76
5.1 Расход трудоемкости разработки программного продукта 76
5.2 Расход на оплату труда разработчика программы 78
5.3 Общие затраты на создание программного продукта 79
Выводы и рекомендации 80
Библиографический список 82
Приложение А 85

3.4 Использование библиотеки cURL
В главе 2.2 была описана библиотека cURL, ее особенности и возможности. Также были рассмотрены опции соединения, которые можно задать. В программе cURL использован для более гибкого управления соединением, прежде всего для того, чтобы увеличить время, которое отводится на ожидание.
Сам процесс использования cURL, создания и закрытия сессии уже рассматривался в 2.2, поэтому рассмотрим только наиболее существенные опции: CURLOPT_TIMEOUT CURLOPT_USERAGENT и CURLOPT_RETURNTRANSFER. Их параметры:
$ch = cURL_init( $link);
cURL_setopt($ch, CURLOPT_URL, $link);
// задается ссылка для cURL-сессии
cURL_setopt($ch, CURLOPT_HEADER, 0);
cURL_setopt($ch, CURLOPT_TIMEOUT, 240); //содержит максимальное время в секундах, которое отводится для работы CURL-функций
cURL_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 6.0; ru; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13 ( .NET CLR 3.5.30729)'); //программе передаются параметры браузера
cURL_setopt($ch,CURLOPT_RETURNTRANSFER,1);
//Передает ненулевое значение, так нужно, чтобы cURL возвращал инфоормацию в переменную, а не выводил непосредственно на печать
$res = cURL_exec($ch);
cURL_close($ch);

Таким образом, благодаря использования cURL и его настроек, повысилась надежность работы программы.
3.5 Сохранение скачанной информации в файл
Сохраняем скачанную информацию в создаваемый файл:
$myFile = "News.html";
$fh = fopen($myFile, 'a') or die("can't open file");

И записываем в него всю информацию:
fwrite($fh, $h);

где вторая переменная (в данном случае $h) – это тот текст или графика, которая извлечена и сохраняется.
3.6 Тестирование и отладка
Отладка происходила в процессе создания программы. Первоначально программа отлаживалась на скачанных документах. Затем тестировалась в режиме он-лайн на заново появляющихся страницах. Программа работает правильно. Время срабатывания составляет примерно не более 60 секунд – это скачивание всех новостей по ссылкам в единый файл.
Результатом работы является собранная на одной странице информация, которая выводится на экран и сохраняется в файл.
Результат работы программы приведен на рис.3.7.
Рисунок 3.7 – Результат работы программы
Во время отладки и тестирования пришлось столкнуться со следующими проблемами:
1. Ошибка Warning: file_get_contents() [function.file-get-contents]: PHP_network_getaddresses: getaddrinfo failed: Этот хост неизвестен. Отла-женный на скачанной странице скрипт перестал работать, при выходе на стартовую страницу онлайн. Как оказалось, со скачанной страницы берется полная ссылка вида:
HTTP://ria.ru/defense_safety/20140508/1006949817.HTML
а непосредственно с онлайн-ресурса:
/defense_safety/20140508/1006949817.HTML

Поэтому пришлось вводить дополнительное условие – проверять наличие полной ссылки, и если ее нет, то дополнять в запросе до полной ссылки:
$HTML3 = file_get_HTML ("HTTP://ria.ru".$link_st2[$i]);

2. Поскольку скорость обработки скрипта не всегда одинакова, при-шлось увеличить время ожидания с помощью cURL. Для этого были использованы средства библиотеки cURL. Более подробно новые настройки описаны в разделе 3.4.
3. Из-за использования библиотеки cURL пришлось по-другому создавать объект библиотеки Simple_HTML_DOM, используя вместо функции file_get_HTML следующий код:
$res = cURL_exec($ch); //скачанная в переменную страница
$HTML = new Simple_HTML_DOM(); //создаем новый объект Sim-ple_HTML_DOM
$HTML –>load($res, true, false); //загружаем в этот объект скачанную
//страницу и получаем объект Simple_HTML_DOM

В данной дипломной работе на тему «Разработка и программная реализация модуля для и сбора поиска информации в глобальных сетях» рассматривается актуальная тема сбора и поиска информации, а также процесс создания программы.Прилагаемая к дипломной работе программа на языке php собирает и обрабатывает информацию, оставляя только актуальные главные новости, и сохраняет их в файл (исходный код в приложении).
Защита в 2014г, специалист, оценка -отлично.

Список литературы включает в себя книги и интернет-ресурсы по языку php, а также научные статьи и методические материалы по средствам информационного поиска.

Форма заказа новой работы

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Согласен с условиями политики конфиденциальности и  пользовательского соглашения

Фрагменты работ

Автоматический поиск и сбор информации, парсинг контента очень популярен, при этом он применяется как владельцами небольших и разви-вающихся сайтов, так и крупными компаниями в целях сбора контента, от-слеживания тематических статей, баз для рерайтинга. Даже крупные компании, такие как Google, для новостей используют, в основном информацию со специализированных порталов информационных агентств – Лента.ру, РИА Новости, РБК, Утро.ру и т.д.
В целом в работе рассматриваются вопросы информационного поиска и сбора информации, рассматриваются различные инструменты и источники информационного поиска. Практическая часть представляет собой реализацию программного модуля для автоматического поиска и сбора информации из заданных источников.

Содержание
Введение 5
1 Средства и инструменты реализации поиска и сбора информации в глобальных сетях 6
1.1 Основные средства информационного поиска 6
1.2 Информационные источники 7
1.3 Инструменты информационного поиска 9
2 Средства реализации модуля для поиска информации в глобальных сетях 25
2.1 Постановка задачи и выбор средств ее реализации 25
2.2 Библиотека cURL 32
2.3 Расширение DOM 40
3 Реализация модуля для поиска и сбора информации в глобальных сетях 44
3.1 Постановка задачи 44
3.2 Парсинг целевого ресурса 45
3.3 Интерфейс разработанного модуля 52
3.4 Использование библиотеки cURL 53
3.5 Сохранение скачанной информации в файл 53
3.6 Тестирование и отладка 54
3.7 Эксплуатация 57
4 Безопасность жизнедеятельности 59
4.1 Характеристика производства 59
4.2 Потенциальные опасности и вредности на производстве. 60
4.3 Мероприятия по устранению этих опасностей и вредностей. 62
4.4 Производственный микроклимат 63
4.5 Вентиляция, отопление 64
4.6 Производственное освещение 65
4.7 Воздействие шума и вибрации 66
4.8 Электро- и пожаробезопасность 67
4.9 Расчет заземлительного контура 70
5 Экономическая часть 76
5.1 Расход трудоемкости разработки программного продукта 76
5.2 Расход на оплату труда разработчика программы 78
5.3 Общие затраты на создание программного продукта 79
Выводы и рекомендации 80
Библиографический список 82
Приложение А 85

3.4 Использование библиотеки cURL
В главе 2.2 была описана библиотека cURL, ее особенности и возможности. Также были рассмотрены опции соединения, которые можно задать. В программе cURL использован для более гибкого управления соединением, прежде всего для того, чтобы увеличить время, которое отводится на ожидание.
Сам процесс использования cURL, создания и закрытия сессии уже рассматривался в 2.2, поэтому рассмотрим только наиболее существенные опции: CURLOPT_TIMEOUT CURLOPT_USERAGENT и CURLOPT_RETURNTRANSFER. Их параметры:
$ch = cURL_init( $link);
cURL_setopt($ch, CURLOPT_URL, $link);
// задается ссылка для cURL-сессии
cURL_setopt($ch, CURLOPT_HEADER, 0);
cURL_setopt($ch, CURLOPT_TIMEOUT, 240); //содержит максимальное время в секундах, которое отводится для работы CURL-функций
cURL_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 6.0; ru; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13 ( .NET CLR 3.5.30729)'); //программе передаются параметры браузера
cURL_setopt($ch,CURLOPT_RETURNTRANSFER,1);
//Передает ненулевое значение, так нужно, чтобы cURL возвращал инфоормацию в переменную, а не выводил непосредственно на печать
$res = cURL_exec($ch);
cURL_close($ch);

Таким образом, благодаря использования cURL и его настроек, повысилась надежность работы программы.
3.5 Сохранение скачанной информации в файл
Сохраняем скачанную информацию в создаваемый файл:
$myFile = "News.html";
$fh = fopen($myFile, 'a') or die("can't open file");

И записываем в него всю информацию:
fwrite($fh, $h);

где вторая переменная (в данном случае $h) – это тот текст или графика, которая извлечена и сохраняется.
3.6 Тестирование и отладка
Отладка происходила в процессе создания программы. Первоначально программа отлаживалась на скачанных документах. Затем тестировалась в режиме он-лайн на заново появляющихся страницах. Программа работает правильно. Время срабатывания составляет примерно не более 60 секунд – это скачивание всех новостей по ссылкам в единый файл.
Результатом работы является собранная на одной странице информация, которая выводится на экран и сохраняется в файл.
Результат работы программы приведен на рис.3.7.
Рисунок 3.7 – Результат работы программы
Во время отладки и тестирования пришлось столкнуться со следующими проблемами:
1. Ошибка Warning: file_get_contents() [function.file-get-contents]: PHP_network_getaddresses: getaddrinfo failed: Этот хост неизвестен. Отла-женный на скачанной странице скрипт перестал работать, при выходе на стартовую страницу онлайн. Как оказалось, со скачанной страницы берется полная ссылка вида:
HTTP://ria.ru/defense_safety/20140508/1006949817.HTML
а непосредственно с онлайн-ресурса:
/defense_safety/20140508/1006949817.HTML

Поэтому пришлось вводить дополнительное условие – проверять наличие полной ссылки, и если ее нет, то дополнять в запросе до полной ссылки:
$HTML3 = file_get_HTML ("HTTP://ria.ru".$link_st2[$i]);

2. Поскольку скорость обработки скрипта не всегда одинакова, при-шлось увеличить время ожидания с помощью cURL. Для этого были использованы средства библиотеки cURL. Более подробно новые настройки описаны в разделе 3.4.
3. Из-за использования библиотеки cURL пришлось по-другому создавать объект библиотеки Simple_HTML_DOM, используя вместо функции file_get_HTML следующий код:
$res = cURL_exec($ch); //скачанная в переменную страница
$HTML = new Simple_HTML_DOM(); //создаем новый объект Sim-ple_HTML_DOM
$HTML –>load($res, true, false); //загружаем в этот объект скачанную
//страницу и получаем объект Simple_HTML_DOM

В данной дипломной работе на тему «Разработка и программная реализация модуля для и сбора поиска информации в глобальных сетях» рассматривается актуальная тема сбора и поиска информации, а также процесс создания программы.Прилагаемая к дипломной работе программа на языке php собирает и обрабатывает информацию, оставляя только актуальные главные новости, и сохраняет их в файл (исходный код в приложении).
Защита в 2014г, специалист, оценка -отлично.

Список литературы включает в себя книги и интернет-ресурсы по языку php, а также научные статьи и методические материалы по средствам информационного поиска.

Купить эту работу

Разработка и программная реализация модуля для и сбора поиска информации в глобальных сетях

100 ₽

или заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 3000 ₽

Гарантии Автор24

Изображения работ

Страница работы
Страница работы
Страница работы

Понравилась эта работа?

или

4 марта 2015 заказчик разместил работу

Выбранный эксперт:

Автор работы
Wednesday
4.9
Преподаю. Занимаюсь программированием в С# и php.
Купить эту работу vs Заказать новую
1 раз Куплено Выполняется индивидуально
Не менее 40%
Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что уровень оригинальности работы составляет не менее 40%
Уникальность Выполняется индивидуально
Сразу в личном кабинете Доступность Срок 1—6 дней
100 ₽ Цена от 3000 ₽

5 Похожих работ

Дипломная работа

Разработка инфокоммуникационной системы управления крупным радиотелескопом

Уникальность: от 40%
Доступность: сразу
3300 ₽
Дипломная работа

Разработка комплекса рекомендаций по технической защите конфиденциальной информации хозяйствующего субъекта- мед.центра (на конкретном примере)

Уникальность: от 40%
Доступность: сразу
3300 ₽
Дипломная работа

Разработка мультисервисной сети городского микрорайона

Уникальность: от 40%
Доступность: сразу
2800 ₽
Дипломная работа

Разработка автоматизированной системы учета пациентов

Уникальность: от 40%
Доступность: сразу
3750 ₽
Дипломная работа

Разработка Автоматизированной Системы Ведения Электронного Архива

Уникальность: от 40%
Доступность: сразу
2000 ₽

Отзывы студентов

Отзыв михаил об авторе Wednesday 2014-04-27
Дипломная работа

Автор молодец выполнил работу раньше срока. Спасибо

Общая оценка 5
Отзыв Геннадий Полушкин об авторе Wednesday 2016-06-03
Дипломная работа

Спасибо!

Общая оценка 5
Отзыв user9445 об авторе Wednesday 2016-05-18
Дипломная работа

Ребята, Автор - просто бомба! Как же мне с ним повезло!!! Инициативный, грамотный, всегда на связи! Gigavector даже после окончания гарантийного срока дорабатывает расчеты к моей дипломной работе "Разработка информационной системы для объектов дорожной сети" по замечаниям моего придирчивого препода! Надеюсь на благополучную защиту!!!

Общая оценка 5
Отзыв Вера302 об авторе Wednesday 2017-05-24
Дипломная работа

Все отлично! Спасибо за продуктивную работу и подробные пояснения что и как!

Общая оценка 5

другие учебные работы по предмету

Готовая работа

Высокоскоростная корпоративная, локальная вычислительная сеть предприятия

Уникальность: от 40%
Доступность: сразу
1490 ₽
Готовая работа

Программный комплекс задач поддержки процесса использования смарт-карт клиентами АЗС

Уникальность: от 40%
Доступность: сразу
2000 ₽
Готовая работа

Защита локальной сети программными средствами microsoft

Уникальность: от 40%
Доступность: сразу
1000 ₽
Готовая работа

Разработка мобильного приложения для планирования и организации задач пользователя

Уникальность: от 40%
Доступность: сразу
2400 ₽
Готовая работа

Разработка и программная реализация статистической обработки текста с использованием морфологического анализа

Уникальность: от 40%
Доступность: сразу
100 ₽
Готовая работа

Информационная веб-система организации процесса чартеринга яхт

Уникальность: от 40%
Доступность: сразу
2000 ₽
Готовая работа

Обзор рынка программных средств self-service BI инструментов

Уникальность: от 40%
Доступность: сразу
600 ₽
Готовая работа

Разработка голосового чата для локальной сети

Уникальность: от 40%
Доступность: сразу
1800 ₽
Готовая работа

Конфигурирование поисковых серверов для сети Интернет и локальной сети

Уникальность: от 40%
Доступность: сразу
1000 ₽
Готовая работа

Коммутации в телеграфных сетях

Уникальность: от 40%
Доступность: сразу
1500 ₽
Готовая работа

Разработка программной системы персонализации доступа для охранных структур

Уникальность: от 40%
Доступность: сразу
2300 ₽
Готовая работа

Динамические структуры данных

Уникальность: от 40%
Доступность: сразу
600 ₽