|
ПРОЕКТЫ ДАННОЙ КАТЕГОРИИ Скрипт мониторинга доменных имен Нужен клон модуля новости на DLE Необходимо сделать аналог сайта Все проекты данной категории - 154 TOP 10 ФРИЛАНСЕРОВ Web-программирование
|
Скрипт поиска RSS лентWeb-программирование
Необходимо сделать скрипт поиска RSS лент для каталога RSS каналов.
Скрипт надо реализовать на PHP. Скрипт должен работать следующим образом: 1. Загружаем базу кейвордов (текстовый файл, на новой строке - новый кейворд). 2. Для парсинга необходимы поисковики: яндекс, гугл и live.com 3. После выбора поисковика - скрипт начинает его парсить по базе кейвордов. 4. По каждому кейворду парсим первые 100 результатов выдачи (сделать эту цифру в настройках, чтоб можно было менять). 5. Скрипт переходит по каждому результату выдачи и ищет на данном сайте rss канал. Если канал не найден - переходим к следующему результату выдачи и анализируем его. 6. Если канал найден на сайте: 6.1. Выдираем полный путь к RSS каналу (http://****полный путь****). 6.2. Анализируем RSS канал. Нас интересуют только те каналы, которые регулярно обновляются. Поэтому при анализе канала смотрим - сколько было новых сообщений за последние 2 дня. Если новых сообщений за последние 2 дня больше 10 (можно менять в настройках), то записываем путь к RSS каналу в успешные. Если меньше 10 - в плохие. 7. Ведем лог парсинга. Лог должен иметь такой вид: Дата Кейворд Сайт Наличие канала Сумма новых сообщений за последние 2 дня. Скрипт можно реализовывать как с базой MySQL, так и без нее - как удобнее. После обработки скрипт должен выдать 3 файла: 1. good.txt (каналы, которые имеют 10 или более собщений за последние 2 дня). Имеет вид: Дата записи Адрес Кол-во новых сообщений за последние 2 дня 2. bad.txt (каналы, которые имеют 9 или менее собщений за последние 2 дня). Имеет вид: Дата записи Адрес Кол-во новых сообщений за последние 2 дня 3. log.txt - файл лога, его вид описан выше. Настройки скрипта: 1. Сколько парсить результатов выдачи. (в описании 100) 2. Давность сообщений в канале. (в описании 2 дня) 3. Кол-во новый сообщений в канале. (в описании 10) 4. Сколько результатов выдачи смотреть за 1 запуск скрипта. (в описании 30) Реализовать скрипт надо при помощи крона. За каждый запуск он будет смотреть 30 результатов выдачи. После отработки скрипт должен выдавать следующие данные: 1. Сколько сайтов проанализировано. На скольких нет канала. На скольких есть плохие каналы. На скольких есть хорошие каналы. 2. Если база кейвордов полностью проанализирована, пишем - "Кейворды закончились". И последнее. Скрипт должен вести анализ кейвордов, которые уже парсились в данном поисковике, чтобы не было повторов. Также необходимо вести анализ сайтов, на которых производился поиск RSS каналов - также, чтобы избежать повторов. Все ссылки на RSS каналы в файлах good.txt и bad.txt не должны повторяться (то есть не должно быть 2-х одинаковых ссылок). E-mail: *** ICQ: ***
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||