Авторизация:
ПРОЕКТЫ ДАННОЙ КАТЕГОРИИ


Все проекты данной категории  -  154


TOP 10 ФРИЛАНСЕРОВ

Web-программирование

1dmitriy_sv
(66.8)
2INSARTua
(40.0)
3p_fateev
(37.6)
4AlexWeb
(36.8)
5lyoxa
(31.4)
6horal
(30.0)
7otvet
(25.7)
8Zionit
(25.1)
9EdWood
(23.7)
10VyatkaSoft
(21.0)

Скрипт поиска RSS лент

Web-программирование
Заказчик:
Фотография / Юзерпик
ОффлайнNilov Andrey (nilovA)

В сервисе: 1 месяц 1 неделя
Бюджет: до 50 USD  (Электронные платежные системы)
Приём предложений: 11.10.2008 - 18.10.2008
Статистика: Предложения: 4  |  Просмотры: 94 (55 пользователей)
Статус: Закрыт
Необходимо сделать скрипт поиска RSS лент для каталога RSS каналов.
Скрипт надо реализовать на PHP.

Скрипт должен работать следующим образом:
1. Загружаем базу кейвордов (текстовый файл, на новой строке - новый кейворд).
2. Для парсинга необходимы поисковики: яндекс, гугл и live.com
3. После выбора поисковика - скрипт начинает его парсить по базе кейвордов.
4. По каждому кейворду парсим первые 100 результатов выдачи (сделать эту цифру в настройках, чтоб можно было менять).
5. Скрипт переходит по каждому результату выдачи и ищет на данном сайте rss канал. Если канал не найден - переходим к следующему результату выдачи и анализируем его.
6. Если канал найден на сайте:
6.1. Выдираем полный путь к RSS каналу (http://****полный путь****).
6.2. Анализируем RSS канал. Нас интересуют только те каналы, которые регулярно обновляются. Поэтому при анализе канала смотрим - сколько было новых сообщений за последние 2 дня. Если новых сообщений за последние 2 дня больше 10 (можно менять в настройках), то записываем путь к RSS каналу в успешные. Если меньше 10 - в плохие.
7. Ведем лог парсинга. Лог должен иметь такой вид:
Дата Кейворд Сайт Наличие канала Сумма новых сообщений за последние 2 дня.

Скрипт можно реализовывать как с базой MySQL, так и без нее - как удобнее.
После обработки скрипт должен выдать 3 файла:
1. good.txt (каналы, которые имеют 10 или более собщений за последние 2 дня). Имеет вид:
Дата записи Адрес Кол-во новых сообщений за последние 2 дня
2. bad.txt (каналы, которые имеют 9 или менее собщений за последние 2 дня). Имеет вид:
Дата записи Адрес Кол-во новых сообщений за последние 2 дня
3. log.txt - файл лога, его вид описан выше.

Настройки скрипта:
1. Сколько парсить результатов выдачи. (в описании 100)
2. Давность сообщений в канале. (в описании 2 дня)
3. Кол-во новый сообщений в канале. (в описании 10)
4. Сколько результатов выдачи смотреть за 1 запуск скрипта. (в описании 30)

Реализовать скрипт надо при помощи крона. За каждый запуск он будет смотреть 30 результатов выдачи.

После отработки скрипт должен выдавать следующие данные:
1. Сколько сайтов проанализировано. На скольких нет канала. На скольких есть плохие каналы. На скольких есть хорошие каналы.
2. Если база кейвордов полностью проанализирована, пишем - "Кейворды закончились".

И последнее. Скрипт должен вести анализ кейвордов, которые уже парсились в данном поисковике, чтобы не было повторов.
Также необходимо вести анализ сайтов, на которых производился поиск RSS каналов - также, чтобы избежать повторов.
Все ссылки на RSS каналы в файлах good.txt и bad.txt не должны повторяться (то есть не должно быть 2-х одинаковых ссылок).

E-mail: ***
ICQ: ***

Предложения фрилансеровRSS-трансляция

Статус:  активные  |  отклоненные
Пользователь / Рейтинг Сумма Сроки Дата публикации
Фотография / Юзерпик
ОффлайнПоздняков Олег (webprofessional)
(0.3)
В сервисе: 2 года 10 месяцев  |  Отзывы: 2
***
***
11.10.2008 в 11:45
Фотография / Юзерпик
ОффлайнМостоловица Георгий (GFranco)
(0.8)
В сервисе: 1 год 3 месяца  |  Отзывы: 4
***
***
11.10.2008 в 12:42
Фотография / Юзерпик
ОффлайнГагарин Олег (Wcodr)
(2.7)
В сервисе: 1 месяц 2 недели  |  Отзывы: 10
***
***
11.10.2008 в 15:18
Фотография / Юзерпик
ОффлайнСеверoff Виктор (Slepoi_Mag)
(8.3)
В сервисе: 3 года 5 месяцев  |  Отзывы: 22
***
***
11.10.2008 в 22:40