вторник, 31 марта 2015 г.

Liferea site scraping - если сайт не имеет RSS

Бывает, что сайт не содержит ленты. Но нас это абсолютно не беспокоит, и в итоге, как бы жалкие вебдизайнеры не хотели нам помешать, но лента будет создана из любого сайта! :) Liferea предлагает 4 варианта добавления источника:



  • прямое указание URL источника (не интересно),
  • добавление команды, вывод которой (stdout) Liferea и будет читать,
  • непосредственное указание адреса локального файла - это практически то же, что и предыдущий вариант, только без конвейера,
  • указание URL ресурса, который будет загружен и преобразован в ленту с помощью Фильтра преобразования - это для любителей Perl
Я предлагаю выбрать второй способ. Проще всего будет взять Xidel для получения нужных нам элементов сайта (с помощью XPath например) и написать небольшой bash-скрипт, который вставит их в xml-шаблон нашей ленты и выведет на stdout.

Совет вышел немного в стиле "Как нарисовать сову?", но на самом деле описывать все словами реально лень, выкладывать примеры- никакого смысла.

0 коммент. :

Отправить комментарий

Следующее Предыдущее Главная страница

Blogger Template by Blogcrowds