FireFeed Scraper
Веб-скраппер на базе Scrapy для автоматического сбора новостей с сайтов мировых СМИ (Reuters, BBC). Проект разработан для надежной работы в production-среде с поддержкой мониторинга, логирования и автоматического перезапуска.
Возможности
Многопоточный парсинг
Одновременный сбор новостей с нескольких источников для максимальной производительности
Управление скоростью
Автоматическое управление скоростью запросов для соблюдения robots.txt и предотвращения блокировок
Batch-обработка
Оптимизированная пакетная обработка данных для эффективной работы с базой данных
Расширенное логирование
Подробное логирование с автоматической ротацией файлов для удобного мониторинга
Автоматический перезапуск
Интеграция с systemd timer для автоматического перезапуска и обслуживания
PostgreSQL поддержка
Асинхронные соединения с PostgreSQL для высокой производительности
Технологии
Python
Основной язык программирования
Scrapy
Фреймворк для веб-скрапинга
PostgreSQL
База данных для хранения данных
systemd
Управление процессами и таймерами
Готовы начать сбор новостей?
FireFeed Scraper поможет вам автоматизировать процесс сбора новостей с надежностью enterprise-уровня.