Project in active development and growth

FireFeed Scraper

Веб-скраппер на базе Scrapy для автоматического сбора новостей с сайтов мировых СМИ (Reuters, BBC). Проект разработан для надежной работы в production-среде с поддержкой мониторинга, логирования и автоматического перезапуска.

Возможности

Многопоточный парсинг

Одновременный сбор новостей с нескольких источников для максимальной производительности

Управление скоростью

Автоматическое управление скоростью запросов для соблюдения robots.txt и предотвращения блокировок

Batch-обработка

Оптимизированная пакетная обработка данных для эффективной работы с базой данных

Расширенное логирование

Подробное логирование с автоматической ротацией файлов для удобного мониторинга

Автоматический перезапуск

Интеграция с systemd timer для автоматического перезапуска и обслуживания

PostgreSQL поддержка

Асинхронные соединения с PostgreSQL для высокой производительности

Технологии

Python

Основной язык программирования

Scrapy

Фреймворк для веб-скрапинга

PostgreSQL

База данных для хранения данных

systemd

Управление процессами и таймерами

Готовы начать сбор новостей?

FireFeed Scraper поможет вам автоматизировать процесс сбора новостей с надежностью enterprise-уровня.