🚀 🤖💻🔍 نحوه خراش دادن g2 با استفاده از Python، Selenium و Bose Framework 🅶2️⃣🐍🖥️

معرفی
در این مقاله، نحوه خراش دادن g2.com با استفاده از Bose Framework را خواهید آموخت.
همچنین، Scraping g2.com یک راه عالی برای انجام تجزیه و تحلیل رقبا است.
Bose Framework، یک چارچوب توسعه ربات مبتنی بر سلنیوم است که مجموعه ای جامع از ابزارها و عملکردها را به طور خاص با هدف آسان کردن فرآیند توسعه ربات برای توسعه دهندگان ارائه می دهد.
برای آسان کردن خراش دادن g2.com، اسکریپتی آماده کرده ام که می توانید از آن برای خراش دادن موثر g2 استفاده کنید. این مقاله شما را با مراحل استفاده از اسکریپت آشنا می کند.
نصب و راه اندازی
- کلون استارتر قالب
git clone https://github.com/omkarcloud/g2-scraper
cd g2-scraper
- وابستگی ها را نصب کنید
python -m pip install -r requirements.txt
استفاده
- که در
extract_product_links.py
خود را مشخص کنیدTask.product_url
- پروژه را اجرا کنید
python main.py
اسکریپت شروع به اجرا میکند و بهروزرسانیهای پیشرفت را به کنسول ارسال میکند. هنگامی که اسکراپر کامل شد، یک فایل JSON به نام تولید می کند pending.json
در output
فهرست راهنما. فایل JSON حاوی پیوندهای محصول خواهد بود.
هنگامی که ربات توسط Cloudflare شناسایی شد، اسکریپت آن را تشخیص می دهد و از شما می خواهد که پس از حل موفقیت آمیز کپچای Cloudflare، کلید “Enter” را در کنسول فشار دهید.
علاوه بر این، لازم نیست درایور Selenium را پیکربندی کنید زیرا به طور خودکار درایور مناسب را بر اساس نسخه مرورگر کروم شما دانلود می کند.
- که در
main.py
تغییر دادنtask
متغیر بهsrc.extract_product_links
- اجرای مجدد پروژه
python main.py
- محصولات پس از خراشیدن در فایل output/finished.csv و output/finished.json استخراج و ذخیره می شوند.