برنامه نویسی
خزنده و ضد خزنده

توسعه خزنده ها
از نظر هدف می توان آن را به چند دوره / انواع تقسیم کرد:
- جمع آوری داده های دسته ای: این نیز مشکلی است که فریمورک های خزنده مانند scrapy بر روی حل آن تمرکز می کنند.چگونه می توان حجم زیادی از داده ها را در وب سایت سریعتر و به صورت موازی به دست آورد و اطلاعات مورد نیاز را (با استفاده از روش هایی مانند xpath) مکان یابی کرد. در این دوره، خزنده ها داده های عمومی را به دست می آورند.
- دوره احراز هویت: ممکن است وب سایت دارای آسیب پذیری هایی باشد، یا ممکن است مراحلی وجود داشته باشد که از فناوری خودکار برای کسب مزیت استفاده شود. به عنوان مثال، تزریق SQL و گرفتن بلیط قطار. پشت این فناوری ها با فناوری خزنده شباهت هایی وجود دارد. هدف برخی از این نوع فناوری ها به دست آوردن داده های غیر عمومی یا کسب مزیت/منفعت از طریق اتوماسیون است. وب سایت ها باید از طریق احراز هویت مسدود شوند.
- دوره کنترل ریسک ترافیک: وب سایت به ارزش افزوده داده های عمومی خود توجه می کند و نمی خواهد حجم زیادی از داده ها جمع آوری شود. این نوع ضد خزنده جمع آوری دسته ای داده ها را مسدود می کند.
تکنولوژی خزنده
به طور کلی، به دو نوع تقسیم می شود: مجموعه پروتکل و مجموعه ماشین واقعی.
- مجموعه پروتکل: هزینه توسعه کم، هزینه مهندسی معکوس بالا، عملکرد بسیار خوب، زمانی که قدرت محاسباتی خالص دارید. استخراج ده ها میلیون سطح در روز مشکلی ندارد و استفاده از منابع کم است.
- مجموعه ماشین واقعی: هزینه توسعه بالا، هزینه مهندسی معکوس نسبتا کم و عملکرد ضعیف (زیرا یک محیط مرورگر باید ایجاد شود).
برای جمع آوری پروتکل، بالاترین اولویت استفاده از احراز هویت برای ضد خزیدن و به دنبال آن رهگیری با فرکانس بالا است.