هر وب سایتی را با استفاده از هوش مصنوعی به یک API ایمن برای نوع تبدیل کنید (قسمت 2)

ek3nk4r 2024-11-16

0 8 خواندن این مطلب 4 دقیقه زمان میبرد

هر وب سایتی را با استفاده از هوش مصنوعی به یک API ایمن برای نوع تبدیل کنید (قسمت 2)

پیشنهاد ویژه

خرید فالوور واقعی خرید لایک اینستاگرام خرید ویو اینستاگرام خرید فالوور اینستاگرام

Summarize this content to 400 words in Persian Lang
در بخش 1، من به یک راه حل اساسی در مورد نحوه خراش دادن داده ها از هر وب سایت به هر فرمت دلخواه با استفاده از هوش مصنوعی پرداختم. این قسمت مراحل بعدی را برای بهبود عملکرد و کاهش هزینه ها پوشش می دهد.

این بخش کمی کوتاه‌تر است زیرا من دیگر وقت کافی برای عمیق‌تر کردن این موضوعات را ندارم، اما اگر در مسیری مشابه هستید و از خواندن قسمت 1 لذت می‌برید، امیدوارم این «یادداشت‌های میدانی» بتواند الهام‌بخش شما باشد. تحقیق کنید. اگر نکته یا سؤال دیگری دارید، در زیر نظر خود را درج کنید.

کاهش هزینه ها و بهینه سازی عملکرد

همانطور که در قسمت 1 ذکر شد، استفاده از مدل‌های OpenAI آنگونه که هست می‌تواند بسیار گران باشد. این بخش استراتژی های مختلفی را که برای کاهش هزینه ها پیدا کرده ام را پوشش می دهد.

HTML را به متن مناسب LLM تبدیل کنید

عناصر HTML از نظر طراحی حاوی مقدار زیادی “نفخ” هستند. همه این نشانه‌گذاری‌های اضافی برای مدل ما چندان مفید نیستند، اما به عنوان محدودیت هزینه توکن ما به حساب می‌آیند. برای جلوگیری از آن، می‌توانیم سعی کنیم آن HTML را به قالب دیگری (مانند علامت‌گذاری) تبدیل کنیم که نه تنها کوچک‌تر است، بلکه تجزیه آن توسط مدل نیز آسان‌تر است.

جینا ریدر

با استفاده از Jina Reader API یا با میزبانی خود مدل های آن، می توانیم HTML را به Markdown تبدیل کنیم:

همانطور که می بینید، در مقایسه با خروجی HTML خام، نفخ کمتری وجود دارد. این را به مدل منتقل کنید و همچنان باید کار کند در حالی که توکن های کمتری برای شما هزینه دارد.

فایرکرول

راه حل دیگر Firecrawl است، یک پروژه منبع باز برای خزیدن، خراشیدن و تمیز کردن داده های شما. آنها یک نسخه پولی میزبانی شده را ارائه می دهند اما ویژگی های اصلی آن رایگان و منبع باز در GitHub هستند. بنابراین می توانید نمونه خود را به صورت رایگان تنظیم کنید.

Crawl4ai

اگر سرعت بالاترین اولویت شماست یا فایرکرال را دوست ندارید، پروژه crawl4ai کاملا رایگان و منبع باز ممکن است گزینه بهتری برای بررسی باشد.

مدل های مختلف

OpenAI تنها بازیکن در بازی هوش مصنوعی نیست. گزینه های مقرون به صرفه تری وجود دارد. برای نام بردن از چند مورد:

گزینه های زیادی برای انتخاب وجود دارد، اما همه آنها با حالت خروجی ساختاریافته/JSON به خوبی کار نمی کنند (هنوز). در نظرات به من اطلاع دهید که کدام ارائه دهنده به خوبی برای شما کار کرده است!

چالش های دیگر

این چالش های واقعی که با پروژه ای شبیه به این ارائه می شود موارد زیر است:

خراش دادن وب‌سایت‌هایی که توسط WAF (فایروال برنامه وب) محافظت می‌شوند، مقابله با چالش‌های «ضد ربات»، کپچاها و غیره.
اجتناب از ممنوعیت توسط پراکسی های چرخشی
پایین نگه داشتن هزینه های AI/LLM
مدیریت داده های بد یا توهمات هوش مصنوعی
مقیاس پذیری زیرساخت ها

پس لطفا قبل از شروع یک کسب و کار دیگر در مورد این ایده (بسیار اشباع) دو بار فکر کنید ؛)

سلام 👋 ممنون که خواندید! اگر از خواندن مطالب من لذت بردید، من را در توییتر دنبال کنید تا در جریان باشید ❤️.

در بخش 1، من به یک راه حل اساسی در مورد نحوه خراش دادن داده ها از هر وب سایت به هر فرمت دلخواه با استفاده از هوش مصنوعی پرداختم. این قسمت مراحل بعدی را برای بهبود عملکرد و کاهش هزینه ها پوشش می دهد.

فهرست مطالب