هر وب سایتی را با استفاده از هوش مصنوعی به یک API ایمن برای نوع تبدیل کنید (قسمت 2)

Summarize this content to 400 words in Persian Lang
در بخش 1، من به یک راه حل اساسی در مورد نحوه خراش دادن داده ها از هر وب سایت به هر فرمت دلخواه با استفاده از هوش مصنوعی پرداختم. این قسمت مراحل بعدی را برای بهبود عملکرد و کاهش هزینه ها پوشش می دهد.
این بخش کمی کوتاهتر است زیرا من دیگر وقت کافی برای عمیقتر کردن این موضوعات را ندارم، اما اگر در مسیری مشابه هستید و از خواندن قسمت 1 لذت میبرید، امیدوارم این «یادداشتهای میدانی» بتواند الهامبخش شما باشد. تحقیق کنید. اگر نکته یا سؤال دیگری دارید، در زیر نظر خود را درج کنید.
کاهش هزینه ها و بهینه سازی عملکرد
همانطور که در قسمت 1 ذکر شد، استفاده از مدلهای OpenAI آنگونه که هست میتواند بسیار گران باشد. این بخش استراتژی های مختلفی را که برای کاهش هزینه ها پیدا کرده ام را پوشش می دهد.
HTML را به متن مناسب LLM تبدیل کنید
عناصر HTML از نظر طراحی حاوی مقدار زیادی “نفخ” هستند. همه این نشانهگذاریهای اضافی برای مدل ما چندان مفید نیستند، اما به عنوان محدودیت هزینه توکن ما به حساب میآیند. برای جلوگیری از آن، میتوانیم سعی کنیم آن HTML را به قالب دیگری (مانند علامتگذاری) تبدیل کنیم که نه تنها کوچکتر است، بلکه تجزیه آن توسط مدل نیز آسانتر است.
جینا ریدر
با استفاده از Jina Reader API یا با میزبانی خود مدل های آن، می توانیم HTML را به Markdown تبدیل کنیم:
همانطور که می بینید، در مقایسه با خروجی HTML خام، نفخ کمتری وجود دارد. این را به مدل منتقل کنید و همچنان باید کار کند در حالی که توکن های کمتری برای شما هزینه دارد.
فایرکرول
راه حل دیگر Firecrawl است، یک پروژه منبع باز برای خزیدن، خراشیدن و تمیز کردن داده های شما. آنها یک نسخه پولی میزبانی شده را ارائه می دهند اما ویژگی های اصلی آن رایگان و منبع باز در GitHub هستند. بنابراین می توانید نمونه خود را به صورت رایگان تنظیم کنید.
Crawl4ai
اگر سرعت بالاترین اولویت شماست یا فایرکرال را دوست ندارید، پروژه crawl4ai کاملا رایگان و منبع باز ممکن است گزینه بهتری برای بررسی باشد.
مدل های مختلف
OpenAI تنها بازیکن در بازی هوش مصنوعی نیست. گزینه های مقرون به صرفه تری وجود دارد. برای نام بردن از چند مورد:
گزینه های زیادی برای انتخاب وجود دارد، اما همه آنها با حالت خروجی ساختاریافته/JSON به خوبی کار نمی کنند (هنوز). در نظرات به من اطلاع دهید که کدام ارائه دهنده به خوبی برای شما کار کرده است!
چالش های دیگر
این چالش های واقعی که با پروژه ای شبیه به این ارائه می شود موارد زیر است:
خراش دادن وبسایتهایی که توسط WAF (فایروال برنامه وب) محافظت میشوند، مقابله با چالشهای «ضد ربات»، کپچاها و غیره.
اجتناب از ممنوعیت توسط پراکسی های چرخشی
پایین نگه داشتن هزینه های AI/LLM
مدیریت داده های بد یا توهمات هوش مصنوعی
مقیاس پذیری زیرساخت ها
پس لطفا قبل از شروع یک کسب و کار دیگر در مورد این ایده (بسیار اشباع) دو بار فکر کنید ؛)
سلام 👋 ممنون که خواندید! اگر از خواندن مطالب من لذت بردید، من را در توییتر دنبال کنید تا در جریان باشید ❤️.
در بخش 1، من به یک راه حل اساسی در مورد نحوه خراش دادن داده ها از هر وب سایت به هر فرمت دلخواه با استفاده از هوش مصنوعی پرداختم. این قسمت مراحل بعدی را برای بهبود عملکرد و کاهش هزینه ها پوشش می دهد.
این بخش کمی کوتاهتر است زیرا من دیگر وقت کافی برای عمیقتر کردن این موضوعات را ندارم، اما اگر در مسیری مشابه هستید و از خواندن قسمت 1 لذت میبرید، امیدوارم این «یادداشتهای میدانی» بتواند الهامبخش شما باشد. تحقیق کنید. اگر نکته یا سؤال دیگری دارید، در زیر نظر خود را درج کنید.
کاهش هزینه ها و بهینه سازی عملکرد
همانطور که در قسمت 1 ذکر شد، استفاده از مدلهای OpenAI آنگونه که هست میتواند بسیار گران باشد. این بخش استراتژی های مختلفی را که برای کاهش هزینه ها پیدا کرده ام را پوشش می دهد.
HTML را به متن مناسب LLM تبدیل کنید
عناصر HTML از نظر طراحی حاوی مقدار زیادی “نفخ” هستند. همه این نشانهگذاریهای اضافی برای مدل ما چندان مفید نیستند، اما به عنوان محدودیت هزینه توکن ما به حساب میآیند. برای جلوگیری از آن، میتوانیم سعی کنیم آن HTML را به قالب دیگری (مانند علامتگذاری) تبدیل کنیم که نه تنها کوچکتر است، بلکه تجزیه آن توسط مدل نیز آسانتر است.
جینا ریدر
با استفاده از Jina Reader API یا با میزبانی خود مدل های آن، می توانیم HTML را به Markdown تبدیل کنیم:
همانطور که می بینید، در مقایسه با خروجی HTML خام، نفخ کمتری وجود دارد. این را به مدل منتقل کنید و همچنان باید کار کند در حالی که توکن های کمتری برای شما هزینه دارد.
فایرکرول
راه حل دیگر Firecrawl است، یک پروژه منبع باز برای خزیدن، خراشیدن و تمیز کردن داده های شما. آنها یک نسخه پولی میزبانی شده را ارائه می دهند اما ویژگی های اصلی آن رایگان و منبع باز در GitHub هستند. بنابراین می توانید نمونه خود را به صورت رایگان تنظیم کنید.
Crawl4ai
اگر سرعت بالاترین اولویت شماست یا فایرکرال را دوست ندارید، پروژه crawl4ai کاملا رایگان و منبع باز ممکن است گزینه بهتری برای بررسی باشد.
مدل های مختلف
OpenAI تنها بازیکن در بازی هوش مصنوعی نیست. گزینه های مقرون به صرفه تری وجود دارد. برای نام بردن از چند مورد:
گزینه های زیادی برای انتخاب وجود دارد، اما همه آنها با حالت خروجی ساختاریافته/JSON به خوبی کار نمی کنند (هنوز). در نظرات به من اطلاع دهید که کدام ارائه دهنده به خوبی برای شما کار کرده است!
چالش های دیگر
این چالش های واقعی که با پروژه ای شبیه به این ارائه می شود موارد زیر است:
- خراش دادن وبسایتهایی که توسط WAF (فایروال برنامه وب) محافظت میشوند، مقابله با چالشهای «ضد ربات»، کپچاها و غیره.
- اجتناب از ممنوعیت توسط پراکسی های چرخشی
- پایین نگه داشتن هزینه های AI/LLM
- مدیریت داده های بد یا توهمات هوش مصنوعی
- مقیاس پذیری زیرساخت ها
پس لطفا قبل از شروع یک کسب و کار دیگر در مورد این ایده (بسیار اشباع) دو بار فکر کنید ؛)
سلام 👋 ممنون که خواندید! اگر از خواندن مطالب من لذت بردید، من را در توییتر دنبال کنید تا در جریان باشید ❤️.