معرفی SingularGPT – دستگاه خود را با AI Vision خودکار کنید

SingularGPT یک پروژه متن باز است که هدف آن خودکارسازی کارهای پیچیده مانند اتوماسیون دستگاه با استفاده از آخرین مدل های ترند LLM است که ChatGPT و GPT-4 است.
با 🚀 SingularGPT شما به راحتی می توانید دستگاه خود مانند رایانه شخصی خود را با استفاده از زبان طبیعی و با پردازش منطقی داخلی آموزش دهید.
مخزن GitHub:
اینم لینک:
https://github.com/abhiprojectz/SingularGPT
مثلا:
فرض کنید میخواهید به جای نوشتن اسکریپتهای اتوماسیون، هر کاری را روی دستگاه خود انجام دهید، سپس آن را آزمایش کنید و آن را اشکال زدایی کنید، و با مختصات بازی کنید.
پرس و جو: سلام، لطفاً روی مورد با متن “Document Writer” کلیک کنید، سپس روی تصویر با مسیر “image.png” کلیک کنید و سپس به پایین بروید و سپس عنصری را که بالای متن “File” است پیدا کنید، روی آن دوبار کلیک چپ کنید.
را SingularGPT آن را پردازش می کند و کار را انجام می دهد.
https://www.youtube.com/watch?v=K7YbmLkCq7o
روش قدیمی با استفاده از انتخابگرهای X_PATH یا CSS/JS یا فقط مختصات.
element_xpath = driver.find_element(By.XPATH, "//a[@href="https://dev.to/login"]")
element_xpath.click()
# or
element_css = driver.find_element(By.CSS_SELECTOR, "button.btn-primary")
element_css.click()
نه، از تکنیک های جدید تشخیص المان GUI استفاده می کند.
نه!
zex.text('Menu').click()
zex.text('Edit').FindLeftOf().click() # Used to locate the element that is just left side of the target element.
حتی ممکن است عنصری را که در سمت چپ یا راست یا حتی نزدیکترین عنصر به آن قرار دارد، مکان یابی کرده و اعمال کنید.
ZexUI یک کتابخانه مستقل است که از تکنیک های پردازش تصویر برای اتوماسیون رابط کاربری گرافیکی استفاده می کند.
OpenAI API ندارید؟
از ربات آنلاین SingularGPT در پلتفرم Poe استفاده کنید.
https://poe.com/SingularGPT
مثال:
لطفاً بر روی دکمه انتخاب فایل متنی کلیک کنید و پس از آن 2 ثانیه صبر کنید و سپس بر روی موردی که به مورد با محصول متنی نزدیکتر است کلیک کنید.
مطمئن شوید که این پروژه در حال حاضر روی سرورهای لینوکس و x11 کار می کند.
شما فقط می توانید آن را در google colab با یک GPU اجرا کنید.
را requirements.txt
فایل بسته های زیر را مشخص می کند:
-
paddleocr
: یک جعبه ابزار تشخیص کاراکتر نوری مبتنی بر یادگیری عمیق (OCR). -
opencv-python-headless
: یک کتابخانه بینایی کامپیوتری که برنامه های کاربردی بینایی کامپیوتری را در زمان واقعی ارائه می دهد. -
google-cloud-vision
: یک سرویس OCR مبتنی بر ابر که می تواند برای استخراج متن از تصاویر استفاده شود. -
numpy
: یک بسته اساسی برای محاسبات علمی در پایتون. -
matplotlib
: یک کتابخانه تجسم در پایتون برای نمودارها و نمودارهای دو بعدی.
با استفاده از دستور زیر می توانید این بسته ها را به همراه وابستگی هایشان نصب کنید:
pip install -r requirements.txt
مطمئن شوید که این دستور را در همان دایرکتوری که requirements.txt
فایل قرار دارد.
🌟 شروع سریع
ایجاد یک .env
فایل با OPENAI_API
و openai_api خود را در آنجا قرار دهید یا به عنوان متغیر محیطی پاس دهید.
درخواست فوری خود را در آن بنویسید Prompts/prompts.txt
فایل یا
عبور به عنوان یک رشته در main.py
فایل.
# Run the main script.
python main.py
در اینجا چند روش و کاربرد آنها آورده شده است.
مطمئن! در اینجا توضیحات مربوط به هر روش آمده است:
-
text()
: این روش برای مکان یابی یک عنصر متنی در صفحه وب بر اساس محتوای متن ارائه شده در پرس و جو استفاده می شود. -
textRegex()
: این روش برای تعیین مکان یک عنصر متنی در صفحه وب بر اساس یک عبارت منظم ارائه شده در پرس و جو استفاده می شود. -
textContains()
: از این روش برای تعیین مکان یک عنصر متنی در صفحه وب استفاده می شود که حاوی کلمه خاصی است که در پرس و جو ارائه شده است. -
image()
: این روش برای تعیین مکان یک عنصر تصویر در صفحه وب بر اساس مسیر تصویر ارائه شده در پرس و جو استفاده می شود. -
findLeftOf()
: این روش برای تعیین مکان عنصری که در سمت چپ متن/تصویر ارائه شده در پرس و جو قرار دارد استفاده می شود. -
findRightOf()
: این روش برای تعیین مکان عنصری که در سمت راست متن/تصویر ارائه شده در پرس و جو قرار دارد استفاده می شود. -
findTopOf()
: این روش برای تعیین مکان عنصری که بالای متن/تصویر ارائه شده در پرس و جو قرار دارد استفاده می شود. -
findBottomOf()
: این روش برای مکان یابی عنصری که در زیر متن/تصویر ارائه شده در پرس و جو قرار دارد استفاده می شود. -
findNearestTo()
: از این روش برای تعیین محل عنصری که نزدیکترین به متن/تصویر ارائه شده در پرس و جو است استفاده می شود. -
click()
: این روش برای کلیک بر روی عنصری که با استفاده از متن/تصویر یا هر روش دیگری قرار دارد استفاده می شود. -
mouseMove()
: این روش برای انتقال ماوس به عنصری که با استفاده از متن/تصویر یا هر روش دیگری در آن قرار دارد استفاده می شود. -
scroll_up()
: این روش برای پیمایش صفحه وب به بالا استفاده می شود. -
scroll_down()
: از این روش برای اسکرول کردن صفحه وب به پایین استفاده می شود. -
scroll_left()
: از این روش برای اسکرول سمت چپ در صفحه وب استفاده می شود. -
scroll_right()
: این روش برای پیمایش سمت راست در صفحه وب استفاده می شود.
… بیشتر در اسناد موجود است.
این پروژه هنوز در حال توسعه است اما برای لینوکس (ubuntu) آماده است.
می توانید مستقیماً آن را در Google Colab آزمایش کنید.
-
لینوکس – انجام شد
-
ویندوز – در انتظار
-
Android – در انتظار
بیا، پروژه را ستاره دار کن و با هم آن را بسازیم.
این همان چیزی است که این پروژه هدف دارد و تلاش می کند به همان هدف دست یابد.
🌟 بنابراین، در اینجا نحوه عملکرد چیزهای زیر کاپوت آمده است:
-
پرس و جو زبان طبیعی را به اسکریپت های اتوماسیون تبدیل می کند که می توان از آنها برای دستیابی به کار استفاده کرد
-
SingularGPT صفحه نمایش خود را پردازش کنید، داده های مورد نیاز را دریافت می کند.
-
برای دستیابی به کار دستوراتی را ایجاد می کند.
-
آنچه روی صفحه نمایش شماست را تشخیص دهید
-
حتی آنچه در سرور هدلس شما با استفاده از x11 وجود دارد
-
می تواند آنها را به صورت داخلی پردازش کند.
-
دستگاه شما را خودکار می کند
-
اسکریپت های اتوماسیون را خودش بسازد
-
برای دستیابی به آنچه GPT می تواند پیشنهاد دهد، توابع سفارشی بسازید.
این تمام نشده…
- تکالیف را واقعی بنویسید! بله شوخی نیست، [RealWriterGPT] این پروژه در حال توسعه است و برای دستیابی به آن از بردهای توسعه SingularGPT + RealWriterGPT + IOT استفاده می کند.
از tensorflow برای تولید دست خط استفاده می کند.
بنابراین، فقط می توانید بگویید “لطفاً تکلیف من را با استفاده از Addon:RealWriterGPT از سوالاتی که روی دسکتاپ با متن “سوالات” قرار داده شده است بنویسید.
این پروژه ها با کمک زمینه های مختلف در علوم کامپیوتر مانند بینایی مبتنی بر هوش مصنوعی، لیب های سفارشی، اتوماسیون دستگاه و پردازش منطق داخلی با استفاده از آخرین ChatGPT و GPT-4 امکان پذیر شده است.
به اختصار:
بینایی کامپیوتر هوش مصنوعی + اتوماسیون (ZexUI) + GPT
در حال حاضر در حال توسعه است.
- بدون مکانیسم خزیدن، بدون دردسر به جای تشخیص مولفه مبتنی بر هوش مصنوعی
- تشخیص عناصر
- تشخیص متن
- تشخیص مولفه ها بر اساس برآوردها
- دستگاه خود را با استفاده از دستورالعمل های NLP خودکار کنید
- افزودنی هایی در یک ایستگاه از پیش تنظیم بسیار سبک وزن که باعث صرفه جویی در زمان و هزینه می شود
- حتی بدون هد روی سرور x11 کار می کند
- پردازش منطق داخلی برای کارهای پیچیده
در نظر گرفتن ترک یک ستاره.
در نوشتن اسناد پروژه کمک کنید.