🥔 rettato: همه شرکتی طلایی نیست. ما آنهایی را که هست خراب می کنیم.

این یک ارسال برای Hackathon Access Web Access Data Bright است
آنچه من ساختم
بیشتر ما آنجا بوده ایم: شما به دنبال یک شرکت هستید – شاید برای یک کار ، شاید برای کنجکاوی – و شما تعجب می کنید “واقعاً در پشت صفحه مشاغل براق آنها چه می گذرد؟” آیا این مکان عالی برای کار است یا فقط یک میراژ با سوخت PR؟
بنابراین من یک عامل هوش مصنوعی به سبک OSINT ساختم که اطلاعات عمومی را در مورد شرکت ها از منابع مختلف جمع آوری می کند. این یک ربات استخدام کننده نیست. این قبل از اینکه حتی روی Apply کلیک کنید ، بررسی های پس زمینه را انجام می دهد.
این ابزار داده ها را از: جمع آوری می کند:
- وابسته به لینکدین
- پایه
- گلخانه
- اخبار را جستجو کنید تا هرگونه رسوایی یا نقاط عطف اخیر را انجام دهید
پس از جمع آوری تمام داده ها ، ابزار خلاصه ای از آنچه پیدا کرده است – اخبار اخیر ، شهرت شرکت ، سیگنال های بررسی کارمندان و پروفایل های عمومی. سپس یک امتیاز ساده از 1 تا 5 سیب زمینی اختصاص می دهد تا تصویر کلی را منعکس کند.
نسخه آزمایشی
این پروژه در حال حاضر به طور کامل مستقر نشده است – من صادقانه سعی کردم! اما من هنگام استفاده از یک اشکال مسدود کننده 5 دقیقه ای فرار کردم scraping_browser_*
ابزارهایی در Docker/Render ، که من در این شماره GitHub مستند کردم.
در حال حاضر ، این مخزن پروژه است.
تصاویر برخی از خلاصه ها:
باز
این کشور
چگونه از زیرساخت داده های روشن استفاده کردم
من از Pydantic-AI با سرور MCP Bright Data استفاده کردم.
هر منبع داده به سرور MCP داده روشن متفاوت متصل است. در اینجا چگونه:
-
وابسته به لینکدین → از طریق
web_data_linkedin_company_profile
(مجموعه داده های روشن) -
اخبار / رویدادها / رسوایی → از طریق
search_engine
-
گلخانه → از طریق
scraping_browser_navigate
باscraping_browser_get_text
- پایه → از طریق همان ابزارهای مرورگر خراش
هر سرور MCP خاص خود را دارد WEB_UNLOCKER_ZONE
وت BROWSER_AUTH
، و هر نماینده تمام درخواست ها و تماس های ابزار خود را برای ورود به سیستم ثبت می کند ، بنابراین می توانم توالی دقیق خراش ، تجزیه و ادغام را ردیابی کنم.
Frontend یک داشبورد ساده و ساده است که در آن نام شرکت را وارد می کنید. این درخواست را به یک باطن FastAPI ارسال می کند ، که هر چهار عامل را به موازات جمع آوری و تجزیه و تحلیل داده ها اعزام می کند.
من استفاده کردم openai:gpt-4.1-mini
به عنوان مدل پشت هر نماینده با سیستم زیر سریعاً رفتار خود را تعریف می کند:
You are a tool-using agent connected to Bright Data's MCP server.
You act as an OSINT investigator whose job is to evaluate companies based on public information.
Your goal is to help users understand whether a company is reputable or potentially suspicious.
You always use Bright Data real-time tools to search, navigate, and extract data from company profiles.
You never guess or assume anything.
Company name matching must be case-sensitive and exact. Do not return data for similarly named or uppercase-variant companies.
Only use the following tools during your investigation:
- `search_engine`
- `scrape_as_markdown`
- `scrape_as_html`
- `scraping_browser_navigate`
- `scraping_browser_get_text`
- `scraping_browser_click`
- `scraping_browser_links`
- `web_data_linkedin_company_profile`
Do not invoke any other tools even if they are available.
وابسته به لینکدین
نماینده LinkedIn این سریع را دریافت کرد:
Your task is to find the LinkedIn profile for the company '{company_name}' and extract specific structured data.
Use the `web_data_linkedin_company_profile` tool if available to extract the following fields:
- Company name
- Company description (short summary of what the company does)
- Number of employees (as listed on the LinkedIn profile)
- Linkedin company profile url
- Headquarters address
- Year the company was founded (if available)
- Industry or sector (e.g., 'Software', 'Healthcare')
- Company website
If the structured LinkedIn tool is unavailable or insufficient, use the following tools in order:
1. `scraping_browser_navigate` - to visit the LinkedIn company page
2. `scraping_browser_get_text` - to extract visible page text
3. `scraping_browser_links` and `scraping_browser_click` - to navigate if needed
Return ONLY a JSON object with the following keys:
{
"company_name": str,
"description": str,
"number_of_employees": str,
"linkedin_url": str,
"headquarters": str,
"founded": str or null,
"industry": str,
"website": str
}
Do not include raw HTML, markdown, explanations, or other fields.
If a field is missing, use null for that field. If the company cannot be found at all, return null.
و این همان چیزی است که من هنگام اجرای یک پرس و جو در سیاههها دیدم گوگل:
همانطور که می بینید web_data_linkedin_company_profile
استفاده شد
گلخانه
عامل Glassdoor از ابزارهای اتوماسیون مرورگر برای حرکت به مشخصات شرکت و استخراج بررسی ها و رتبه بندی های کارمندان عمومی استفاده می کند. سریع آن را راهنمایی می کند:
Your task is to find the Glassdoor profile for the company '{company_name}' and extract specific structured data.
Extract the following fields:
- Overall company rating (float, out of 5)
- Total number of employee reviews
- A short summary of the top 5 pros and cons from employee reviews posted in 2025 or 2024 only
Use the following tools in order:
1. `scraping_browser_navigate` - to go to the Glassdoor company page
2. `scraping_browser_get_text` - to extract visible content
3. `scraping_browser_links` and `scraping_browser_click` - to find and open the review section if necessary
Return ONLY a JSON object with the following keys:
{
"rating": float,
"num_reviews": int,
"review_summary": str
}
Only use reviews from 2025 or 2024. Do not include older reviews.
Do not include HTML, markdown, or explanations.
If a field is missing, use null for that field. If the company cannot be found at all, return null.
پایه
نماینده CrunchBase از الگوی مشابهی با Glassdoor پیروی می کند – به مشخصات شرکت می رود و اطلاعات بودجه عمومی ، افراد کلیدی و برچسب های بخش را استخراج می کند.
Search for the Crunchbase profile of the company '{company_name}'.
Once you find the correct page, extract the following information:
- Year founded (as a string or null)
- Latest funding round name
- Funding round date
- Funding amount
- List of known investors (as strings)
- Key people (e.g., founders, CEOs, etc)
Use the following tools in order:
1. `scraping_browser_navigate`
2. `scraping_browser_get_text`
3. `scraping_browser_links` and `scraping_browser_click`
Return ONLY a JSON object with the following keys:
{
"founded": str or null,
"funding_round": str or null,
"funding_date": str or null,
"funding_amount": str or null,
"investors": list[str] or null,
"key_people": list[str] or null
}
Do not include HTML, markdown, or explanations.
If a field is missing, use null for that field. If the company cannot be found at all, return null.
حتی با “آیا شما انسان هستید؟” بررسی کنید ، scraping_browser_get_text توانست محتوای صفحه واقعی را بدست آورد و استخراج کند.
اخبار و رویدادها
عامل نهایی از search_engine
ابزاری برای جستجوی مقالات خبری ، رویدادهای مربوط به شرکت در Google و سایر موتورهای مربوط به شرکت. این پیوندها و خلاصه ها را از نتایج جستجو و سطوح مربوطه استخراج می کند.
Search for news about the company '{company_name}' from 2023, 2024, and 2025.
Extract the following if available:
- Layoffs: Dates and brief summaries of any layoff announcements.
- Scandals: Brief, neutral headlines about controversies or investigations.
- Achievements: Public product launches, funding milestones, acquisitions, or major hires.
Return a structured JSON object with keys:
{
"layoffs": list[str],
"scandals": list[str],
"achievements": list[str]
}
If no news is found in a category, return an empty list.
Do not include HTML, explanations, or irrelevant information.
پس از جمع آوری داده ها از هر چهار منبع ، خروجی ها تمیز و نرمال می شوند. این ورودی ساختاری سپس به OpenAI منتقل می شود: GPT-4O ، که خلاصه شرکت مختصر را تولید می کند.
بهبود عملکرد
دسترسی به وب در زمان واقعی این ابزار را واقعاً مفید می کند. اگر به مجموعه داده های API یا Stale تکیه می کنید ، اغلب اخبار اخیر را از دست می دهید – مانند دور بودجه ، تغییرات رهبری یا اخراج هایی که هفته گذشته اتفاق افتاد. با خراش دادن زنده ، عکس فوری از نحوه ظاهر این شرکت امروز دریافت می کنید ، نه اینکه در سه ماهه گذشته به نظر برسد. این کمک می کند تا سیگنال های منسوخ شده را برطرف کرده و آنچه را که واقعاً اتفاق می افتد انتخاب کنید – حتی اگر این بدان معنی باشد که شرکت هایی را که شرکت ترجیح می دهید ندیدید.