رمزگشایی: ساختن یک دستیار تحقیقاتی با الهام از Notebooklm که توسط داده های روشن ساخته شده است

این یک ارسال برای Hackathon Access Web Access Data Bright است
آنچه من ساختم
کشف یک دستیار تحقیقاتی با قدرت هوش مصنوعی است که از آن الهام گرفته است Notebooklm Google این امر باعث انقلابی در نحوه تحقیق ، تجزیه و تحلیل و سنتز اطلاعات از وب می شود. این پلتفرم هر ترکیبی از اسناد ، URL ها یا مباحث را به نوت بوک های تحقیقاتی جامع که با خلاصه های تولید شده توسط AI ، قابلیت های پرسش و پاسخ تعاملی ، نمای کلی صوتی ، مأموریت های بصری و سؤالات متداول به طور خودکار تبدیل می کند ، تبدیل می کند.
مشکل رمزگشایی مشکل
تحقیقات سنتی وقت گیر و تکه تکه است. محققان اغلب با:
- اضافه بار اطلاعات: از طریق منابع بی شماری به صورت دستی استفاده کنید
- تطبیق جغرافیایی: دسترسی به محتوا از مناطق مختلف امکان پذیر نیست
- رعایت ربات: مسدود شدن هنگام تلاش برای خراش دادن داده های ارزشمند
- چالش های سنتز: مشکل در اتصال بینش در چندین منبع
- قابلیت دسترسی: تبدیل تحقیقات به قالب های مختلف برای مخاطبان مختلف
رمزگشایی با استفاده از این چالش ها به این چالش ها می پردازد سرور MCP داده های روشن برای دسترسی به وب بدون محدودیت و هوشمند وب همراه با عوامل پیشرفته هوش مصنوعی که می توانند اطلاعات را در قالب های مختلف درک ، سنتز و ارائه دهند.
ویژگی های کلیدی
🔬 تحقیقات عمیق – انجام تحقیقات کامل در مورد هر موضوعی با تجزیه و تحلیل و سنتز AI به کمک
🔍 تحقیقات چند منبع – یکپارچه اسناد ، URL ها و متن دستی را در فضاهای تحقیقاتی متحد ادغام کنید
🤖 خلاصه های AI – با استفاده از عوامل پیشرفته هوش مصنوعی ، تجزیه و تحلیل تحقیقاتی جامع و ساختار یافته ایجاد کنید
💬 پرسش و پاسخ تعاملی – با استفاده از نمایش داده های زبان طبیعی با مطالب تحقیق خود گپ بزنید
🎧 نمای کلی صوتی -خلاصه های صوتی به سبک پادکست AI با صدای متعدد
❓ نسل متداول هوشمند – به طور خودکار سؤالات متداول مربوطه را از محتوای تحقیق خود ایجاد کنید
🧠 نقشه های ذهن بصری – برای تجسم ساختار تحقیق و اتصالات ، نقشه های ذهنیت تعاملی و سلسله مراتبی ایجاد کنید
🌐 دسترسی به وب جهانی – با استفاده از زیرساخت های داده های روشن ، خطای جغرافیایی و تشخیص ربات را دور بزنید
🔍 نمای کلی ویژگی
🔬 تحقیقات عمیق
عوامل هوش مصنوعی DECIPHERIT با برنامه ریزی استراتژیک ، کشف منابع متنوع از طریق قابلیت های جستجوی جهانی داده های روشن و ترکیب اطلاعات از چندین دیدگاه ، تحقیقات جامع انجام می دهند. این سیستم می تواند هر موضوعی را از رویدادهای جاری گرفته تا موضوعات دانشگاهی تحقیق کند و تجزیه و تحلیل کاملی را ارائه دهد که محققان انسانی را رقم می زند.
🔍 تحقیقات چند منبع
کاربران می توانند انواع مختلف ورودی را در یک پروژه تحقیقاتی واحد ترکیب کنند: اسناد بارگذاری (PDF ، DOCX ، PPTX ، XLSX) ، اضافه کردن URL های سفارشی برای محتوای وب خاص ، متن دستی ورودی برای تجزیه و تحلیل مستقیم ، یا به سادگی موضوعاتی را برای کشف AI محور وارد کنید. همه منابع پردازش و در یک فضای تحقیقاتی یکپارچه ادغام می شوند.
🤖 خلاصه های AI
مأمورین تخصصی خدمه برای ایجاد خلاصه های تحقیقاتی جامع با هم همکاری می کنند. تحلیلگر تحقیق ، اطلاعات مربوط به همه منابع را سنتز می کند ، در حالی که نویسندگان نویسنده محتوا ، تجزیه و تحلیل های سازنده و ساختاری را که بینش های کلیدی ، روندها و ارتباطات را در سراسر مطالب تحقیق برجسته می کند ، ترکیب می کند.
💬 پرسش و پاسخ تعاملی
کاربران با استفاده از تعبیه وکتور و جستجوی معنایی از طریق پایگاه داده Qdrant ، می توانند در مورد محتوای تحقیق خود سؤالات طبیعی زبان را بپرسند. این سیستم با بازیابی اطلاعات مربوطه از همه منابع پردازش شده ، پاسخ های متنی را ارائه می دهد و امکان اکتشاف عمیق مطالب تحقیق را فراهم می کند.
🎧 بررسی های کلی
ویژگی در صورت تقاضا که تحقیقات را به جذابیت محتوای صوتی به سبک پادکست تبدیل می کند. نماینده ژنراتور اسکریپت پادکست اسکریپت های مکالمه ای را ایجاد می کند ، که سپس با استفاده از TTS LemonFox با صداهای متعدد AI به صوتی با کیفیت بالا تبدیل می شوند و تحقیقات را در قالب صوتی در دسترس قرار می دهند.
❓ نسل متداول هوشمند
عوامل هوش مصنوعی به طور خودکار محتوای تحقیق را برای تولید سؤالات مرتبط ، روشنگری و پاسخ های جامع تجزیه و تحلیل می کنند. این ویژگی به کاربران کمک می کند تا جنبه های اصلی موضوع تحقیق خود را درک کنند و دسترسی سریع به اطلاعات مهم را فراهم می کنند.
mind نقشه های بصری
عامل خالق MindMap ساختار تحقیق را برای تولید تجسم های تعاملی و سلسله مراتبی با حداکثر 5 سطح عمق تجزیه و تحلیل می کند. ساخته شده با React-Mindmap-Visualiser ، این MindMaps به کاربران کمک می کند تا موضوعات پیچیده را با یک نگاه درک کنند و روابط تحقیقاتی را به صورت بصری هدایت کنند.
🌐 دسترسی جهانی وب
با استفاده از سرور MCP Bright Data ، رمزگشایی Geo-Restrictions و تشخیص ربات را برای دسترسی به محتوا از هر نقطه از جهان دور می کند. این امر پوشش جامع تحقیق و دسترسی به منابع متنوع و معتبر را تضمین می کند که روشهای سنتی خراش نمی توانند به آن برسند.
نسخه آزمایشی
🚀 نسخه ی نمایشی زنده: https://decipherit.xyz
📂 مخزن جیتاب:
موضوعات ، پیوندها و پرونده ها را به نوت بوک های تحقیقاتی تولید شده توسط AI تبدیل کنید-خلاصه ، کاوش و از هر چیزی بپرسید.
✨ بررسی اجمالی
رمزگشایی یک دستیار تحقیقاتی با قدرت هوش مصنوعی است که از آن الهام گرفته است Notebooklm Google این امر باعث انقلابی در نحوه تحقیق ، تجزیه و تحلیل و سنتز اطلاعات از وب می شود. این پلتفرم هر ترکیبی از اسناد ، URL ها یا مباحث را به نوت بوک های تحقیقاتی جامع که با خلاصه های تولید شده توسط AI ، قابلیت های پرسش و پاسخ تعاملی ، نمای کلی صوتی ، مأموریت های بصری و سؤالات متداول به طور خودکار تبدیل می کند ، تبدیل می کند.
مشکل رمزگشایی مشکل
تحقیقات سنتی وقت گیر و تکه تکه است. محققان اغلب با:
- اضافه بار اطلاعات: از طریق منابع بی شماری به صورت دستی استفاده کنید
- تطبیق جغرافیایی: دسترسی به محتوا از مناطق مختلف امکان پذیر نیست
- رعایت ربات: مسدود شدن هنگام تلاش برای خراش دادن داده های ارزشمند
- چالش های سنتز: مشکل در اتصال بینش در چندین منبع
- قابلیت دسترسی: تبدیل تحقیقات به قالب های مختلف برای مخاطبان مختلف
رمزگشایی با استفاده از این چالش ها به این چالش ها می پردازد سرور MCP داده های روشن…
نسخه آزمایشی
📺 رمزگشایی را در عمل مشاهده کنید:
https://www.youtube.com/watch؟v=ccfhie4h9wy
این فیلم نشان می دهد:
- تنظیم یک دفترچه تحقیق جدید
- اضافه کردن چندین منبع (URL ، اسناد ، متن)
- فرایند تحقیق و تجزیه و تحلیل AI
- کاوش در خلاصه ها و بینش های تولید شده
- با استفاده از ویژگی های تعاملی مانند پرسش و پاسخ و mindmaps
- ایجاد نمای کلی صوتی
عکس
چگونه کار می کند
- منابع تحقیق خود را وارد کنید: هر موضوع را وارد کنید ، اسناد را بارگذاری کنید ، URL های سفارشی یا متن دستی ورودی را اضافه کنید
- برنامه ریزی هوش مصنوعی: این سیستم با استفاده از عوامل تخصصی هوش مصنوعی یک برنامه تحقیقاتی استراتژیک ایجاد می کند
- کشف وب: موتور جستجوگر داده های روشن منابع مربوطه را در سطح جهان پیدا می کند
- خراش هوشمند: داده های روشن محتوا را استخراج می کنند و آن را به فرمت Markdown تبدیل می کنند
- تجزیه و تحلیل AI: چندین عامل هوش مصنوعی تجزیه و تحلیل ، سنتز و ایجاد خلاصه های جامع
- خروجی چند فرمت: خلاصه های تحقیق ، سؤالات متداول ، MindMaps Visual و نمای کلی به سبک پادکست را دریافت کنید
پشته فنی
جبهه
- next.js 15 با روتر برنامه
- واکنش 19 با ویژگی های همزمان
- نسخه 5 برای نوع ایمنی
- Tailwind CSS 4 برای یک ظاهر طراحی شده
- سیتن/پیاز کتابخانه قطعات
- بهتر برای احراز هویت
- واکشی برای تجسم mindmap تعاملی
پشت
- پایتون 3.12 با fastapi
- کرجی برای ارکستراسیون چند عامل
- سرور MCP داده های روشن برای دسترسی به وب
- qdrant پایگاه داده وکتور برای جستجوی معنایی
- ساق پا با postgresql
- lemonfox tts برای تولید صوتی
خدمات AI و ML
- Google Gemini از طریق OpenRouter برای قابلیت های LLM
- تعبیه Openai برای جستجوی معنایی
- علامت گذاری برای پردازش سند
نمای کلی خدمه خدمه
رمزگشایی از یک معماری پیچیده چند منظوره استفاده می کند کرجی:
خدمه برنامه ریزی
- نماینده: کارشناس استراتژی خراش وب
- وظیفه: 3 نمایش جستجوی هدفمند برای پوشش جامع موضوع ایجاد کنید
خدمه کشف پیوند
- نماینده: متخصص کشف لینک
- وظیفه: منابع معتبر را با استفاده از موتور جستجوی داده روشن پیدا کنید
خدمه خراش وب
- نماینده: مهندس کارشناس وب سایت
- وظیفه: محتوای Markdown را از URL ها با استفاده از Scraper Bright Data استخراج کنید
خدمه تجزیه و تحلیل تحقیق
- نماینده: تحلیلگر ارشد تحقیق
- وظیفه: سنتز داده های چند منبع در بینش های تحقیقاتی جامع
خدمه ایجاد محتوا
- مأمورین: تحلیلگر تحقیق + نویسنده محتوا
- وظایف: ایجاد پست های وبلاگ جذاب + تولید 10 سؤالات متداول دقیق
خدمه نمای کلی صوتی
- مأمورین: تحلیلگر تحقیق + برنامه ریز مکالمه + نویسنده اسکریپت
- وظایف: تجزیه و تحلیل محتوا + مکالمه برنامه + تولید نسخه پادکست 4-5 دقیقه ای
خدمه نسل MindMap
- مأمورین: آنالایزر محتوا + خالق MindMap
- وظایف: مضامین سلسله مراتبی را شناسایی کنید + تجسم های تعاملی ایجاد کنید (حداکثر 5 سطح)
خدمه پاسخ چت
- نماینده: رمزگشایی (دستیار تحلیلی)
- وظیفه: به سؤالات با استفاده از جستجوی بردار و زمینه چت با استناد به منبع پاسخ دهید
معماری
چگونه از زیرساخت داده های روشن استفاده کردم
داده های روشن سرور MCP (پروتکل زمینه مدل) ستون فقرات قابلیت دسترسی به وب Decipherit است. در اینجا نحوه ادغام آن آورده شده است:
1 ادغام رسمی سرور MCP
from mcp import StdioServerParameters
from crewai_tools import MCPServerAdapter
server_params = StdioServerParameters(
command="pnpm",
args=["dlx", "@brightdata/mcp"],
env={
"API_TOKEN": os.environ["BRIGHT_DATA_API_TOKEN"],
"BROWSER_AUTH": os.environ["BRIGHT_DATA_BROWSER_AUTH"]
},
)
2 اجرای دو ابزار اصلی
ابزار موتور جستجو – برای کشف منابع مربوطه:
web_scraping_link_collector_tools = [
tool for tool in tools if tool.name in ["search_engine"]
]
به عنوان ابزار Markdown Scrape – برای استخراج محتوای تمیز:
web_scraping_tools = [
tool for tool in tools if tool.name in ["scrape_as_markdown"]
]
3 گردش کار چند عامل
من عوامل خدمه تخصصی ایجاد کردم که از ابزارهای داده های روشن استفاده می کنند:
-
نماینده جمع کننده پیوند: استفاده می کند
search_engine
برای یافتن منابع مربوطه بر اساس موضوعات تحقیق -
عامل اسکرابر وب: استفاده می کند
scrape_as_markdown
برای استخراج محتوای تمیز و ساختاری از URL های کشف شده
4 پردازش موازی برای مقیاس
# Execute multiple scraping tasks in parallel
web_scraping_tasks = []
for link in links:
web_scraping_tasks.append(
web_scraping_crew.kickoff_async(inputs={
"url": link.url,
"current_time": current_time,
})
)
web_scraping_results = await asyncio.gather(*web_scraping_tasks)
6 پردازش داده ها و ادغام هوش مصنوعی
در اینجا نحوه پردازش داده های خراشیده شده و ادغام آن با عوامل هوش مصنوعی ما آورده شده است:
# Process scraped content for AI analysis
async def integrate_scraped_data(web_scraping_results, links):
scraped_data = []
# Extract clean content from Bright Data results
for link, result in zip(links, web_scraping_results):
scraped_data.append({
"url": link.url,
"content": result.raw, # Clean markdown format
"title": link.title
})
# Create vector embeddings for semantic search
embeddings = await create_embeddings(scraped_data)
# Store in Qdrant vector database
await store_in_vector_db(embeddings, scraped_data)
# Trigger AI analysis crew
research_result = await research_content_crew.kickoff_async(inputs={
"scraped_data": scraped_data,
"current_time": datetime.now().strftime("%Y-%m-%d %H:%M:%S")
})
return research_result
ادغام Frontend با React و TypeScript:
// Research hook for managing AI-powered research
const useResearch = () => {
const [isLoading, setIsLoading] = useState(false);
const [research, setResearch] = useState<Research | null>(null);
const startResearch = async (sources: ResearchSource[]) => {
setIsLoading(true);
try {
const response = await fetch("/api/research", {
method: "POST",
headers: { "Content-Type": "application/json" },
body: JSON.stringify({ sources }),
});
const result = await response.json();
setResearch(result);
} catch (error) {
console.error("Research failed:", error);
} finally {
setIsLoading(false);
}
};
return { research, isLoading, startResearch };
};
5 ادغام بدون درز با خط لوله AI
داده های خراشیده شده از داده های روشن یکپارچه در سیستم پردازش AI چند لایه رمزگشایی جریان می یابد:
پردازش فوری:
- تعبیه های بردار با استفاده از تعبیه OpenAi ایجاد شده و برای قابلیت های جستجوی معنایی در QDrant ذخیره شده است
- تحلیل متن توسط عوامل تحلیلگر تحقیق برای سنتز اطلاعات از منابع متعدد
- نسل سؤالات متداول اتوماتیک با تجزیه و تحلیل الگوهای محتوا و استخراج بینش های کلیدی
نسل تقاضا:
- ایجاد فیلمنامه صوتی هنگامی که کاربران درخواست نمای کلی به سبک پادکست را می دهند ، توسط نمایندگان تخصصی TTS پردازش می شوند
- تجزیه و تحلیل ساختار Mindmap برای تجسم سلسله مراتبی وقتی کاربران می خواهند نمایش های بصری داشته باشند
- پاسخهای پرسش و پاسخ تعاملی با استفاده از جستجوی شباهت بردار از طریق محتوای پردازش شده
بهبود عملکرد
دسترسی به داده های وب در زمان واقعی از طریق زیرساخت داده های روشن عملکرد سیستم هوش مصنوعی رمزگشایی به طرز چشمگیری در مقایسه با رویکردهای سنتی استاتیک داده ها:
🚀 پیشرفت های کلیدی
دسترسی به اطلاعات در زمان واقعی: بر خلاف سیستم های هوش مصنوعی محدود با آموزش برش داده ها ، نمایندگان Decipherit به اطلاعات فعلی از جمله اخبار ، آخرین مقالات تحقیقاتی و آمار به روز دسترسی دارند.
کشف محتوای جهانی: موتور جستجوگر داده های روشن ، عوامل هوش مصنوعی را قادر می سازد تا دیدگاههای متنوعی را از منابع جهانی ، دسترسی به محتوای خاص منطقه و پیدا کردن انتشارات تخصصی که سیستم های استاتیک نمی توانند به آن دسترسی پیدا کنند ، کشف کنند.
پردازش داده های پاک: ابزار داده های روشن ، محتوای ساختاری و تمیز را فراهم می کند که عوامل هوش مصنوعی به طور مؤثرتر پردازش می کنند و باعث بهبود دقت تجزیه و تحلیل و کاهش نویز می شوند.
پیشرفت های آینده
- خط ذهن تعاملی: ویژگی های پیشرفته MindMap با گره های قابل ارتقا ، یک ظاهر طراحی شده سفارشی و گزینه های صادراتی
- اعلان های ایمیل: هشدارهای ایمیل خودکار برای تکمیل تحقیق و به روزرسانی های مهم
- برنامه همراه: تجربه موبایل بومی برای تحقیق
- مکانیسم آزمایش مجدد قوی تر: بهبود وظیفه پس زمینه با منطق آزمایش مجدد هوشمند
- به روزرسانی های وضعیت زنده: نظارت بر فعالیت در زمان واقعی و ردیابی پیشرفت
- خراش پیچیده تر: قابلیت های پیشرفته خراش وب برای محتوای پویا و سایت های پیچیده
- علائم اجتماعی: ادغام با Google ، GitHub و سایر ارائه دهندگان احراز هویت اجتماعی
پایان
Decipherit قدرت ترکیب زیرساخت های دسترسی به وب قوی داده های روشن را با عوامل پیشرفته هوش مصنوعی نشان می دهد. با استفاده از سرور MCP داده های روشن، ما یک دستیار تحقیقاتی ایجاد کرده ایم که می تواند بدون محدودیت های معمولی روشهای سنتی خراش ، اطلاعات را از سراسر وب جهانی به آن دسترسی ، تجزیه و تحلیل و سنتز کند.
این پلتفرم نشان می دهد که چگونه دسترسی به داده های وب در زمان واقعی می تواند عملکرد سیستم هوش مصنوعی را به طرز چشمگیری بهبود بخشد و تحقیقات را سریعتر ، جامع تر و قابل اطمینان تر از گذشته انجام دهد.
با تشکر ویژه از Dev.to و داده های روشن برای سازماندهی این هکاتون شگفت انگیز که باعث رمزگشایی امکان پذیر شد! فرصتی برای ساخت با زیرساخت های قدرتمند داده های روشن در زنده ماندن این پروژه بسیار ارزشمند بوده است.