▎گزارش پروژه
در این پروژه، با استفاده از Scrapy، سایت Doctor-Yab را کرال کردم. به غیر از روشهای متداول، اطلاعات را با استفاده از Embed کردن سوالات و محاسبه فاصله آنها به دست آوردم. سپس با استفاده از LangChain یک Vector Space ساختم و با Llama 3.1 یک چتبات برای پاسخگویی به سوالات ایجاد کردم.
▎نکات قابل توجه
متأسفانه به دلیل مشغلههای کاری و عدم دسترسی به API مدل، برخی از ایدهها را نتوانستم اجرا کنم که شامل موارد زیر است:
- کرال کردن سایت NiniSite که زمان زیادی نمیگیرد.
- استفاده از مدلهای بهتر برای Embedding که به دلیل عدم دسترسی به API نتوانستم آن را پیادهسازی کنم. البته یک تست با Llama 3.1 به صورت محلی انجام دادم، اما به دلیل سرعت پایین آن، این گزینه را حذف کردم.
- ایده دیگری که تست کردم و نتیجه خوبی داشت، استفاده از Llama برای عمومیسازی سوالات متداول بود. این روش میتوانست سوالات و پاسخها را ویرایش کرده و به صورت عمومی ذخیره کند تا در مراحل بعدی عملکرد بهتری داشته باشیم. این کد را تست کردم و به خاطر سرعت پایین کامنت کردم، اما در صورت دسترسی به API میتوان از آن استفاده کرد.
- استفاده از Reranker نیز مرحله بعدی بود که به دلیل مشکلات عملکرد حذف شد.
- همچنین، استفاده از Agentها برای عمومیسازی سوالات کاربر و سپس بازیابی و پاسخگویی، و همچنین استفاده از Agent برای ویرایش نهایی پاسخ کاربر میتواند به کیفیت مدل کمک کند.
▎نتیجهگیری
با وجود محدودیتهای موجود، پروژه به خوبی پیش رفت و ایدههای جدیدی برای بهبود عملکرد و کیفیت مدل شناسایی شد که در آینده قابل اجرا خواهند بود.