Тут буде шось типу бложика про те як іде розробка системи, яка комбінує генеративний ШІ та пошуковий двигун і яка буде працювати суто локально, на моєму власному ПК, без клаудів цих ваших.
Кілька років тому, в рамках підготовки до потенційного ядерного армагедону, назбирав собі цілу гору цифрового барахла. Офлайн версія вікіпедії та деяких форумів на кшталт стековерфлоу, трохи художньої, трохи технічної літератури, плюс чисто моє барахло, яке назбиралось за багато років і плюс ще плани на інше.
Наприклад Sci-hub, LibGen etc. Можливо також якусь "золоту колекцію №99" репозиторіїв з гітхабу, жменьку докер-контейнерів та старе барахло з the-eye чи з досру. Якийсь медіа контент типу музики, фільмів, аніме. Але то вже таке, окрема тема.
Нахіба це потрібно, сподіваюсь, не потрібно пояснювати. Хусити нещодавно докладно пояснили причини пошкодивши кабель на дні океану, який забезпечував високошвидкісний зв'язок між континентами. Це що стосується локального зберігання інформації. Стосовно пошукового двигуна теж має бути ясно, а он генеративна частина є не просто приємним бонусом чи закосом під гуглівський genimi, а скоріше самою суттю усієї затії.
Хочеться мати не просто хаотично організовану базу знань, але і якийсь інтерфейс, щоб дістати з неї те що потрібно дуже швидко, в ідеалі використовуючи NLP, а не консольку чи бляццький windows forms.
Хотілка така виростає у кожного, хто займається рісьорчем. Перелопачувати величезну кількість інформації "вручну" дуже напарно. Хочеться одразу знати хто і що вже зробив у якісь газулі до тебе, щоб велосипед не винаходити. Це по суті основна мета будь-якогось рісьорчу.
Додаткові проблеми сюди вносить особливість сучасного Інтернету. Він засраний сміттям по самі вінця і пошуковики вже ніхуя не працюють. Часом здається що років 15 тому вони краще працювали. Скоріш за все так і є. Та похуй. Головне щоб це перестало бути моєю проблемою.
Сьогодні спробую завести якусь із llm на старенькій RX580 8Gb. Якщо не вийде, або результати будуть паршивими, доведеться розкошелюватись на щось краще.
Топ з того що може затарити консюмер це RTX4090, але це невиправдано дорого.
Одразу після неї, imho, RTX3090, оскільки вона теж має 24Gb VRAM. Хоча теж не дешево, але за ₴20к нічого краще по суті і немає (AMD не враховуючи, через погану підтримку драйверів під ці справи).
Проміжні варіанти не розглядаю взагалі, бо то в основному для gayмерів комплектуха і насправді не коштує тих грошей. Або старенькі китайські рикси за ₴4к на кожного вимогливого ШІ-агента, або 3090 на все. Поки нічого кращого не придумав.
Завелось на старій відеокарті. Результати:
[CLBlast]
Processing Prompt (14 / 14 tokens)
Generating (200 / 200 tokens)
CtxLimit:214/4096, Amt:200/200, Init:0.00s, Process:6.98s (498.4ms/T = 2.01T/s), Generate:36.27s (181.3ms/T = 5.51T/s), Total:43.25s (4.62T/s)
[Vulcan]
Processing Prompt (14 / 14 tokens)
Generating (200 / 200 tokens)
CtxLimit:214/4096, Amt:200/200, Init:0.00s, Process:0.58s (41.4ms/T = 24.14T/s), Generate:19.31s (96.6ms/T = 10.36T/s), Total:19.89s
(10.05T/s)```
На Vulcan працює швидше, ніж на OpenCL. Але все одно швидкість так собі. Схоже на чатжпт у годину пік, просто не запинається. Найбільш підходящими моделями виглядають meta llama 3.1 8b q4_0 та mistral 7b q4_0
Є свої нюанси. Але має запрацювати, якщо зробити наворочені промпти.
Блядь, походу, хтось вже це все реалізував.
Ну, пофігу, так навіть краще, можна користуватись інструментом, а не пиляти його.