Search Augmented Generation / Комп'ютери / Файно

#471 Search Augmented Generation 16:55:35 21.08.2024

Тарас

weights.jpg

Тут буде шось типу бложика про те як іде розробка системи, яка комбінує генеративний ШІ та пошуковий двигун і яка буде працювати суто локально, на моєму власному ПК, без клаудів цих ваших.

#472 17:00:33 21.08.2024

Тарас

Приховати Відповісти Видалити

security-degree.jpg

Кілька років тому, в рамках підготовки до потенційного ядерного армагедону, назбирав собі цілу гору цифрового барахла. Офлайн версія вікіпедії та деяких форумів на кшталт стековерфлоу, трохи художньої, трохи технічної літератури, плюс чисто моє барахло, яке назбиралось за багато років і плюс ще плани на інше.

Наприклад Sci-hub, LibGen etc. Можливо також якусь "золоту колекцію №99" репозиторіїв з гітхабу, жменьку докер-контейнерів та старе барахло з the-eye чи з досру. Якийсь медіа контент типу музики, фільмів, аніме. Але то вже таке, окрема тема.

Нахіба це потрібно, сподіваюсь, не потрібно пояснювати. Хусити нещодавно докладно пояснили причини пошкодивши кабель на дні океану, який забезпечував високошвидкісний зв'язок між континентами. Це що стосується локального зберігання інформації. Стосовно пошукового двигуна теж має бути ясно, а он генеративна частина є не просто приємним бонусом чи закосом під гуглівський genimi, а скоріше самою суттю усієї затії.

Хочеться мати не просто хаотично організовану базу знань, але і якийсь інтерфейс, щоб дістати з неї те що потрібно дуже швидко, в ідеалі використовуючи NLP, а не консольку чи бляццький windows forms.

Хотілка така виростає у кожного, хто займається рісьорчем. Перелопачувати величезну кількість інформації "вручну" дуже напарно. Хочеться одразу знати хто і що вже зробив у якісь газулі до тебе, щоб велосипед не винаходити. Це по суті основна мета будь-якогось рісьорчу.

Додаткові проблеми сюди вносить особливість сучасного Інтернету. Він засраний сміттям по самі вінця і пошуковики вже ніхуя не працюють. Часом здається що років 15 тому вони краще працювали. Скоріш за все так і є. Та похуй. Головне щоб це перестало бути моєю проблемою.

#473 17:11:32 21.08.2024

Тарас

Приховати Відповісти Видалити

Сьогодні спробую завести якусь із llm на старенькій RX580 8Gb. Якщо не вийде, або результати будуть паршивими, доведеться розкошелюватись на щось краще.

Топ з того що може затарити консюмер це RTX4090, але це невиправдано дорого.

Одразу після неї, imho, RTX3090, оскільки вона теж має 24Gb VRAM. Хоча теж не дешево, але за ₴20к нічого краще по суті і немає (AMD не враховуючи, через погану підтримку драйверів під ці справи).

Проміжні варіанти не розглядаю взагалі, бо то в основному для gayмерів комплектуха і насправді не коштує тих грошей. Або старенькі китайські рикси за ₴4к на кожного вимогливого ШІ-агента, або 3090 на все. Поки нічого кращого не придумав.

#474 16:40:16 22.08.2024

Тарас

Приховати Відповісти Видалити

Завелось на старій відеокарті. Результати:

[CLBlast]

Processing Prompt (14 / 14 tokens)

Generating (200 / 200 tokens)

CtxLimit:214/4096, Amt:200/200, Init:0.00s, Process:6.98s (498.4ms/T = 2.01T/s), Generate:36.27s (181.3ms/T = 5.51T/s), Total:43.25s (4.62T/s)

[Vulcan]

Processing Prompt (14 / 14 tokens)

Generating (200 / 200 tokens)

CtxLimit:214/4096, Amt:200/200, Init:0.00s, Process:0.58s (41.4ms/T = 24.14T/s), Generate:19.31s (96.6ms/T = 10.36T/s), Total:19.89s(10.05T/s)```

На Vulcan працює швидше, ніж на OpenCL. Але все одно швидкість так собі. Схоже на чатжпт у годину пік, просто не запинається. Найбільш підходящими моделями виглядають meta llama 3.1 8b q4_0 та mistral 7b q4_0

#475 16:57:41 22.08.2024

Тарас

Приховати Відповісти Видалити

123.png

Є свої нюанси. Але має запрацювати, якщо зробити наворочені промпти.

#476 15:51:14 17.09.2024

Тарас

Приховати Відповісти Видалити

Блядь, походу, хтось вже це все реалізував.

github.com/QuivrHQ/quivr

Ну, пофігу, так навіть краще, можна користуватись інструментом, а не пиляти його.

#480 17:26:42 15.01.2026

Тарас

Приховати Відповісти Видалити

Ну шо далі було, заїбав.