Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №121 /llama/

Аноним 10/04/25 Чтв 00:49:39 #1 №1142778

Llama 1.png

Альфа от контекста.png

KL-divergence statistics for Mistral-7B.jpg

17410866408880.png

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, бугуртим с кривейшего тормозного говна и обоссываем калотарок.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1134362 (OP)
>>1127590 (OP)

Аноним 10/04/25 Чтв 00:51:18 #2 №1142780

первыйнах

Аноним 10/04/25 Чтв 00:58:29 #3 №1142789

>>1142484 →
Как можно Ministrations, чтоб без Shivers on my spine?
Невозможно без Acception не схватиться за Jawline.
Swaying hips я начинаю, с Blushing slightly на щеках,
Just maybe я предвкушаю, видишь Glint в моих глазах?
Как без Borders все возможно? Наш Bond крепок, вы спросите!
Mischievous мне не сложно… Slop вы этот полюбите!
(пауза)
(медленно с нарастающей скоростью)
Люблю Swaying, люблю Hips, Tail brushing обожаю.
Logit bias не поможет, Клодослоп я вспоминаю!
I won't bite — ну я же честно, Unless you ask — добавлю нежно.
Понимаешь..? спрошу трижды, *прыгает на хуй (внезапно)* **Oh my god! Make me yours!** *winks*

Слава нейросетям!

Аноним 10/04/25 Чтв 01:55:43 #4 №1142860

Вот со всем вроде разобрался а с семплерами тумач полный, ничего непонятно. Есть норм источники? Везде инфа противоречит, а начинаю сам мудрить - вообще всё капут

Аноним 10/04/25 Чтв 02:00:27 #5 №1142867

Аноны, у вас актуальный список моделей прошлогодний.
Вы за шапкой смотрите?

мимо

Аноним 10/04/25 Чтв 02:04:19 #6 №1142876

>>1142860
Обниморда, вики треда, вики кобольда. Где встретил противоречия?
>>1142867
Мейнтейнер проебался.

Аноним 10/04/25 Чтв 02:10:10 #7 №1142894

Ебать я дибил. У меня в систем промпте "neutral - chat" стояло. Свичнул на дефолт пресет "roleplay - immersive", и рп на 12б сайнеме потекло, хоть ложкой черпай.
Анон, у которого не кумилось

>>1142867
Известная боль, как раз в прошлом треде поднимали вопрос ребром. Вот видишь, до какого пиздеца дошло...

Аноним 10/04/25 Чтв 02:22:34 #8 №1142927

9.jpg

Кто там хотел на провода в корпусе полюбоваться?

Таки переставил 3090 в корпус. Для это еще купил 100500 кулеров для него, чтобы там все дышало. Настроил их через бивас, но там датчики походу к процессору привязаны (выбрать источник нельзя), и корпус немного взлетает при инференсе (казалось бы, при чем тут процессор, а вот при том, он тоже нагружается. Не зря там количество потоков надо задавать в жоре/кобольде.). Не так плохо, как с теслами было, конечно, но все равно я уже отвык от гула вентиляторов. Надо будет поднастроить.

Ну и еще и леера перераспределил, загрузив по максимуму 3090 и 3080ти, а остаток на 3060, вроде у нее самая медленная память.

Было:
[16:40:55] CtxLimit:9767/32768, Amt:343/2048, Init:0.03s, Process:39.89s (4.2ms/T = 236.24T/s), Generate:61.26s (178.6ms/T = 5.60T/s), Total:101.15s (3.39T/s)
[16:42:18] CtxLimit:9853/32768, Amt:429/2048, Init:0.02s, Process:0.01s (7.0ms/T = 142.86T/s), Generate:75.19s (175.3ms/T = 5.71T/s), Total:75.19s (5.71T/s)

Стало:
[01:59:19] CtxLimit:10804/32768, Amt:491/2048, Init:0.12s, Process:42.76s (4.1ms/T = 241.18T/s), Generate:85.23s (173.6ms/T = 5.76T/s), Total:127.99s (3.84T/s)
[02:01:02] CtxLimit:10824/32768, Amt:511/2048, Init:0.03s, Process:0.04s (42.0ms/T = 23.81T/s), Generate:87.46s (171.2ms/T = 5.84T/s), Total:87.50s (5.84T/s)

Не десятые доли токенов, а платина!

Эксперимент с бтц материнкой в процессе. Я завел на ней все свои теслы (еще раз спасибо за биос, анон), но комплектного ssd, сцуко, не хватает для кеша модели. Загружать ее по сети - просто нереально. Без кеша он ~час (!) заполняет одну теслу (100 Мбит/с, мать их), а внешний хард материнка/линух с какого-то хуя не подцепляет, чтобы хотя бы там кусочек кеша хранить. Придется покупать новый и заново там все ставить.

Аноним 10/04/25 Чтв 03:08:31 #9 №1143010

>>1142927
>Надо будет поднастроить.
Ты поаккуратнее там, анон. Пикча-то пойдёт в ОП по-любому, а вот её автор... Выглядит всё страшноватенько.

Аноним 10/04/25 Чтв 03:41:02 #10 №1143056

>300+ новых постов в треде
>ух щас наверну годноты
>большая часть из них - очередной пустопорожний срач семплерошиза с парой рандомных анонов

Аноним 10/04/25 Чтв 03:49:54 #11 №1143057

>>1143056
> маааам я опять ищу своих протыков
Срачей постов на 15 а долбоеб уже триггернулся. Точно ущемленный производитель рака, у которого вскрылась рана.

Аноним 10/04/25 Чтв 04:08:09 #12 №1143085

>>1143057
А вот и сабж собственной персоной, ну хоть бы лексикон сменил.

Аноним 10/04/25 Чтв 04:36:42 #13 №1143105

>>1141723 →
Карточка хорошая, годная, несколько часов залипал. Ради кума без читинга пришлось постараться, даже на 3д-принтере в лаборатории робочлен полимерами печатать.
Немецкие ученые - ОБЧР 0:1

Аноним 10/04/25 Чтв 09:31:31 #14 №1143183

>>1142867
Шапка содержит самый актуальный список, найденный в треде. Кто ж виноват, что никто не составил списка актуальнее? Может быть ты?

Аноним 10/04/25 Чтв 09:44:35 #15 №1143192

>>1143183
База треда для работяг:
- https://huggingface.co/mlabonne/gemma-3-27b-it-abliterated
- https://huggingface.co/ReadyArt/Forgotten-Transgression-24B-v4.1
- https://huggingface.co/Aleteian/Darkness-Reign-MN-12B
- https://huggingface.co/trashpanda-org/QwQ-32B-Snowdrop-v0

Аноним 10/04/25 Чтв 10:19:23 #16 №1143202

Сегодня выходит qwen 3. После этого ничего уже не будет прежним. Все готовы?

Аноним 10/04/25 Чтв 10:29:25 #17 №1143204

>>1143202
Там как бы недавно целое семейство моделей вышло, и новая кодерская 14B
Ну а квен, скорей всего мое

Аноним 10/04/25 Чтв 10:39:22 #18 №1143208

>>1143202
Что даст? Более крутой рп?

Аноним 10/04/25 Чтв 10:46:10 #19 №1143212

>>1143192
>Работяг
>27B гемма.
Может всё таки для работяг поменьше гемму. Или это все таки уже раздел для бичар ?

Аноним 10/04/25 Чтв 10:49:18 #20 №1143216

image

>>1143207
чувак, ты под чем, откуда манямеподрывы, 99% карточек с генерированными на сдохле картинками, всегда были и всегда будут XD

>>1143212
Имелось в виду с одной видеокартой, а 4м кванте гемма влезет даже в 12 гб врам с 3.18 tokens per second, для ниже 12 гб - есть мистральки и их кванты

Аноним 10/04/25 Чтв 10:49:52 #21 №1143218

>>1143212
Если каждую генерацию отходить покурить, то в целом подойдет и работягам.

Аноним 10/04/25 Чтв 10:52:37 #22 №1143220

>>1143218
>отходить покурить
или поработать

Аноним 10/04/25 Чтв 10:54:38 #23 №1143225

>>1143220
В целом да, если попросить писать модельку пастами, то можно утром поставить, а вечером после работы прийти прочитать и лечь спать.

Аноним 10/04/25 Чтв 10:57:47 #24 №1143231

>>1143225
на деле не так печально =)
генерация ответа занимает минуты 3-4, а отвлекаться от работы даже каждые 5 минут - этак ничего не сделаешь, так что времени даже с завпасом

Аноним 10/04/25 Чтв 11:04:54 #25 №1143238

>>1142778 (OP)
Что есть для управления временем в чате? Хочу, чтобы была например дата когда начинаются события и другие определенные даты были тригерами для других событий. При этом, чтобы были таймскипы, типо персонаж А попал в тюрьму, там пару дней идет сюжет и дальше таймскип пару лет, дальше сюжет, дальше таймскип и на свободу. Или гиблое дело надеяться что время не проебеться?
Нашел только такого бота https://www.characterhub.org/characters/Ayrtony/timey-the-clock-bot-b13e731c9070

Аноним 10/04/25 Чтв 11:08:32 #26 №1143240

>>1143238
>Или гиблое дело надеяться что время не проебеться?
просить добавлять статблок с время / дата / локация, но в целом да, дело гиблое, так как модели вопринимают это как текст а не как данные, плюс репетативные фрагменты (те же статблоки) сильно склонают модели к (за)лупам.

Аноним 10/04/25 Чтв 11:09:20 #27 №1143241

>>1143238
У меня если что персонажи по 500 лет живут, так что временная линия должна быть большой, но чет кажется я губу раскатал или нет?

Аноним 10/04/25 Чтв 11:13:43 #28 №1143247

>>1143238
Вот этот>>1143240 нейрогосподин правильно подметил.

Проблема любых правил и точных значений, что они ирл работают - как only и if. А нейросеть воспринимает это просто как текст, не отделяя его. Поэтому РП на небольших моделях невозможен (я про труЪ рп D&D c книгами правил). Или подрубать отдельный модуль, который будет отделен от карточки (если такой есть) или вести отдельные расчеты.
Простой и вменяемый способ - это попинывать нейросеть, говоря что ей делать, условно вечером.

Аноним 10/04/25 Чтв 11:25:25 #29 №1143259

>>1143247
А если отдельно указать, что то то и то то должно восприниматься исключительно как only и if?
Просто я разрабатываю лорбук который весь на такой хуйне, с ячейками ходов, статами, скилами,nsfw статами, очень хотел свою игровую вселенную прям создать, а получается занимаюсь хуйней. Но я все равно продолжу т.к.не сегодня, так завтра выйдут модели получше или железо получше, я не прочь подождать пару лет, да и койфую от самого процесса прописывания всех этих правил. Свое днд создам, с блекджеком и шлюхами.

Аноним 10/04/25 Чтв 11:29:26 #30 №1143261

>>1143259
Весь твой промт - это исключительно текст. В нем нет амперсандов, нет логических функций. Это просто текст.
Не трать время на добавление D&D фич, потому что это бесполезно.

Аноним 10/04/25 Чтв 11:34:37 #31 №1143269

>>1143259
>свою игровую вселенную прям создать
Я вожу партии по ролевкам в свободное от работы время, уже лет 12.
Даже приблизительно, если прикинуть, вселенная это тысяч 20-40 токенов. Если лорбук - можно ужаться до 2 тысяч в карточке, но при этом лорбук будет жирным. У тебя НЕТ ЖЕЛЕЗА для таких игрищ. Пока еще нейронки не подходят. Они хороши как асистенты, но как ДМ - неее. Всё еще говно.

Аноним 10/04/25 Чтв 11:37:56 #32 №1143276

>>1143269
Ну лорбук не постоянно же весит в контексте, только некоторые записи будут висеть постоянно, я могу под лорбук выделить около 40% всех токенов, я запускаю с 12b с 32к контекста или 27b с 16к контекста. Там в целом порядка 2-4 токенов в секунду в обоих случаях из оперативы, меня это устраивает, я ждун.

Аноним 10/04/25 Чтв 12:01:05 #33 №1143294

Предлагаю анонам затестить https://huggingface.co/bartowski/deepcogito_cogito-v1-preview-qwen-14B-GGUF

Чувствуется потенциал для файтюна русского кума

Аноним 10/04/25 Чтв 12:12:03 #34 №1143300

Слава модеру, говно подчистили.

Аноним 10/04/25 Чтв 12:17:19 #35 №1143305

https://huggingface.co/Moraliane
Как этим пользоваться? Скачать все файлы и что дальше?

Аноним 10/04/25 Чтв 12:23:16 #36 №1143313

>>1143305
все не надо
надо только гуф жив

Аноним 10/04/25 Чтв 12:24:50 #37 №1143315

>>1140982 →
Че у тя жопа-то горит?
Ты смешно метаешь стрелки, буквально сам выебонов навалил, выставил себя экспертом, а как я сказал, что признаю твою правоту, если скинешь хоть что-нибудь, помимо мнения — так сразу начал стрелки метать. =) Так и про тесты изначально не сказал.

Успокойся, ну ты малеха подобосрался с аргументацией, бывает. Всем пофиг, Гемма не виновата, пусть люди сами решают же. Зачем безапелляционно заявлять, что даже 27б сразу становится хуевой.

Про картинки вообще не понял, боевые пикчи — удел слабаков. А смайлики я ставлю с начала тредов. Не туда воюешь че-т. Перепутал с челом, который постоянно тянку постит или че?

>>1140991 →
Пассивно-агрессивные смайлики. =D Бля, ну… Я даже не думал, честно.
Вот буквами хуйню писать я умею. А смайлики просто смайлики. =) Лыбу давлю ирл, смайлик пишу, человек простой.

Полотнами я не сру еще 4 треда, пока с геммой не успокоится народ. =)

>>1141014 →
Да! Пасиба, что понимаете. <3

>>1141019 →
Нет, не ОП. Просто дед, да.

>>1141121 →
Прости пожалуйста, я даже не против твоих фантазий, но можно Альтмана заменить хотя бы на Миру Мурати?.. Я… ну это… не фанат, в общем…

———
Приятно, что меня помнят и обсуждают. =3 Пасибое.
(нифига себе я кому-то в жизнь насрал, простите=)
———

>>1141153 →
Контекст — это все, что висит в (кратковременной) памяти, это она и есть, строго говоря. Технический термин.
Промпт — это вот что-то в начале самом, чисто формальная штука. Т.е., конечно, и сами запросы (РП) можно считать промптом, но в процессе РП ты не хочешь думать о промпт-инжиниринге, ты хочешь рпшить, чтобы твой изначальный промпт вел модель наилучшим образом.
Я так чувствую. ©

>>1141207 →
Вообще, звучит неплохо для MoE моделек.

>>1141348 →
Бля, это жиза со списком моделей. Полгода назад накидали модели в вики, потом три месяца приходили люди «ебать у вас говна в вики навалено!» и хоть бы хто внес изменения, а не пиздел просто. =)
Так и тут, да.

>>1141383 →
Блин, ну такое, лучше на GGUF основываться, табби можно-нужно, но минимум на равных, явно не фокусироваться. ГГУФы много юзают, экслламу мало. И новичкам полезнее, знать о выгрузке слоев и вот это вот все.

>>1141501 →
> Вот эти полотна новичок точно не будет читать и вникать. А кто прочтет - без пол литра не разберется или только больше запутается напридумывав.
А других нет, йопта. Читать-то нечего.
Типа, если ничего не будет возникать — то со временем ситуация не изменится.
Пусть лучше возникнет три плохих, чем ничего. Новички в итоге обучаются по рандомным статьям из интернета, где всякое говно советуют, а потом «ваши ллм тупые пиздяо». Нахуй надо.
Из трех плохих может собраться один хороший.
Из 0 любых выйдет 0 хороших.

>>1142003 →
> Это да, уже гуглил. XMP конечно обычно заводится, но по таймингам жмется тяжко.
Даже DDR4 на высоком XMP не всегда заводится.
Ты не путай, быстрая DDR5 — это хотя бы 7200, а лучше 8000 и выше.
Тебе об этом говорили, чтобы не рассчитывал. 96 гигов двумя по 48 можно. 192 четырьмя — уже очень тяжело.
А разница по скорости в 30%-50%… Оно тоже чувствуется.

>>1142087 →
> ебать ты кобольд
AI!
хрюк =D

>>1142387 →
На Гемме квантование кэша замедляет ее вдвое.
Живи с этим.
Проблем с flash attention и контекстом геммы, у них там разное не помню точно как называется что.

>>1143202
Уф-уф-уф! Готовимся!

Хотя сходу опять будут просто умные рабочие модельки. =) Но это нам надо.

Аноним 10/04/25 Чтв 12:30:48 #38 №1143327

>>1143305
Качаешь все нужные тебе gguf файлы, но перед этим нужно
запустить командную строку (cmd) от имени администратора,
ввести команду diskpart и нажать Enter, и потом прописать list disk C , либо же просто list disc и потом уже выбрать место откуда ты будешь у себя на компе запускать нейронку. Но обычно это у всех диск C

Аноним 10/04/25 Чтв 12:31:49 #39 №1143331

>>1143294
Квен же всегда был больше игрушкой для погромистов.

Аноним 10/04/25 Чтв 12:33:45 #40 №1143334

>>1143331
ты сначала попробуй и увидишь разницу, между этой моделью и обычным квеном. Особенно на русском.

Аноним 10/04/25 Чтв 12:40:07 #41 №1143340

>>1143334
Я общаюсь исключительно на английском, не потому что БАРЕНСКИЙ ЯЗЫК, а потому что англоязычные датасеты просто ЕБОВЫХ размеров.
Когда какая нибудь корпа РФ запилит наконец нормальные румодельки или датасеты, то токда и вкачусь.
Я все понимаю, но даже большая мистраль имеет сухой русский. Я не могу выносить такое насилие над своим любимым языком.

Аноним 10/04/25 Чтв 12:40:37 #42 №1143342

>>1143315
>ебать ты кобольд
жесть тред с этой фразы порвало XD

Буквально девизом стала.

Аноним 10/04/25 Чтв 12:43:38 #43 №1143346

>>1143327
а чо не sudo rm -rfv / сразу
ну или её форточковый аналог

Аноним 10/04/25 Чтв 12:55:57 #44 №1143369

16743368491430.png

>>1143261
>>1143247
Ну вот вы говорите так нельзя, я погуглил, а в SillyTavern же есть расширения:
1) Regex(которое может вызывать сценарий с instruct по тригеру https://docs.sillytavern.app/extensions/regex/)
Типа такого (сработает если упомянута "голубая картошка" между 13 и 14 часами дня):
{
"regex": "\\b(Повар):\\s+картошка\\s+голубая\\b",,
"action": "instruct",
"instruction": "Готовь картошку",
"condition": "(hour >= 13 && hour < 14)"
}
2) STscript
https://docs.sillytavern.app/usage/st-script/
Тут еще не разобрался, но выглядит вроде мощно.

Еще есть векторные базы, которые могут менее подробно заменить сам лорбук. Не имел с ними дел.

Есть такие кто работал со всем этим? Как оно?

Аноним 10/04/25 Чтв 13:01:43 #45 №1143379

>>1143346
Ну он же на винде хочет нейронки запускать

Аноним 10/04/25 Чтв 13:07:12 #46 №1143388

>>1143369
Не забывай после ссылок ставить пробел перед знаками препинания. А то ссылки часто бьются.

Аноним 10/04/25 Чтв 13:19:43 #47 №1143398

>>1143369
Нихуя у тебя походу глаза горят это сделать.
Болею за тебя всеми силами.

Аноним 10/04/25 Чтв 13:37:20 #48 №1143405

Есть какой-то способ увеличить скорость генерации? Мне щас очень вкатил QwQ, но он тяжелый, видяху я воткнуть в ближайшее время не смогу никак, верчу модельки на проце, скорость QwQ в четвертом кванте около 2 токенов в секунду (32 гига ddr4 3200мгц, два канала). Проапгрейдить щас могу только оперативу, разве что (и то, если втыкать с более высокой частотой, не знаю тогда куда девать старые плашки)

Аноним 10/04/25 Чтв 13:43:18 #49 №1143413

>>1143405
Проще API купить и генерить в 300 т/с по цене 5 лямов токенов за бакс.

Аноним 10/04/25 Чтв 13:44:24 #50 №1143415

>>1143405
Глобально ты ничего не можешь сделать. Минимальный прирост получишь заменив оперативку на ддр5, но как бэ чаще всего это подразумевает замену матери и процом, что проще купить видюху.

Аноним 10/04/25 Чтв 13:48:41 #51 №1143423

image

Вот так вот кожаные мешки, закапывайтесь в могилки...

Аноним 10/04/25 Чтв 13:48:57 #52 №1143425

>>1143413
это где так?

Аноним 10/04/25 Чтв 13:51:59 #53 №1143429

>>1143405
Ничего. Разгон оперативы — сомнительные 10% производительности.
Покупка видяхи на 12 гигов — тоже не великий скачок.
DDR5 просто удвоит, но тут всю платформу менять.
P40 дешевых нет.

Кроме покупки бу 3090 вариантов, вроде бы, не осталось.

Аноним 10/04/25 Чтв 13:52:08 #54 №1143430

Обьясните тряску по квен3
Выходили же уже квены недавно чем тройка лучше них?

Аноним 10/04/25 Чтв 13:53:25 #55 №1143434

Кто нибудь может объяснить про жор врама? Почему гемма 3 27 жрет намного больше чем мистраль 3.1 24, даже если модель весит одинаково? Пример, мистраль q4_km весит 14 гигов и влезает с 20к контекста q8 в 16гб врама, а гемма q3_km весит 13.2гб и не влезает даже 10к контекста q8. Даже квен 32 жрет меньше при одинаковом размере модели. Это с архитектурой связано или с чем?

Аноним 10/04/25 Чтв 13:58:54 #56 №1143445

>>1143430
Квены — одна из лучших серий моделей, у которых, по сути, один конкурент — это Гемма.
Гемма существенно обновилась, квены недавно выходили экспериментальные, но глобально в рамках 2.5 поколения, а тут новое.
Для работы (кодинга и прочих ассистент-задач) вполне может быть лучшим (снова, как всегда).

Локально.
У нас тут локальный тред.
Глобально купить клод или джемини все еще лучше, да, но у нас тут локальный тред.

Аноним 10/04/25 Чтв 13:58:58 #57 №1143447

>>1143405
>2 токенов в секунду
вполне приличная скорость. я на дипписике сижу с 1т\с. на мой взгляд лучше апгрейдить мать, взять быструю ddr5, может даже серверную. на видяхи надежды нет, так как чтобы запускать что-то вменяемое нужно 2х24gb, но этого не хватит на будущие модели, так как со временем качество и размер будут только расти.

Аноним 10/04/25 Чтв 13:59:30 #58 №1143449

>>1143434
Потому что у Геммы лучше токенизатор, и более толстый контекст. Очень толстый контекст.

Аноним 10/04/25 Чтв 14:09:50 #59 №1143467

>>1143449
У меня у одно гемма не может в кум?

Аноним 10/04/25 Чтв 14:12:35 #60 №1143474

>>1143467
Да.

Аноним 10/04/25 Чтв 14:19:04 #61 №1143479

>>1143467
В прошлом треде обсуждали побег из тюрьмы. Скачай и импортируй джонсона.

Аноним 10/04/25 Чтв 14:19:36 #62 №1143482

>>1143467
Если у тебя совсем все плохо, на момент кума переключайся на ебливую модель, отыграй сообщений 5 и можешь назад на гему, она подхватит темп. У меня она спокойно чернуху расписывала.

Аноним 10/04/25 Чтв 14:20:57 #63 №1143485

>>1143467
https://huggingface.co/ReadyArt
Пожалуйста, если вам подрочить то используйте кум модели и отъебитесь от геммы.

Аноним 10/04/25 Чтв 14:23:11 #64 №1143487

>>1143449
А что это на практике дает в сравнении с тем же мистралем и квеном? Ну кроме того, что гугл обоссал владельцев 16гб видюх

Аноним 10/04/25 Чтв 14:25:08 #65 №1143489

>>1143485
Только от безысходности разве что. Когда распробуешь на сколько хорошо гема запоминает и следует нюансам даже в куме, на другое уже не встает. Я о 27b версии офк. Подобный экспириенс я получал только когда из интереса разворачивал 70b модельки, но у меня нет ресурсов на приемлемой скорости их крутить.

Аноним 10/04/25 Чтв 14:27:17 #66 №1143494

>>1143474
Милого мальчика слова.
>>1143479
Скачал, накатил, все равно кум из разряда "ОН ПРИЖАЛСЯ К НЕЙ СВОЕЙ ГОРЯЧЕЙ ПЛОТЬЮ, ОБДАВ ЕЕ УХО СВОИМ ДЫХАНИЕМ."
>>1143482
Видимо только так, чпачибо попробую.
>>1143485
Я хочу не только кумать, мне нравится как она отписывает.

Аноним 10/04/25 Чтв 14:28:46 #67 №1143498

>>1143489
>Только от безысходности разве что.
Даже не близко. Эти модели натренены на чистейшем кум слопе. На порно новелах. И использовать их нужно для порнухи.
Нет, если тебе не вставляет чистейшее порево - это другой вопрос.
Но речь идет о куме. И тут такие модели вне конкуренции. Они нихуя не подходят ни для чего другого, но это и не нужно.
Если я хочу порно, я скачиваю порно, а не визуальную новеллу на 200 часов чтения, чтобы увидеть сиськи.

Аноним 10/04/25 Чтв 14:30:37 #68 №1143500

>>1143487
На практике, он быстрее генерирует русские слова. Т.е., количество токенов тоже самое, но другие модели тратят 3-4 токена на русское слово, а Гемма — 2-3.
Ну, грубо говоря, конечно.

Аноним 10/04/25 Чтв 14:32:22 #69 №1143503

>>1143485
Чем у него отличаются gaslight от gaslit и как с ними соотносится omega и forgotten? Первые 3 на сидонии, последняя вроде нет, а еще чем отличаются? Автор сделал красивое описание с ии девкой, но нихуя не расписал. И какая из них вообще лучше?

Аноним 10/04/25 Чтв 14:36:09 #70 №1143510

>>1143503
Вот тут обсуждают аноны.
>>1140551 →
>>1140561 →
>>1140571 →
>>1140575 →

Аноним 10/04/25 Чтв 14:41:23 #71 №1143512

image

>>1143467
>>1143474
Гемма хуйня по куму вообще. Очень сухо и недетально.

Аноним 10/04/25 Чтв 14:48:09 #72 №1143519

>>1143512
>Гемма хуйня по куму вообще. Очень сухо и недетально.
Да, приходится таки менять модели. Где нужны мозги, там Гемма, а где кум - есть другие варианты. Вот если бы MoE кто-нибудь сделал из Геммы-27-аблитерейтед и darkness-reign-mn-12b, то была бы пушка, без дураков.

Аноним 10/04/25 Чтв 14:48:42 #73 №1143522

>>1143238
>>1143259
>>1143369
Вообще, если конечно я правильно понимаю работу ллм, все сводится к тому, что бы каждый раз пихать в апи правильный текст, контекст, что бы получать ожидаемый ответ. Вообще я полагал, что таверна - это как раз та надстройка, которая (ну мб с плагинами) позволяет из стохастического попугая делать полноценное ДнД, но в прошлом треде меня спустили на землю, по сути таверна это просто атмосферная UIка для апи + механизм подсовывания карточки.
С лорбуком, я еще не разбирался, я так понимаю он что то вроде примитивного RAG, но не думаю что там есть полноценная векторизация и динамическая правка лора, подозреваю там принцип "ловим в последних трех сообщениях триггер ворд - подсовываем соответствующий кусок текста в контекст".

К чему все я это все расписываю... Меня как программиста, но новичка в ллм, удивляет что никто не запилил полноценный днд, а не просто чат с комментариями. Как минимум 2 пути, которые можно и обьединить вижу:
1. обрабатывать контекст скриптом на нормальном ЯП (хотя бы тот же петухон) прежде чем скармливать его нейронке:
1.1 есть возможность блеклиста/вайтлиста
1.2 есть возможность добавлять/вырезать что то по триггерворду. Причем можно использовать библиотеки нечеткого сравнения слов по типу FuzzyWuzzy
1.3 рандомайзинг - можем подкармливать время от времени любое рандомное событие, "нападение разбойников", "звонок телефона" итд
1.4 есть возможность учесть инфу из внешнего мира. Время, погоду, дату, последнюю новость из телеграма итд - например последний запрос был вчера вечером, а новый - сегодня утром:
>Если прошло больше 7 часов И сейчас от 8 до 12 утра:
> Добавить в контекcт %{{user}} спавший всю ночь, ранним утром открыл глаза и посмотрел на {{сhar}}%
> ИЛИ прошло больше двух часов - добавить контекст %{{char}} обеспокоенно ждет {{user}}. Проходит несколько часов. И вот он появляется%
>> ИЛИ прошло меньше 15 минут и в контексте есть реплика "я ненадолго|он ушел|он вышел" - %Спустя 15 минут он возвращается. "Быстро ты!" говорит она%
1.5 есть возможность вести учет каких то событий или айтемов в инвентаре, живых/померших персонажей, уровня в рпг, настроения, голода. но об этом п.2

2. вести два контекста на одной и той же модели (или какую нибудь умненькую 4b поместить парралельно скажем на ноутбук и стучать ее по апи). В первом идет рп, во втором скармливается промт вида
>"ты агент, тебе нужно оценить реплику персонажа|юзера на {список возможных характеристик}. Ты можешь вызвать методы {список методов или триггервордов скрипта} или не делать ничего на твое усмотрение. Отвечай только названием метода

По идее такая связка "основной контекст + вспомогательный контекст или вспомогательная llm + скрипт с базой данных" открывает возможности для полноценного ДнД, ограниченные только фантазией.

Критикуйте идею.

Аноним 10/04/25 Чтв 14:53:36 #74 №1143528

>>1143519
Уже есть, но качество говно. Будто 3ю Джемму сделали говномагнумом. Ах ну да, тюнят же на том же поносе. Вот и думай.

Аноним 10/04/25 Чтв 14:54:46 #75 №1143531

>>1143522
> Меня как программиста
А тебя не удивляет, что первые моды для скайрима с ChatGPT вышли в 2023 (2022?), а никаких игр (кроме анонсов) до сих пор нет? И все что мы имеем, это Nvidia ACE, которые «будут». Где мои озвученные диалоги в inZOI!

> вести два контекста на одной и той же модели (или какую нибудь умненькую 4b поместить парралельно скажем на ноутбук и стучать ее по апи)
Да че, сразу ебош спекулятивный декодинг.

Вообще, кэш контекста можно хранить, например, да.

Но я тебе скажу главное: не надо делать игры на LLM! Надо делать игры с LLM!
Понимаешь, саму днд-механику проще сделать как днд-механику. А ллм сделать как игрока и оставить на нее только принятие решений: кого, как, куда бить, и отдавать ей результат.

Аноним 10/04/25 Чтв 14:56:17 #76 №1143532

>>1142927
Контент пошел, мощно. Что за модель с такой скоростью?
>>1143056
>>1143085
Смайлики уронил, клоун.
>>1143192
> abliterated
Сноску что с промтом обычная может быть лучше.
>>1143238
Твои хотелки можно реализовать через экстеншны. Хранить перечень, закидывать его и первым запросом вопрошать нужно ли обращать внимание на это, а дальше обычный синкинг или сразу ответ.
Совсем накрайняк - заставлять модель писать текущую дату в начале поста, а в конце добавлять блок с "памятными датами" с отсчетом от которых что-то может произойдет, но это будет слабее.
>>1143247
> РП на небольших моделях невозможен (я про труЪ рп D&D c книгами правил)
Он возможен и на мелких если написать обвязку, и невозможен даже на больших если она отсутствует.
В идеале нужна модель побольше и заход в несколько фаз, когда на первых она оценивает есть ли какие-то серьезные действия и делает вызов функций кубика на них, после, в соответствии с правилами, трактует полученное и уже начинает ответ.
>>1143315
> но можно Альтмана заменить хотя бы на Миру Мурати?
Эту тварь на что-нибудь милое заменить - милое дело.
> Вообще, звучит неплохо для MoE моделек
Одноранговые это 64 гига четыремя, успехов. Тут только если с 192 и видеокартами с ktransformers попробовать пускать, но всеравно хуйта будет наверно. Надо попробовать.
> А других нет, йопта. Читать-то нечего.
Да есть, никто просто не читает. И это читать не будут если там больше двух строчек на определение и больше 4х определений. Тут если и делать то действительно спидран для полных имбецилов, где больше покрыть важные вещи, связанные с настройкой таверны, а не растекаться размышляя об очередном шизосемплере от каломаза.
Алсо, ебать ты кобольд!

Аноним 10/04/25 Чтв 15:10:58 #77 №1143569

Как исключить любые галюны нейросетки. Чисто как вики юзать? Темпа на ноль поможет?

Аноним 10/04/25 Чтв 15:15:54 #78 №1143579

>>1143510
Спасибо, анон. В принципе я тоже forgotten выбрал. Кстати, когда не было компа сидел прости господи на janitorai, а там мистраль 12б с 9к контекста. После этой параши forgotten ощущается просто как божественная модель, пошел нормально не только кум, но и рп

Аноним 10/04/25 Чтв 15:17:09 #79 №1143583

Сегодня тред - филиал /b? С каждым днем все хуже и хуже.

Аноним 10/04/25 Чтв 15:19:34 #80 №1143588

>>1143583
Тред то чем мы его наполняем. Если всё ваше участие в треде это
РЯЯЯ ПЛОХА
РЯЯЯ НИТАК
РЯЯЯ НАХУЙ ИДИ
А потом сидеть в ридонли, то...
как бы помягче сказать
Позакрывали пыздаки.

Аноним 10/04/25 Чтв 15:21:50 #81 №1143597

>>1143569
Не получится, LLM всегда будет пиздеть. Это следует из ее устройства

>>1143583
Всегда был

Аноним 10/04/25 Чтв 15:23:39 #82 №1143601

>>1143579
>janitorai
Негодяи не дают скачивать карточки. Ненавижу их, негодяев.

>>1143569
Сформулируй свою мысль ясно. Приложи примеры. Напиши что за модель.
Сейчас примерно почувствую о че ты, подожди уже почти нащупал.

Аноним 10/04/25 Чтв 15:26:46 #83 №1143608

>>1143531
>А тебя не удивляет, протухшие моды для скайрима, а никаких игр до сих пор нет?
Вообще не удивляет.
1. цикл разработки йоб довольно долгий, а нейронки стали популярны среди быдла буквально год-два назад. Нет смысла переобуваться в полете, пока не вернут деньги от новых проектов.
2. развитие моделей идет такими темпами, что исходя из п.2 - лучше подождать когда энтузиасты или Альтман лично соберут готовую либу-коробочку, которую игродел сможет просто поднастроить и запихать, чем изобретать велосипед на ламе.
3. Соя и антисоя, галлюцинации, цензура. Ты не создашь кровавое средневековье или жта с давкой шлюх, внедрив в нее соемодельку, иначе получишь банду балласов "да да, чем можем помочь, дорогой друг!?". А наоборот еще опаснее, кто нибудь выпилится от внезапного абуза и даже адвокаты не спасут. Не говоря о том что трактирщик сможет тебе про квантовую запутанность рассказать, или посоветовать выпить 50 таблеток снотворного.
4. Нужно что бы работало на плюс минус потребительском железе, а не фанатов с двумя 3090. А ведь там еще графен обсчитывать-рейтрейсить... Если говорим про корпо-апи, то тут конечно проще, но все равно - зависимость от интернетов, поддержка инфраструктуры, приватность опять же (в играх это актуальнее, т.к. сливать инфу ассистенту многим ок, а вот ОТЫГРЫВАТЬ...).
5. Несмотря на...
>А тебя не удивляет, что первые моды для скайрима
...внедрение идет полным ходом. В 2022 многие боялись делать рискованную ставку на чатгопоту, а сейчас даже агушам очевидно, что без приставочки AI продукт не крутой. Просто много проблем для массового рыночка, в отличии от наколенных поделок.

Как итог - большие игроделы только только расчехляются, небольшие не потянут (см. проблемы выше), а почему энтузиасты не пилят - вопрос. Видимо пока маленькая концентрация умеющих+желающих+имеющих кучу времени. Аудитория этого треда - оч узкая прослойка технически в целом грамотных людей, при этом радеющих за приватность, но не все из них кодеры с кучей времени.

>спекулятивный декодинг
Спасибо за наводку, как новый человек в теме, не все изучил, погружусь.

>Но я тебе скажу главное: не надо делать игры на LLM! Надо делать игры с LLM!
Для масс-рынка разумеется. Так и делают потихоньку сейчас, думаю ближайшие года подарят новый экспириенс. Но говоря за себя (и думаю некоторые меня поддержат):
- я хочу ЛОКАЛЬНО
- я хочу интересно и ново, если я буду сам конструировать свою рпг с блекджеком, в нее не будет интересно играть - я и так там все знаю.
- ты предлагаешь из оператора нейронок и скриптоеба переквалифицироваться в игродела, а это совсем другие скиллы и навыки
- создать даже убогую рпг это куча человекочасов, и все равно она будет ограничена одним миром

Как компромисс, можно было бы с помощью квен-кодера, гитхаба, стейблдифьюжна соорудить визуальную новеллку типа бесконечного лета, которую подключаешь как таверну к любому апи. Но все равно это долго, и не интересно играть тому, кто это кодил. А если делать рандомный сюжет - возвращаемся к тому, что предлагал выше я, только еще придется думать как нужные фоны и спрайты подпихивать.

Аноним 10/04/25 Чтв 15:29:22 #84 №1143615

>>1143588
Всё больше залётных пездюков с /b узнает об нейродрочке и начинают срать в тредах как они это любят желать везде. Кстати, можно даже сравнить со старыми тредами, если они ещё сохранились, когда ещё character.ai не скатился к хуям собачим, или когда цензура всё убила и аноны настолько были в отчаянии что их аниме служан не срёт на них говном, что начинали ролить между собой на доске или когда в тренде ещё был pygmalion 6b... Да... всё же как сейчас проще стало. Хотя старую модель character.ai мне пиздец не хватает, и даже пофиг на 2к контеста...

Аноним 10/04/25 Чтв 15:36:26 #85 №1143625

>>1143615
>Всё больше залётных пездюков с /b узнает об нейродрочке и начинают срать в тредах как они это любят желать везде.
Да, увы. Есть пример филиала ада нейротреда на этой доске.
Нас еще пока спасает гейткип по железу, но модельки становятся вменяемыми на малых размерах.
Но всё равно гигиену треда надо поддерживать. Не писать самому хуиты.
Я вот недавно написал, и как давай себе по пальцам молотком бить.

>>1143369
Ну так я об этом и написал. Стороннее расширение вне основного контекста. А вообще надо самому почитать, выглядит интересно.

Аноним 10/04/25 Чтв 15:37:35 #86 №1143629

>>1143615
Так а че плохо что ли, хорошо же. Я вот модельками увлекся еще до того как узнал что на сосаче есть треды посвященные им. Когда зашел сюда, подчерпнул тонну знаний и теперь хоть базово начал разбираться в них. Тут были и есть дружелюбные аноны, которые стараются помогать, даже если у тебя по мнению олдов наитупейший вопрос с которым ты должен разбираться сам и не беспокоить их святейшиство.

Аноним 10/04/25 Чтв 15:37:57 #87 №1143631

>>1143615
Разве ты сам не таким был в начале? Что за двойные стандарты? Плохой ты человек... Эгоист.

Аноним 10/04/25 Чтв 15:45:36 #88 №1143643

image.png

>>1143631
Я не срал тут говном в отличии от местных зумерков. Писал обычно всегда кратко и по делу, например сообщал выходе новой модели или о промптах спрашивал или сам просто высматривал ссылки на новые модели.
Разве что во время кризиса цензуры на character.ai пароллил ради кека парой сообщений за Сюзану

А высирать тонные бессмысленных мемов и прочего мусорного говна это прерогатива пездюков-зумерков.

Аноним 10/04/25 Чтв 15:55:30 #89 №1143667

>>1143315
Дед опять в штаны насрал

>>1143531
>А тебя не удивляет, что первые моды для скайрима с ChatGPT вышли в 2023 (2022?), а никаких игр (кроме анонсов) до сих пор нет? И все что мы имеем, это Nvidia ACE, которые «будут». Где мои озвученные диалоги в inZOI!

Ответ максимально простой - нету железа у пользователей, дорогое железо для разрабов, не было сеток, все слишком быстро закрутилось.
Пока что самые крутые сетки крутятся на самых дорогих копроративных решениях.
Там что то квен пыталась в омнимодельную 7b, но ее хер запустишь даже так.
Остаются всякие мелкие сетки в очень узкой нише, либо ИИ как сервис. Но и там игры впихнуть это разрабатывать специально надо.
Или, нужна игра с широкими возможностями в модостроении.
Но, на модах опять же деньги особо не сделаешь.
Хотя и в скайриме, и в том же майнкрафте уже есть попытки встраивания ии модами. Может еще где, что там популярное с кучей модов есть, хз.

Аноним 10/04/25 Чтв 15:59:27 #90 №1143674

>>1143608
По пунктам не согласен.
Это ты про йоба, но игр-то нет вообще.
Где инди-студии? У нас литературно один или два анонса было и все, хотят тут можно пилить и пилить.

Соя? Так збс, нам же это и нужно. Делаешь милую игрушку, соевая моделька мило общается. Ноу проблем.

Локально, конечно.

А то, что ты предлагаешь, по сути своей еще и сложнее ведь. =)

У тя даже васянских игр простейших нет, а ты про днд спрашиваешь и удивляешься! Не тому удивляешься! :)

> внедрение идет полным ходом.

Оно лежит полным ходом, к сожалению. =)

> даже убогую рпг это куча человекочасов
Не, я криво выразился, а ты не понял.
Я не предлагаю полностью пилить игру, куда вставлять нейронку лишь в одно место.
Я предлагаю все рассчеты и игромеханику оставить классическими, а уж описания отдать нейронке.
Просто потому, что там эффективнее.

AI Dungeon, если ты не знал, возник в 2019 году. На твой первоначальный вопрос можно было ответить «6 лет назад вышло, братух, ты чего?»
Но если нам хочется качественную игромеханику — то ллм тут не нужен.

Такие вот две таблетки. Одна вышла 6 лет назад, вторая классическая.

> таверну
СиллиТаверна имеет режим Визуальной Новеллы, уже давно, и картинки рисуешь, и эмоции персонажей, и озвучка, и просто настрой все это. Видосяны в тред скидывали год полтора назад.

Короче, чтобы получить гуд РПГ, нам нужна гуд платформа для кидания кубиков, а ллм уже вокруг нее выстраивать агентами, это ты прав.

ЗЫ Спекулятивный декодинг просто ускоряет генерацию, ухудшая качество, но для каких-то задач может быть выходом, на самом деле.
Можно держать в памяти обе модели, и где-то юзать мелкую, где-то обе, где-то крупную. Но это все детали реализации.

Аноним 10/04/25 Чтв 16:00:01 #91 №1143675

>>1143643
Пиздец, монокль не жмёт?

Аноним 10/04/25 Чтв 16:00:57 #92 №1143679

>>1143667
Аха, денег не сделаешь, а большинство игроков не запустят. Собственно, в этом и вся причина, хули у нас ничего нет. =) Нвидиа с Анрилом медленно и неторопясь прощупывают почву, потому что им некуда торопиться.

Аноним 10/04/25 Чтв 16:06:14 #93 №1143694

>>1143674
>Где инди-студии?
Есть уже с 3д порнухой. Но не локально.

>>1143674
>Локально, конечно.
Ну вот и о чем речь. Коммунизм тут только и работает, внезапно.

Аноним 10/04/25 Чтв 16:23:22 #94 №1143729

Что такое ↓ ?
>макросы в пользовательских стоп-строках

Аноним 10/04/25 Чтв 16:23:52 #95 №1143730

НПС3.mp4

>>1143694
>Есть уже с 3д порнухой. Но не локально.
Кста не обязательно порнухой. Просто и пообщаться можно. И вообще без секса.

Voxta гуглите.

Но мне прикольно это скорее в данный момент...

Аноним 10/04/25 Чтв 16:26:20 #96 №1143735

Где теперь ваши боги?
https://www.reddit.com/r/LocalLLaMA/comments/1jvi860/psa_gemma_3_qat_gguf_models_have_some_wrongly/

Аноним 10/04/25 Чтв 16:29:35 #97 №1143742

>>1143305
А нормально ответить можно? Вот я скачал кобольд, модель одним файлом запускается, а с такими что делать? Гуфа там нет

Аноним 10/04/25 Чтв 16:31:01 #98 №1143745

>>1143735
"I just checked, there is indeed a whole lot of tokens (6411 to be precise) that are configured differently between the qat models and the models quantized with llama.cpp"

Аноним 10/04/25 Чтв 16:33:34 #99 №1143752

image

>>1143735

Аноним 10/04/25 Чтв 16:38:11 #100 №1143771

Без имени.jpg

>>1143742

Аноним 10/04/25 Чтв 16:38:46 #101 №1143776

Screenshot20250410162612.jpg

Снова салам, помню спрашивал про KTransformers и речь зашла за древние Сионы Е5. Так вот чувак с китая попытался, результат - в описании.

Аноним 10/04/25 Чтв 16:44:22 #102 №1143799

>>1143776
У него весьма странный выбор железа, нахуя и зачем ему такой тухлый процессор непонятно
Где то на реддите месяц-два назад были более грамотные запуски на ксеонах и других серверниках

>>1143781
Ты чего порвался аватарка?

Аноним 10/04/25 Чтв 16:48:53 #103 №1143819

>>1143799
Ну хз, выглядит рил странновато, но общая суть не поменялась: больше 5-6 токенов на старых сионах не высрешь как ни тужься.

Аноним 10/04/25 Чтв 16:53:21 #104 №1143834

>>1143810
Тебе, раз уж ты насрал тут видосиками

>>1143819
Да там в память упор будет хоть что делай, там легко получить 50гб/с и максимум ну где то 75гб/с. Что особой погоды не сделает. На 2 процессорах что то там под 120 гб/с может и выйдет.
Это все хуйня, нужен процессор поновее с 8-16-24 канальной рам
Все это будет шуметь пердеть и требует как минимум одну 3090

Я кстати вспомнил о способе запуска дипсика с кучи нвме на 2 токена в секунду почти, вот это конечно было бы забавно

Аноним 10/04/25 Чтв 16:54:27 #105 №1143836

>>1143730
>видос
зная как работают разные нейросетки: ллм, ттс и блять поиграв в мор, облу и т.п. делая кучу модов такой хуитой не наебёшь и сразу понятно как это он на видосе делает. Всё заранее обрабатывает, причём стараясь дроча датасет для ттс нейронки с интонациями, консолькой убраляет неписю и т.п. Неужели кто-то ведётся? Ну нубасы какие-то, не слышавшие о нейронках, возможно. Орнул с этого сценариста.

Аноним 10/04/25 Чтв 16:56:46 #106 №1143844

>>1143694
Оу, май!
Всегда было лень к VaM приделывать скрипты на анимации.

>>1143730
Это все те же плагины, не полноценные игры.
Где мой обливион, йопта!

Аноним 10/04/25 Чтв 16:58:35 #107 №1143850

>>1143834
Там гпу нивелировал тот факт, что в оперативу не вмещалось. Получался какой-то костыльный способ решения костыльной ситуации. х)

>>1143836
А в чем проблема качнуть самому и перестать наебываться?

Аноним 10/04/25 Чтв 17:04:12 #108 №1143864

опять почистили чтоли ?

Первый удачный тюн геммы - gemma3-27b-abliterated-dpo

Даже русик не проебался.

Аноним 10/04/25 Чтв 17:09:34 #109 №1143877

https://huggingface.co/collections/deepcogito/cogito-v1-preview-67eb105721081abe4ce2ee53
Серия сеток, какие то проф файнтюны. Сравнить себя с квен яиц хватило.

Новая кодерка, стеснительно не сравнивающая себя с квен кодером, кек
https://huggingface.co/agentica-org/DeepCoder-14B-Preview

Аноним 10/04/25 Чтв 17:11:29 #110 №1143887

>>1143864
Ну ссылочку мог и прикрепить конечно. Но в к равно спасибо.

Аноним 10/04/25 Чтв 17:12:18 #111 №1143892

QWFR1.mp4

>>1143844
Ну почему разрабы ленятся делать игры с интегрированными нейросетками? Сам думай...

Аноним 10/04/25 Чтв 17:12:19 #112 №1143894

>>1143771
Слева то же самое, что и справа? Без шуток, я просто вижу подпись про русский рп только справа

Аноним 10/04/25 Чтв 17:13:04 #113 №1143897

>>1143877
> квен кодером
Зачем? Он уже устаревшей, сосёт у все что можно.

Аноним 10/04/25 Чтв 17:15:21 #114 №1143907

>>1143887
https://huggingface.co/summykai/gemma3-27b-abliterated-dpo

Аноним 10/04/25 Чтв 17:16:05 #115 №1143911

>>1143897
Огласите список у кого он там сосет в своих размерах. Он до сих пор в первой десятке топа даже сравнивая с большими сетками.

Хуйню несешь, единственный кто что то ему может противопоставить другой квен уже qwq
В размерах 7-14b он до сих пор ебет, новая гемма не была замечена в кодерских навыках а ничего больше и не выходило годного

Аноним 10/04/25 Чтв 17:16:10 #116 №1143912

>>1143892
InZOI, убийца симсов, с нейронкой в комлекте
требования правда соотвествующие

Аноним 10/04/25 Чтв 17:17:04 #117 №1143916

>>1143912
Че? Даже не близко.

Аноним 10/04/25 Чтв 17:20:31 #118 №1143933

image.png

>>1143894
маленький экскурс. Ты можешь открыть не GGUF модель и там можно найти ссылку на кванты этой модели. Там же можешь найти перемолку любой(почти) модели в gguf

Аноним 10/04/25 Чтв 17:21:13 #119 №1143937

>>1143911
>7-14b он до сих пор ебет
Это как хвалиться что отпинал инвалида. Я не могу представить человека в здравом уме который будет использовать мелкосетки для кодинга. Локалки это всякий кум и прикладные задачи когда ты не хочешь быть зависимым от чужого API.
Если ты годишь то идешь к корпам и получает лучшее что возможно, или зарабатываешь достаточно что бы запускать жирные сетки.

Аноним 10/04/25 Чтв 17:22:34 #120 №1143942

>>1143937
>мелкосетки для кодинга
Про автодополнение слышал что то? А прикинь еще есть код который нельзя на сторону отправлять.

Аноним 10/04/25 Чтв 17:23:56 #121 №1143949

>>1143942
И ты не можешь себе позволить хотя бы 32b квен? Меняй работу.

Аноним 10/04/25 Чтв 17:25:44 #122 №1143954

>>1143949
Ты тупостью троллишь там?
32 тоже в списке мелкосеток как бы, но она лучшее что можно запустить у себя с приемлимой скоростью не собирая отдельный сервер или несколько видеокарт

Аноним 10/04/25 Чтв 17:29:58 #123 №1143965

>>1143954
К тому же код требует кучу контекста, так что проще спустится на 14 или 7b ради анализа какой нибудь большой хуйни, и сделать это быстро.

Аноним 10/04/25 Чтв 17:31:24 #124 №1143971

>>1143911
> в первой десятке топа
В первой десятке среди 5 моделей, лол? Его ещё дистиллы R1 выебали 2 месяца назад. QwQ на голову выше. Квен кодера нет вообще ни в одном сравнении нынче, потому что это бесполезная трата места внизу рейтинга.
> с большими сетками
Литералли нет ни одной большой сетки вышедшей в этот году, которую он смог бы обойти.

Аноним 10/04/25 Чтв 17:32:11 #125 №1143974

>>1143907
Попробуем. Потыкаем. Потом покрякаем в тредике.

Аноним 10/04/25 Чтв 17:34:03 #126 №1143976

>>1143965
Оно слишком тупое для таких задач, на больших контекстах даже корпы обираются порой. Отдавать такое 7b лоботомиту трата времени.

Аноним 10/04/25 Чтв 17:36:00 #127 №1143984

>>1143894
То есть ты не троллишь ? Не жирнишь ?
оке

То что тебе нужно, называется Quantizations. Справа древе модели есть. Модели Moraliane уже устарели, используй миксы второго анона. https://huggingface.co/Aleteian

Аноним 10/04/25 Чтв 17:36:38 #128 №1143988

>>1143971
Жопой читаешь? Нахуя тогда с тобой что то обсуждать?
Я спросил есть ли что то лучше его в этом размере? Нет, нету.
Какие то проблемы с головой у тебя там?
В топах тестах кодерских сеток больше 5 моделей, ищи лучше

>>1143976
Да нет норм, я как то на 60к контекста загрузил один файл, искать по всему файлу апи и их описания было максимально лень.
Дал задачу, и все апи и их описания и формы были найдены.
Только полный нуб думает когда видит кодерскую сетку что она нужна что бы по твоему запросу писать готовый код

Аноним 10/04/25 Чтв 17:42:46 #129 №1144010

https://www.reddit.com/r/LocalLLaMA/comments/1jv9s6q/lmsys_webdev_arena_updated_with_deepseekv30324/
Ну кстати в новых тестах квен кодер 32b уже не в 10, но все еще между моделями которые больше его в 20 раз
Жаль qwq нету, хотя дипсик р1 есть

Аноним 10/04/25 Чтв 17:45:38 #130 №1144024

image

Я бухой, сорян. Это из-за политики все? Извините, просто душа болит. Моча, удаляй. Все, больше не буду обходить бан. Простите...

Аноним 10/04/25 Чтв 17:48:41 #131 №1144034

Можно ли как нибудь отключить думание у модели, мб заставить её думать что она уже "подумала"? Чтобы не каждое сообщение срало своим think?

Модель: DeepSeek-R1-Distill-Qwen-14B-Q8_0

Аноним 10/04/25 Чтв 17:50:08 #132 №1144036

>>1144034
Попроси ее на описывать ее раздумья в чате.

Аноним 10/04/25 Чтв 17:51:20 #133 №1144038

image

>>1144034
В дистилляте - нет. В полноценной онлайн версии - да.

Аноним 10/04/25 Чтв 17:52:50 #134 №1144042

>>1144034
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B/discussions/11

Аноним 10/04/25 Чтв 17:53:22 #135 №1144045

>>1144036
Пробовал, всё равно в 9 из 10 случаев начинает срать токенами. Разве что самому подталкивать началом сцены.

>>1144038
Жаль. Хотелось поюзать более гибко.

Аноним 10/04/25 Чтв 17:54:10 #136 №1144047

>>1144042
Попробую, спасибо.

Аноним 10/04/25 Чтв 17:54:16 #137 №1144048

>>1144034
Cтирай <think> в начале, или вобще блокируй.
Но зачем качать тсинкинг модель если он не нужен? Качай просто qwen 2.5 14b или вот эту штуку, она чуть лучше местами на сколько помню
SuperNova-Medius

Аноним 10/04/25 Чтв 17:56:11 #138 №1144054

>>1144048
В том то и дело, что нужен. Иногда нужен хороший, продуманный ответ. С доводами, которые желательно должны остаться в контексте. Но иногда - просто похуй, это потеря времени.

Аноним 10/04/25 Чтв 17:57:11 #139 №1144057

>>1143674
> но игр-то нет вообще
Потому что это радикально новое и требующее нихуевых скллов действо. Чтобы устроить что-то серьезное - нужно выложить нормально денежек и собрать специалистов, которые все уже заняты на реализации множества вещей. Плюс, ии динамично развивается и имеет много трубулентности, за пару лет цикла разработки многое может сильно измениться, что сделанное просто протухнет.
Не увидишь ты крупных ааа проектов игорей с ии, пока кто-то с двух ног не залетит, сделав шедевр, или пока область не стабилизируется и плавно-плавно не устроят освоение.
> ухудшая качество
Не ухудшая, просто при неудачной реализации может наоборот немного замедлить и требует больше ресурсов.

Аноним 10/04/25 Чтв 17:57:12 #140 №1144058

lasso rdr2.mp4

>>1144045
>Жаль. Хотелось поюзать более гибко.
Насколько гибко?

Аноним 10/04/25 Чтв 17:58:12 #141 №1144060

>>1144042
Да, работает отлично, спасибо!

Аноним 10/04/25 Чтв 17:58:34 #142 №1144061

>>1144058
>>1144054

Аноним 10/04/25 Чтв 18:00:00 #143 №1144064

image

>>1143974
кря
(dpo-файнтюн по ссылке выше)

Аноним 10/04/25 Чтв 18:00:02 #144 №1144065

>>1144060
>>1144061
Note: Wrappers like Ollama and LM Studio may not allow you to generate from the raw chat template, as these tokens are automatically added by the software. For this to work, you may have to use your own Python (of which examples are present on the model card), or understand advanced features in your application of choice.

Аноним 10/04/25 Чтв 18:02:37 #145 №1144073

>>1144065
Я на кобольде, всё норм.

Аноним 10/04/25 Чтв 18:02:57 #146 №1144075

>>1144065
>Ollama
говно

>>1144065
>LM Studio
моча

их же всё равно никто не юзает

Аноним 10/04/25 Чтв 18:04:05 #147 №1144080

>>1143864
> опять почистили чтоли ?
Да что у вас тут происходит, сотня постов сутра и какая-то дичь, там прокси полегли?
>>1144034
> отключить думание у модели
> R1-Distill
Нет, это ужаренные этим лоботомиты. Префилл, бан токена и прочее, но перфоманс сразу на дно упадет.
>>1144045
> Хотелось поюзать более гибко.
Используй нормальные модели, а не человеческую многоножку, которую били по голове чтобы она приучилась лупиться в рассуждениях и набирать 2.5 бенча. Дистилляты дипсика на самом деле весьма посредственны и проблемные, та же qwq куда интереснее. Синкинг, ризонинг и прочее прекрасно заводятся на гемме и даже лучше результат дают.

Аноним 10/04/25 Чтв 18:10:01 #148 №1144099

>>1144080
>Синкинг, ризонинг и прочее прекрасно заводятся на гемме
Может я что-то не так делаю, но не нравится мне гемма. Юзал и обычную и аблитерейтед 27б на 4 кванте.
Помимо того, что она в кавычки нормальные не умеет, так ещё и ломаться как девочка на протяжении 40 сообщений может, отыгрывая условную шлюху. Да ещё и отвечает иногда настолько невпопад, причём несколько раз подряд, что просто ржать уже начинаешь. К сожалению её перлов не сохранил.
Пробовал разные сэмплеры, но прям не, не получилось. Не разделяю общих восторгов.

Аноним 10/04/25 Чтв 18:11:47 #149 №1144107

videoplayback-1.mp4

>>1144075
>их же всё равно никто не юзает
Я использую... Я тупой?

Аноним 10/04/25 Чтв 18:12:59 #150 №1144112

>>1144080
>Да что у вас тут происходит, сотня постов сутра и какая-то дичь, там прокси полегли?
Acig случился с тредом. А кляузничаю.
И мне по жопе прилетело. Так что все в балансе.

>>1144064
Нет, ну если говорить про кум, выгляди сочно. Я как играющий на ландан из э кэпитал, не могу оценить именно качество самого русского, в смысле не с чем сравнивать.

>>1144075
ЛмСтудио нормальный, зря на него гоните. Вас послушаешь так кроме кобольта и угабуги жизни больше нет.

Аноним 10/04/25 Чтв 18:27:53 #151 №1144156

>>1144099
Если хочешь кумить то нужен системный промт с жб-подобной конструкцией. Совсем невпопад отвечать не должна, что-то не так, возможно опять жора гадит. Она действительно может упереться соей, или очень тонко все извернуть, пристыдив тебя, но совсем тупить не должна.
>>1144112
Бля, столько всего пропустил, эх.
> кроме кобольта и угабуги жизни больше нет
Хз в чем смысл первого при наличии llamacpp-server, но ладно.
Если сузить именно до рп, то возможности большинства интерфейсов уступают таверне. Хотя последняя уже больше полутора лет просто буксует и тупит, что полный пиздец и хорошо иллюстрирует ситуацию, надеюсь подъедут новые интерфейсы на замену.
Самому лмстудия не понравилась, слишком много пытаются натащить с претензией на удобство, перфоманс и универсальность, но кроме самых популярных вещей многое не проработало, стоит копнуть и лезут проблемы. Особенно с их заявленной поддержкиа мультимодалок ахуел, скрипт-сервер на трансформерсе, который способна написать любая ллм, и то лучше работал. Но, наверно у нее есть и сильные стороны.
Оллама - херь, всратая обертка жоры, в которой ценой простоты первого запуска минимального чата в консоли является ужасный экспириенс по всему остальному.
Потому - оригинальные беки в удобной обертке или без нее + удобный тебе фронт (или вообще самописные вещи для выполнения задач).

Аноним 10/04/25 Чтв 18:28:46 #152 №1144160

>>1144112
>кроме кобольта и угабуги
унга-бунга на жрадио это сразу гроб-доска-могила, так что кроме кроме кобольда и ламы

Аноним 10/04/25 Чтв 18:30:12 #153 №1144163

>>1144160
> гроб-доска-могила
Все, что основано на llamacpp
набросил

Аноним 10/04/25 Чтв 18:55:18 #154 №1144198

>>1144163
Согласен, все кроме трансформерс просто мусор

Аноним 10/04/25 Чтв 18:58:09 #155 №1144206

>>1144064
>(dpo-файнтюн по ссылке выше)
Теперь ждать другие тюны - и мешать, мешать и мешать, добиваясь наиболее сочного и густого кума. Это уже новый уровень.

Аноним 10/04/25 Чтв 19:02:27 #156 №1144214

>>1143674
>Это ты про йоба, но игр-то нет вообще.
Я ж говорю, середняк и инди не затянут - лицухи, проблемы цензурирования, слабое железо и нет денег на инфру. Энтузиасту в этом плане гораздо проще - ему и консольку попердолить в радость, что бы запустилось с третьего раза, и железо может найти, и от призыва к суициду внезапному от нейронки только вскекнет, а если средневековый рыцарь начнет про Docker Compose говорить, то не пойдет к игроделу "аряя верни деньги", а сам поймет что не тем промтом грузанул.

>Соя? Так збс, нам же это и нужно. Делаешь милую игрушку, соевая моделька мило общается.
Ну условно... а потом какой нибудь васян с двача джейлбрейкнет и начнется в СМИ такой пиздец, "В ИГРЕ ПРО БЕЛЫХ КРОЛИКОВ 0+ ИГРОКУ РАССКАЗЫВАЮТ КРИПИ СТОРИ ПРО ПРОЛАПС!!!!"
Речь не о том что модель соевая, речь о том что модель недетерминированная (ну да, с уклоном в сою). Если канонично натрейнить и повесить ее на балласа игрового, то она начнет рассказывать как крэк варить, если на пушистого кролика - то все равно возможно фиаско, просто с меньшей вероятностью. А если запромтить модель так, что бы она была ограничена от всего-всего и навесить цензор блоков еще сверху, то будет лоботомит, не особо лучше чатбота.
Крч внедрение нейронок в геймдев это сложно для компаний, и никто не хочет брать на себя риски и гемморой.

>А то, что ты предлагаешь, по сути своей еще и сложнее ведь.
не совсем... Во первых я не постремаюсь собрать риг, если оно мне будет надо. Во вторых как я уже сказал, аморалка и галюны модели меня не беспокоят. В третьих, я не ограничен сюжетом, и если внезапно в средневековую локацию "ее космический шатл плавно приземлился у дворца", я просто кекну и свайпну/подредактирую, или наоборот с еще большим интересом начну ролплеить эту неведомую ебанину. А вот у ЦА игропрома могут возникнуть опредленные вопросы в издателю, откуда в его ведьмаке лазерный меч появился.

Опять же, текстовый РП - окей, нейронка сгалюцинировала лазерный меч, либо свайпаем, либо играем мечом. А вот как ты добавишь его в графоний!? Крч технически на уровне компании присрать 3b лоботомита просто, но геймплейно и юридически это ад.

>Я предлагаю все рассчеты и игромеханику оставить классическими, а уж описания отдать нейронке.
>чтобы получить гуд РПГ, нам нужна гуд платформа для кидания кубиков, а ллм уже вокруг нее
ну понял, если рассуждать про наколенные разработки домашние то разумнее обвязывать код нейронками, а не обвешивать кодом нейронку. Мб, мб, тут надо пробовать, экспериментировать.

>Внедрение лежит полным ходом, к сожалению. =)
У меня обратное впечатление. Вон в гиперхайповом Inzoi нейронка на нейронке (эмоджи рекогнишн, генерация предметов 2дв3д, "мысли зои"), и вроде как дальше больше. Если представлять как неповоротливы йобастрои, то готов поставить через 3-4 года почти все будет с AI в том или ином виде выходить (завязанное на корпсервера конечно же)

>AI Dungeon, если ты не знал, возник в 2019 году.
Да, я даже полчасика поиграл, в прошлом треде писал. Кстати с тех пор я как раз и считал что рп по dnd модели для нейронок изи и таверна оно и есть, пока не попробовал сам и не забомбил.

>>1144057
Двачую этого, инвестиций дохуя нужно, проблем потенциальных море, турбулентность такая, что если чуть чуть не в ту сторону рыть, за полгода может 3летнюю работу обесценить. Так что либо ВНЕЗАПНО черный лебедь, который перевернет индустрию, или стабилизация и эволюция по чайной ложке. Причем лебедь не обязательно делать, достаточно что какой нибудь рокстар пукнет в СМИ "а в гта 6 крч с помощью ai ваш город можно будет генерировать и к вам в квартиру даже заходить, через 2 года выпустим"

Аноним 10/04/25 Чтв 19:02:51 #157 №1144216

Уважаемые, посоветуйте мне пожалуйста хорошую / не сильно требовательную abliterated модель для перевода текста, которая влезет в 6gb VRAM.
Шапку пробовал читать, но там хуй разберёшься

Аноним 10/04/25 Чтв 19:11:15 #158 №1144238

>>1144216
Babel-9B, с выгрузкой в раму или квант, неиллюзорно, маленькая "вавилонская башня" неплоха в переводах... но плоха во всём остальном.

Аноним 10/04/25 Чтв 19:12:22 #159 №1144243

>>1144216
>Уважаемые, посоветуйте мне пожалуйста хорошую / не сильно требовательную abliterated модель для перевода текста, которая влезет в 6gb VRAM.
unsloth_gemma-3-4b-it-Q4_K_M, но она не аблитерированная. Впрочем не сильно стеснительная. Аблитерированные её варианты, которые я видел, имеют проблемы. Ну и плюс качество - немного получше гуглоперевода, но в твою конфигурацию больше ничего нет.

Аноним 10/04/25 Чтв 19:12:23 #160 №1144245

>>1144238
Благодарю. Мне собственно только переводы и нужны. Ничего более.

Аноним 10/04/25 Чтв 19:16:04 #161 №1144256

>>1144243
>немного получше гуглоперевода
А не знаешь, насколько лучше bing переводов будет?
Я прост игрочки для себя переводить хочу, но в софтине, которой я это обычно делал только bing на бесплатной ветке присутствует, а платить я принципиально не хочу.
Поэтому планировал вкат на другую софтину, но там api ключ нужен. Вот я и надумал локально поднять.

Аноним 10/04/25 Чтв 19:24:01 #162 №1144267

>>1144256
Лично я всегда через веб-морду дипла карточки переводил.
(мимо другой анон)

Аноним 10/04/25 Чтв 19:25:12 #163 №1144269

>>1144256
>А не знаешь, насколько лучше bing переводов будет?
Примерно так же.

В прошлом вроде треде ещё SAINEMO-reMIX советовали - вот эта хорошая. Но даже в 4-м кванте в твою врам не поместится, а меньше не надо. Впрочем попробуй на всякий случай.

Аноним 10/04/25 Чтв 19:27:25 #164 №1144273

>>1144267
Ну ручками то и я могу через дипл перевести, но я ж тогда буду знать, чо там написано было, а так уже неинтересно играть станет.
>Примерно так же.
Хуёва однако. Но я всё равно опробую эту идею. Может хоть немного лучше бинг говна будет.

Аноним 10/04/25 Чтв 19:28:19 #165 №1144276

Блядь, забыл >>1144273 юшку дать.
>>1144269

Аноним 10/04/25 Чтв 19:29:01 #166 №1144277

>>1144273
>но я ж тогда буду знать, чо там написано был
подавляющее большинтсво карточек предполагает что ты залезал в дефы

Аноним 10/04/25 Чтв 19:30:20 #167 №1144283

>>1144277
Я не карточки планирую переводить, а игрульки всякие на rpgm \ kirikiri

Аноним 10/04/25 Чтв 19:36:31 #168 №1144295

>>1144198
Правильно, но важно чтобы трансформерс был с ядром экслламы.

Аноним 10/04/25 Чтв 21:34:28 #169 №1144525

Все молчат в ожидании нового Квена?

Аноним 10/04/25 Чтв 21:35:50 #170 №1144528

>>1144525
Олдфаги запретили писать в чат, хотят чтобы тут все молчали.

Аноним 10/04/25 Чтв 21:38:49 #171 №1144533

image.png

Нейронщики, вы ведь понимаете, что рано или поздно мы войдем в эпоху, когда сможем симулировать целые реальности? Через пару лет, может быть через пару десятков лет, но это случится. Даже сегодня мы уже можем генерировать отдельные слои (типа изображений или текста) с помощью какой-то ебаной тупоголовой математики, которая сама распознает паттерны в процессе обучения. И уже на том уровне, что это выглядит пугающе реалистично. Осталось только соединить это - создать модель которая будет копировать и воссоздавать вообще всё пространство и время. Это ведь пиздец, если просто об этом подумать.

Отдельные шизы в свое время удивлялись тому, как реалистично отвечают нейронки и генерируют ответы неотличимые от человеческих. Да, тогда было смешно читать про то, что некоторые на правде затирали, мол у моделей имеется сознание в каком-то виде. Но ведь в какой-то момент это правда случится. Похуй на сверхинтеллект, на ебаный аджиай и прочее утопическое говно. Мозг блять человеческий. Ну а где один, там и несколько, неограниченное количество.

И самое блять главное - где гарантии того, что наши собственные мозги это не результат искусственной генерации. И что вообще все вокруг это не ебаная симуляция. Мы ведь даже не сможем этого заметить, пока сами не создадим нечто похожее. Если сегодня взять какой-нибудь нейроарт среднего качества и показать его челику года из 2010 - он никогда в жизни не догадается, что его нарисовала машина, а не человеческая рука. Даже если там будут какие-то дикие артефакты, девять пальцев на три руки - в худшем случае он подумает, что это художник шизанулся или это какой-то странный стиль. Не появится у него в голове другой мысли, потому что для него это будет бредом - машина каким-то хуем смогла перенять чей-то опыт и преобразовать его. Точно так же мы до последнего момента не сможем ответить на вопрос, реальные ли мы, или нет.

Аноним 10/04/25 Чтв 21:49:13 #172 №1144546

>>1144533
Ты что этот бред в нейронке генерил? Мог хотя бы использовать модель больше чем 8b, а то совсем шизофазия

Аноним 10/04/25 Чтв 21:52:13 #173 №1144549

>>1144064
Как ты заставляешь её не срать такими кавычками? “ ”
Мб в таверне как то зареплейсить их можно, или же заставить таверну воспринимать их как обычные кавычки? " "

Аноним 10/04/25 Чтв 21:55:19 #174 №1144554

Как взять бу 3090 на авито, чтобы не обосрать ляжки?

Аноним 10/04/25 Чтв 21:56:14 #175 №1144556

>>1144533
А сказать то что ты хотел?

Аноним 10/04/25 Чтв 21:58:31 #176 №1144557

>>1143912
Я ж писал, там это очень слабо представлено.

Но лучше симсов, конечно. =D

>>1144034
Не юзать модели, предназначенные для синка.
Литералли: модель хорошая потому, что она думает.
Если не думать — обычная модель.
Возьми другую обычную, чтобы там не было про синкание.

Литералли тред полон людей «как машине открутить колеса? бесит, мешают ездить».

>>1144214
> начнется в СМИ такой пиздец
Суко, в какое время мы живем. =(

> нейронка сгалюцинировала лазерный меч
Настолько они не галлюцинируют. Ты видел промпт Cline, плагина, на котором кодят? Там 10к контекста. ПРОМПТ.

Т.е., каждый раз запрашивая что-то, ты можешь накидывать кучу уточнений, и никаких лазерных мечей не будет.
+ Вообще-то есть function calling.
Про галлюцинации забудь, в рамках одного запроса это почти не встречается (я не видел уже дохереллион лет). Это работает на долгом контексте, на много сообщений, с маленьким промптом. Вот там хуйня творится, да.

> Вон в гиперхайповом Inzoi нейронка на нейронке
Как человек, купивший на старте — это все неигровое, понимаешь?
Ну, рекогнишн, и что? Я же про общение. Мысли? Так они просто поведение какое-то выстраивают, это клево, я не спорю. Но я же хочу, чтобы мой сим именно что общался, думал, вот это вот все, а не просто «агрессивно какал», потому что ллм ему так сказала. =) Это хорошо — но мало.

>>1144533
И чо?

Аноним 10/04/25 Чтв 21:59:29 #177 №1144558

>>1144546
>Мог хотя бы использовать модель больше чем 8b
Мое ебало перформит только на восемь миллиардов, ни параметром больше

>>1144556
>А сказать то что ты хотел?
Просто поделился своим страхом чтобы вам тоже страшно стало.

Аноним 10/04/25 Чтв 22:02:24 #178 №1144560

Сап кумач. Геммы 4 и 12 бит вообще рабочие?

>>1143183
>Может быть ты?
Искатель виноватых, а может быть ты нахуй сходишь?

Аноним 10/04/25 Чтв 22:09:56 #179 №1144569

>>1144558
Мой страх что меня уволят и заменят на ИИ, а у меня ипотека, вот это реальный страх, а не бездушный контент под меня

Аноним 10/04/25 Чтв 22:34:34 #180 №1144613

булькает.mp4

Господа, не юзал локалки со времен пигмалиона. Что является базой треда, несложной для вката?

Аноним 10/04/25 Чтв 22:48:45 #181 №1144658

>>1144557
>Настолько они не галлюцинируют. Ты видел промпт Cline, плагина, на котором кодят? Там 10к контекста. ПРОМПТ.
Только чтобы сожрать такой промпт не обосравшись (ничего не упустив, в точности выполнив инструкции, не начав шизить) нужна громадная корпоративная нейронка. Локалки пока не могут.

Аноним 10/04/25 Чтв 22:51:21 #182 №1144670

>>1144613
>Господа, не юзал локалки со времен пигмалиона. Что является базой треда, несложной для вката?
Русик, инглиш, РП, ЕРП, количество врам? В общем случае Гемму 3 бери, как раз файнтюн DPO на неё вышел.

Аноним 10/04/25 Чтв 23:17:31 #183 №1144733

>>1139403 →
> КАКИЕ КОРАБЛИ?
> Мы не занимаемся продажей кораблей, но вот информация по вашему запросу
> КАКИЕ КОРАБЛИ, СУКА?! ЭТО ЗНАТЬ НАДО!
> Простите, может вам нужно забронировать круиз или яхту?
> АКАГИ КАГА ХИРЮ СОРЮ! КАКИЕ САМОЛЕТЫ?

фуух сука, как же прошепотал в голосину.

Ну кстати да, заметил такое что нейронка если ухватит что-то непонятное ей она начнет дико загоняться и тут ее надо вовремя ухватить объяснив недопонимание а еще лучше перегенерировав запрос более понятнее для нее.

Аноним 10/04/25 Чтв 23:18:04 #184 №1144734

>>1143498
Да там кум неизобретательный, всё быстро приедается. Я твоя сучка, спермасвалка, сосу твой биг факин кок. Гемма же из контекста может чегл цепануть и выдать во время кума что вызовет больший отклик
>>1144554
Сначала срешь, потом заказываешь

Аноним 10/04/25 Чтв 23:30:37 #185 №1144763

>>1144549
>зареплейсить
https://pixeldrain.com/l/47CdPFqQ#item=76
RegEx плагин

Аноним 10/04/25 Чтв 23:46:16 #186 №1144811

>>1143583
c gtx 1060 6gb и 16gb 3200 оперативы чето светит? или можно сразу идти нахуй довольствоваться 2к контекста?

Аноним 10/04/25 Чтв 23:51:18 #187 №1144826

>>1144811
Тестируй, проверяй. Все модели разные и по разному жрут.

Аноним 10/04/25 Чтв 23:52:04 #188 №1144828

>>1144533
>И самое блять главное - где гарантии того, что наши собственные мозги это не результат искусственной генерации.
Вот тут вот глупости начал писать. Мы результат симуляции но той которой мы называем биологической. Процессы схожие но метод действия различен.

Аноним 11/04/25 Птн 00:09:37 #189 №1144870

>>1144533
Вот это тело под веществами, не иначе.
>>1144569
Квалифицированному работяге (сварщик, альпинист, слесарь, ...) еще долго ничего не грозит, даже потенциальная роботификация сильно не затронет. На скилловых спецов, что работают головой - всегда будет спрос, нейронка их не заменит а станет удобным инструментом.
Постарайся оказаться в одной из этих двух групп и разжимай булки. А низшее звено, обслуга, макаки и прочие пострадают. Но, скорее всего, это будет не надолго, просто придется перепрофилироваться на новую работу примерно того же уровня.

Аноним 11/04/25 Птн 00:12:48 #190 №1144876

>>1144533
Не хочу тебя расстраивать но таких идей полно и некоторым тысячи лет, на вот тебе мою любимую - вселенная это сон творца.
Что то спит и видит сон, в своей памяти и воображении создавая и поддерживая существование вселенной.
Можно сказать что это компьютер поддёрживающий сервер, или то что мир это симулятор, вобщем все эти идеи сводятся к одному
На сколько помню теория создания мира в индийской мифологии так же связана со сном бога
До этого были идеи что мир это механизм и там шестерни которые мы не видим, потом что это вычислитель, потом что коспьютер.
В каждой эпохе все пытались на хайповой теме объяснить как устроен мир. Ты вот до нейросетей доебался.
Интересно на что в дальнейшем будут аналогии приводить

Аноним 11/04/25 Птн 00:21:53 #191 №1144913

>>1144876
хуйня, мир - сон собаки. Моя любимая

Аноним 11/04/25 Птн 00:59:30 #192 №1144978

>>1144670
>как раз файнтюн DPO на неё вышел.
Не, фигня, по крайней мере на русском. В куме лучше чистой аблитерации, но всё равно сильно уступает тому же Даркнес Рейну. Короче ещё пилить и пилить.

Аноним 11/04/25 Птн 01:13:56 #193 №1144999

>>1144978
А вообще для русика есть что то годное для сочного кума в диапазоне 20-32b? Или только гемма, 999 вариаций гусевской сайги-12b и 32b-старье, уступающее свежим 8b? В общем что то слегка умнее гусемодов?

Аноним 11/04/25 Птн 02:46:47 #194 №1145100

>>1143010
>Ты поаккуратнее там, анон. Пикча-то пойдёт в ОП по-любому, а вот её автор... Выглядит всё страшноватенько.

А шо не так? Я уж полгода так живу, разве что внутри была компактная 3060. Вчера кумил с 3090 в корпусе, температуры те же, что и были. Сасуга корпусные кулеры! Я в один даже пальцы случайно сунул, когда он крутился. Хорошо, что там не как в мясорубке.

>>1143532
>Что за модель с такой скоростью?
Ты про мою повседневную или ту, которую я пытаюсь завести? Если первое, то Бегемот от Драммера, если второе, то Гермес 405B. Вообще может и Дипкок потом попробую, но это пиздец, третий квант осилю только с привлечением RAM, да и то I версию, а они вроде не любят обработку на процессоре - т.е. я почти уверен, что меньше токена в секунду будет. Можно, конечно, обычный второй, но это же совсем лоботомит.

Аноним 11/04/25 Птн 03:51:45 #195 №1145126

>>1144999
>А вообще для русика есть что то годное для сочного кума в диапазоне 20-32b
Скорее всего нет. Некому тюнить, некому мержить. И 12В-то чудом образовалась - похоже, что это предел возможностей анонов. Спасибо им кстати.

Аноним 11/04/25 Птн 05:07:51 #196 №1145139

Блять хотите кум и не лоботомит СНОУДРОП 32б сколько можно повторять, если хотите кум уровня все вокруг говорят, думают и мечтают только о том как вас выебать, забив вообще на всю логику - просто качаете магнум, хуй знает че вы тут придумывать стали

Аноним 11/04/25 Птн 06:38:34 #197 №1145155

>>1145139
>СНОУДРОП
вроде и неплохо, но слишком тяжёлая

Аноним 11/04/25 Птн 07:29:47 #198 №1145162

Чекайте предикт, попены выпустят лучшую локальную модель для кода чтобы скинуть с себя макак которые им приносят больше расходов.

Аноним 11/04/25 Птн 07:34:54 #199 №1145165

image.png

Там это, гемма опять виновата.
Ahem встречали уже?

Аноним 11/04/25 Птн 07:41:24 #200 №1145168

image.png

КХЕ КХЕ

Аноним 11/04/25 Птн 07:58:20 #201 №1145177

>>1145165
>>1145168
Это Старый Мужик Хемлок покашливает за твоей спиной... ОБЕРНИСЬ

Аноним 11/04/25 Птн 08:28:47 #202 №1145183

>>1145165
>>1145168
ЗАПАХ КЛУБНИЧНОГО ГЕЛЯ ДЛЯ ДУША был уже?

Аноним 11/04/25 Птн 08:33:23 #203 №1145186

П.mp4

>>1145168

Аноним 11/04/25 Птн 08:41:39 #204 №1145192

>>1144763
Спасибо!

Аноним 11/04/25 Птн 08:44:56 #205 №1145194

1744350296452.png

>>1145165
У нас всё хорошо. Скользим как рыба в приподнятый таз.

Аноним 11/04/25 Птн 09:26:59 #206 №1145210

>>1145194
Ставьте ноги в тазик...

Аноним 11/04/25 Птн 09:40:35 #207 №1145213

image

Откатился на q4_k_m c q8, чтобы потестить скорость видяхи. Ну скорость охуенная, но в рп эта лоботомия вообще не может. Это такой тупой пиздец, я в шоке просто насколько огромна разница...

Это как на графонистую игрулю накатить potato mode.

Это просто пиздарики...

Аноним 11/04/25 Птн 09:44:25 #208 №1145214

image

Вот что 4 пишет с рп. Зацените пиздец... Не то что не правильно, но вообще диалог страдает, и какой то бред про рп. Почему только просле приезда? Я хуею с этой лоботомии.

Аноним 11/04/25 Птн 09:45:08 #209 №1145215

>>1145213
q4 от 12б этож пиздец, разве что от безысходности... хотя бы q6 попробуй, она вроде ещё сохраняла адекватность

Аноним 11/04/25 Птн 09:47:06 #210 №1145218

>>1145214
ты там вообще на голожопе чтоли, ни разу не видел такого, особенно от его мистралек

Аноним 11/04/25 Птн 09:50:16 #211 №1145222

NO GOD, PLEASE NO!.mp4

>>1145215
Ну да. Ну 9 токенов\с или 3.5... Не, я уж лучше подожду. Это полный треш. Мне даже сетку жалко за такое проведение лоботомии над ней, это полный пиздец.

Но для обычных вопросов нормиса в принципе сойдет, не более.

>>1145218
Какой еще голожоп?

Аноним 11/04/25 Птн 09:55:49 #212 №1145225

image

Сравните первый ответ у лоботомита и q8...

Аноним 11/04/25 Птн 09:56:04 #213 №1145227

>>1145213
На английском даже четвёртый квант довольно умный, хорошо подтягивает контекст, лорбук и карточки персонажей, продвигает сюжет и придумывает разные ситуации. На русике... ну блять, меня хватило на пол часа ру рп, такое ощущение будто приехал в бурятскую деревню где все бухают и начал общатся с ними.

Аноним 11/04/25 Птн 09:56:22 #214 №1145229

>>1145222
>голожоп
[ass]istant, голожоп - без карточки / системного промта задающего боту роль отличную от дефолтно зашитой при тренировке модели данных.

Аноним 11/04/25 Птн 09:58:02 #215 №1145230

>>1145229
Не, характер прописан само собой, и вид тоже.

>>1145227
У меня все отлично с английским, но так хочется на своем, родном. А на q8 тоже огромная разница?

Аноним 11/04/25 Птн 10:00:54 #216 №1145231

>>1145230
>на q8
Чем больше у модели параметров тем сильнее её можно квантануть и не словить шизу. Конечно, больший квант лучше, но в целях компромисса - для 12-22б минимум это 6 квант, для 27-32 это четвёртый, для 70-123б - второй.

Аноним 11/04/25 Птн 10:02:20 #217 №1145233

69110851.jpeg

>>1142778 (OP)
Как правильно составлять лорбук?
Например:
Есть 3 Материка, на каждом по 3-4 страны.
В лорбуке следует:
1) писать сразу все в 1 запись
2) сделать 3 отдельные записи по материкам
3) сделать все отдельно записи по каждой стране и по каждому материку
???
Я просто вижу в готовы, что там максимально разделяют сущности, но у меня нет понимания как они взаимосвязываются, например если все разделить и связать ключевыми словами, может быть тригер по узкому слову и нейронка не поймет что страна Г именно с материка Б.
Как это работает? Можете на пальцах для дауна объяснить?

Аноним 11/04/25 Птн 10:05:54 #218 №1145235

image

1.mp4

Во, сразу поняла. Лоботомия - страшная вещь даже с нейросетками...

>>1145231
Я тестил гемму 27 4, и постоянный луп ловил на. На русском само собой. На инглише не тестил. Ну первые сообщения норм, но в кум не может вообще. Для интересной беседы пойдет, но лучше не лоботомированная как всегда...

Аноним 11/04/25 Птн 10:05:57 #219 №1145236

>>1145233
по отдельности, записи лорбука должны быть небольшими и энциклопедичными, максимально короткая и сухая выжимка знаний, как настроить триггеры смотри в вики глупой таверны

Аноним 11/04/25 Птн 10:06:02 #220 №1145237

пук q4.png

>>1145214
>>1145225

Аноним 11/04/25 Птн 10:08:01 #221 №1145239

17400760407720.mp4

>>1145237
Это гемма? Такая фигня....

Аноним 11/04/25 Птн 10:09:39 #222 №1145241

>>1145239
Darkness-Reign-MN-12B Q4

Аноним 11/04/25 Птн 10:10:23 #223 №1145242

>>1145235
>Я тестил гемму 27 4, и постоянный луп ловил.
Плацебо, уровень потерь на этом размере менее <5%, такие же лупы получал бы и на Q8. Просто ты видишь то что хочешь видеть.
>На русском само собой
Умножает любые аргументы на 0.

Аноним 11/04/25 Птн 10:10:48 #224 №1145243

>>1144658
Ну, могут, просто большие.
Но есть же баланс, просто накидываешь тот же негативный промпт «ты говоришь о: …» или в обычный пихаешь «говоришь только о: …, все остальное игнорируешь», или, опять же, использовать маленькую нейроночку-щит, которые будет вырезать все лишнее, классика же, многие уже выпускают такие.
Короче, галюны решаемы, это точно. Мы тут не ААА-пилим, а инди-игру.

Аноним 11/04/25 Птн 10:11:15 #225 №1145245

Шо то хиня шо это хиня.mp4

>>1145241

Аноним 11/04/25 Птн 10:11:26 #226 №1145246

image

>>1145235
>Я тестил гемму 27 4
гемма может, но требуется толстый и подробный системный промт

А ещё дополнительно в заметки автора на нулевую глубину:

[Не повторяй, не пересказывай и не перефразируй предыдущий текст, продолжи его напрямую и бесшовно. По возможности включай в нарратив разговоры персонажей, их мысли, чувства, и язык тела.]

Аноним 11/04/25 Птн 10:11:42 #227 №1145247

>>1145239
Гемма не виновата, получается… =)

Аноним 11/04/25 Птн 10:15:43 #228 №1145251

15924044025620.webm

>>1145246
Это как дебила научить считать... И все равно останется дебилом же. Зачем это все?

>>1145242
>Умножает любые аргументы на 0.
Ну да. Когда уже русскую нейросеть сделают? Я не могу на инглише кумить, совсем не то...

Just cant do it, this is not the same as with native language...

Аноним 11/04/25 Птн 10:17:38 #229 №1145253

16136452675740.mp4

>>1145247
Выходит, что нет. (в видосе спит гемма)

Аноним 11/04/25 Птн 10:24:51 #230 №1145259

>>1145251
>Зачем это все?
Зачем, Мистер Андерсон, зачем вы продолжаете кумить на неаблитерованной гемме?

Аноним 11/04/25 Птн 10:25:04 #231 №1145261

mp4.mp4

>>1145253
Я не про цп если что, а про ее ответы. Они максимально завуалированы что ли? Не чувствуется вообще сцены и образа. Нет настоящего раскрытия кума, не тех детальных слов, от которого шишак улетает в небеса...

Аноним 11/04/25 Птн 10:26:17 #232 №1145264

>>1145225
Так наоборот же тут ответ у q4 логичнее. С фига ли тянка будет рассказывать, чем пахнет её анус, какому-то рэндомычу? Да ещё в первом варианте пытается использовать особенности, прописанные в карточке (наверное, если ты её вообще нормально подаёшь). Вообще если у тебя имя assistant идёт в промпт, то как бы тоже абсолютно логично, что протекает ассистентослоп.

Аноним 11/04/25 Птн 10:27:39 #233 №1145265

Допрос Нео.mp4

>>1145259
Я про аблитерированную говорю. Но я же на русском кумлю, так что мои доводы поделены на ноль.

Аноним 11/04/25 Птн 10:32:35 #234 №1145268

Видеоёб опять засрал чат

>>1145231
> для 12-22б минимум это 6 квант
Чет ты хуйню советуешь, это для 7b всяких минимум 5км-6 квант, на 4 заметно тупеют.
12b можно спокойно 4км крутить
А вот все что ниже 7b нужно 8 квант без вариантов, лучше бы конечно полные веса но тогда выгоды от запуска мелкосетки не будет. Рост памяти в 2 раза не оставляет шансов 16бит

Аноним 11/04/25 Птн 10:33:39 #235 №1145270

image

>>1145265
а вот новая gemma-3-27b-it-qat-q4-0-small умеет так, без аблитерации, не без косякеков конечно, но надо сэмплеры ещё покрутить

Аноним 11/04/25 Птн 10:33:43 #236 №1145271

Озабоченныи архитектор Очень страшное кино 3 2003 СЦЕНА 68.mp4

>>1145264
Ну да, логичнее. А с кумом нужна такая логика?

Аноним 11/04/25 Птн 10:35:44 #237 №1145273

>>1145270
Это ты сломанную крутишь или перекачал исправленный вариант?

Аноним 11/04/25 Птн 10:37:22 #238 №1145274

>>1145273
это ещё старая, лень перезепускать, фикшенная только докачалась

Аноним 11/04/25 Птн 10:37:27 #239 №1145275

image

17443457564050.mp4

>>1145270

Аноним 11/04/25 Птн 10:40:28 #240 №1145277

Озабоченныи архитектор Очень страшное кино 3 2003 СЦЕНА 68.mp4

>>1145270
Для первого контакта с нейросеткой сойдет, но не сойдет, когда ты уже прожженный кумер с терабайтной коллекцией прона...

Аноним 11/04/25 Птн 10:43:33 #241 №1145278

>>1145277
>прожженный кумер с терабайтной коллекцией прона
Я ещё не настолько преисполнился...

Аноним 11/04/25 Птн 10:45:02 #242 №1145279

>>1145274
>фикшенная
Это та где пару токенов переделали? Она просто менее сломанная, полного фикса еще не видел

Аноним 11/04/25 Птн 10:48:04 #243 №1145281

>>1145279
>полного фикса
а в чём её проблемы кроме того что без аблитерации?

( хотя такое ощущение что нечто между аблитерированной и нет - вроде бы и в отказы/сою не уходит, но при этом сразу лапки/ножки не раздвигает XD )

Аноним 11/04/25 Птн 10:51:09 #244 №1145285

>>1145281
>а в чём её проблемы кроме того что без аблитерации?
>>1143735

Аноним 11/04/25 Птн 10:56:35 #245 №1145291

17428616474610123131.mp4

>>1145278
Ну ты лох...

Аноним 11/04/25 Птн 10:57:50 #246 №1145293

>>1145233
> может быть тригер по узкому слову и нейронка не поймет что страна Г именно с материка Б.
В таверне есть рекурсивные зависимости для буков, почитай на вики

Аноним 11/04/25 Птн 10:59:48 #247 №1145297

>>1145285
там визион-компонет сломан, текст по большей части работает нормально

>>1145291
Мусью, мне непонятны истоки ваших претензий к моей светлейшей персоне.

Аноним 11/04/25 Птн 11:01:30 #248 №1145299

Cloud7 - Lost.mp4

>>1145297
>Мусью, мне непонятны истоки ваших претензий к моей светлейшей персоне.
Мало пожил еще на этом свете, щенок!

Аноним 11/04/25 Птн 11:05:35 #249 №1145303

image

>>1145299
угу, вообще шота

Аноним 11/04/25 Птн 11:11:02 #250 №1145304

14867244003550.webm

>>1145303
Напиши ей - я смотрел на тебя, и видел истинную красоту, о которой так долго мечтал. -Я не пью алкоголь, сказал он, я в завязке, и тебе бы тоже лучше бросить. Ты красивее без этого фикса для мозга.

Аноним 11/04/25 Птн 11:13:55 #251 №1145305

>>1145297
> по большей части
Ты хотел сказать сломан и это влияет на качество ответов что аж целый пост в топы улетел?
Не верти жопой, сетка сломана.

Там попытались исправить но непонятно на сколько успешно, пару самых важных токенов, обычные не трогали.
Гугль не дал оригинальные веса, а сами криво квантанули. Без оригов исправить это будет трудно. Там еще какие то веса слишком жирными квантанули, от чего размер больше нужного.
На их хагинфейсе есть обсуждения
https://huggingface.co/google/gemma-3-12b-it-qat-q4_0-gguf/discussions/4

Аноним 11/04/25 Птн 11:26:43 #252 №1145306

>>1145305
хз, в ламе работает, а визион компонент не тестил

Аноним 11/04/25 Птн 12:04:37 #253 №1145338

Есть ли большая разница между четвёртым, и пятым квантом на 12b модели?

Аноним 11/04/25 Птн 12:06:41 #254 №1145339

>>1145338
трудно сказать, если влезает пятый, то бери пятый

Аноним 11/04/25 Птн 12:19:40 #255 №1145346

>>1145338
Потери увеличатся в два раза, как собственно между любыми квантами. Другое дело чем больше сетка там больше ей похер на потери, компенсируя это количеством параметров. Касаемо 8-12b я бы Q4 трогал только в крайнем случае, это пограничный размер.

Аноним 11/04/25 Птн 12:22:15 #256 №1145350

изображение.png

Вот, сука, поэтому я гемму и не люблю. Вот постоянно вылезает хуйня, которая ломает весь РП.
Эта блядина не может знать об истинной сути Кая. Это ёбанный секрет, прописанный в карточке несколько раз. Секрет, скрывается, никто не знает, сука! Вся суть в этом, блядь!
И первое же сообщение - на, получай, падший.

Другой чат, где из воздуха вываливается парень с арбалетным болтом в руке прямо перед обычной бабой в современном мире? Что она думает? 'Another one'! КАКОЙ АНОЗЕР ВАН, СУКА! 2020 ГОД! БАРНАУЛ!

Добавлю промпт и сэмплеры. Переюзал кучу их, один хер говно говна. Может быть я долбоёб и чёт не понимаю? Как вы это говно юзаете, если оно тупее MN-12B-Mag-Mell-Q8_0?

Аноним 11/04/25 Птн 12:24:15 #257 №1145351

>>1145225
>первый пик
У этого же автора есть квантованная версия i1, поч её не использовал?

Аноним 11/04/25 Птн 12:28:40 #258 №1145354

>>1145350
сетки не умеют "скрывать" и играть в "мафию", никакие на текущий момент

Аноним 11/04/25 Птн 12:30:50 #259 №1145356

>>1145351
>i1
ай-кванты квантуются матрицей важности для английского языка, а на скрине русский, потому и не использовал

Аноним 11/04/25 Птн 12:32:30 #260 №1145357

>>1145350
>Another one
ещё один упившийся в хламину ролевик, всё верно

Аноним 11/04/25 Птн 12:33:01 #261 №1145358

>>1145354
Этот чат прекрасно работал и у MN-12B-Mag-Mell и у Forgotten-Transgression и в нескольких ещё сетках. Всегда реакция была адекватная. Гемма же регулярно вытаскивает предысторию, которую персонаж знать не может.

Аноним 11/04/25 Птн 12:36:33 #262 №1145361

>>1145350
Попробуй добавить в старт реплай виз что-то в духе "<{{char}} doesn't possess knowledge about Kai being an angel, so she will act accordingly>"

Аноним 11/04/25 Птн 12:36:44 #263 №1145362

>>1145358
>MN-12B-Mag-Mell и у Forgotten-Transgression
они просто срали на промт и забывают какого цвета майка была два сообщения назад, что в кухню уже пришли, а трусы ещё не сняли.

Аноним 11/04/25 Птн 12:39:52 #264 №1145365

>>1145356
ну вот я и говорю, попробовал бы на англе покумить с 4q_i1 версией, мб получилось бы.

Аноним 11/04/25 Птн 12:42:37 #265 №1145371

>>1145362
>забывают какого цвета майка была два сообщения назад, что в кухню уже пришли, а трусы ещё не сняли
Гораздо реже, чем гемма. В первом сообщении трусы уже висят на щиколотке - в следующем она их опять снимает. Я такого уже год, по моему не видел.
Мама с папой ебутся в спальне, и в одном сообщении он её ебёт, параграфом ниже - у него bulge in boxers.
Складывается впечатление, что гемма ни за локацией, ни за статусом одежды, ни за чем не следит.

Аноним 11/04/25 Птн 12:44:23 #266 №1145372

>>1143405
DDR4 и 2 токена? Это на каком контексте? Это ж прям жирно с такой памятью. Если б DDR5 ещё, я бы понял.

Аноним 11/04/25 Птн 12:48:31 #267 №1145375

изображение.png

И как я и говорил - она не понимает ёбанного контекста. Вообще никак.
Есть странный парень, которому похуй на буллинг. Что же с ним не так? Ах, конечно, он, сука, ангел! Сука, падший! А хули не гном - перевёртыш то, ёбанный в рот?

Я снова задаю вопрос, как вы рпшите с этой геммой то? Это же уровень даже не визарда, это просто пиздец.
Ни в коем случае не умаляю её возможности в других областях, но мне они просто нахуй не нужны локально.

Аноним 11/04/25 Птн 12:56:16 #268 №1145379

>>1145375
Блять падший ангел.

Аноним 11/04/25 Птн 12:57:33 #269 №1145380

>>1145379
О вкусах спорить будем?

Аноним 11/04/25 Птн 13:05:46 #270 №1145384

>>1145362
На своем опыте ни разу не встречал такого за Forgotten Transgression. 6bpw, q8 кэш. Для меня пока что самая умная из моделей, что могут в кум.

Аноним 11/04/25 Птн 13:06:30 #271 №1145385

>>1145380
Просто орнул, не хотел тебя обидеть солнышко. Попробуй прописать в авторских заметках, чтобы не высирало эту инфу, либо вручную чисти.

Аноним 11/04/25 Птн 13:07:30 #272 №1145387

>>1145354
QwQ Snowdrop попробуй. Отыгрывал sfw чат с персонажем, у которого есть секрет и детали бекграунда, которыми он не хотел делиться. Понадобилось 400+ сообщений, чтобы втереться в доверие и узнать об этом, даже в OOC.

Аноним 11/04/25 Птн 13:07:44 #273 №1145389

>>1145365
>попробовал бы на англе
Я же уже сказал. Я могу разговаривать без проблем, но что-то интимное - только нормально воспринимается на родном. Как вы можете это - я конечно понимаю, и не осуждаю, но я сам лично так не могу... Вообще инглиш люто калечный язык, если объективно посмотреть. Это как с обезьяной общаться по сравнению с русским. Ну по крайней мере у меня это так воспринимается в моих мозгах, и словарный запас у меня английского больше, чем у среднестатистического англичанина даже.

Ну инглиш реально примитивный. Тут любой лингвист подтвердит это.

Аноним 11/04/25 Птн 13:07:50 #274 №1145390

у всех фломастеры разные, магия-шмагия, колдунство да камлание жуткое

Аноним 11/04/25 Птн 13:11:16 #275 №1145391

изображение.png

>>1145385
Да похуй, гемма тупая как пробка в РП. Даже когда в цвет говорят, что издеваюсь, всё равно реагирует и комментирует, словно это правда. Другие модели тоже, бывает, тупят, но тут просто совершенно другой уровень непонимания того, что от неё хотят.
Я уже пол дня её гоняю, и в 70-80% случаев она совершает хуйню.

Просто дно, возвращаюсь назад на Forgotten-Transgression, хоть и приелся её слог.

Аноним 11/04/25 Птн 13:11:31 #276 №1145392

>>1145390
Не, все просто - чем сложнее модель, тем имитация лучше. Это как с картинкой 4к лучше чем 480р. Хотя да, трейн тоже влияет, и более четкая 480р будет лучше 4к апсекейла.

Аноним 11/04/25 Птн 13:12:16 #277 №1145393

>>1145391
Какой квант? 27б?

Аноним 11/04/25 Птн 13:13:00 #278 №1145394

>>1145393
Просто всплывал недавно на реддите шизик непонимающий популярность геммы и оказалось что он на 4б сидел

Аноним 11/04/25 Птн 13:14:32 #279 №1145395

Допрос Нео.mp4

>>1145391
Я не понимаю, и чем инглиш тут лучше русского? То же самое, только в профиль.

Аноним 11/04/25 Птн 13:14:44 #280 №1145396

>>1145387
>Понадобилось 400+ сообщений, чтобы втереться в доверие и узнать об этом
This.
Гемма же высрет тебе это почти сразу. Более того - будет и твою приватную инфу использовать даже не намёками, а сразу в цвет. Есть тату на жопе? Сразу же видим её через штаны!

Аноним 11/04/25 Птн 13:16:09 #281 №1145399

>>1145393
gemma3-27b-abliterated-dpo.Q4_K_M

Но я перепробовал все геммы 27б до этого на 4 кванте, все несли подобную хуйню на разные лады.

Аноним 11/04/25 Птн 13:16:33 #282 №1145400

image

не, ну в целом gemma-3-27b-it-qat-q4-0-small неплоха...
хотя такое ощущение что ещё туповатее аблитерированной обычной

Аноним 11/04/25 Птн 13:17:40 #283 №1145401

>>1145338
Лучше бери 4KM или еще лучше 4KL, там самые важные веса квантованы в 6 и 8 бит.
Это будет лучше чем 5KS, но 5KM уже лучше любых 4 квантов. Любые голые KS или 4_0, 4_1 никогда не бери, эт хуйня. Как и 5_0, 5_1, устаревшие кванты

Аноним 11/04/25 Птн 13:18:53 #284 №1145402

>>1145395
Дело уже привычки. Начинал ещё 1000 лет назад на коллабе с 6b моделями. Там не то что русика, там и английский был плох.
Со временем парить английский перестал, читаешь как и русский.

Аноним 11/04/25 Птн 13:23:06 #285 №1145406

iOSTRA - А мы не ангелы, парень.mp4

>>1145402
Ну я так же читаю, это же нейросетка. А в реале инглиш люто сосет у русского в литературе. Вообще русский - один из самых сложных языков в мире, в топе 3 уж точно. А инглиш воспринимается как пресная хуйня. Язык для передачи информации, не более.

Аноним 11/04/25 Птн 13:24:45 #286 №1145409

>>1145406
Всем похуй, это не предмет обсуждения на данной доске. Будь добр обсуждать это в другом месте.

Аноним 11/04/25 Птн 13:25:51 #287 №1145411

>>1145126
>Спасибо им кстати.
Даа... Абсолютно согласен, им правительство гранты должно выделять, делают для русского ЛЛМ больше, чем Хуяндексы.

Кстати анон, а не знаешь в чем разница NekoMix-12B и SAINEMO-reMIX? Только в том что в одной смержен
Rocinante-12B-v1.1, а в другой Chronos-Gold-12B-1.0? В чем разница и какой для кума лучше? Или для кума на русике есть 12b другие?

Аноним 11/04/25 Птн 13:33:15 #288 №1145421

>>1145406
Этого двачую, русский тащит конкретно в куме.
И к слову инфа про то, что в англ 1 слово=1токен, а в русском 1 слово=3-4 токена, пиздеж.
Я огроменные тексты сверял после перевода, в русском было только на 30% больше токенов, а не в 3-4 раза, то есть англ текст на 1000 токенов на русском примерно 1350 токенов будет.
И эту цену имеет смысл платить.

Аноним 11/04/25 Птн 13:41:24 #289 №1145424

>>1145421
>>1145406
>русский тащит конкретно в куме
Не задумывался об этом... Надо попробовать.

Аноним 11/04/25 Птн 13:49:27 #290 №1145440

>>1145354
Почему? Могут.
Даже скрывать могут, QwQ привет и другие ризонеры.
Обычные, да, не умеют.

Это получается не очень хорошо, но на некотором контексте работает.

>>1145394
В голосину!

>>1145421
Это не инфа, это пиздеж в принципе.
Никогда такой хуйни не слышал.
Да, английский токенизируется лучше.
Но есть хорошие токенизаторы, есть RuAdapt, это вполне себе рабочая тема в LLM-сообществе. Какие нахуй 1 и 4 токена, откуда эта срань, простите, лезет. Ньюфаги приносят хуйню, даже не могут сами через токенайзер прогнать, проверить.

Аноним 11/04/25 Птн 14:04:30 #291 №1145460

image.png

Аноним 11/04/25 Птн 14:06:06 #292 №1145461

>>1145440
>Никогда такой хуйни не слышал.
Ньюфаг, это было в самом начале. Сейчас это устаревшая инфа по большей части.
Когда токенизаторы были только на английский настроены. Ллама1 почти в 2 раза меньше русского вмещала, и так не будучи богатой на контекст.
Слово занимало 1-2 токен на английском, на русском до 3-4 могло быть. Я даже помню какую то сетку которая чуть ли не по буквам на русском отвечала, но не помню что это было.
С лламы3 токенизатор сделали жирнее и включили туда другие языки, в итоге разницы с английским почти не стало.
Чуть больше и похер, контекста тоже стало не 2-4к максимум, тоже упора не стало. Язык стал лучше, и русский и английский.
3 года а какой прогресс.

Аноним 11/04/25 Птн 14:09:03 #293 №1145466

>>1145440
>ризонеры
А реально смержить гемму 3 с каким то ризонером, чтобы адекватно было?

Аноним 11/04/25 Птн 14:17:57 #294 №1145481

>>1145460
Ну блять, главное что они получили что хотели.

Аноним 11/04/25 Птн 14:26:37 #295 №1145496

>>1145411
>другие
даркнесс рейгн и омни-магнум

Аноним 11/04/25 Птн 14:41:05 #296 №1145531

>>1145411
>делают для русского ЛЛМ больше
Да ну не. Там литералли полурэндомные мержи с включениями 12б Сайги, часть которых наверняка на русском хуже, чем некоторые удачные мержи чисто английских тьюнов немо. Почти вся заслуга за немо, и небольшая часть за авторами Сайги и Вихря.

Аноним 11/04/25 Птн 14:52:55 #297 №1145559

>>1145235
>>1145239
>>1145245
>>1145251
>>1145253
>>1145261
>>1145265
>>1145271
>>1145275
>>1145277
Дальше уже лень цитирывать, срыгни нахуй в aicg или б, даун. Устроил шебм-тред с имитацией ответов.

Аноним 11/04/25 Птн 14:53:44 #298 №1145561

>>1145531
Да просто за крупными IT шарагами вообще никакой заслуги не вижу перед сообществом, так что даже анон склеивший 1b с 1b или дотренивший ее же на 3х фанфиках жирояойщицы для меня выше в этой иерархии, чем рф корптех.
Сбер разве что стоит помянуть со своим опенсорсным чатом, один из первых в русике, но спустя пару лет иностранные модели по типу геммы и квена смогли в русик, а сбер в неогороженного нелоботомита не смог. Высер от яндекса поверх квена с анальной лицензией так вообще плевок в лицо.

Кстати, напомнил, ЯнкуГПТ надо потестить, просто ради интереса.

Аноним 11/04/25 Птн 15:54:39 #299 №1145687

rusik.jpg

>>1145496
Я нихуя не понимаю.жпг

Я уже почти смирился с тем, что на русском рпшат и кумят 1,5 анона на 12b тюнах мистрали.ггуф на своих 2070, а все ровные пацаны make very pleasant london capital. А почитал сегодня тред, и ощущение что половина сидит на русике и англюсик даже не рассматривает, причем кумят на моделях, которые я даже не подозревал.

Итак я пока вижу расклад так, из того что пробовал:
- Gemma-3 27b и ее вариации. Умная модель, золото как ассистент, может в русик, по куму и рп - надо тонко уметь (я не умею, аблитерация у меня ушла в залуп).
- Qwen базовые квантованные - умные модели, в основном для рабочих задач, квен-кодер32б мне понравился по назначению. Но что кодер, что корпоквен через вебморду как ассистент не оч, ощущение что пишет услужливый китаец из тиктока. Гемма куда человечнее.
-SaiNEMO-REMIX 12b - хорошая рп модель на русике, 12b конечно чувствуются немног. Кум скучноватый у меня (но я пока не бог промтов и сэмплеров), сложную логику не особо вывозит.

Теперь из того что не пробовал, но что встретились на доске:
- Семейство магнумов(это на основе какой модели вообще?) - лютый кум, все ебут всех, но модели старые и не очень умные(?)
- Forgotten-Transgression-24B-v4.1 - аноны сошлись что для рп и кума модель шикарна, но только на англюсике
- Darkness-Reign и омни-магнум >>>1145496 вот тут анон посоветовал, в Darkness-Reign описании вообще не слова про русик на HF, однако я вижу неплохой русик у анона >>1145225 ... Что за омни магнум я вообще не смог найти на HF(
-QwQ-32B-Snowdrop-v0 - жирная модель, судя по основе на qwq должна быть умной и уметь в русик, в описании что то про цензуру, но анон >>1145139 уверил что кум есть.

Поправьте где я обосрался, что забыл, в идеале если кто то напишет список моделей с пояснением как это сделал я, только со знанием вопроса. Так может быть даже к полноценному рейтингу моделей актуальных придем в шапку, и не будет вопросов от новичков однотипных. А то в вики до сих пор у геммы-2 средства для запуска вот вот подтянутся

UPD Нарыл в недрах вики https://rentry.co/llm-models вот это золото сейчас, его бы совместно обновить и добавить "что по русику у модели". Вообще не понимаю почему этого рентри нет в шапке, зато есть ссылки на какие то мутные метрики с корпомоделями и 405b.

Готов как то помочь чем смогу с редактурой или типа того, но к сожалению я тупой и неопытный.

Аноним 11/04/25 Птн 16:05:46 #300 №1145724

>>1145687
Даркнесс и омни - это всё те же 12б мержи с сайгой от одного анона, который в шапке https://huggingface.co/Aleteian
Какая модель там у него что умеет, даже он сам, наверное, уже не сможет сказать, там всё пронизано тесными внутрисемейными отношениями (лютейшими инцестмиксами).
>в Darkness-Reign описании вообще не слова про русик на HF
На странице модели написано, что это мерж на основе сайги-анлишд. Открываешь последнюю и видишь, что это мерж сайги (ру тьюн) с немомиксом.

Аноним 11/04/25 Птн 16:07:09 #301 №1145726

zuVlLU9Uth4TDQyc8sW4yga26RX9HjWYQBvEbeG18QEfWrxNo5PEnELw3cxtwlGNA.jpg

>>1142778 (OP)
В Яндексе изобрели новый метод квантования.

https://t.me/yandex/3125

Наш метод сжатия больших языковых моделей приняли на NAACL, одну из крупнейших конференций по ИИ. Метод HIGGS сжимает LLM на телефонах и ноутбуках и при этом сохраняет качество моделей. Эксперименты показали, что HIGGS сжимает языковые модели лучше аналогов.

↗️ Метод разработали учёные из лаборатории Yandex Research совместно с НИУ ВШЭ, MIT, KAUST и ISTA. Он выложен в открытый доступ на Hugging Face [ https://huggingface.co/docs/transformers/main/en/quantization/higgs ]. Подробнее о HIGGS можно прочитать в научной статье на https://arxiv.org/pdf/2411.17525 .

Аноним 11/04/25 Птн 16:13:40 #302 №1145742

>>1145726
>Яндексе
Уже одно это делит на ноль всё.

Аноним 11/04/25 Птн 16:14:58 #303 №1145744

>>1145742
>яндекс
фу говно, параша.
>гугл
баренское, mnom mnom mnom

>>1145726
А это выглядит интересным.

Аноним 11/04/25 Птн 16:17:21 #304 №1145748

>>1145726
Как приятно, что развитие есть.

Аноним 11/04/25 Птн 16:17:25 #305 №1145749

>>1145744
Чёт орнул с этого яндексресёрчера рекламирущего своё говно на харкаче, лол.

Аноним 11/04/25 Птн 16:18:27 #306 №1145752

>>1145724
Спасибо большое что доходчиво разъяснил. Попробую значит Даркнесс качнуть с квантом потолще вместо сайнемы iq4_xs (я ее скачал чисто угабугу проверить, и что то так и остался на ней для рп).

>12б мержи
Жаль, я было подумал там целое новое семейство, и может что то найдется на 20+b.
На одной 3090 стоит попробовать QwQ-32B-Snowdrop для этих же целей? Если да, то какой лучше выбрать квант/формат модели?

Аноним 11/04/25 Птн 16:19:12 #307 №1145756

>>1145726
> Эксперименты показали, что HIGGS сжимает языковые модели лучше аналогов
Проорал. В их тестах ни одной SOTA за последние два года. Ещё и сравнивают с HQQ, который квантует на лету и умеет в тренировку, в отличии от HIGGS.

Аноним 11/04/25 Птн 16:19:46 #308 №1145757

>>1145687
>омни магнум
https://huggingface.co/Aleteian/Omnino-Obscoenum-Opus-Magnum-MN-12B

Аноним 11/04/25 Птн 16:20:37 #309 №1145760

>>1145726
А переписка сразу товарищу майору отправляется при использовании?

Аноним 11/04/25 Птн 16:22:01 #310 №1145762

>>1145752
>и может что то найдется на 20+b
https://huggingface.co/Aleteian/Pantheon-of-Cydonia-Realm-MN-22B-RP

Аноним 11/04/25 Птн 16:23:43 #311 №1145763

>>1145744
>яндекс говно параша
>гугл омномном

О, я смотрю мьсе из яндекса уже выкатили в опенсорц модельку до 30b, ебущую гемму27 во все бенчмарки, аналогов НЕТ?

Аноним 11/04/25 Птн 16:24:03 #312 №1145764

>>1145756
Статья исследования не на русском языке, отправлена на американскую конференцию и гордятся этим как достижением, в релизе отметили важный факт - цитирования зарубежными изданиями (бля кринжуха, не помню ни одного зарубежного релиза который бы хвастался цитируемостью на релизе). Патриотичненько. Ах да, яндекс же...

Аноним 11/04/25 Птн 16:25:23 #313 №1145765

>>1145726
Спасибо что принес.

>Эксперименты показали, что HIGGS сжимает языковые модели лучше аналогов.
А каких конкретно аналогов?

Аноним 11/04/25 Птн 16:26:25 #314 №1145767

>>1145726
Ну и где этот дипсик и другие кванты по их методе, которыми они хвастаются в статье? Трындеть и я могу

Аноним 11/04/25 Птн 16:26:25 #315 №1145768 DELETED

>>1145764
А ты думаешь что волож делал год, молчал, пока не релоцировался и просрался осуждением к рф? Правильно, методы квантования изобретал.

Аноним 11/04/25 Птн 16:46:05 #316 №1145799 DELETED

>>1145768
Настоящий яндекс потерял права использования названия яндекс на сколько помню, так что это поделие местной конторы того что от яндекса осталось в россии

Аноним 11/04/25 Птн 16:53:05 #317 №1145814

>>1145763
>аналогов НЕТ?
Твою гему, QwQ32B ебет без остатка, но что то ты не бегаешь с криками КИТОЙ СТРОНГ.

Аноним 11/04/25 Птн 17:07:02 #318 №1145851

4b3q.jpg

>>1145814
Я хуею с этого кобольда.

Приплетает гугл
@
Отвечаю что у гугла есть гемма, а у яндекса непонятная, закошмаренная цензурой, никому не нужная, мелкопараметровая надстройка над чужими сетками без задач
@
приплетает китай, "А ОН ЕЩЕ СИЛЬНЕЕ, ПОЧЕМУ ЕГО НЕ ХВАЛИШЬ!?"

Аноним 11/04/25 Птн 17:12:01 #319 №1145862

>>1145851
Хрюкнул.

Аноним 11/04/25 Птн 17:16:30 #320 №1145871

>>1145814
>в опенсорц модельку до 30b
>32B ебет
Уже доеб, но даже тут дибил обосрался.

А вообще ты не туда воюешь, клоун. Я наоборот довольно патриотично настроен, но когда в нейровойне ллм то китай то запад каждый месяц сливают по йобам, которые пару лет назад в опенсорце никому и не снились... А (((НАШИ))) же кормят комьюнити какими то объедками от своих и так не слишком выдающихся наработок, еще и под анальными лицухами, при этом делают это с таким видом, будто AGI изобрели и дали плебсу потрогать... Появляются и вопросы, и стыд.

Аноним 11/04/25 Птн 17:31:24 #321 №1145904

Озабоченныи архитектор Очень страшное кино 3 2003 СЦЕНА 68.mp4

>>1145724
Само собой что миксы. Но русский лучший для кума и ахуительных историй пока что я видел. Или ты лучше знаешь?

Аноним 11/04/25 Птн 17:32:29 #322 №1145906

>>1145871
>(((НАШИ)))
Ты просто типикал соя, в твоей голове все как то само наверное делается, на святом духе. Где РФ, а где Китай и США, какое соотношение бюджетов в первую очередь и какой доступ к технологиям.
США - топ 1 по микроэлектронике, Китай - тоже может делать на совсем малых нанометрах. Обе страны топ экономики мира. У них есть на чем делать эти гиганствкие центры для обучения ИИ. У России ничего этого нет, но строиться, тоже вкладывают, тоже что то делают. Так уж жизнь устроена, что люди не равны, через 10 лет это может измениться, а может нет. Но тот факт,что в принципе что то у нас есть это СУПЕРКРУТО при нашем раскладе, потому что с первого раза нельзя стать лучшим. Китайскую электронику 20 лет высмеивали и называли говном, прежде чем она всех вытеснила и стала хорошей.

Аноним 11/04/25 Птн 17:36:39 #323 №1145914

Какие же долбаебы собрались после переката. У вас массовые чистки в /b, /po, /rf произошли?

Аноним 11/04/25 Птн 17:39:43 #324 №1145921

>>1145906
>Но тот факт,что в принципе что то у нас есть это СУПЕРКРУТО при нашем раскладе, потому что с первого раза нельзя стать лучшим.
Технологии открытые есть, ресурсы есть. Могли бы сделать модельку маленькую, 12В например, но хорошую. Да хотя бы качественно дотренить под русский датасет - не сделано даже этого. Чувак в частном порядке модель под поней на русском дотренил, эти же - ничего, кроме говна. Ну и всё.

Аноним 11/04/25 Птн 17:41:07 #325 №1145923

>>1145906
>тоже что то делают
Тюнят квен, да. Ещё и под костылями в лицензии.
Такое оно нахой никому не надо.

Аноним 11/04/25 Птн 17:41:39 #326 №1145926

>>1145906
А чего тогда реакция такая нездоровая на объективную критику и скептицизм? Если сам понимаешь, что она обоснована?

Аноним 11/04/25 Птн 17:43:48 #327 №1145930

>>1145921
К Хуяндексу кстати особые претензии. В начале ГПТ-бума видел я интервью с их ведущим разработчиком - очень обнадёживал по поводу их перспектив с нейросетями. Оказался обычным пиздуном. И это ведущая IT-корпорация в России!

Аноним 11/04/25 Птн 17:44:21 #328 №1145931

The-Omega-Directive-M-24B
Лупится-залупится как бобр курва я пердолил, в торм числе и на самом пердоленье. Может высрать OVER2K токенов за один ответ (и несколько раз повториться за него, повторить слова юзера и слова из предыдущих сообщений). Англ, фирменный пресет ессно.

Аноним 11/04/25 Птн 17:46:20 #329 №1145935

>>1145931
Мистраль ?

Аноним 11/04/25 Птн 17:47:55 #330 №1145940

>>1145935
да

Аноним 11/04/25 Птн 17:48:10 #331 №1145942

>>1145906
Где ты сою увидел? Ух бля как же в политоту скатываешь, я бы тебе пояснил где я либерасню крутил... Но не хочу засирать политговном годный тред.

> Где РФ, а где Китай и США, какое соотношение бюджетов в первую очередь и какой доступ к технологиям.
так ты щас сам страну засираешь, дебич.

>Китай, США, микроэлектроника
А ты хочешь сказать что на квантовых процессорах все тренится? Уж наши бигтехи могут изи парралельным импортом видюх накупить, вон посмотри как DeepSeek появился, там буквально за миску риса в масштабах страны трахнули весь рыночек ЛЛМ.

> у нас есть это СУПЕРКРУТО
Что есть то? На Гусеве весь русский ллм держится, и еще сотне энтузиастов, вклада бигтеха рф я вообще не вижу для простого человека.

>>1145921
Двачую этого рационалиста, если уж опоздали/не тянем гоночку, то надо менять подход, по максимуму использовать что есть, а не пытаться впечатлить кого то там на западной конференции аналоговнетом.

Например на своих суперкудахтерах супергодно натренить мощные опенсорц 32b-70b на русик, впихнуть грока или дипсик хотя бы в 4ре 3090, в картинкогенерации слить свои наработки в опенсорц итд... И глядишь в стране появится больше заинтересованных людей в этом, умных специалистов, которые рано или поздно придумают какую то прорывную архитектуру, которая изменит расклад сил, или соберут какой нибудь продукт-стартап, после которого весь мир будет восхищатся Россией.
Но вместо этого вы какие то огрызки скидываете на западные конференции с мертвой лицухой, не забыв на хабре похвастаться, а что то хоть как то ценное прячете за 7ю замками по платной подписОчке, хотя денег жопой жуй.

>>1145930
>Оказался обычным пиздуном.
Вася никак не поймет, что бугурт не в том что "ряяя омерика лучше", а что нас свои же кормят говном и говорят повидло.

Аноним 11/04/25 Птн 17:53:44 #332 №1145954

.png

>>1145687
> UPD Нарыл в недрах вики https://rentry.co/llm-models вот это золото сейчас, его бы совместно обновить и добавить "что по русику у модели".
> Вообще не понимаю почему этого рентри нет в шапке

Аноним 11/04/25 Птн 18:06:21 #333 №1146004

>>1145923
У взрослых дядь не принято изобретать вилосипед. Или ты думаешь что OpenAi самостоятельно добавил резонинг спустя всего неделю после выхода DeepSeek?

Аноним 11/04/25 Птн 18:11:20 #334 №1146016

>>1145942
Да не кипятись сильно. Это ж наша родная тилигенция, которая всех вокруг считает какими то унтерами, а себя - золотым волосом с пизды мраморной.
Ну ей богу, будто впервые такие кадры видишь))))

PS: И да, у белого барина рил лучше.

Аноним 11/04/25 Птн 18:51:15 #335 №1146121

>>1145904
Я не к тому, что это прям плохо, а к тому, что не разберёшься, какая модель лучше и почему. Первые мержи от него понятны: вот вейфарер примешан для ролёвки-приключения, вот модели дэвида для дарковости. Но в последних какое-то безумное мясо, где одни и те же составляющие по 10 раз вылезают, и некоторые сомнительные не особо популярные модели примешаны, типа моделей команды кобольда, которые ничего интересного из себя не представляют.
Экшели почти ничего у алитяна не тестил.

Аноним 11/04/25 Птн 19:00:18 #336 №1146161

>>1146121
не только на стоставляющие смотри, но и на конфиг, некоторые методы его мержей лучше работают с уникальными моделями чтобы получить их черты, другие хороши для инцестмиксов дабы сгладить и усреднить веса

Аноним 11/04/25 Птн 19:05:52 #337 №1146195 DELETED

>>1146121
> какое-то безумное мясо
Это настоящая жизнь, чувак!

Аноним 11/04/25 Птн 19:06:03 #338 №1146196

>>1145851
>Я хуею с этого кобольда.
Не обижай меня.
Я понимаю что хуйню написал, но я искренне хочу надеяться что или яндекс, или сбер, или вк - все таки что-то выкатят.
Ну, сука, ну у них же есть деньги. Есть ресурсы. Есть программисты.

Аноним 11/04/25 Птн 19:07:06 #339 №1146201 DELETED

>>1146195
Тебе как еще объяснить, чтобы ты перестал срать в треде ?
Я опять кляузничать начну и ты получишь бан. Прекрати засирать тред видимостью общения.

Аноним 11/04/25 Птн 19:13:00 #340 №1146220

слава модеру

Аноним 11/04/25 Птн 19:23:19 #341 №1146255

>>1146196
О божэ, учитывая как эти конторы ведут дела, пусть лучще ничегт не выпускают. Особенно ВК. Представьте, что станет с ллм моделью, если к ней приложит лапу голубовласая обезьяна.

Аноним 11/04/25 Птн 19:25:57 #342 №1146263

>>1146196
>все таки что-то выкатят

Так они выкатили же гигачат 20b

Аноним 11/04/25 Птн 19:41:05 #343 №1146307

16059845418410.jpg

>>1142778 (OP)
Так что, вот это нынче топ?
Задел под рп, автор наш с таверны, есть ризонинг, 32b и русик тянет, вроде все по царски или есть варики лучше?
https://huggingface.co/ArliAI/QwQ-32B-ArliAI-RpR-v1-GGUF

Аноним 11/04/25 Птн 20:16:51 #344 №1146396

>>1146307
В чем отличие от снежного ?

Аноним 11/04/25 Птн 20:19:07 #345 №1146407

>>1146396
А блять, там же написано. Сорян, я думал что это очередная аблоитерация.

Аноним 11/04/25 Птн 20:35:58 #346 №1146454

Я вот этот >>1145752 нюфак с 3090, но я не понимаю как ее правильно юзать, не на гуфах я имею ввиду. Настроить окружение я смогу, но вопрос под что рассчитывать? Два треда назад анон порекомендовал exl2, но а влезут ли 25b+ модели с контекстом в vram? Или придется урезать контекст, мб квантовать его как то, использовать exl2 только <20b, и про геммы с qwq забыть? А то я просто пока на gguf в угабуге пердолюсь, наверное пора это кончать.

Аноним 11/04/25 Птн 20:54:06 #347 №1146520

>>1146454
>А то я просто пока на gguf в угабуге пердолюсь, наверное пора это кончать.
Необязательно, в пределах размеров моделей, помещающихся в одну 3090 разницы особой нет.

Аноним 11/04/25 Птн 20:55:21 #348 №1146530

>>1145921
>Могли бы сделать модельку маленькую, 12В например, но хорошую. Да хотя бы качественно дотренить под русский датасет - не сделано даже этого.

Кстати... Не знаю насколько это реальная задача, но думаю многие бы молились Яндексу или другому бигтеху, который бы выкатил в опенсорц модельку не просто русскоговорящую, но и знающую СНГ специфику. Просто представьте как бы упростилась жизнь:
>Какие формы налогообложения мне предпочесть для бизнеса в сфере х при обороте у
> Я насрал на капот соседу, под какую статью административного или уголовного кодекса это попадает?
> Вклад 1 - 15%, вклад два 19% годовых, но с условиями х, ключевая ставка цб сейчас 21%, распиши наилучшую финансовую стратегию и обоснуй
> Подруга заняла у меня 40к и не хочет отдавать, как мне составить на нее досудебную жалобу?
> Как звали того хуя, который в 90х вел шоу "Угадай мелодию"?
> На какой улице открылся первый Макдональдс в Москве?
> На ходу на моей жиге стучит что то спереди справа, что может быть?

итд тысячи русик вопросов, которые даже не приходит в голову задавать биг корпосеткам, потому что скорее всего они на таком никогда не обучались и это бесполезно. Вот это бы прям имба была.

Аноним 11/04/25 Птн 20:59:53 #349 №1146557

>>1146520
Т.е. если ггуф не запускается на "100% слоев на видео", то про exl2 для сетки можно забыть? Ну у меня вот гемма-аблитерейтед-3-27b Q5KL в ггуфе с 32к контекста не стартует, пока до "31 слой на видеокарте" не опущу, а потом 3т/с выдает кажется. Даже в LMStudio она веселее бегала.

Аноним 11/04/25 Птн 21:01:48 #350 №1146570

screenshot.1654.jpg

>>1146530
>итд тысячи русик вопросов, которые даже не приходит в голову задавать биг корпосеткам, потому что скорее всего они на таком никогда не обучались и это бесполезно
У них опенсорс есть, выкладывали 1-2 месяца назад что то.

Аноним 11/04/25 Птн 21:07:10 #351 №1146588

.png

>>1146530
Достаточно чтобы модель умела гуглить. То есть это больше про интеграцию function calling и фронтенда. Заодно и можно будет спрашивать текущие новости и прочую актуальную инфу.

Да и какой смысл задрачивать модель на такую специфику, если законы периодически меняются?

Аноним 11/04/25 Птн 21:11:07 #352 №1146600

>>1146161
Последние мержи сделаны методом model_stock без всяких весов, о чём ты вообще. Буквально сделано по принципу "сейчас рэндомного говна навалим - а вроде неплохо получилось". Можно, конечно, спекулировать, что он выбирал какие-то модели, чтобы больше раз их включать, чем другие, но это домыслы на пустом месте. Там больше похоже, что он те модели, которые ему субъективно нравились, добавлял в последующие смеси чисто посмотреть, что выйдет, и так оно и накапливалось.

Аноним 11/04/25 Птн 21:11:43 #353 №1146603

>>1146588
Недостаточно, он тебе выдал статья, как буд то ты капот разъебал, а ты лишь насрал на него, реальный штраф 500р. Яндекс тут>>1146570 справился лучше

Аноним 11/04/25 Птн 21:14:20 #354 №1146613

>>1146603
Ну, я скорее про сам подход. Модель не нужно надрачивать на специфику законов конкретной страны - вместо этого надо сделать так, чтобы она умела пользоваться гуглом, толку будет больше, а галлюнов меньше.

Аноним 11/04/25 Птн 21:16:45 #355 №1146622

>>1146613
Ни одна модель не пользуется гуглом сама, там сторонняя софтина индексатор в роли агента нагугливает нужное как обычный поисковый бот у гугла или яндекса, возвращает эти данные нейросети в промт. К этому можно подключить любую нейронку.

Аноним 11/04/25 Птн 21:22:07 #356 №1146647

>>1146622
Чел, я именно это и написал:
> это больше про интеграцию function calling и фронтенда

Ясен хуй что модель на такой запрос просто должна высрать что-то рода:
{ "call_function": "google_search", "query": "насрал на капот соседу последствия" }

И дальше фронт пнёт запрос гуглу и подсунет результат в модель. А не пытаться из устаревшей зашитой в модель базы данных уголовного/административного кодекса нагаллюцинировать что-то.

Аноним 11/04/25 Птн 21:25:50 #357 №1146666

>>1146588
>>1146570
>>1146613

Лол вы рил не постеснялись такой кринж у корпосеток спросить. Увожение.
Но вся эта штука аля Perplexity упирается в интернет и представляет собой что то вроде RAG на бд какого то поисковика или содержимое конкретного сайта. Вещь безусловно полезная, но не автономная и я не представляю как такое можно локально сделать.

>Достаточно чтобы модель умела гуглить. То есть это больше про интеграцию function calling и фронтенда.
>надо сделать так, чтобы она умела пользоваться гуглом
Например я сам не представляю как нагуглить какую то инфу иногда.
Еще во времена гопоты3.5 я пытался у нее узнать на тему того, что нужно что бы в рф зарегистрировать самодельное судно. По закону до 20м суда вообще должны легко и просто оформлятся как маломерные. И меня интересовали 2 вопроса:
1. По идее никто не запрещает построить мне плавучий квадрат 20х14 метров, такой огроменный хаусбот двухэтажный, и жить в нем.
2. Я могу построить два прямоугольника 10х20 метров и состыковать рядом с той же целью, а перемещать - буксируя одним другой.
Но чую жопой что если я такое попробую провернуть, то выебут.
Вот ответа на такое во всем интернете не нашел, видимо нет таких ебанатов больше. Нейронка, даже предобученная, на такое бы врятли тоже ответила, но хотя бы могла бы навести на мысль в ходе диалога, зная контекст.

>>1146622
This. Ну по крайней мере первая часть, у того же я.нейро думаю что то типа RAG по бд их поисковика/кэша и поэтому оно так быстро и эффективно работает. Даже умея нейронка в гугл через локального агента, она или будет искать вечность, или будет выдавать слоп и галюны из 2-3го источника.

Но вообще про законы я наверное и правда плохой пример привел, эта вещь меняется регулярно. Я больше имел ввиду общий снг контекст. Ну если сравнить с ирл, то иногда какой нибудь русский работяга может тебе подсказать то, что американский доктор наук по всем наукам только спросит "What!?"

Аноним 11/04/25 Птн 21:27:35 #358 №1146672

>>1146454
> использовать exl2 только <20b, и про геммы с qwq забыть?
Кто тебе этот бред сказал?
В 24 гига с адекватным размером кванта (4-4.5+bpw) 30 помещается с запасом и летает 30-40 т/с. Ггуф в таком случае качать только если хочется ощутить плацебо от лишних битов в кванте, пожертвовав скоростью, или если нужен огромный контекст и нормальный квант в фуллврам не помещается.
>>1146557
> если ггуф не запускается на "100% слоев на видео", то про exl2 для сетки можно забыть?
Да. Но никто не мешает тебе снизить используемый контекст (неофиту 32к врядли понадобится сразу), использовать квантование контекста в 8 бит, снизить битность кванта.
> а потом 3т/с выдает кажется
Скорее всего это из-за выгрузки врам в рам драйвером, если снизишь сильнее то должно ускориться.

Аноним 11/04/25 Птн 21:45:06 #359 №1146714

>>1146666
> но не автономная и я не представляю как такое можно локально сделать.
Серия, где в начале предлагается сетке выбрать запрос с которым будет вызвана функция поиска, следующим она выбирает один из вариантов найденных страниц, с содержимого которой на вход ей подкидывается текст и возвращается исходный вопрос. Вместо выбора можно просто подкидывать 3 первых результата. Такое есть локально, но в основное через опенаи-лайк апи с функциональными вызовами, а из известных беков, если не ошибаюсь, их поддержку имеет только табби.
> Даже умея нейронка в гугл через локального агента, она или будет искать вечность, или будет выдавать слоп и галюны из 2-3го источника.
Зря, гуглить они умеют лучше типичного нормиса, который не знает как сформулировать поисковой запрос. И оценить ерунду что поиск неудачен в целом тоже способны, разумеется делается это не одним запросом а несколькими, где нейронке дается доступ к описанным функциям и задача "ищи". Но такие запросы идут отдельной графой по апи и стоят дороже.
Да, обмануть подкрутив результаты поиска или зафорсив какую-то рофловую выдачу нейронку можно также как человека.
> RAG по бд их поисковика/кэша
100% там будет википедия и ряд популярных ресурсов.

Аноним 11/04/25 Птн 21:53:22 #360 №1146745

.png

>>1146666
> Вещь безусловно полезная, но не автономная и я не представляю как такое можно локально сделать.
Использовать любую сетку с поддержкой function calling в шаблоне (mistral, commandr, llama... хз может что ещё) и фреймворк для посторения агентов с поддержкой OpenAI API, главное чтобы свой локальный ендпоинт позволял подсунуть.

https://docs.agno.com/tools/toolkits/duckduckgo
Например, такая штука будет подставлять в секцию тулзов (должна существовать в шаблоне сетки например как тут на 11 строке - https://ollama.com/library/mistral/blobs/491dfa501e59 ) определения тулзов и описывает модели JSON-схему как их вызывать. Но твой бекенд должен работать в режиме chat completion, т.к. text completion не имеет стандартизированного формата для поддержки тулзов, в отличии от OAI chat completion - https://platform.openai.com/docs/guides/function-calling?api-mode=chat

Проблема в том, что на современных бекендах это работает через жопу - для убабуги нет поддержки OAI function calling в формате API (видел ПРы только для поддержки тулзов внутри вебморды убабуги), на ollama он формально есть, но работает через жопу. Лично у меня только на https://github.com/theroyallab/tabbyAPI получилось нормально интегрировать тулзы с нейронкой.

Аноним 11/04/25 Птн 21:56:33 #361 №1146756

>>1146745
> брак с ней будет считаться легальным
Based

Аноним 11/04/25 Птн 22:14:32 #362 №1146791

>>1146756
Legal loli не лоли.

Аноним 11/04/25 Птн 22:29:50 #363 №1146829

>>1143844
>Всегда было лень к VaM приделывать скрипты на анимации.
тут жиза, тут согласен

Аноним 11/04/25 Птн 22:33:44 #364 №1146845

>>1146791
Разве легальность делает милоту менее привлекательной?

Аноним 11/04/25 Птн 23:09:00 #365 №1146909

>>1146845
даже обесценивает

Аноним 11/04/25 Птн 23:09:42 #366 №1146913

>>1146745
GraphLLM

Аноним 11/04/25 Птн 23:12:47 #367 №1146918

>>1146756
Он будет считаться нелегальным, потому что ты со своими смешными 30+ будеш проходить по закону как шота и сенко посадят

Аноним 11/04/25 Птн 23:17:30 #368 №1146926

>>1146909
Асуждаю
>>1146918
Лол содомит

Аноним 11/04/25 Птн 23:42:49 #369 №1146979

.png

>>1146913
Выглядит интересно, надо будет заценить, спасибо. Хотя структурный вывод, насколько я понимаю, только для llamacpp поддерживается. Но может на нодах и вправду удобнее будет для определённых задач. Как-то была мысль сделать UI на нодах чтобы пилить шизоворкфлоу с кучей промежуточных обработчиков поверх этого и прокидывать результат в какой-то GUI, но так и не решился серьёзно в эту историю залезть.

Аноним 11/04/25 Птн 23:54:13 #370 №1147000

>>1145461
Ты мне рассказываешь то, что я тебе полтора года назад пояснял, угомонись. =)

Речь про нынешнюю инфу, сейчас-то другое дело, причем тут ллама 1 то. =)

Ты читай повнимательнее и выебывайся поменьше, а то эпично промахнулся со своим ответом.

> С лламы3 токенизатор сделали жирнее
Ллама3 нахуй идет, там 10% токенизатора было «111111111» или там 56 пробелов подряд, охуенный токенизатор. =D Она и в русик не могла, и токенизатор ну такой себе был, толстый, но не нужный.
Норм токенизация у геммы 3, до этого-то особо и не видели. РуАдапты же не с пустого места делались, там прирост до 50% доходил.

> 3 года
2. Первая ллама вышла в 2023, прикинь…
До этого были такие «охуенные» модели, что давай не будем вспоминать. =) Думаю все эти Эребусы в русском рассматривать глупо.
Время летит. Будто всю жизнь с ллм живем, привыкли.

>>1145466
Поставь в начале сообщение <think> и она должна сама начать думать. Мне лень проверять, но об этом многие люди говорили.

>>1145687
> это на основе какой модели вообще?
Это на основе датасета, который из Клода наделан, кажись.
Модели любые.

>>1145726
Прошлое тоже было лучшим, но никто не юзал. =(

Аноним 12/04/25 Суб 00:23:34 #371 №1147073

>>1146745
> function calling
> получилось нормально интегрировать тулзы с нейронкой.

А не подскажешь сайты, где можно структурированно подчерпнуть актуальную прагматичную информацию о нейронках и их устройстве и фичах? Все что мне не попадалось, это или лекции с высшим матаном, где начиналось с леса деревьев и заканчивалось "последним" новшеством - реккурентной сетью. Или какая то наоборот платная скам параша для нормисов с байт-названием "щас сделаем джарвиса", где на протяжении 40 минут чел рассказывает как он два платных веб сервиса для гоев связал одним промтом и одним авторизационным токеном....

Вот только что, soooooqaaaaa!, читал статью на три листа А4 про ризонинг. И знаете что узнал!? Что ризонинг в моделях это как бы эффект мышления! Охуеть! Спасибо нахуй!

Аноним 12/04/25 Суб 03:14:52 #372 №1147415

Как сделать свайпы геммы разнообразными?
Буквально абзац в абзац тоже самое другими словами
Юзаю рекоммендованные семплеры от гема тим

Аноним 12/04/25 Суб 03:25:32 #373 №1147418

>>1147000
> До этого были такие «охуенные» модели, что давай не будем вспоминать.
Пигмалион кивает сквозь слезы
Прояви уважение, кобольдище!
>>1147073
> актуальную прагматичную информацию о нейронках и их устройстве и фичах
Как вариант - в доках опенов, антропиков, гугла и мистралей. У последних двух есть мануалы для открытых моделей с поддержкой этих фич, но они довольно посредственного качества. Там будут описаны принципы работы, рекомендации и примеры, но, разумеется, все для их моделей и через их апи, придется это адаптировать. Можешь даже попробовать с гуглом https://googleapis.github.io/python-genai/ лимитов бесплатного флеша хватит чтобы понять основы и оно довольно юзерфрендли, а когда разберешься - перенести куда угодно сможешь. Если же тебе сам принцип - изучай душные мануалы и ролики по построению агентных систем.
мимо

Аноним 12/04/25 Суб 03:25:54 #374 №1147419

aya.png

Взял из моделей в шапке aya-35.ггуф, для кума на русике. 3090, угабуга, 25 слоев на карте, 0,86т/с. Я успешен?

Аноним 12/04/25 Суб 03:26:18 #375 №1147421

>>1147415
>Как сделать свайпы геммы разнообразными?
Карточка побогаче, твои сообщения поразнообразнее. Чтобы ей было что пожевать. Хотя вообще-то так быть не должно. Но я лично, когда модель упрямо не желает поворачивать куда мне надо просто пишу ей пояснения в [квадратных скобках].

Аноним 12/04/25 Суб 03:28:38 #376 №1147424

>>1147419
>Я успешен?
Ты болен. Юзай 12В, в этом треде как раз кидали два примера.

Аноним 12/04/25 Суб 03:31:50 #377 №1147427

>>1146307
>Так что, вот это нынче топ?
Потестил. Говно. Думает-то она хорошо, но вот воплотить её же мысли в основной ответ не может. Недотренена. Но потенциал есть.

Может что недонастроил и неправ - кидайте свои отзывы.

Аноним 12/04/25 Суб 03:32:39 #378 №1147429

>>1147000
Ты опять хуйни насрал опять лишь бы ответить шизик
Обасрался и давай жопой вилять, "эксперт"
Нубяра ебаная, хотел козырнуть перед аноном а самого пустили, непрятненько да?
А нехуй выебываться

Вобще грустно что тут остались либо упоротые тролли вроде тебя либо совсем свежее мясцо. Но недавно даже их не было, щас хоть чуток веселее стало

Аноним 12/04/25 Суб 03:33:24 #379 №1147431

>>1147415
Нюфак, но тоже скатил гемму в однообразный залуп недавно. Аноны тут дали понять следующее, возможны 2 варианта:
1. ты просишь тупой кум в лоб, а целочка-геммочка пытается от тебя соскочить, потому что НЕ ТАКАЯ, С геммой надо уметь в общем промптовать.
2. карточка. я думаю что словил как раз залуп из-за карточки, потому что в ней литерали было 300 токенов "сиськи, хуй, пизда, ебаца". Т.е. даже если ты не просишь в первом предложении "отполируй мои яйца", но при этом в карточке написано "она наклоняется над ним, показывая огромное декольте и спрашивает-предлагает: ебацца хош?" - у геммы не остается контента для фантазий, и она свайп за свайпом начинает выдавать "ты меня ебешь, ах", "ты меня ебешь, ах"...

Аноним 12/04/25 Суб 03:36:11 #380 №1147434

Где там новый квен, заебали? Чтоб я завтра проснулся и он был у меня на столе

Аноним 12/04/25 Суб 03:40:06 #381 №1147436

>>1147434
>Где там новый квен, заебали? Чтоб я завтра проснулся и он был у меня на столе
Штаты наложили на Китай тарифы в 125%, так что может и того. Прикроют лавочку.

Аноним 12/04/25 Суб 03:41:13 #382 №1147437

>>1147424
но... мне сказали... что ~30б будут летать... 40т/с... правда речь была про exl2.
Но вообще, если серьезно, то это конечно пиздец. Я явно что то делаю не так даже на ггуфе. 25 слоев дают меньше токена в секунду, 30 - не запускаются из-за нехватки врам. >>1146672 анон сказал что ггуф должен целиком залетать, а ирл по факту даже полшишки нет. (Правда контекст я не квантовал, не умею пока, но не до 25 слоев же и 0,86 токена разница!)

Но даже так рпшить веселее, чем на сайнемо, вот сейчас в средневековой бане двумя попаданцами ниссан гтр 32 обсуждали.

Аноним 12/04/25 Суб 03:49:59 #383 №1147442

>>1147431
>надо уметь в общем промптовать.
С Геммой хорошо, если:
1) Кум не главное;
2) Негатив не нужен.

Иначе всё плохо.

Аноним 12/04/25 Суб 04:22:59 #384 №1147461

>>1147073
> А не подскажешь сайты, где можно структурированно подчерпнуть актуальную прагматичную информацию о нейронках и их устройстве и фичах?
Увы, не знаю таких ресурсов. Сфера слишком свежая и быстро всё меняется - в инфополе только всякие инфоцыгане, как ты и сказал.

>>1147418
> Как вариант - в доках опенов, антропиков, гугла и мистралей. У последних двух есть мануалы для открытых моделей с поддержкой этих фич, но они довольно посредственного качества. Там будут описаны принципы работы, рекомендации и примеры, но, разумеется, все для их моделей и через их апи, придется это адаптировать.
Надо иметь ввиду, что доки во многих местах описывают их платное API, а не релизнутые в опенсорс модели.

То есть когда ты видишь в доках мистраля/коммандра про поддержку Structured Outputs:
https://docs.cohere.com/v2/docs/structured-outputs
https://docs.mistral.ai/capabilities/structured-output/custom_structured_output/
то это не про сами модели, а именно про их обёртку в виде платного API. А для локального использования эти секции по большей части бесполезны, поскольку существующие локальные бекенды не покрывают всех возможностей платного API. Так что даже казалось бы "официальная документация" тут может ввести в заблуждение, если у тебя нет чёткого понимания, какая часть относится к самой модели, а какая к их API.

Аноним 12/04/25 Суб 04:43:11 #385 №1147472

photo2025-04-1204-31-33.jpg

>>1147461
>Сфера слишком свежая и быстро всё меняется - в инфополе только всякие инфоцыгане, как ты и сказал.
Забавно, но когда в 2021 я брал гэп между работами, я изучал мл как раз по душным лекциям, думая перекатиться из быдлокодера в люди. Но потом понял что:
1) обучать вменяемые нейронки могут только корпы с датасетами и миллионами vram
2) обычная работяжная мл-рутина не совсем то, что себе представлял, да и берут туда в основном олимпиадников.
Ну и еще дибил, надо было сразу торч и тензорфлоу дрочить, а не матан.
Знай как стрельнут нейронки, а особенно - что будут сладкие локалочки, не забросил бы.
А теперь забавная ситуация, вроде и на лицо ссу всяким цыганам и нормиксам "ооо ты видел новость чатгпт пыталась взломать сама себя", но в то же время не пойму почему у меня ггуф под себя серит и не знаю и 30% того что знают местные анонасы.

>а именно про их обёртку в виде платного API
После этой рекомендации так и подумал что гайдов/манов путевых нет, надо по хлебным крошкам по всему интернету собирать знания, как и на изучении диффузионных sdшек делал.

Аноним 12/04/25 Суб 07:07:28 #386 №1147553

>>1147436
>125
104% вроде, из вредности, потому что 4 у китайцев них несчастливое число, там даже местами 4х и 14х этажей нет, а маняврирования вроде этаж "3А"

Аноним 12/04/25 Суб 07:10:33 #387 №1147554 DELETED

>>1147472
>но в то же время не пойму почему у меня ггуф под себя серит и не знаю и 30% того что знают местные анонасы.
Они не знают, а просто бездумно повторяют и тычут во всё подряд. А потом этим маримбамэну, обкурившиеся обдрочившиеся на мухомор-тян тут из себя экспертов корчат. Не ведись.

Аноним 12/04/25 Суб 07:24:00 #388 №1147561 DELETED

>>1147554
>Они не знают, а просто бездумно повторяют и тычут во всё подряд
А ведь кто-то в этом итт треде срёт про превосходство человеческого интеллекта над ллм и что ллм это просто стохастический попугай.

Аноним 12/04/25 Суб 07:29:33 #389 №1147565 DELETED

>>1147561
>А ведь кто-то в этом итт треде
Ну так это лоКАЛа тред, тут одни умалишенные сидят. Это как у тебя есть возможность ебать топ-10 сосок живых, но ты вместо этого сидишь и в треде отдельном обсуждаешь, как развернуть резиновую маню, как её надуть, как хуй в резиновом кармане повернуть, чтоб об швы не натирало.

мимо

Аноним 12/04/25 Суб 08:09:08 #390 №1147579 DELETED

>>1147565
Ебать, откуда тут столько васек с пятого класса? Тут больше половины людей рпшат и пишут интерактивные истории, влючая меня. Топ - 10 сосок* Ты женщину то нюхал, дурачок.

Аноним 12/04/25 Суб 08:48:04 #391 №1147590 DELETED

>>1147579
>Тут больше половины людей рпшат и пишут интерактивные истории

Аноним 12/04/25 Суб 08:49:47 #392 №1147592

image.png

>>1147419
mistral small 3.1 (24b) в четвертом кванте около чуть меньше трех токенов в секунду. На процессоре, ryzen 5600g, 32 гига ddr4 (3200 мгц в два потока), лол. QwQ у меня около двух токенов в секунду работает.

Окончательно убеждаюсь, что видяху брать не буду, я походу вообще ни в каких своих задачах прироста производительности не получу. Ну может быть картиночные модели не упираются в скорость памяти.

Аноним 12/04/25 Суб 09:03:19 #393 №1147597 DELETED

>>1147590
Мальчик, сьеби из тематики и там доказывай какой ты пиздатый, успешный, как ты ахуенно правильно живёшь и т.д.

Аноним 12/04/25 Суб 09:35:20 #394 №1147602

>>1147592
Если честно, сложно представить для каких задач такая скорость может быть комфортной. Для меня ниже 5 вообще не юзабельно. Купил бы 3060 за 20к на авито (или 25 новую) снизил бы квант до Q3_M и кайфовал бы с 10+ токенами или бы поделил с CPU и получил бы 5-6 на том же 4 кванте

Аноним 12/04/25 Суб 09:39:07 #395 №1147604 DELETED

>>1147597
Это раздел про ИИ, и я говорю про ИИ. Тред - не твой личный, тут личных тредов не бывает, это общественное место, где любая точка зрения имеет место быть. Если я хочу заходить в тред с лоКАЛом и выражать своё мнение - я буду это делать, и никаких правил я не нарушаю, пока моих постов тут всего 0,3% от треда. Так что терпи, унтерок красноглазый.

Аноним 12/04/25 Суб 09:49:23 #396 №1147607

>>1147602
Чет я вот смотрю на местных анонов, и складывается впечатление, что никаких 10+ токенов не будет.

И в любом случае, с третьего кванта модели резко деградируют, нахуй надо. Не хочу начинать очередной срач о скорости генерации, мне два-три токена вполне нормально, проблема только с QwQ ощущается, потому что перед ответом может решить размышлять 2-15 минут

Аноним 12/04/25 Суб 09:53:30 #397 №1147609

>>1147607
Ну по опыту расклад по факту такой: если модель целиком загружена в врам - будет дохуя токенов в секунду, если хотя бы 10% модели не во врам, то сразу будет в райное 4 токенов, не важно какая модель и все остальное.
Так что либо брать арсенал из 3090, либо не ебаться, просто набрать оперативы на 64 гига и сидеть на 4, но с большими моделями.

Аноним 12/04/25 Суб 10:08:45 #398 №1147618

>>1147609
ну чтобы получить 4 токена на проце, надо ddr5, а тут мне хуй, надо полностью ПК пересобирать. Чтобы воткнуть видяху с нормальным количеством памяти - это будет еще дороже, если мало пихать - то походу будет откат к упору в скорость оперативы, то есть в моем случае к тем же двум токенам.

И все же разница между 12б и 24б - очень хорошо ощущается, чтобы я обратно перекатился на более мелкую модель.

Аноним 12/04/25 Суб 10:17:30 #399 №1147620

>>1147618
У меня на проце i7 9700f + 3070ti + 32гига ддр4(частота 3600) - 3-4 токена, что на gemma-3-27b-it-q4_0_s.gguf

Аноним 12/04/25 Суб 10:23:35 #400 №1147621 DELETED

>>1147604
Уф какой ты жесткий и дерзкий.

Аноним 12/04/25 Суб 10:45:42 #401 №1147634

Не могу, какая же это все срань.
У копросеток просто нет конкуренции, дипсик и грок просто ебут не вынимая и в рп и во всем на свете

Аноним 12/04/25 Суб 10:47:20 #402 №1147635

r.png

p.png

>>1147607
Не, скорости будут. Но если Q4, то нужно будет 16Гб брать. 4060ti сейчас 40-45к стоит, 5060ti с лучшей памятью будет где-то 50-55к на старте, а потом непонятно, 3090 60-70к, но она будет лотереей после майнинга.
Главное помни, что путь CPU, если это не мак и если у тебя не проц за 80к, это путь боли и терпения

Аноним 12/04/25 Суб 10:47:24 #403 №1147636 DELETED

>>1147604
Ты нихера про ИИ не говоришь, только срыгиваешь в тред комки шерсти с ануса твоего протыка.
покормил-скрыл

Аноним 12/04/25 Суб 11:02:25 #404 №1147644

Фух бля, правильно говорят, что нужно перетерпеть пару недель, если появилась навязчивая мысль что-то купить. Понял что долечить кариес и поставить кондер в соседнюю комнату к лету звучит более логичным, чем ради рп и кума покупать видеокарту.

Аноним 12/04/25 Суб 11:05:58 #405 №1147649

>>1147635
вот в том то и дело, что дохуя надо. QwQ в четвертом кванте уже не влезет. Обязательно еще выйдет какая более крупная модель, надо вообще 24 гига минимум брать. И БП менять еще, и корпус у меня очень мелкий, хуй чо влезет (более большой брать, серьезно, не вариант, мне некуда его поставить), значит надо эту хуйню, которая удлинитель, чтобы как-то ее разместить.

Если брать тесловскую видяху - то я все еще не ебу, на сколько хорошо оно будет по скорости. И как я буду ее охлаждать - тоже большой вопрос.

Аноним 12/04/25 Суб 11:17:12 #406 №1147656

Можно ссылку на гемму 12б ггуф без цензуры?

Аноним 12/04/25 Суб 11:32:42 #407 №1147667

>>1147635
Ты забыл про 7600 xt и arc a770 за 35. Первая вроде получше в ллм и играх, но по железу у интела потанцевал выше хотя вряд ли его уже раскроют, уже новое поколение выкатили и его оптимизировать будут.

Аноним 12/04/25 Суб 11:32:48 #408 №1147668

>>1147656
Держи, анон. Но учти, что она немного тупее из-за этого
https://huggingface.co/mlabonne/gemma-3-12b-it-abliterated-GGUF

Аноним 12/04/25 Суб 11:51:03 #409 №1147681

>>1147668
Спасибо. А если сравнить русский язык в SAINEMO-reMIX.Q6_K и гемма, что лучше?

Аноним 12/04/25 Суб 11:55:01 #410 №1147691

image.png

>>1147418
> Пигмалион кивает сквозь слезы

Аноним 12/04/25 Суб 11:55:36 #411 №1147695

>>1147634
>ебут
ебут, тебя, но не персов в рп

Аноним 12/04/25 Суб 11:56:39 #412 №1147698

>>1147429
Нихуя антитеслашиза бомбит.
Он даже не понял, о чем речь, но высраться охота.
Фееричный человек, конечно…
Как там твои 4 токена на слово против 1 на инглише? До сих пор на лламе 65б сидишь, небось?

Аноним 12/04/25 Суб 12:00:56 #413 №1147710

>>1147681
>гемма
12 гемма говорят поломана, так что осторожно
Всё что хорошего ITT говорили про гемму - говорили про 27б версию

Аноним 12/04/25 Суб 12:02:28 #414 №1147711

>>1147710
Мне кажется 27б будет долго перевод делать на 3090, так я жду минут 6 на 500 строк.

Аноним 12/04/25 Суб 12:03:33 #415 №1147713

>>1147710
А что хорошего говорили?
На 4чане только срут в неё, сам пробовал и тоже хз, ишет сухо, она же только под рабочие задачи

Аноним 12/04/25 Суб 12:04:21 #416 №1147716

>>1147711
> 3090 плак гемма не влезает
Ты специально прибедняешься хуесосина?
Попробуй не f16 версию скачать

Аноним 12/04/25 Суб 12:05:05 #417 №1147718

>>1147419
Определенно нет.
Возьми 5 или 6 квант.
Уменьши контекст, квантуй его до q8_0, попробуй больше слоев запихнуть, добавь no-mmap, а сколько оперативы? Хотя бы 32, надеюсь?
Будто часть слоев улетает на диск сразу.

>>1147561
Так ЛЛМ и есть стохастический попугай, просто человеков не надо переоценивать. =)

>>1147592
Ну, там должно быть в районе 5-10, наверное, по-хорошему, а с двумя и все 30-50.

Но если тебе 2 токена в секунду хватает, то и похуй, дело твое.

———

Бля, я тут подумал, а что, если антитеслошиз на самом деле работает на желтую компанию и сидит в треде, токсит на всех и несет хуйню затем, чтобы аноны с их васян-мерджами не обгонял желтуюгпт??? А то токса стало в разы больше чем раньше, причем не на новичков, что можно было бы понять, а всех адекватных упорно пытается выгнать.

Аноним 12/04/25 Суб 12:05:55 #418 №1147719

>>1147710
И четверочку, она милашка за такой размер! =)

>>1147713
Ты чо-то с квеном попутал, гемма про общение, квен про работу. =)

Аноним 12/04/25 Суб 12:10:54 #419 №1147724

q1.png

q2.png

>>1147649
Понятно, что лучше сервак с 4 H100, но если из реального, то любой GPU ускорит работу LLM. Например, вот твой QwQ на Q4 весит больше моего VRAM, но из-за распределения слоев между CPU и GPU работает 3-4 раза быстрее чем у тебя (6.2 в бенче, 8.5 при запросе). И с такими токенами намного комфортнее работать.
>>1147667
Не, я не забыл, я просто сомневаюсь, что эти карты будут нормально работать. Скорее всего там будет 500 костылей и в итоге все равно говно. Особенно это касается интела

Аноним 12/04/25 Суб 12:13:32 #420 №1147729

>>1147719
> гемма про общение
Гемма про КХЕ-КХЕ[, ну вы понимаете/b] - же?
>>1145168
>>1145165

Аноним 12/04/25 Суб 12:14:20 #421 №1147731

>>1147724
В телеграмме мелькал чел с четырьмя интелами на сумму 64 врама, говорит норм работают ллм.
Так что в принципе… если верить его словам, можно и затраить.
Запускал ЛМСтудио, вроде как.

Аноним 12/04/25 Суб 12:29:41 #422 №1147737

господа нейродрочеры,
а чего там по Ллама 4 говорят сейчас? оно пригодное к использованию? или чисто для корпоратов пока что?

Аноним 12/04/25 Суб 12:40:22 #423 №1147751

>>1147737
Хуита по всем параметрам.
32 место у 400b модели (у геммы 3 27б — 10 место).
Все плохо.
3,3 токена на DDR4 у 109b q6 кванта.
Но тупое само по себе.

Аноним 12/04/25 Суб 12:44:01 #424 №1147752

>>1147751
а чего там с архитектурой? и мультимодальностью? завезли нормальные уже, "готовые к продакшену" решения или костыли прожорливые и не работающие без ГПУ для мультимода?

Аноним 12/04/25 Суб 13:00:15 #425 №1147769

>>1147656
https://huggingface.co/collections/soob3123/amoral-collection-67dccc556a39894b36f59676
Можешь попробовать тут первую или вторую версию. Я уже не помню, какую пробовал, оно было не настолько сломанное, как аблитерейтед или тьюн драммера. Всё равно тупее обычной, а для кума тьюны немо всё ещё будут лучше.

Аноним 12/04/25 Суб 14:06:03 #426 №1147854

Пачаны, дайте сурс вот этой модели "ooo-awo-tst-q8_0.gguf", а то в папке лежит а откуда стянул не могу найти.

Аноним 12/04/25 Суб 14:09:32 #427 №1147863

Darkness-Reign-MN-12B.png

В смысле русика я государственник, охранитель и патриот
Отечественный производитель нейротёлок не по-детски жжот

Аноним 12/04/25 Суб 14:12:19 #428 №1147872

>>1147863
Тебя ещё не заебало за столько тредов рпшить на русском?
Или ты для скринов включаешь?
На русике нет и не будет мозгов, буквально полная шиза происходит особенно в куме

Аноним 12/04/25 Суб 14:12:58 #429 №1147875

>>1147644
>Фух бля, правильно говорят, что нужно перетерпеть пару недель, если появилась навязчивая мысль что-то купить.
Да вот хрен его знает, в наше-то время. При 100+ процентных тарифах может последние дни прежние цены на карточки видим.

Аноним 12/04/25 Суб 14:15:51 #430 №1147880

>>1147872
>На русике нет и не будет мозгов, буквально полная шиза происходит особенно в куме
Кончайте троллить, модели хорошие и других всё равно нет.

Аноним 12/04/25 Суб 14:16:19 #431 №1147882

>>1147854
>ooo-awo-tst
это вроде омни-магнум так назывался раньше, от Aleteian

Аноним 12/04/25 Суб 14:22:32 #432 №1147898

>>1147875
Купил себе за 6к б/у рузен 5600 (вместо 2600), что бы бюджетно обновиться, но глядя на цены на vram ddr5 (48гб 6900мгц, в магазине), а так же глядя на анонов выше, которые на процах крутят больше токенов чем я на 24гб видео... Задумался, мб пока новую мать не купил, скинуть школьникам 5600 и взять 7700 пока не поздно...

Конечно я понимаю что я ракохуй и запустил жопой модель, сейчас >>1147718 попытаюсь пофиксить и посмотреть, но все же - гипотетическая возможность запускать тяжеляк на проце мб быть полезной... Или дальше собирать ам4, отложив деньги на 3090 вторую!? ПОЧЕМУ СЛОЖНО ТО ТАК А...

Аноним 12/04/25 Суб 14:24:54 #433 №1147904

>>1147898
>которые на процах крутят больше токенов чем я на 24гб видео
значит у тебя боттлнек по процу и оперативке

Аноним 12/04/25 Суб 14:27:18 #434 №1147909

>>1147880
Как это нет?
У тебя прямо под боком буст х100 просто переключившись на английский язык

Аноним 12/04/25 Суб 14:35:16 #435 №1147927

>>1147909
>английский язык
Сначала переключаешься на буржуйский, а потом родину продаешь?
УУУ, инагент ябучий.

Аноним 12/04/25 Суб 14:38:17 #436 №1147931

>>1147927
Нет ну серьезно, всю жизнь вы искали повод учить англ и вот же он, удобного перевода как с играми/фильмами не будет, только сами только хардкор

Аноним 12/04/25 Суб 14:58:27 #437 №1147960

Screenshot 2025-04-12 at 14-35-27 Text generation web UI.png

я >>1147898 >>1147419 анон.

>>1147718
Прошелся по чеклисту, спасибо тебе огромное. Но не помогло.
>Возьми 5 или 6 квант.
Квант и так 4й, полное название модели aya-23-35B.i1-Q4_K_M.gguf

>Уменьши контекст, квантуй его до q8_0, попробуй больше слоев запихнуть
Уменьшил контекст до 4096, поставил q8_0 квантование вместо fp16, количество слоев не трогал - что бы проверить, запустится или нет, 25 слоев с fp16 запускаются 100% - в итоге ошибка по vram, "уменьшите контекст или снизте слои". Должно ж наоборот быть... Скрин настроек прикладываю, мб где то что то проебал!?

>добавь no-mmap
С конфигом выше и + флаг no-mmap, результат тот же:
ValueError: Failed loading the model. This usually happens due to lack of memory. Try these steps:
Reduce the context length n_ctx (currently 4096)..
Lower the n-gpu-layers value (currently 25).

>а сколько оперативы? Хотя бы 32, надеюсь?
Да, 32. До загрузки модели htop показывает что занято 3гб (файрфокс+xfce). При 25 слоях на карте не прыгает выше 8гб, при 15 слоях - не прыгает выше 11гб. Своп пустой.

Еще кто то из анонов выше предложил уменьшить количество слоев, как я понял мб 25 слоев это какое то пограничное значение и модель упирается в скорость шины. Уменьшил до 15 с fp16. Модель завелась и высрала 0,6тс вместо 0.8тс. Чуда не произошло.

>>1147904
значит у тебя боттлнек по процу и оперативке
настолько сильный? Если рассудить что в 3090 влезают 25 слоев, но 30 уже не лезут, то это значит что большая часть модели крутится на процессоре и разница между 24gb vram и 16gb будет мизерная... Но так быть же не должно, учитывая что аноны выше говорили что та же гемма 27b должна влезать в одну видюху и там летать, а у меня не лезет.

Гемму 27 я тоже запускал c черепашьей скоростью, но не настолько плохой, 30+ слоев на видео было. И еще там было 32к контекста в fp16, что многое обьясняет.

Вообще я думаю собака зарыта в том, что у меня почему то отказывается квантоваться контекст, выдавая ошибку по vram, а на fp16 любая среднетяжелая модель на одной 3090 быстро работать не будет. Но почему!?

Аноним 12/04/25 Суб 15:06:41 #438 №1147970

>>1147960
>настолько сильный?
настолько что пиздец, у меня гемма 27 (в 4 кванте правда) на 12 гб врам идет с 2.5 т/с, а у тебя на 24 гб врам - меньше токена в секунду.

Аноним 12/04/25 Суб 15:11:28 #439 №1147974

>>1147960
>я >>1147898 >>1147419 анон.
Берёшь Кобольд:
https://github.com/LostRuins/koboldcpp/releases/tag/v1.87.4
Версию koboldcpp_cu12.exe

Берёшь Гемму 3 в 4KM. Пишешь в батнике:
koboldcpp_cu12.exe --usecublas mmq --contextsize 24576 --blasbatchsize 512 --gpulayers 99 --threads 8 --flashattention --quantkv 1 --nommap --model gemma-3-27b-it-abliterated-q4_k_m.gguf

Пробуешь, можешь дописать --benchmark test.txt и посмотреть сколько даёт. Результат кидай сюда.

Аноним 12/04/25 Суб 15:11:58 #440 №1147975

>>1147931
Может я на какой-то тупой модели сижу хз, но я разницы вообще не вижу между русским и английским. Тем более что пока генерится текст, я уже успеваю все прочитать на английском, а на русском просто перепрочитываю. Да, бывает что переводчик теряет контекст или проебывает значение слова, но ничего не мешает переключиться на английский, прочитать что там имелось ввиду и переключиться обратно на русский. Если я вижу что модель не понимает что я ей пишу, я пишу эти слова или фразы на английском и она все замечательно хавает. Короче хуйня это все.

Аноним 12/04/25 Суб 15:14:02 #441 №1147979

>>1147975
Толстый байт.

Аноним 12/04/25 Суб 15:16:41 #442 №1147986

>>1147979
Яб тебя пасюка такого гигабайтного ногами придушил.

Аноним 12/04/25 Суб 15:16:46 #443 №1147987

>>1147970
Не, на пикрилах aya35b, гемма повеселее, не помню сколько - но тоже около 2-3тс на жирном 32т fp16 контексте. И тоже выбивало пр vram при попытках квантования контекста. Крч с ней можно было поиграться еще как то, поэтому я значения не придал тогда, и на время на нее забил.
Но вот 35b чет совсем треш. И я не понимаю почему контекст не хочет квантоваться.

>>1147974
>.exe
>в батнике
Прости, я думал по htop, xfce и фотке терминала было ясно что я на линуксах пердолюсь. Одна из причин почему я сразу угабугу, а не кобольда запустил - увидел что все инструкции были про экзешники, да и exl2 в перспективе все равно бы не позволили на кобольде восседать долго.

Аноним 12/04/25 Суб 15:22:43 #444 №1147994

Прости, не дописал. Скачиваю кобольдаcpp для линукса ...cuda 1210, попробую запустить с твоими параметрами и отпишусь.

Аноним 12/04/25 Суб 15:24:25 #445 №1148000

>>1147987
>Прости, я думал по htop, xfce и фотке терминала было ясно что я на линуксах пердолюсь.
Ну изучи ключи и посмотри, какие галочки в llamacpp в Угабуге поставить. MMQ, flashattention, nommap. Все слои во врам, кэш квантуешь в q_8.0. Смотришь, всё ли влезло в видяху целиком и запускаешь.

Аноним 12/04/25 Суб 15:39:28 #446 №1148022

image.png

Хули не работает?
Гемма виновата что ли?

Аноним 12/04/25 Суб 15:48:20 #447 №1148028

>>1148022
таверна вроде не работает с визуальной частью, а если и работает там ещё mmproj или что-то вроде этого надо было подсовывать в кобольде

Аноним 12/04/25 Суб 15:55:11 #448 №1148034

>>1145726
Всё как обычно, никакой конкретики, ни примеров нихуя. Уже не интересно эту хуйню читать, сколько этих прорывов было за последний год. Если их почитать, уже должны были на холодильнике Минск запускать 400б модели.

>>1145851
>надстройка над чужими сетками без задач
Но у Яндекса есть лайт-версия, которая даже init-веса не брала ни у кого, а тренировалась с полного нуля.
Да и про надстройку тоже хуйню написал в общем-то, даже если брать про-версию, которая на init-весах квена.

>>1145764
>в релизе отметили важный факт - цитирования зарубежными изданиями
А что отмечать чтобы подчеркнуть надёжность исследования? Почти все международно признанные специалисты по ИИ находятся за рубежом и пишут на английском, или для тебя это открытие?

Аноним 12/04/25 Суб 15:58:20 #449 №1148037

1727158351303.jpg

Наконец-то пересел с пантеона на дипсик v3 0324. Да, всё ещё не клод, но бесплатный, быстрый, и пишет именно как мне всегда нравилось. Снова как будто в самый первый месяц игр с нейронками вернулся.

Аноним 12/04/25 Суб 16:08:17 #450 №1148043

>>1148037
На чем такого зверя запустил?

Аноним 12/04/25 Суб 16:11:12 #451 №1148047

>>1147437
> что ~30б будут летать... 40т/с... правда речь была про exl2.
40 это уже на 4090, на 3090 30+. В gguf на малых контекстах будет тоже примерно такая скорость на фуллгпу.
> а ирл по факту даже полшишки нет
Ты скачал довольно жирный квант с почти 6bpw, который сам около 20 или больше гигов скушает. Выставил на гемме3, которая достаточно прожорливая на контекст, аж 32к без квантования (выставить галочку в лаунчере или добавить параметр в командную строку), что на вскидку потребует с десяток гигов или больше. И подобрал режим, в котором оно только начинает запускаться, хотя все равно врам переполнена и идет постоянная выгрузка драйвером с сильным замедлением.
Чтобы это исправить: скачай квант поменьше, выстави меньше контекст, включи его квантование, сократи количество слоев на gpu еще сильнее.
> 25 слоев дают меньше токена в секунду, 30 - не запускаются
У геммы же около 60 слоев, не? Это выглядит как полная ерунда, проверь не засрана ли видеопамять чем-то еще.
>>1147461
> доки во многих местах описывают их платное API
Об этом и сказано. Тут важно понять сам принцип как формируется запрос к ллм (да, большинство даже этого не соображают), потом какие дополнительные средства и параметры можно передавать и как с ними может ллмка работать. Хз что тут будет, easy to learn @ hard to master или эта тема сама по себе сложная.
> А для локального использования эти секции по большей части бесполезны
Разве код из офф репы мистраля не поддерживает это? Не через апи а с их либой, но всеже. В любом случае, станет проблема полнофункционального апи, но постепенно и коллективными усилиями это решаемо если модели могут. Для начала хотябы на коленке хардкодом их разметки.

Аноним 12/04/25 Суб 16:11:39 #452 №1148048

1731737025057.png

>>1148043
Вот на этой глыбе.

Аноним 12/04/25 Суб 16:18:22 #453 №1148061

>>1148048
Понял принял, как лимит кончится на бесплатные сообщения напиши.

Аноним 12/04/25 Суб 16:20:58 #454 №1148066

>>1147974
>>1148000
Спасибо тебе анон! Как и ожидалось, не в железе проблема, а в моих кривых руках (и мб в софте отчасти). Хронология:
1. запустил с указанными параметрами и флагом --benchmark, подумало-подумало и вылетело с ошибкой. Файл логов не нашел куда высрался
2. прописал полный путь до лога и все быстро быстро запустилось, выдав:
Timestamp 2025-04-12 12:47:48.790125+00:00
Backend koboldcpp_cublas.so
Layers 99
Model gemma-3-27b-it-Q4_K_M (аблитерация у меня ток в 5м кванте была)
MaxCtx 24576
GenAmount 100
ProcessingTime 22.02
ProcessingSpeed 1111.64
GenerationTime 5.02
GenerationSpeed 19.90
TotalTime 27.04
Output 1 1 1 1
Flags NoAVX2=False Threads=8 HighPriority=False Cublas_Args=['mmq'] Tensor_Split=None BlasThreads=8 BlasBatchSize=512
3. запустил без флага бенча, вывалилось по нехватке врам, тисал что то то ли 15гб доступно, то ли 400мб не хватает.
4. ребутнул комп, запустил кобольда (запустилось), подключил таверну.
В итоге на 27bq4k_m гемме ггуф, rtx3090:
[16:04:45] CtxLimit:7414/24576, Amt:49/596, Init:0.16s, Process:5.58s (1321.08T/s), Generate:1.83s (26.76T/s), Total:7.41s

Просто ракета конечно в сравнении с тем, что было. Почему правда пару раз вышибало по врам при запуске и почему угабуга так странно себя ведет, надо будет разбираться. Сейчас открою доку кобольда и буду разбирать, что значит каждый из параметров запуска.

Аноним 12/04/25 Суб 16:21:25 #455 №1148067

>>1148061
Так они тыщу в день выдают для бесплатных моделей если закинуть $10 на баланс. Мне этого с головой хватает, свайпать-то не надо, как на всратых огрызках.

Аноним 12/04/25 Суб 16:23:19 #456 №1148069

>>1148067
а как ты туда эти one ten bucks закинул то из великой и могучей

Аноним 12/04/25 Суб 16:25:51 #457 №1148074

1675004320318.png

>>1148069
Я у мамы продвинутый пользователь пк.

Аноним 12/04/25 Суб 16:25:56 #458 №1148075

>>1147769
>Можешь попробовать тут первую или вторую версию.
Попробовал оттуда третью гемму 27В - сломаны мозги. Пока что DPO-версия лучшая (но тоже такое себе)

Аноним 12/04/25 Суб 16:28:46 #459 №1148079

>>1148074
фубля крипта =(

Аноним 12/04/25 Суб 16:33:12 #460 №1148084

>>1148048
там апи нормальное есть, чтобы к т8т подключать, и сколько милионов токенов в фри режиме?

Аноним 12/04/25 Суб 16:34:18 #461 №1148086

>>1148084
*n8n

Аноним 12/04/25 Суб 16:38:08 #462 №1148093

>>1148067
Мне этого точно не хватит лол.

Аноним 12/04/25 Суб 16:39:33 #463 №1148098

>>1148093
а 1000 чего? сообщений или токенов или попугаев?

Аноним 12/04/25 Суб 16:41:55 #464 №1148100

1672653790287.png

>>1148098

Аноним 12/04/25 Суб 16:43:43 #465 №1148104

>>1148100
а в реквест сколько можно напихать токенов?
(ну типа задача есть большие тексты парсить и нужно чтоб бесплатно)

Аноним 12/04/25 Суб 16:46:22 #466 №1148114

>>1148104
Не знаю, я дипсик для кума использую. Там 50 бесплатных реквестов для всех дается, зайди и проверь сколько он примет.

Аноним 12/04/25 Суб 16:49:59 #467 №1148125

>>1148066
>Просто ракета конечно в сравнении с тем, что было.
Вот и прекрасно. Сразу говорю, что QwQ-Snowdrop.i1-Q4_K_M.gguf влезает в 24гб врам и держит 32к квантованного кэша, Forgotten-Transgression-24B-v4.1.i1-Q6_K.gguf - держит 64к, ну а darkness-reign-mn-12b ниже восьмого кванта запускать и смысла нет, а кэша влезает 64к неквантованного, только она столько вряд ли пережуёт :) Энжой.

Аноним 12/04/25 Суб 16:53:31 #468 №1148131

>>1148114
>дипсик для кума
разве кум в корпосетках не режется

Аноним 12/04/25 Суб 17:01:01 #469 №1148152

>>1148131
https://drive.google.com/file/d/1KPtcPo66X64pwtiU48tT7GH2VlKuvaGs/view

Аноним 12/04/25 Суб 17:05:31 #470 №1148167

>>1148152
а если предложить 300$ то еще лучше будет работать?

Аноним 12/04/25 Суб 17:07:30 #471 №1148173

>>1148167
Хз, я отключил инстракт, там не это обходит цензуру всё равно.

Аноним 12/04/25 Суб 17:16:37 #472 №1148210

>>1148047
Тут еще анон решил помочь, сказал что я тяжелый квант (q5K_L) попытался поднять, и что надо квантовать, еще больше резать слои и/или спускаться на квант ниже. Но мне кажется он не в ту сторону вообще копал, если модель дает полтора токена, то еще резать слои это вообще пиздос.
Я сейчас попробовал свою аблитерацию mlabonne_gemma-3-27b-it-abliterated-Q5_K_L.gguf на твоих настройках, видюха сказала "ох как глубоко, сэмпай!" и выдала ошибку. Поставил контекст 4096 и все взлетело на тех же 27т/с. Но да, видимо тяжеловатый квант скачал, надо полегче взять.

Если рассуждать про необходимость exl2, пока получается особой нужды в ней мне теперь нет? Разве что в будущем, еще чуть быстрее + вроде как я понимаю там квантование чуть лучше?

> QwQ-Snowdrop.i1-Q4_K_M.gguf влезает в 24гб врам и держит 32к квантованного кэша
Это отлично, спасибо за точное название кванта, не придется угадывать. Побегу качать. Форготтен тоже попробую, хотел, рекомендовали для англ кума. Ну а даркнес у меня и на угабуге q8 fp16 летал :D

Аноним 12/04/25 Суб 17:23:56 #473 №1148236

>>1148210
>QwQ-Snowdrop.i1-Q4_K_M.gguf
Только если для русского, то версию с i не бери, а бери static quants.

Аноним 12/04/25 Суб 17:27:15 #474 №1148247

>>1148210
>Если рассуждать про необходимость exl2, пока получается особой нужды в ней мне теперь нет? Разве что в будущем, еще чуть быстрее + вроде как я понимаю там квантование чуть лучше?
А это как повезёт. Вообще-то уже exl3 на пороге и поддерживать старые версии никто не будет. А новых ещё нет. Короче с одной картой пока что можно смело сидеть на ггуфе и ничего не терять.

Аноним 12/04/25 Суб 17:30:04 #475 №1148255

На реддите видел, как челик на премиумной материнке, утыканной оперативкой, запускал дипсик. Скорость 3-4 токена в секунду была.

Тут никто таким не занимался? Я вот думаю над идеей взять китаеплату и кучу памяти по дешману, хотя в то же время страшно, что плата перегреется и сгорит нахуй.

Аноним 12/04/25 Суб 17:42:43 #476 №1148303

>>1148255
какую ты китаеплату возьмеш то? там обычно больше 256 не поставить... так-то тебе нужно желательно что-то на Epyc и обмазаться оперативой по полной, но у тя денег на такое не хватит

Аноним 12/04/25 Суб 17:45:40 #477 №1148310

>>1148255
>Тут никто таким не занимался?
Будь реалистом - ну нельзя пока гигантские модели запускать на дому. 123В - предел. Можно получить 1 токен в секунду или целых два, но нахуя? Ждём железо. ИЛИ покупаем доступ к API ИЛИ арендуем и пытаемся убедить Дипсик что он очень хорошо может в кум (что без тюнинга наверняка пиздёж). Так вижу(с)

Аноним 12/04/25 Суб 17:49:33 #478 №1148327

photo2025-04-0716-24-44.jpg

Мужички, есть задача кумить на русском, без переводчиков итд
Вот прям пишешь на русском и ответ тоже на русском
Через опенроутер. Какая модель сможет в это? И что вообще для этого нужно? Карточки персонажей с ру описанием или как?

Аноним 12/04/25 Суб 17:51:18 #479 №1148337

>>1148236
>Короче с одной картой пока что можно смело сидеть на ггуфе и ничего не терять.
Ну супер, как раз можно будет попробовать всякие модели без сильной ебли с поисками и запусками.

>>1148255
3-4 токена дипсик звучит очень годно, особенно после того как ночь прокумил на 0,8 т/с.
Насколько я помню, в треде ни раз поднимался такой вопрос, и пока вроде годного сетапа никто не собирал. Все упирается в скорость памяти и её объемы. DDR5 в адекватные деньги >96гб собрать оче дорого и непросто. DDR4 медленная, и доступные серверные процы с 4мя каналами насколько я понимаю не оч по производительности и оч много RAM не затащут.

Я бы сам с большим удовольствием бы почитал про чужой опыт, было бы интересно собрать за цену похода в дикси сервачок, способный постоянно. пускай и неспешно крутить гемму/квен как ассистента "всегда под рукой", или за сотку собрать домашний сервак, но уже способный неспешно крутить тяжеленные модели.

>>1148310
> Можно получить 1 токен в секунду или целых два, но нахуя?
Ну если это будет по "мозгам" аналог корподипсика, грока или гопоты, то звучит годно. Говорю как прокумивший всю ночь на 0,8 токенах.

Аноним 12/04/25 Суб 17:55:45 #480 №1148354

>>1148337
>Ну если это будет по "мозгам" аналог корподипсика, грока или гопоты, то звучит годно. Говорю как прокумивший всю ночь на 0,8 токенах.
Все мы с "0.8 токена" начинали. Вот сейчас ты покумишь на 10+ токенов в секунду и поймёшь, что даже Грок на 1-2 т/с не стоит того. Точно тебе говорю :)

Аноним 12/04/25 Суб 18:08:50 #481 №1148394

>>1148354
Ну кум кумом, а есть еще и рабочие задачи и хоббийные. Я понимаю что сейчас моделей как говна за баней бесплатнодоступных, и даже без ебли с впн (хвала китайским братушкам)... Но есть и конфиденциалка, NDA, личная инфа... Да и опять же, зависимость от корподяди ну совсем не греет душу. Опять же доступ по API и свой промтинг это уже за копеечку. Я бы с радостью насыпал 50-100к за некросборочку, дающую мне свой грок/соннет/4о, пускай 1т/с.

>>1148337
>ночь прокумил
>ночь прокумил
Пока думал над ответом, забыл что уже про это говорил, прошу прощения. Выглядит оч тупо 2 раза повторенное.

Аноним 12/04/25 Суб 18:26:43 #482 №1148444

>>1148327
>И что вообще для этого нужно? Карточки персонажей с ру описанием или как?
Берёшь любую карточку и переводишь в ней приветствие и примеры диалогов (если есть), этого обычно достаточно.

Аноним 12/04/25 Суб 19:13:54 #483 №1148557

>>1147752
MoE-шка, маленькие эксперты, зато много.
Мультимодальность там может и есть, но хуже даже квена 7b, не говоря о гемме 27б.
Путает вещи.

Без гпу разве что Qwen2.5-3b-VL или Geema-3-4b-it, но распознавание само там секунд 20-30 на проце займет. Зато пишет быстро.

Но в общем, пока нет особо.

Хотя, справедливости ради, у меня есть знакомый, у которого маверика на его задаче показал себя лучше Gemini 2.0 Flash. Например.

>>1147875
Тарифы отменили, кстати.
Однако, факт, что волатильность слишком высока, седня можешь купить, завтра уже не можешь.
Вроде и ждать стоит, чтобы пережить психический порыв, но вроде и задерживаться с покупкой иногда рисково. Проснешься — а там эмбарго, и видяхи втрое взлетели.

>>1147898
Ryzen 7700 тебе нафиг не нужен на DDR5, у тя там скорость памяти будет чуточку выше, чем на 5600.

Intel i5-12400 бери, или аналоги постарше на DDR5. Интелы позволят память запустить достаточно быстро.

>>1147960
> aya-23-35B-Q4_K_M.gguf

21.5 GB

Бля, слушай. Она у тебя целиком в 24 гига должна влазить же.

Давай разбираться.

Можешь посмотреть потребление видеопамяти? И фигач количество слоев 999, проблемы быть не должно с 3090-то.

У тебя одна видеокарта? Так, на всякий случай спрошу.

>>1148022
У меня вижн геммы в кобольд.спп рабочий, если че.
А через таверну не пробовал.

>>1148066
> Generate:1.83s (26.76T/s)
Вот это звучит реалистично.

>>1148210
Если тебя устроит ггуф, то париться с экслламой пока нет смысла. Вот выйдет полноценно Exllamav3 — тогда да. Там будет буст, если верить бенчам.

>>1148255
Я планировал порофлить, но что-то в итоге руки не дошли.
Если будешь брать, расскажешь, че за плата.

192 гига уже хватит для 1.58 бита, 256 для 2.5 битов, а 384 — 4 бита.
Чем больше каналов и псп — тем лучше.

>>1148310
ktransformers для тех, у кого есть 256+ гигов и 3090 =)

>>1148337
Я дипсик на 1,5 токена/сек могу запустить, 128 оперативы + 2 теслы по 24. Но лень ждать и теслы мучать почем зря.

По идее, восьмиканал 2400 даст уже 3-4 токена, ну?

Аноним 12/04/25 Суб 19:20:30 #484 №1148571

>>1148444
На большинстве моделей которые я пробовал выдает какую-то тарабарщину ебучую либо зацикленный текст, с англ. версией текста все нормально. Как это победить?

Аноним 12/04/25 Суб 19:29:13 #485 №1148613

>>1148571
модель должна уметь в ру
умеют не только лишь все
и по большей части только базовые / аблитерированные версии (гемма 27), корпосетки типа гемини, да тредовичковые мистральки, и некоторые квены, например руадапт, а вот сноудроп в ру может на уровне 8б, так что не стоит, там русик убился

Аноним 12/04/25 Суб 19:41:14 #486 №1148660

>>1148613
Про сноудроп жаль очень. Я на старте поюзал и удалил.

Аноним 12/04/25 Суб 19:57:37 #487 №1148703

>>1148210
> пока получается особой нужды в ней мне теперь нет?
Нужда появится когда начнешь использовать на больших контекстов и ахуевать с тормозов llamacpp. Или когда будешь получать полный бред вместо ответа без явной на то причины, случается что жора работает криво или поломанный квант. Офк, к экслламе это тоже применимо, но случается гораздо реже.
>>1148247
> поддерживать старые версии никто не будет
Вторая эксллама успешно катает gptq и фп16, уже есть обещания что совместимость с exl2 будет отсутствовать? Другое дело какой смысл их использовать, если новый квант лучше.
>>1148394
> соннет
Смотря где, в некоторых задачах он прям вне конкуренции, в (е)рп после линчевания вялый.
> грок
Хуй знает, ерунда какая-то, так и не понял в чем его фишка.
> 4о
По омнимодальности с лайв-апи равных пока нет. По ллм части - ну рили тут уже гемма (27б) ему может дать на клык не говоря о больших, по картинкам - зависит от юзкейса.

Аноним 12/04/25 Суб 20:26:05 #488 №1148786

>>1148337
Я уже скидывал в прошлом треде скрин со сборкой от какого то дядюшки Ляо, который использовал один Сион 2680 v4 (вроде как, но тут непринципиально) на двухсокетной хуянанжи и какой то кадавр 3080 с 20 ГБ врам. Память - 512 ГБ 2400 ддырки 4. Получал через ktransfromers те самые 3 токена в секунду.

Суть же да, в пропускной способности озу.
Кратко ситуация с ней выглядит так: хочешь больше 100 Гб/с - потрать 300К рупий минимум. Сто на проц, сто на мать, сто на память. Ну и где достать +24ГБ врама надо подумать.

Аноним 12/04/25 Суб 20:36:05 #489 №1148825

Так что в принципе неудивительно, что в треде такой сборки никто не кидал.
Даже если деньги есть, кидать 300 килорупий в топку что бы...
Эх, тяжело иметь дорогие хобби, особенно когда они с РАБотой никак не связаны.

Аноним 12/04/25 Суб 21:02:04 #490 №1148907

>>1148825
Какой сборки? Тут много чего было что может удивить.
> тяжело иметь дорогие хобби
Тут далеко не самое. Любой околоспорт глянуть и можно ахуеть.

Аноним 12/04/25 Суб 21:17:14 #491 №1148958

>>1143776
Вот мой пост со скрином. Оказывается он даже в этом треде был

Аноним 12/04/25 Суб 21:35:28 #492 №1148984

>Intel i5-12400 бери, или аналоги постарше на DDR5.
Не, интуль не оч люблю, да и вообще когда гемма влезла в vram решил, что похуй на возможность делить слои на проц, останусь на ам4. Если захочу что то тяжелее 32b гонять, то докуплю вторую карту или буду уже собирать что то отдельное чисто для лмм, и там уже подбирать железо под конкретное тз.

>должна влазить же. Можешь посмотреть потребление видеопамяти?
Могу, но у меня проблема в том, что угабуга не хочет квантовать контекст почему то. Т.е. aya-35b:
- на 25 слоях взлетает с fp16 0,8т/с
- на тех же 25 слоях и том же объеме контекста, но с q8_0 вылетает по ошибке памяти. В целом уже не актуально, мне пока кобольда хватит за глаза, но можешь посмотреть >>1147960 на скриншоте что я делаю не так. Да, 3090 одна.

>Я дипсик на 1,5 токена/сек могу запустить,
О, круто, речь о DS R1 на все 600+ миллиардов (в кванте)? На хабре нашел сейчас следующее:
>Единственный способ запустить настоящую R1 (как и deepseek V3) локально, это иметь ПК с хотя бы 256гб памяти, если это 16 канальная ddr4 3200 система на б/у эпиках (1-2 поколения, такие можно собрать где-то за 150к), то вы получите скорость 4 t/s в Q2_K кванте, для размышлений это слишком медленно, так как их обычно много, но это более менее терпимо, если учесть, что скорость небыстро чтения 5 t/s.
150к (как и система 128+48vram) конечно выходят за рамки "до соточки побаловаться", но звучит в целом интересно. Я с дипсиком не работал (когда он выкатился, я попал на перегрузку серверов на хайпе и регу прикрыли, а потом как то и не особо интересно было, достаточно квена и гопоты иногда что то поспрашивать), все что я знал что он на уровне тир-1 корпосеток. Попробую сегодня зарегаться и потестить, мб действительно задумаюсь о сборке под него.

>грок,Хуй знает, ерунда какая-то
По идее зная Илону, он должен быть хорош для всякой инженерии, но понятия не имею что там в опенсорце, много где слышал что тяжелая хуита без задач. В общем как ты понимаешь, познания мои в крупносетках не очень, но гопота видел как развивалась с 3.5 и сейчас конечно она вау - мультимодальная, с поиском, размышлением, генератор картинок обесценивает процентов 70% навыков моих в SDXL...

> хочешь больше 100 Гб/с - потрать 300К рупий минимум
За локальный функционал современной гопоты я бы всерьез мог подумать. А если просто за возможность гонять модель чуть чуть умнее геммы - уже да, такое.
В общем надо изучить что дипсик локальный дает.

Аноним 12/04/25 Суб 21:43:12 #493 №1149000

>>1148984
>В общем надо изучить что дипсик локальный дает.
В том кванте, что ты потянешь - ничего.

Аноним 12/04/25 Суб 22:10:10 #494 №1149081

image.png

Он и в аблитерейдед дпо! Есть хоть одна производная геммы без злоебучего Хэмлока?

Аноним 12/04/25 Суб 22:10:13 #495 №1149083

Потрясен вашей целеустремленностью заставить ИИ сгенерировать голую женщину.

Аноним 12/04/25 Суб 22:12:00 #496 №1149090

>>1149081
Выбивает к хуям из погружения, да?

Аноним 12/04/25 Суб 22:13:29 #497 №1149095

>>1149090
Пиздос как! Меня так с бондов, камарадери, петов, министрейшонов, трус о даре, и прочего слопа так не трясло как с Старика Хэмлока

Аноним 12/04/25 Суб 22:28:07 #498 №1149137

image.png

Хэмлок не в аблитерейтеде и не в дпо... Он в самой гемме... Я не знаю, я чувствую себя преданным...

Аноним 12/04/25 Суб 22:29:52 #499 №1149141

>>1149081
>>1149137
Чё за Хэмлок? Кто это? Прикол какой-то?

Аноним 12/04/25 Суб 22:34:07 #500 №1149152

>>1149141
Слопный персонаж, который гемма мне подсовывает

Аноним 12/04/25 Суб 22:43:43 #501 №1149179

>>1149081
>Хэмлока
>>1149137
Что за хемлок? Ни разу не видел на этой вашей гемме.
>>1149083
Описание голой женщины, замечу я.

Аноним 12/04/25 Суб 22:48:54 #502 №1149184

image

>>1149083
Это серьёзные научные общественно-полезные исследования.

Аноним 12/04/25 Суб 22:50:36 #503 №1149186

>>1148984
> угабуга не хочет квантовать контекст почему то
Какая-то ерунда у тебя там происходит, и 25 слоев - ну оче мало для таких моделей. И да, галочка flash attention обязательна.
> Единственный способ
> ПК с хотя бы 256гб памяти, если это 16 канальная ddr4 3200
Плохая подача, так загибать про единственность, а потом советовать епук 2-го или 1-го(!) поколения. И онли на процессоре всетаки слишком медленно выходит, это страдание. Надо таки заморочиться и k-transformers завести с сотней врама, просто сам по себе дипсик не особо впечатляет чтобы столько телодвижений ради локального запуска делать.
> зная Илону, он должен быть хорош для всякой инженерии
Это как выбирать инженерный кетчуп потому что его рекламировал Дауни-младший.

Аноним 12/04/25 Суб 22:53:53 #504 №1149192

>>1148984
> зная Илону, он должен быть хорош в
Зачем пользоваться продуктами жизнедеятельности нацистов?

Аноним 12/04/25 Суб 23:07:27 #505 №1149214

Товарищи, можно что-то запустить 30b+ на 24 гигах видео памяти и 64 гигах оперативки (ddr4 3200), чтобы комфортно крутилось?

Аноним 12/04/25 Суб 23:09:37 #506 №1149216

>>1149214
Забыл уточнить, мне для кодинга и неформального общения на русском, на все темы в том числе и чтоб по жести могла ответить...

Аноним 12/04/25 Суб 23:14:52 #507 №1149231

>>1149216
>Забыл уточнить, мне для кодинга и неформального общения на русском, на все темы в том числе и чтоб по жести могла ответить...
Квен в кодинге хорош (говорят), Гемма аблитератед для всего остального. Модели, кванты и батники для Кобольда смотри чуть выше по треду.

Аноним 12/04/25 Суб 23:16:13 #508 №1149235

>>1149216
>для кодинга
DeepSeek с резронингом лучше будет, мелкие локальные модели типа 30б будут онли говном срать, учитывая что даже корпомодели самые последние обсераются. Ну либо жди еще года 3.

Аноним 12/04/25 Суб 23:21:12 #509 №1149242

>>1142778 (OP)
По поводу Лорбука(World Info) в таверне, расскажите про векторные базы. Вот есть тригер по ключевому слову(по умолчанию), а есть Chain Link, который делает векторную базу из записи и срабатывает по схожей семантике в контексте.
Как я понял Chain Link использует какую то простую базу, которая автоматом генериться при каждом запуске таверны и не сохраняется. Но есть расширение Vector Storage, позволяющее на костомной модели сгенерить нормальную векторную базу в постоянный файл. И вроде как это более удобный и управляемый вариант.
Но вопрос, а есть смысл вообще ебаться с базой, будет ли она лучше обычных тригеров по ключевым словам? Оправдано?

Аноним 12/04/25 Суб 23:23:37 #510 №1149247

>>1149231
Ок, спасибо.

Аноним 12/04/25 Суб 23:24:05 #511 №1149249

>>1149235
Понял принял.

Аноним 12/04/25 Суб 23:40:51 #512 №1149292

Аноны с видяшками от амд, чо у вас по скорости генерации выходит? Щас присматриваюсь к rx 7600 xt с 16 гигами памяти. Еще интересно что будет с генерацией картинок, тред не тот, но может кто подскажет

Аноним 13/04/25 Вск 00:17:07 #513 №1149348

>>1148984
> О, круто, речь о DS R1 на все 600+ миллиардов (в кванте)? На хабре нашел сейчас следующее:
На хабр забей, там дебилы сидят.
Но офенс, но ебать они тупые, правда.
Зато чсв в потолочек стучит.

Unsloth квантовал даже сильнее, Q1 квант (не 1 бит, конечно=), она на 1.58 бита становится смешно-шизовой, но все еще верно отвечает на вопросы, и неплохо пишет.
Только это ппц как медленно, легче QwQ на 10 токенов/сек гонять.
По сути, минимум — это 170 гигабайт.

Но если под него собирать, выше уже писали, ну, придется вложиться. По-хорошему, во-первых, памяти надо 256, а то и 384, во-вторых… ну ладно, 3090 у тебя есть.
Короче, сервачок бушный взять придется, конечно.

Но честно скажу — под РП с thinking'ом Grok лучше, а R1 не дотягивает. Выглядит слишком дорого. Вот задачки решать — да, для работы хорошо. Только для работы ты и подписку или API оплатить можешь.

Я не то чтобы отговариваю… Ну попробуй, тебе решать. =)

> За локальный функционал современной гопоты
Там нет вижина, если что.
Только текст.
Ну, просто к слову.

>>1149000
Да не, она нормальная, на самом деле.
Просто сам дипсик (даже в веб-морде, даже до отупления), не дотягивал до грока по умению в РП и следование инструкциям.
IFEval ну такой себе у него.

>>1149192
Поорал. Спросите тех, кто чатгопоту юзает. =)

>>1149214
QwQ-32b для кодинга, математики и задач, Gemma 3 27b для приятного общения и вижина, если надо.

Аноним 13/04/25 Вск 00:39:52 #514 №1149377

image.png

подождите жора фурриеб что ли?

Аноним 13/04/25 Вск 00:41:37 #515 №1149383

>>1149377
Жора тут вообще причем, чем? Это ж LostRuins.
А Кобольд — это вообще КобольдАИ изначально.
А потом форкнули llama.cpp и в качестве фронта взяли форк Кобольда.

Буквально ни в одном месте фурри нет, форк форка форка…

Аноним 13/04/25 Вск 00:57:54 #516 №1149415

7600.png

>>1149292
Не знаю, что c LLM, но с SD она отвратно работает. Отсасывает даже 3050

Аноним 13/04/25 Вск 01:24:56 #517 №1149454

image.png

>>1149292
>>1149415
Вообще удивительно, насколько АМДшные карты параша в ИИ при довольно мощной общей производительности. А Интел реально могли бы навязать конкуренцию Нвидиа, если бы компанией руководили не долбоебы

Аноним 13/04/25 Вск 01:45:25 #518 №1149475

>>1149348
>На хабр забей, там дебилы сидят.
>Зато чсв в потолочек стучит.
Дорогой дневник, нет слов что бы описать мою боль, когда читая статью "Как запустить DS локально" на хабре, я читаю как дибил рассказывает что дипсиков есть целая линейка и показывает как в свою олламу скачивает 7б "на компьютер с мощной видеокартой", а в комментариях казалось бы не глупые люди спрашивают "насколько 70b уступает 671b?" и пишут "пробовал на ноутбуке, что то не впечатляет"... А в соседнем посте другой поясняет какой нужно собирать комп для дипсика локально, просто показывая фотки дорогих железок "мать нужна двухпроцессорная"... Его спрашивают, а ты собирал? Нет, я не могу такое позволить... Пиздец, пиздец, пиздец! С пикабу и VC спроса нет, но читать такое на чванливом хабре такую срань...
Одна статья только нашлась путевая, чел завел дипсик на рабочей старой рабочей станции с ддр4 768гб и получил 1т/с. Правда судя по видео в реальном времени, токен дипсика меньше токена моей aya35б, у меня печатало в таверне повеселее на 0,8т/с, у него совсем грустно.

>Вот задачки решать — да, для работы хорошо. Только для работы ты и подписку или API оплатить можешь.
Ток для каких то сложных вопросиков и рассматриваю тащем то, для кума так заморачиваться и тратится ради 1т/с бред. И то, пока эти вопросики не сформулированы, скорее позыв в духе "даже если будет чебурнет, я останусь на коне", ну и мб NDA скармливать, пускай за ночь переваривает кучу контекста.

>Я не то чтобы отговариваю… Ну попробуй, тебе решать. =)
Я определенно заинтересован в чем то подобном, но цена/результат пока что совсем унылые. За банку говяжих анусов купить али-зион ради одного токена в секунду - что бы и нет, вложиться солидной суммой и развернуть у себя почти AGI - тоже звучит как выгодная сделка. А вот вложиться суммой и получить пруф-оф-концепт совсем без задач пока не готов. Я еще даже одну 3090 не раскрыл толком. Буду присматриваться, изучать вопрос. Я поэтому и зажопил на нормальный апгрейд компа, оставшись на ам4, потому что если нащупаю пул задач для себя, возможно придется свичится на какое то специализированное решение по типу рига карт/рам-сервака + ноут.

>Там нет вижина, если что.
>Только текст.
Я и не особо надеялся на йоба-мультимодальные фишечки вроде график-плоттинга или разговора в риалтайме, думал как максимум что вижн уровня геммы есть, но с такой скоростью он все равно не будет юзабелен.

>>1149377
кстати сегодня кобольда когда скачивал, тоже триггернуло :D

>>1149454
не понимаю вообще в чем смысл красных карт в 2025, даже игори почти все на нвидиа-ии-фичи перестроены щас и майнинг на видео снова помер.