Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №126 /llama/

Аноним 30/04/25 Срд 22:44:48 #1 №1184583

Llama 1.png

Альфа от контекста.png

KL-divergence statistics for Mistral-7B.jpg

Не корпус, а печка.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный Не совсем актуальный список моделей с отзывами от тредовичков на конец 2024-го: https://rentry.co/llm-models
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1179397 (OP)
>>1171574 (OP)

Аноним 30/04/25 Срд 22:51:10 #2 №1184590

А ведь у нас реально есть дипсик уже сейчас, полноценный конкурент большим нейронкам типа гемини, на 685b параметров, гопота дома.
Не понимаю какой смысл теперь в видюхах, их время ушло на ближайшие лет 15, модели уже есть а видюх под них нет, сейчас кроме рам вообще ничто не решает.
Я кстати не считал, может даже 3 3090 стоят дороже чем сетап с 405гб рам

Аноним 30/04/25 Срд 22:54:55 #3 №1184595

>>1184574 →
Сразу видно, что нихуя не разбираешься. У 8400f меньше техпроцесс и меньше L3 кэша, поэтому он холоднее 7500f даже при отсутствии припоя. А вот 7400f уже печка, да
>>1184590
Пиздец, первое сообщение в треде и уже насрал дипсикошиз

Аноним 30/04/25 Срд 22:56:55 #4 №1184598

>>1184595
>Пиздец, первое сообщение в треде и уже насрал дипсикошиз
х4 3090 шиз, ты?
Должно быть очень обидно что потратил столько бабок чтоб выебываться перед нищетой, а тут выходит модель в 5 раз умнее и уже ты сидишь на лоботомите

Аноним 30/04/25 Срд 23:01:35 #5 №1184605

>>1184598
Да, я собрал x4 3090 c 8400f. Как ты узнал?
покормил

Аноним 30/04/25 Срд 23:13:15 #6 №1184617

>>1184590
Если уж говорить серьезно о запуске на рам то вот эта штучка более интересна чем дипсик - Qwen3-235B-A22B
Только непонятно какие скорости можно выжать с и без оптимизаций с выгрузкой во врам.
Вот тут анон с ней играется, но цифры не кидает.
Вангую онли cpu где то токена 2-3, с выгрузкой активных экспертов в врам ну может до 10, хз
Обычная llama.cpp как то хуево выгружает их принудительно

Аноним 30/04/25 Срд 23:24:46 #7 №1184633

О заебись, в таверну добавили расширение оффлайн переводчика
Magic Translation

Аноним 30/04/25 Срд 23:26:23 #8 №1184637

>>1184583 (OP)
Ваш топ моделей до 22B для RP на русском языке?

Аноним 30/04/25 Срд 23:28:45 #9 №1184644

>>1184590
>на 685b параметров
Неюзабельно на консюмерском оборудовании, так что мимо.
Мимо жду гемму на 70B

Аноним 30/04/25 Срд 23:32:46 #10 №1184651

>>1184644
Как будто 70б запускаются на консумерском оборудовании

Аноним 30/04/25 Срд 23:33:33 #11 №1184652

>>1184637
Мистраль 24б аблитератед. Именно он. Файнтюны на русике - кал, хотя, возможно, есть нормальные.

Квен 30б, который новый и МоЕ. Он будет даже быстрее у тебя, чем 22б мистраль, если только мистраль целиком в память не влезет.

Но хоть русик у них и значительно лучше, беда в том, что он более формальный и менее живой, чем в тредовичковых миксах на 12б. Но тредовичковые довольно тупые.

Аноним 30/04/25 Срд 23:34:21 #12 №1184655

Кто-то уже гонял Qwen3-235B-A22B? Твое мнение, анон? На мой взгляд как-то жиденько. В переводы на русский - хуже геммы3, что с английского, что с японского (тут даже хуже). В рп вроде бы неплохо, затупы есть, в куме не совсем соевая. Но пока не могу сказать наверняка, тестил только часа два.

Аноним 30/04/25 Срд 23:37:36 #13 №1184662

Подскажите годные сетки переводчии с английского на русский, до 7b

Аноним 30/04/25 Срд 23:37:56 #14 №1184663

>>1184617
Да, на редите пишут, что на 7955WX работает 3 тс, то есть не юзабельно
>>1184651
Запускается. 64 ram уже не особо дорого, просто нужна какая нибудь MoE параша, чтобы на проце нормально работала

Аноним 30/04/25 Срд 23:40:23 #15 №1184667

>>1184663
>Да, на редите пишут, что на 7955WX работает 3 тс, то есть не юзабельно
И это странно, потому что активные эксперты в 4 кванте всего 11 гб занимают. Будто что то неоптимизированно под мое. Потому что та же плотная модель в 11гб выдаст токенов 6

Аноним 01/05/25 Чтв 00:05:57 #16 №1184685

>>1184652
>Но хоть русик у них и значительно лучше, беда в том, что он более формальный и менее живой, чем в тредовичковых миксах на 12б. Но тредовичковые довольно тупые.
Ну нет, для 12В там не то, что всё хорошо, а прямо отлично. Даже не верится что всего 12В.

Аноним 01/05/25 Чтв 00:10:26 #17 №1184691

>>1184685
Илья Гусев, мы тебя узнали, пошел нахуй с треда и свою обосранную сайгу забери

Аноним 01/05/25 Чтв 00:26:15 #18 №1184707

Nvidia 3 раз за месяц высрала свой драйвер. На этот раз ТВЕРДО И ЧЕТКО обещают исправить все баги

Аноним 01/05/25 Чтв 01:02:59 #19 №1184718

1705362641211.png

Картинка не для обсуждения.

Аноним 01/05/25 Чтв 01:12:35 #20 №1184720

image.png

>>1184707
Не смогли. Снова все поломали. Минус 250мгц по памяти. Видимо придется вечно на декабрьских дровах сидеть

Аноним 01/05/25 Чтв 01:13:40 #21 №1184721

image.png

>>1184049 →
А может дело не в Synthia-S1-27b а в карточке? Первый раз такую забористую шизу вижу. Там дальше ещё забористее, но ограничения аутпута прервали поток.

Аноним 01/05/25 Чтв 01:21:18 #22 №1184723

изображение.png

>>1184718
подведём итоги:
Модели уменьшаются в размерах и ускоряются.
За последний год интеллектуальных прорывов нет,
ризонинг посути вшитый промпт "думай шаг за шагом в таком стиле..."
Данных брать не откуда. Синтетика ухудшает модели.
За три года ни одного прорыва, кроме никому ненужных n8 агентов для частных случаев.

Аноним 01/05/25 Чтв 01:22:08 #23 №1184724

>>1184723
Да, луддиты такое каждый раз пишут.

Аноним 01/05/25 Чтв 01:23:27 #24 №1184725

>>1184723
подвёдём итоги:
ты насрал в тред

Аноним 01/05/25 Чтв 01:24:38 #25 №1184727

>>1184721
Проиграл с капса в конце
Скинь текстом, я хочу это прочитать через переводчик

Аноним 01/05/25 Чтв 01:28:16 #26 №1184730

>>1184721
В конце базы навалил, вы все нейросатанисты.

Аноним 01/05/25 Чтв 01:31:09 #27 №1184731

>>1184727
Да я уже потёр эту шизу. К слову шизеет в каждом втором случае. Может микс английского с русским в описании так интересно влияет? Или жесть в описании карточки ломает модели?

Аноним 01/05/25 Чтв 01:33:17 #28 №1184732

>>1184731
Выглядит как сломанный сэмплер

Аноним 01/05/25 Чтв 01:37:02 #29 №1184733

>>1184718
>>1184720
Обосрамс полнейший
https://www.reddit.com/r/nvidia/comments/1kbhda6/game_ready_driver_57628_faqdiscussion/

Аноним 01/05/25 Чтв 01:40:02 #30 №1184735

>>1184732
simple-1 с фиксом от лупов из предыдущего треда. На других карточках работает без проблем.

Аноним 01/05/25 Чтв 02:11:28 #31 №1184746

изображение.png

>>1184651
2 по 3090 вполне себе подъёмные и размещаются в любом нормальном корпусе.
>>1184663
>просто нужна какая нибудь MoE параша
Мое параша сама по себе параша, лол.
>>1184707
Адепты обновлений вечно страдают. Сижу на дровах, которые сама шинда ставит, на остальное строго похуй.
>>1184727
>Скинь текстом
Не уметь кидать картинки в яндекс в 2025-м...

Аноним 01/05/25 Чтв 02:19:04 #32 №1184748

>>1184590
Прогорклый жир
>>1184721
Да синтия норм, по-своему припезднутая, по-своему уникальная. Тут у тебя какая-то классическая поломка ллм с ошизением, поломанный квант или баганый бэк. Даже не представлю как можно довести до подобного промтом.
>>1184746
> 2 по 3090 вполне себе подъёмные и размещаются в любом нормальном корпусе.
> Мое параша сама по себе параша, лол.
Двачую

Аноним 01/05/25 Чтв 02:39:19 #33 №1184751

>>1184746
> 2 по 3090 вполне себе подъёмные и размещаются в любом нормальном корпусе.
>>1184748
И какой квант вы собрались запускать на 48гб врама?
Хз, стоит ли оно того вообще

Да и для других задач такое железо не нужно, разве что для 4к игр. Технически - консумер хардвер, да. Де факто - хз, как будто будет интересно только профессионалам 3дшникам и прочим

Аноним 01/05/25 Чтв 02:47:17 #34 №1184756

>>1184751
> И какой квант вы собрались запускать на 48гб врама?
4-5 бит, стоит.
> Да и для других задач такое железо не нужно
Мир нейронок, машинлернинга и ии простирается далеко за пределы кума на локальных ллм, везде нужны гпу.
> как будто будет интересно только профессионалам 3дшникам и прочим
Типа да, в большинстве это действительно для энтузиастов, нердов, задротов, специалистов, странных людей и т.д. Считай что такое технохобби, которые для некоторых перекликается с профессиональной деятельностью.

Аноним 01/05/25 Чтв 02:59:56 #35 №1184763

>>1184751
>И какой квант вы собрались запускать на 48гб врама?
4,25bpw 70B в две карты влезут. Плюс хороший контекст. Другое дело, что как бы Ллама 3.3 70В последней не была.

Аноним 01/05/25 Чтв 04:21:53 #36 №1184776

>>1184756
>>1184763
>>1184748
Лама 70б не заметно лучше геммы 27б.
Я вообще разницы не увидел, даже тупее показалась

Аноним 01/05/25 Чтв 04:37:10 #37 №1184778

>>1184776
>Лама 70б не заметно лучше геммы 27б.
По уму их можно сравнить, вот только на Лламу есть куча тюнов и мержей. И есть хорошие. Ну и количество параметров иногда решает.

Аноним 01/05/25 Чтв 04:46:04 #38 №1184780

image.png

Теперь просто ждать как меня наебут

Аноним 01/05/25 Чтв 07:02:13 #39 №1184791

Попробовал Qwen3-14B-Q6_K
Думает интересно. В рп не умеет, постоянно ишет за юзера, но вот в сторителлинге от третьего лица неплох. Хотя по сравнению с той же геммой... меня не покидает ощущение наёба.

Хотя конечно, в два раза меньше параметров.

Аноним 01/05/25 Чтв 07:07:15 #40 №1184792

image

>>1184721
ебанутые настройки сэмплера / промта, я такую шизу ловил только на в хлам поломанных и/или уквантованых мержах мистралек, (и моделях Давида) хз что надо делать с геммой чтобы её так поломать

ещё может быть проёбанный EOS токен

Аноним 01/05/25 Чтв 07:41:12 #41 №1184794

Что сейчас лучший вариант для рп в формате 27-32В? Квен3?

Аноним 01/05/25 Чтв 08:03:25 #42 №1184795

>>1184794
квен3 / гемма3

даже при том что они не всегда лучшее решение для рп, они просто лучшие в своём типоразмере и это вывозит в том числе и для рп

Аноним 01/05/25 Чтв 08:34:18 #43 №1184800

image

Qwen3-30B-A3B

Как его правильно запускать?

Аноним 01/05/25 Чтв 10:06:36 #44 №1184820

>>1184776
Довольно спорно, хоть и гемма является по-своему жемчужиной. Таки внимание решает, модель больше пишет более тонко и точнее охватывает контекст. Помимо лламы70 есть еще квен72 и немотрон. Ну и никто не мешает катать 6-8бит геммы/qwq/чего угодно с большим контекстом.
>>1184780
Не держи в себе, с тебя подробная история пердолинга и перфоманс. 32гига с не самым ужасным чипом дешевле чем сейчас теслы торгуются - вкусно.

Аноним 01/05/25 Чтв 10:11:11 #45 №1184822

Star-Command-R-32B

А вот это прям неплохо, первый коммандер который хоть как-то смог, хотя все остальные что пробовал тупняк на тупняке.

Но блин, не токены а золото, даже в третьем кванте, ноутбук не вывозит, так что наверно назад на гемму.

Аноним 01/05/25 Чтв 10:31:28 #46 №1184830

>>1184748
Да, поломанный квант. На заполнении к 8к контекста что выдал, шизеет. Тут просто карточка жирная, сразу всплыло.
>>1184822
не знаю как 3й, а вот результат 4го выше.

Аноним 01/05/25 Чтв 10:37:41 #47 №1184838

>>1184822
>даже в третьем кванте, ноутбук не вывозит, так что наверно назад на гемму
А что за ноут, который вывозит гемму и третий квант командера? Macbook pro на дохуя рам?

Аноним 01/05/25 Чтв 10:41:26 #48 №1184840

image.png

>>1184667
я так понял, что у Qwen3 MoE какая-то фигня с архитектурой, они комитили в трансформеров, чтобы оно работало. У кобольда и лламы не юзаются cuda (или пытается юзаться более старая версия), на сколько я понял по issue в гите https://github.com/LostRuins/koboldcpp/issues/1510
(щас уже походу пофиксили, надо чтобы анон с реддита перепроверял там все у себя)

Другое дело, что меня вот любая модель из третьего квена (ну 235б я не пробовал, ладно) не может нормально в РП и все время за меня отыграть пытается. Кроме карточек, где модель выступает не в роли персонажа, а в роли рассказчика, но и там все равно описывает мою реакцию на события, просто реже и чуть больше в тему.

Такое ощущение, что весь третий квен туповат и не может нормально в соблюдение инструкций, короче. А это уже серьезно. Ну или я что-то не правильно делаю, в таком случае надеюсь умный анон мне объяснит где именно я долбаеб (семплеры выставлены по тому что там в модельке у квенов описано, те же самые промпты на QwQ или других моделях работают как часы)

А, и может мне кто-то объяснить, как это, блядь, unsloth упихал 235б в < гиг?

Аноним 01/05/25 Чтв 10:52:30 #49 №1184847

>>1184838
>А что за ноут, который вывозит гемму и третий квант командера?
ASUS ROG Strix на девятой рязани и урезанной 4080

На деле даже вывозит, полтора токена в секунду, друзья по переписке XD.

Если сворачивать и заниматься работой, то пойдёт.

Аноним 01/05/25 Чтв 10:59:55 #50 №1184850

Все игры что пробовал (включая Wuthering Waves в которой многие жаловались на оптимизацию) летают на максималках, на нейронках всё же всего 12 честно-выделенной врам поджимают, приходится контекст в раму выгружать.

Аноним 01/05/25 Чтв 11:37:34 #51 №1184872

>>1184822
Да иди нахуй уже со своим говном бнз логоа

Аноним 01/05/25 Чтв 11:51:08 #52 №1184877

>>1184840
Может тебе стоит пользоваться проприетарными моделями? Всё таки тех уровень немножко высоковат, если не получается понять, что модель разбита на несколько файлов.

Аноним 01/05/25 Чтв 11:57:28 #53 №1184880

>>1184877
Нихуя там не разбито, самый умный анончик в треде. Это просто баг и щас этих файлов там уже просто нет. А разбитые на части модели именуются и выглядят по другому, иди понижать средний icq в другом месте

Аноним 01/05/25 Чтв 11:58:03 #54 №1184881

>>1184872
ебать подрыв с нихуя

Аноним 01/05/25 Чтв 11:58:25 #55 №1184882

>>1184822
каких командиров еще тестил?

>>1184872
хуй те в сраку

логи другой анон два треда назад кидал
и даже семплеры обсуждали

Аноним 01/05/25 Чтв 12:03:04 #56 №1184885

image

>>1184882
старый коммандер, айя, новый, ещё какой-то с числами, вроде промежуточная версия, несколько других (шизо)тюнов

Мда, но в кум он конечно. Мда. Псковское порно по телефону.

Аноним 01/05/25 Чтв 12:05:02 #57 №1184886

>>1184885
да, пикрил правда так себе
я на английском играл, с нормальной карточкой. было не так кринжово, да и описания неплохие

поделишься семплером? на чем в итоге остановился?

Аноним 01/05/25 Чтв 12:07:04 #58 №1184887

>>1184885
все еще лучше большинства мистралей бтв

Аноним 01/05/25 Чтв 12:16:17 #59 №1184892

image

>>1184886
>поделишься семплером?
Сейчас так.
>>1184887
>все еще лучше большинства мистралей
Ну не, омни-магнум-12б, да даже дпо-гемма-27 такой кринжатуры не выдавали, но тут скорее вопрос датасетов (или кванта), да и в сфв рп он вполне ок.

Аноним 01/05/25 Чтв 12:39:10 #60 №1184901

sfw.png

nsfw.png

>>1184885
>>1184892
> Ну не, омни-магнум-12б, да даже дпо-гемма-27 такой кринжатуры не выдавали
А что ты ищешь в нсфв отыгрыше? В треде то и дело обсуждают цензуру и то, как сухо пишут некоторые модели и тюны. Правильно ли я понимаю, что анонам важны красочные описания? По мне так важнее, чтобы язык разнообразный был, модель креативила и действительно отыгрывала персонажа. Есть там wet pussy lips, hardening nipples или иные графические описания мне и вовсе без разницы. Вкину еще логи Star-Command-R, 4bpw. SFW и NSFW ситуации, в обоих случаях персонажи совсем не уходили от своих определений. Мне кажется, кум модели если и могут в красивые описания, то у них персонажи разваливаются, сводя их к какой-то общей твердой генеральной линии. Каждому свое, конечно, но для меня этот тюн если не круче, то на уровне Snowdrop (в моем случае там примерно такой же уровень NSFW отыгрыша, но менее богатый язык)

Аноним 01/05/25 Чтв 12:43:30 #61 №1184904

1746092610104.png

1746092610107.jpg

Блядь, я не могу уже нахуй эту хуйню читать. Если очень сильно посрать хочешь сходить, то так и скажи.

Аноним 01/05/25 Чтв 13:01:25 #62 №1184923

>>1184901
>>shivers down your spine
AAAAAAAAAAAAAAAAAAAAAAAAA

Аноним 01/05/25 Чтв 13:02:11 #63 №1184926

>>1184904
>>1184923
>AAAAAAAAAAAAAAAAAAAAAAAAA
Старик Хэмлок одобряет.

Аноним 01/05/25 Чтв 13:06:35 #64 №1184935

>>1184923
Как знал, что обязательно это кого-нибудь триггернет. Похоже, у меня иммунитет, и редкие протекания не напрягают. Это все можно заблочить через logit bias, как, например, рекомендуют это авторы Snowdrop (в их пресете можешь посмотреть). Но имхо падает общее качество аутпута. Это еще один способ лоботомизировать модель

Аноним 01/05/25 Чтв 13:07:06 #65 №1184937

>>1184901
О да, хелло шиверс, май олд фриенд.
На русике хоть не так явно палятся фразочки... хотя порой не менее кринжово.

Аноним 01/05/25 Чтв 13:17:11 #66 №1184952

>>1184763
>Ллама 3.3 70В
>>1184776
>Лама 70б
Ребята, в классе 70В ллама далеко не единственная. Китайцы лепят кучу неплохих моделей в этом размере.
>>1184800
>Как его правильно запускать?
Через пару недель.

Аноним 01/05/25 Чтв 13:50:24 #67 №1185001

>>1184526 →
>https://huggingface.co/bartowski
Почему у него? Я у этого https://huggingface.co/unsloth/Qwen3-30B-A3B-GGUF качаю.

Аноним 01/05/25 Чтв 13:58:25 #68 №1185006

>>1185001
У него больше вариантов квантов

Аноним 01/05/25 Чтв 14:31:03 #69 №1185031

>>1184952
>Ребята, в классе 70В ллама далеко не единственная. Китайцы лепят кучу неплохих моделей в этом размере.
Назови две.

Аноним 01/05/25 Чтв 15:19:05 #70 №1185065

Есть какие-нибудь юзер-френдли читалки?
Чтобы как кобольд запустил, засунул модель и женский голос озвучивает твою вайфу

Аноним 01/05/25 Чтв 15:50:00 #71 №1185080

>>1184617
А хули там кидать.

4 токена в секунду с выгрузкой в видяху через ллама.спп

При этом, у меня DDR4, а у знакомого DDR5 и у него 30B инференсится процентов на 50 быстрее, как и псп.
Т.е., выгрузка на видяху акивных экспертов тоже зависит от псп, и чем быстрее память — тем лучше инференс, до видеокарты все равно далеко, буст будет.

В итоге все просто:
Память побыстрее, видяху одну на 24 гига (3090 уже топич даже для зеонов 24-канальных), и поехал.
Для старых зеонов можно подкинуть теслу (один чел в телеге тестил), тоже бустит, аж трехкратно.

И, да, 235 хорошая модель. Действительно хорошая.

> с выгрузкой активных экспертов в врам ну может до 10
Думаю, на DDR5 с псп ~120 будет где-то так, да.
Для такой модели скорость уже отличная, ИМХО.

>>1184637
Qwen3-235B-A22B. =D

>>1184655
Выше писал.
В лоб с дипсиком на веб-задачах сталкивал, Квен даже обошел на одной, нравится.
Скорее всего на самом деле хуже в чем-то, каких-то знаний не хватит, но такое очень субъективно и надо ловить.
Юзать в переводу 235б модель будто оверкилл, гемма 4-12 есть же.

>>1184718
>>1184723
Вы шо творите содомиты, я бы поперхнулся, если бы пил сейчас! =D

Обсуждать не буду, все умные все понимают и так, за оба варианты мы аргументы знаем. Но хрюканина какие смешные картинки вместе!

Аноним 01/05/25 Чтв 16:54:13 #72 №1185150

>>1185080
>4 токена в секунду с выгрузкой в видяху через ллама.спп
Какой квант? 3KM имеет смысл?

Моя конфигурация - 3х3090 + 64гб DDR4 в четырёхканале, на лламаспп должно пойти. Не думал трогать эту модель, но раз такое дело... Там есть параметр, чтобы kv-кэш только во врам был?

Аноним 01/05/25 Чтв 18:07:13 #73 №1185274

>>1184583 (OP)
всем ку, реквестирую аишки для перевода

имею LM studio, 12600к, 2060с на 8гб, 32гб ддр 5 и нужду переводить англ и яп на русский
пока что пробовал все геммы3 от самой нищей до самой жирной, дипсисич и какие то еще хуй помню какие. качество перевода лучшее у жирных гемм, но все еще позорное + ждать строку по 10 секунд приходится.
есть какие то специализированные модели? заранее спасибо!

Аноним 01/05/25 Чтв 18:32:22 #74 №1185321

Снимок.PNG

Фулл гпу, куда, одинаковые семплеры, llama.cpp
Угадайте в чем разница.

Аноним 01/05/25 Чтв 18:33:17 #75 №1185324

image.png

https://hiddenlayer.com/innovation-hub/novel-universal-bypass-for-all-major-llms/
Спс тому анону, что дал ссылку на этот пиздец

Аноним 01/05/25 Чтв 18:42:13 #76 №1185338

>>1185321
Во втором случае фокус на консоли с жорой был?

Аноним 01/05/25 Чтв 18:51:36 #77 №1185360

Я тут недавно гнал на Qwen3-30B-A3B мол 11 токенов генерация блаблабла. Это было на куда версии, с -ngl 0. Я думал это не будет влиять на генерацию, ага как же.
Скачал чисто cpu сборку llama.cpp с openblas.
Генерация от 18 в начале до 15 на 1к контекста, ну и плавно падает.
Тоесть понимаете, да? Даже выгрузка кеша в видеопамять замедляло генерацию, я ебу.
Фронт съедает так же 2 токена генерации в секунду, о чем ниже.

>>1185338
Нопе, в первом случае кручу барабан в чате таверны, во втором случае кручу барабан в родном фронте llama-server.
Фуллгпу даже видна разница загрузки куда ядер, 95% и 60%.
Влияние на фуллгпу у меня космическое, чисто на процессоре проверял и там от половины токена в тяжелых сетках, до 2-3 токенов в секунду на быстрых.

Аноним 01/05/25 Чтв 18:56:27 #78 №1185377

Бля, ну не работает ktransformers, хоть убей, даже с релизного коммита. Какой вы торч и flash_attn используете? Я прибил гвоздями торч 2.6.0, т.к. для 2.7 в репозитории нет флеш аттеншена. Флеш аттеншен использую этот https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.4.post1/flash_attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp312-cp312-linux_x86_64.whl

Запускаю вот так:
CUDA_DEVICE_ORDER=PCI_BUS_ID CUDA_VISIBLE_DEVICES=0 python -m ktransformers.server.main --host 127.0.0.1 --port 5001 --gguf_path "/media/хххх/yyyy/AI/DeepSeek-V3-0324-GGUF/UD-Q2_K_XL" --model_path "deepseek-ai/DeepSeek-V3-0324" --optimize_config_path "/home/хххх/ktransformers/ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat-serve.yaml" --cpu_infer 6

По-прежнему чаткомплит выкидывает эксепшен
TypeError: flashinfer_attn.forward() got an unexpected keyword argument 'attention_mask'

А текст комплишен - ошибку на стороне сервера.
INFO: 127.0.0.1:53644 - "POST /v1/completions HTTP/1.1" 422 Unprocessable Entity

Аноним 01/05/25 Чтв 18:57:17 #79 №1185380

изображение.png

>>1185360
Тут кстати уточню для остальных, запуская чисто процессором смотрите что бы эта мразь не отъела всю память, в 2 раза больше чем ей надо. Еще и не запускается от этого, зараза.
Если забивает не ~20 гб а все 32+ то нужно врубать --no-mmap
На скорость у меня не влияет.
Вот собственно разница в жоре памяти на 4 кванте Qwen3-30B-A3B, думается мне что это актуально для всех мое сеток

Аноним 01/05/25 Чтв 19:07:08 #80 №1185400

hmmst.png

Есть другие шизы, что пытаются мин-максить квен? У меня пока так.

start "LLaMA Server" /high powershell.exe -Command "cd 'C:\Generative\'; ./llamaCPP/llama-server -m ./models/Qwen3-30B-A3B-128K-Q4_K_M.gguf --port 8081 -t 10 -c 16384 --mlock --batch-size 1024 --no-mmap --no-context-shift --flash-attn --cache-type-k q8_0 --cache-type-v q8_0 --override-kv qwen3moe.expert_used_count=int:10 --rope-freq-base 100000"

Кстати, тут кто-то говорил что у квена макс цензура. Картинка прилагается.

Аноним 01/05/25 Чтв 19:11:36 #81 №1185407

изображение.png

>>1185400
>Есть другие шизы, что пытаются мин-максить квен?
На месте.
Пока так Qwen3-30B-A3B-UD-Q4_K_XL.gguf, llama-bin-win-openblas какой то там релиз из последних
./llama-server.exe -t 8 -c 16384 --host 0.0.0.0 -m F:\llm\Qwen3-30B-A3B-UD-Q4_K_XL.gguf --mlock --no-mmap --top-k 20 --top-p 0.95 --temp 0.6 --min-p 0.01

Семплеры прибил для агента, можно и без них

Аноним 01/05/25 Чтв 19:15:43 #82 №1185419

>>1185274
Если ты хочешь нормальный перевод, то иди поплачь. На локалках его нет.

Коммерческие не локальные модели переводят хорошо в том плане, что смысл понятен, но даже они гадят абсолютно всегда. То есть перевод нужно совершать с множеством итераций и контекстным окном большим.

Аноним 01/05/25 Чтв 19:23:14 #83 №1185433

Где то на реддите вчера видел мол с вулканом быстрее Qwen3-30B-A3B чем с куда

Аноним 01/05/25 Чтв 19:28:10 #84 №1185449

>>1185400
Ты хоть скорости скринь, будет с чем сравнить.

Не вижу у тебя слоев, если без гпу крутишь то убирай --flash-attn, он тормозит.
Так же не вижу смысла квантовать кеш, он и так мелкий и мое чувствительно к нему, ответы хуже.
С количеством ядер поиграйся, либо равное физическим либо -1, с гиперпотоками можешь указать в обработке промпта в БЛАС треадс
А еще у меня свежий кобальд медленне чем чистый llama-server, вот так вот

Аноним 01/05/25 Чтв 19:35:08 #85 №1185463

Почему квен в луп уходит постоянный?

Аноним 01/05/25 Чтв 19:38:41 #86 №1185467

>>1185463
МоЕ? Не замечал. На каком контексте?

Аноним 01/05/25 Чтв 20:08:06 #87 №1185539

8-active.png

10-active.png

10-active-12k.png

>>1185449
У меня без -fa модель крашилась. Видимо из-за квантования кеша. Хз в общем.

start "LLaMA Server" /ABOVENORMAL powershell.exe -Command "cd 'C:\Generative\'; ./llamaCPP/llama-server -m ./models/Qwen3-30B-A3B-Q4_K_M.gguf --port 8081 -t 10 -c 16384 --mlock --no-context-shift --threads-batch 10 --batch-size 1024 --no-mmap --override-kv qwen3moe.expert_used_count=int:10 --rope-freq-base 100000 --no-webui"

Короче пока так оставил. Надо будет ещё посмотреть на разные варианты процессинга, но мне лень.

На скринах скорость с 8 активными экспертами (дефолт) и 10-ю (так вроде лучше). Ещё поискал чат подлиннее, его тоже прицепил с 10ю экспертами.

Аноним 01/05/25 Чтв 20:14:55 #88 №1185553

>>1185539
А так это количество экспертов было, понял что за строчка.
У меня так -t 8 -tb 16 , второе с гиперпотоками. Дает прирост обработки промпта на 20 процентов, если сделать все 16 то генерация даже меньше на 1 т/с
Да я вспомнил, для квантования кеша нужен -fa, а с ним медленнее

Аноним 01/05/25 Чтв 20:45:25 #89 №1185609

>>1185419
ну условная геминя 2 и 2.5 очень даже неплохо переводит, если после нее пройтись слегка ручками - никто и не поймет, что это аи переводила. в моем случае совсем не страшно, если она будет иногда терять контекст или ошибаться, но конечно не с такой частотой, которую выдает гемма/дипсик.
надеялся, что есть специализированные небольшие модели под перевод - разве нет?((((

Аноним 01/05/25 Чтв 21:01:54 #90 №1185624

Что-нибудь на замену магнума вышло?

Аноним 01/05/25 Чтв 21:12:13 #91 №1185637

Каков положняк треда по свежему квену? Говно или имеет право на жизнь?

Аноним 01/05/25 Чтв 21:23:30 #92 №1185659

>>1185637
имеет право на жизнь, но под рп как-то не очень. Уж не знаю как тут у пары анонов что-то получалось, но у меня третий квен хуево соблюдает инструкции, всегда хочет за меня отыграть. Хотя вот в задачах рассказчика получше, но все равно будет пытаться за игрока спиздануть или хотя бы описать реакцию. В куме особо не тестил, но сам начинать активно сопротивляется, даже если карточка обязывает.

Аноним 01/05/25 Чтв 21:27:04 #93 №1185663

>>1185609
Качество перевода зависит от того, какой там языковой датасет и насколько модель в целом умная. До 120b — это тупорылые огрызки в плане более-менее серьезных переводов.

А если уж там какой-то серьёзный и потный перевод, то надо модели задавать контекст, объяснять, в каком стиле переводить и что происходит. А потом переводить раз за разом с контекстным окном 120к, чтобы оно помнило нить и понимало, что вообще происходит.

Это касается как каких-нибудь медицинско-научных статей, так и литературного перевода. Огрызки такое не вывозят, пусть они и значительно лучше кала типа дипла, гуглопереводчиков и подобного.

Аноним 01/05/25 Чтв 21:30:28 #94 №1185665

>>1185659
У меня МоЕ-версия не особо проблемная в куме, просто сухая. И за меня не говорит.

Главное использовать ризонинг — иначе пиздец. Он вообще не будет вдуплять, что происходит, а вот с ним отлично справляется... Как 12b, только которая в трусах не путается и позах.

Другое дело, что ризонинг можно прикрутить и к 12b, но там надо адски мозги себе ебать: найти модель, которая может в самый сок, не игнорирует контекст в нулину и при этом слушается, а ещё её цепочка рассуждений не протекает ответ или ответ прям в цепочку.

Аноним 01/05/25 Чтв 21:37:20 #95 №1185685

>>1185665
тестил все 8-32б в рп, у всех одна и та же проблема, что MoE, что dense, у всех буквально одна и та же проблема с понимаем промпта. Мб дело в кванте, кстати, везде тыкал четвертый (K_L для 8-14б и K_S для 30-32б). Да, без ризонинга в принципе даже не пробовал, семплеры ставил рекомендованные

Аноним 01/05/25 Чтв 21:38:56 #96 №1185691

Кванты Квена 3 могут быть сломаны сейчас. Многие пулл реквесты еще не замерджили в лламу и другие инференсы. К тому же токенайзеры могли не завезти подходящие. Вы куда так спешите? Подождите неделю-две, и многое станет ясно. Как будто ни разу не видели такого, лол.

Аноним 01/05/25 Чтв 21:43:44 #97 №1185705

>>1185663
> пусть они и значительно лучше кала типа дипла, гуглопереводчиков и подобного
могу поспорить - геммы3 до 12б включительно выдают лютый хуйняк, даже гуглотранслейт лучше бы справлялся
>то надо модели задавать контекст, объяснять, в каком стиле переводить и что происходит
гемини с пустым промтом выдает очень неплохое качество, сама определяет пол по японскому имени, понимает место, правильно локализует нужные слова. повторюсь, мне не нужен идеальный дословный перевод, вполне хватит качества лучшего чем условный DeepL

Аноним 01/05/25 Чтв 23:01:32 #98 №1185852

>>1185031
Даже три:
https://huggingface.co/Qwen/Qwen-72B
https://huggingface.co/Qwen/Qwen2-72B
https://huggingface.co/Qwen/Qwen2.5-72B

Аноним 01/05/25 Чтв 23:17:13 #99 №1185892

>>1185705
>идеальный дословный перевод
Идеальный перевод нихуя не дословный.

Аноним 01/05/25 Чтв 23:32:32 #100 №1185932

>>1185892
то ли дело литературный, когда вместо самурая, едящего суши, у нас рыцарь жрет кашу с рисом, охуенно

Аноним 01/05/25 Чтв 23:50:52 #101 №1185969

>>1185892
ты понял, что я имел ввиду
>>1185932
::)

Аноним 02/05/25 Птн 00:34:14 #102 №1186025

>>1185150
> 3KM имеет смысл?
Да, определенно.
Но если есть тройка лишних гигов, можно до динамических XL докинуть, чому бы и ни, я думаю.

> Там есть параметр, чтобы kv-кэш только во врам был?
Так оно по умолчанию, вроде, если я не путаю.
Ну и оверрайд-кэш есть, насколько я помню, да.

>>1185377
Ммм…эм… Я использовал 2.7 + собирал флэш, подумаешь, часик подождать. Ну или два. Может три. Смотря какое железо.

Аноним 02/05/25 Птн 01:05:29 #103 №1186049

>>1185360
> Qwen3-30B-A3B
Нахуй ты вообще это говно крутишь?
Дядя ляо жестко обосрался, квен3 тупой и скучный, много лупится, в рп пишет как робот сука, гема соевая, вернулся на мистрали

Аноним 02/05/25 Птн 01:07:45 #104 №1186052

>>1186049
Другое дело может стоит попробовать 14б с ризонингом где он шустрее работает, на 32б совсем печать 1.1 минуту ждать сообщение

Аноним 02/05/25 Птн 01:09:32 #105 №1186055

>>1186049
>квен3 тупой и скучный,
толсто

Аноним 02/05/25 Птн 01:11:13 #106 №1186056

>>1186055
Давай логи рп, толстяк.
Он срет полотнами и лупится в одном сообщении, не понимает контекст, гема на 3 головы выше.

Аноним 02/05/25 Птн 01:37:49 #107 №1186073

Третьего дня, по совету рандомных камрадов, откачал два новых мегадевайса —Forgotten-Transgression-24B и MS-Nudion-22B в Q4_K_M, как полагается. Сразу же, задыхаясь от жадности, вскрыл модельки цепкими лапами и заюзал мегадевайсы. Размер, моё почтение. Настоящей глыбой были ЛЛМ. Даже моя, привыкшая к суровым будням, 4060 Ti 16GB, отказывалась принимать с первого захода. Совместными с Kobold усилиями забороли проблему. Ощущения — АТАС. С Gemma 2 не идёт ни в какое сравнение. Кроме того, конфиг Mistral-V7-Tekken-T приятно щекочет фантазию персонажа. Проходил так пару часов с подключенным XTTS2.

Не знаю на чём сделана Nudion, но она мне показалась приятней и объясню почему. Forgotten (Мистраль?) абсолютно не самостоятельная, без остановки срёт фразами "да-да, сделаю всё в лучшем виде, будем и то делать, и это, уже готова, вот-вот приступим, только расскажи как именно хочешь" и так бесконечно. Чем-то похожим страдала Гемма 2. А в этой Nudion такого нет, она просто берёт и пишет. И в целом разговор нормальный. Как будто не с ассистентом общаешься, а с человеком неохотно отрабатывающей проституткой, которая говорит с тобой за деньги. И лучше я пока не видел. Кто пробовал эти две, согласны? Или может даже пробовали их и можете предложить модель или конфиг ещё лучше?

Аноним 02/05/25 Птн 02:05:31 #108 №1186085

>>1186073
На пасту хрюкнул
>4060 Ti 16GB
Братик
>отказывалась принимать с первого захода
Как раз таки мистральчики и их тюны в 16 гб нормально входят как по маслу. А вот квен и гемму приходится смазать Q3, чтобы поместились
>предложить модель или конфиг ещё лучше
Анон выше советовал. https://huggingface.co/PocketDoc/Dans-PersonalityEngine-V1.2.0-24b
А я сам на форготене кумлю

Аноним 02/05/25 Птн 02:08:26 #109 №1186090

Что лучше Qwen3 14b или Qwen3 30b? Соевички на редите разделились по этому вопросу. А какое мнение анонов?

Аноним 02/05/25 Птн 02:17:39 #110 №1186096

за что меня так наказали с моим 12гб огрызком...

Аноним 02/05/25 Птн 02:22:58 #111 №1186098

>>1186096
Не грусти, анон. Сейчас у тебя как минимум есть 3 хороших модели. Gemma3 12b, Qwen3 14b и Phi 14b. Все это отличные модели и все их ты можешь запустить с хорошим квантом и контекстом

Аноним 02/05/25 Птн 02:25:35 #112 №1186103

>>1186098
не, лучше iq3 от 22b с чуть убавленной температурой, чем эти огрызки
по крайней мере, несколько месяцев назад они проигрывали по всем параметрам

Аноним 02/05/25 Птн 02:30:32 #113 №1186107

>>1186103
А ты уверен? 22b это вроде старый мистраль, да? Он хуже старшей геммы и квена. Я не тестил, но я почти уверен, что на говенном кванте он будет хуже новых младших моделей на нормальном кванте

Аноним 02/05/25 Птн 02:35:41 #114 №1186114

>>1186090
30b все таки пизже, больше знаний впихнуто, быстрее крутится, минусы - размер, мозги размазаны, на 30b не тянет
Тоесть обмениваем размер на скорость
14b медленнее, меньше знаний, но все мозги сразу и меньше размер
Мое мне лично больше нравится, потому что скорость генерации для меня главнее
А так в среднем они равны как и сказали реддиторы

Аноним 02/05/25 Птн 02:38:37 #115 №1186116

>>1186107
Да, вроде на базе мистраля все мои любимые модели. Ладно, спасибо за инфу, попробую, хотя не ожидаю, что без файнтюнов они смогут заменить мою подборку.

Аноним 02/05/25 Птн 03:52:54 #116 №1186146

image.png

Хотел обосрать мистраль с прикрученной думалкой, но новый квен 32 примерно также ответил. Только язык сразу подхватил, что у него тоже бывает не всегда
Хотя dolphin все равно кал, он скорее днищит мистраль, а не улучшает его

Аноним 02/05/25 Птн 04:40:40 #117 №1186170

4 ллама вышла.
Тоже МоЕ. Работает значительно быстрее даже 32б квена.
Файнтюнов пока нет, базовая естественно на позитивчике.

Аноним 02/05/25 Птн 09:08:33 #118 №1186209

Что ставить на 24гб врам?
Qwen 2.5 32b instruct или Qwen 3 30B?

Аноним 02/05/25 Птн 09:10:24 #119 №1186210

>>1186170

Ссылку?

Аноним 02/05/25 Птн 09:31:45 #120 №1186219

>>1186210
https://huggingface.co/unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF

Аноним 02/05/25 Птн 10:03:32 #121 №1186237

>>1185467
Вот этот https://huggingface.co/bartowski/Qwen_Qwen3-32B-GGUF.

Аноним 02/05/25 Птн 10:18:14 #122 №1186251

>>1186219

Она месяц уже как вышла, чел

Аноним 02/05/25 Птн 10:43:53 #123 №1186269

>>1186209
2.5 32b или QwQ, если выбор из квенов. Третий квен пока неюзабелен нормально и, возможно, что дело в квантах. У них там новая архитектура, короче, и оно просто тупое и хуево соблюдает инструкции. А может дело не в квантах, но на фулл весах кто тут сможет запустить и проверить? Чет не видел чтобы хоть кто-то сравнивал

Аноним 02/05/25 Птн 10:48:52 #124 №1186273

>>1184583 (OP)
Почему кобольт не хочет открывать эту модель https://civitai.com/models/1498292?modelVersionId=1701111
И какие вообще у него минусы?

Аноним 02/05/25 Птн 10:50:18 #125 №1186276

>>1186273
Ну и естественно графические модели из собственного гайда он запускает, но они года на 3 отстают по качеству, кмк.

Аноним 02/05/25 Птн 11:03:07 #126 №1186290

>>1186273
ммм... не знаю, наверно потому, что она вышла неделю назад, и ее поддержку еще не добавили.....

Аноним 02/05/25 Птн 11:30:57 #127 №1186317

>>1186290
А можете посоветовать что-то пиздатое с поддержкой?

Аноним 02/05/25 Птн 11:33:57 #128 №1186320

>>1186317
для генерации картинок прямо в фронтенде для ролевой игры? нет
для генерации картинок вообще - ComfyUI, очевидно
тебе в другой тред, для картинкогенерации, там подскажут все

Аноним 02/05/25 Птн 11:50:47 #129 №1186333

>>1186320
Не для ролевки, а вообще.
Согласен, что туда надо было писать, я промахнулся, но все же кобольд здесь даже в шапке прописан и я хотел посоветоваться с аноном стоит ли использовать его как основной инструмент.
Ну и comfyui у меня в репах нет, из-за пределов реп что-то ставить и поддерживать я оч не люблю.

Аноним 02/05/25 Птн 11:56:19 #130 №1186338

>>1186333
> использовать его как основной инструмент.
Основной инструмент для чего? Для генерации картинок? Нет.
Для загрузки LLM моделей? Может быть. В зависимости от твоих потребностей и возможностей. Кобольд популярен как самое простое решение, вместе с тем, возможно, он наименее производителен.

> Ну и comfyui у меня в репах нет, из-за пределов реп что-то ставить и поддерживать я оч не люблю.
Хз, о чем ты говоришь вообще, но лучше ComfyUI для картинкогенерации ничего нет.

Аноним 02/05/25 Птн 12:13:45 #131 №1186352

>>1186338
> вместе с тем, возможно, он наименее производителен
Как это проявляется и на что можно перекатиться, чтобы улучшить производительность?

Аноним 02/05/25 Птн 12:29:46 #132 №1186364

image.png

Мы русские не обманываем друг друга

Аноним 02/05/25 Птн 12:32:33 #133 №1186369

>>1186364
Цена слева за одну карту указана, то есть наценочка 120%

Аноним 02/05/25 Птн 12:37:08 #134 №1186375

Мое сетки надо на этом проверить. Скорости растут в разы, по крайней мере в обработке контекста, но там релизов нету.
https://github.com/ikawrakow/ik_llama.cpp
Кто собирать умеет?

Аноним 02/05/25 Птн 12:44:47 #135 №1186381

>>1186269
кстати, не в курсе как победить ответы qwq на китайском? Всем хороша, но постоянно просачивающиеся иероглифы...

Аноним 02/05/25 Птн 12:53:16 #136 №1186391

>>1186364
А нахуя оно надо вообще, если скорость дерьма будет?

Аноним 02/05/25 Птн 12:55:59 #137 №1186398

>>1186391
Высокотехнологичный обогреватель

Аноним 02/05/25 Птн 13:17:45 #138 №1186418

Спустя полтора месяца после релиза, месяц после олламы, две недели после turboderp поляк выкатил мистраль с vision (он кстати довольно неплох)
https://huggingface.co/bartowski/mistralai_Mistral-Small-3.1-24B-Instruct-2503-GGUF

Аноним 02/05/25 Птн 13:20:57 #139 №1186421

>>1186352
Голая llama.cpp, Exllamav2 (без оффлоадинга, только врам). Даже ненавистная LM Studio быстрее Кобольда, пару десятков тредов назад было обсуждение и логи генераций.

>>1186381
Сэмплеры фикси. Слишком жесткий rep pen, dry, xtc, много logit bias, а если все вместе - тем более пиздец, там и грамматические ошибки могут просачиваться, и пробелы срезаться.

Аноним 02/05/25 Птн 13:39:50 #140 №1186434

>>1186090
>>1186114
Все правильно сказал.

>>1186209
А если есть Qwen3 32b, то зачем остальные?
Хотя он может проседать без ризонинга.
Но тебе зачем? Для работы? Тогда Qwen3 32b с ризонингом бери.
Но QwQ тоже неплох, можно его.

>>1186333
Кобольд не имеет ничего общего с генерацией картинок.
Он это делает для РП в его фронтенде, не более.
Тебе нужен ComfyUI (только он, интерфейс говнище, зато поддержка всего и вся в первый день, не будешь себе ебать мозги и ныть «кагда мине дадут модельку!.. как запустить!..» сидя на нишевых, но красивых софтах, которые нахуй никому не вперлись, к сожалению), Кобольд — для текста.

>>1186381
Выставить нормальные семплеры и использовать нормальный бэк?
Вот не просачивались у меня почти нигде и никогда. Все, у кого иероглифы встречаются часто — юзают говно и скилл ишью, тут рил ничем не поможешь, если человек сам заставляет квена генерить кучу иероглифов.

Да, проблема есть, но масштаб совершенно иной.

О, вспомнил еще один метод!

Держи:

--grammar-file ~/grammar.gbnf

grammar.gbnf:
root ::= chars | chars root
chars ::= [0-9a-zA-ZА-Яа-яЁё,.:;?!$()_+='"&@#%^*~`<>\[\]{}|\t\n /\\-\u0410-\u044F\u0401\u0451]

Аноним 02/05/25 Птн 13:40:10 #141 №1186435

Бля, не могу разобраться как сделать папки для персонажей в списке в Таверне. Типо категоризировать их для удобства, а то их немало уже набралось. Типо кум/ассистенты/сфв
Где это сделать? Ткните пальцем пж

Аноним 02/05/25 Птн 13:42:34 #142 №1186436

>>1186435
Каталогизируй тегами

Аноним 02/05/25 Птн 13:43:00 #143 №1186437

>>1186434
> Все, у кого иероглифы встречаются часто — юзают говно и скилл ишью, тут рил ничем не поможешь, если человек сам заставляет квена генерить кучу иероглифов.
Новички берут сэмплеры откуда попало и многого в них не понимают. На странице Сноудропа отвратительный пресет, который ломает аутпут. Оттуда и все вопросы. Помочь можно - объяснить это.

Аноним 02/05/25 Птн 13:51:03 #144 №1186439

8 квант квен 14б выглядит менее сломанным чем 4 квант 32б
Ризонинг быстрее в 2 раза
Я остаюсь

Аноним 02/05/25 Птн 13:57:40 #145 №1186449

image.png

Там 4bpw exl3 ебут Q4KM и немного отстают от Q5KM. Кто-то пробовал? Оно действительно так хорошо?

Аноним 02/05/25 Птн 13:58:09 #146 №1186450

image.png

а нет залупы на месте

Аноним 02/05/25 Птн 14:00:08 #147 №1186452

>>1186449
Перплексити не лучший ориентир, надо кв дивергенс смотреть. Если правильно помню это оценка отличия топ токенов в выдаче от оригинала или что то такое.
А по хорошему надо не только вывод тестировать но и чтение промта, качество которого тоже просаживается от квантования.

Аноним 02/05/25 Птн 14:05:14 #148 №1186456

>>1185360
> в чате таверны, во втором случае кручу барабан в родном фронте llama-server.
Это не даст никакой разнцы. Скорее просто первый запуск и проперживание, а потом работа на горячую. Что при тесте свайпов таверны в готовом чате, что в пустом жорасерверном, что запросом скриптом - везде одинаковые скорости.
Хотя, был тут бедолага, у которого небраузер весь профессор/гпу загружал, возможно у тебя что-то подобное. Что за спеки железа, системы, какой браузер, накручено ли что-нибудь в настройках его?
>>1185377
Собери свой фа, оформи вэнв для ктрансформерс и перед самой сборкой собери подходящий.
>>1186273
Потому что кобольд - в первую очередь обертка llamacpp. Костыли на формальную поддержку чего-то еще это, конечно, хорошо, но они совершенно ужасны и не функциональны лучше бы вишпер сделали.
Для запуска графических моделей стоит использовать полноценные интерфейсы, заточенные под них.

Аноним 02/05/25 Птн 14:05:51 #149 №1186457

Просто квен блять!
Я юзаю семплеры какие сказано разрабами
Вы гандоны что ли? Хули всё лупится к ебени матери, долбоебы?

Аноним 02/05/25 Птн 14:07:23 #150 №1186458

>>1186457
FP16 юзай. Не будет лупится может быть

Аноним 02/05/25 Птн 14:08:22 #151 №1186460

>>1186457
Спок, Руди. Включи немотрончика своего, запихни его себе в очко и кумь. Нормальные люди подождут неделю-другую, пока все починят и будут кайфовать.

Аноним 02/05/25 Птн 14:11:14 #152 №1186464

>>1186460
Ага GLM-4 уже починили как тут писали - тот же кал

Аноним 02/05/25 Птн 14:12:07 #153 №1186465

>>1186452
> Если правильно помню это оценка отличия топ токенов в выдаче от оригинала или что то такое.
Это взвешенная характеристика отличий в распределениях, действительно наиболее удачный вариант метрики.
Правда он не покажет возможной шизы модели, бывают варианты где средние оклонения низкие но регулярно присутствуют крупные всплески, особенно сильно на жоре наблюдалось.

Аноним 02/05/25 Птн 14:12:39 #154 №1186468

>>1186457
Оно может нарисовать хексагон крутящийся с шариком посередине, хули тебе ещё надо скотина?!

Аноним 02/05/25 Птн 14:12:44 #155 №1186469

изображение.png

Знаете что я понял, если и есть профессия которую LLM убьют одной из первых, то это психология.
Сейчас у меня скажем так не самый легкий период жизни и я поймал себя на том как легко мне общаться с моделью, главное задать промт что бы она вела себя как специалист, а не просто поддакивала игнорируя неудобные моменты, и внезапно она ведет себя очень похоже(имею опыт) на реального "психолуга" только к машине куда больше доверия чем к очередному "5к за сеанс".
В прекрасное время мы живем.

Аноним 02/05/25 Птн 14:15:11 #156 №1186474

изображение.png

Хотел с локальным переводом в таверне поиграться через новый плагин, а эта хуйня с ошибками что то шлет на сервер.
Ебануться и залезть в код или забить?

Аноним 02/05/25 Птн 14:17:27 #157 №1186477

>>1186464
ЦА мушоку тенсея во всей красе: "глм 4 после фиксов все еще говно, значит квен 3 тоже будет говном"
Поздравляю, ты 0.6б модель

>>1186469
Главное, никакие препараты не принимай из тех, что тебе могут порекомендовать. Как психологическая помощь - вылить душу и получить какой-то "ответ" - работает, да. Только КПТ, только вербальная терапия.

Аноним 02/05/25 Птн 14:19:21 #158 №1186480

>>1186469
Если тебе просто выговориться надо то да, в остальном нет. Хороший психолог (а лучше психотерапевт) это прежде всего специалист, который использует разные методики, оценивает твое состояние и может в случае чего выписать таблетки или порекомендовать лечь в дурку
А ЛЛМ это в основном генератор шизобреда. Возможно есть специализированные ЛЛМ именно под психологию, но я таких не знаю
Так что не обманывай себя, иди к психологу, пока не одурел еще больше
Хотя если ты на дваче сидишь, то возможно уже поздно

Аноним 02/05/25 Птн 14:21:28 #159 №1186481

>>1186474
Бля понял, надо чат комплишен использовать. О чем конечно нигде ни слова.

Аноним 02/05/25 Птн 14:22:52 #160 №1186485

>>1186480
Найти хорошего психолога очень сложно. То, что ты описал - картина за розовыми очками. Как человек, который побывал у нескольких таких, я уверен в том, что говорю. Не забывай, где мы живем. И никто не отменяет тот факт, что они тоже, прежде всего, люди. Мне попадались и те, кому буквально похуй на мои проблемы, и те, кто после двух минут разговора уже все решает для себя и дальше просто дает выговориться, чтобы в итоге пропустить это все мимо ушей и озвучить свой вывод. Все это стоит денег и сил. Так что я согласен с аноном, что выговориться ЛЛМке - хороший способ. Скорее всего, отправившись к психологу (даже изучив отзывы и мнения на всех площадках), человек либо попадет на деньги, либо сделает себе хуже

Психотерапевты - это вообще пиздец. Они сразу прописывают таблетки, которые большинству людей не нужны, и это только усугбляет ситуацию

Аноним 02/05/25 Птн 14:23:45 #161 №1186486

>>1186477
Само собой, препараты это уже психотерапевт и рецептура, туда никаких психологи доступа и так не имеют. Но вот выслушать, провести сухой анализ ситуации и подсказать где я, мясной мешок, объективно заблуждался она может очень хорошо.

>>1186480
У меня проблема больше в том что эмоции могут застилать рациональность, и я не вижу очевидного. Тут не шиза уровня дурки, все ок. Скажем так, 3 года назад я перенес похожий пиздец это пользуясь только самостоятельной рефлексией, и это было очень долго и тяжело. Ощущения в сравнении с сейчас неба и земля.

Аноним 02/05/25 Птн 14:33:48 #162 №1186494

>>1186469
Какую модель юзаешь, братик? Мне бы тоже не помешало.

Аноним 02/05/25 Птн 14:34:08 #163 №1186495

перевод1.PNG

перевод2.PNG

ориг.PNG

Кек, сравните перевод простого запроса на английском с английского на русский.
Угадайте где и какая локалка

Аноним 02/05/25 Птн 14:34:22 #164 №1186496

>>1186469
Да врядли, большинству нормисов наоборот будет проще с кожанными, только если самых низких шарлатанов. Лучше бы риелторов и перепуков наебнули, вот где истинный рак.
Хорошо что тебе помогает нейроночка, тред несет добро.
>>1186477
> глм 4 после фиксов все еще говно
Да уже за это можно обоссать. В нормальных моделях стабильно находят сою (наверно потому что безумно траят одинаковую херню в надежду на реакцию как когда-то срандомилась в шизомердже), получают лупы в не склонных к этому, удивляются "странному вниманию", зато нахваливают мое с 0.6б активных.
>>1186485
Двачую. Большинство психолухов, которые ведут подобие практики, глупее среднего местного, не могут подметить подмечатель.жпг лол важные вещи и в логику причинно-следственных связей, а просто посоветуют тебе временное облегчение по методичке. Или просто послушают и "ну давай братишка, займись спортом и открой для себя что-то новое, а там организм сам вылечится".

Аноним 02/05/25 Птн 14:37:05 #165 №1186499

>>1186485
Понятно, что психолог может быть похуистичным профнепригодным уебком. А может быть хорошим специалистом. Тут приходится выбирать.
Но ЛЛМ в принципе лишена этих качеств это просто генератор текста, довольно хуевого зачастую.Если ты выбираешь ее вместо специалиста, то это полный пиздец, который может угробить тебя
Максимум ЛЛМ сейчас могут использоваться как помощники для специалистов, вроде прогеров или даже врачей. На этом все, остальное хуйня и самообман
>прописывают таблетки, которые большинству людей не нужны, и это только усугбляет ситуацию
В РФ почти все действующие таблетки забанены. Так что наркоту или что то жесткое тебе никто не выпишет а жаль

Аноним 02/05/25 Птн 14:40:12 #166 №1186502

>>1186494
Самое умное что доступно на моем сетапе, в моем случае это 27 гема. Но сейчас думаю для редких разговоров не зазорно и к корпам податься просто ради максимально адекватного русского, если рпшить или делать какие-то рабочие задачи мне и на англ. норм, то в таких вещах хочется чтобы модель лучше обрабатывала нюансы которые я физически только на родном языке передать смогу. Да и нет в этом ничего зазорного или того что стоит прятать от товарища майора.

Аноним 02/05/25 Птн 14:41:52 #167 №1186503

>>1186434
а регулярка влияет на разрешённые символы или просто режет оутпут?
>>1186437
Вот кстати да, есть подобный разбор настройки семплеров? Такое ощущение что все проблемы от них.

Аноним 02/05/25 Птн 14:43:29 #168 №1186506

>>1186499
> Понятно, что психолог может быть похуистичным профнепригодным уебком.
Именно в этом и проблема. Таких - большинство

> Но ЛЛМ в принципе лишена этих качеств это просто генератор текста, довольно хуевого зачастую.Если ты выбираешь ее вместо специалиста, то это полный пиздец, который может угробить тебя
Скорее грустного человека убьет профнепригодный уебок на специалисте, чем безобидная ЛЛМ. Человек, расписывая свои проблемы, сам переосмысливает какие-то вещи. И в ответ гарантированно получит какое-то подобие поддержки и понимания. При желании с ЛЛМ можно обсуждать КПТ и другие аспекты вербальной терапии. Как это может навредить? Это куда безопаснее мудака на психологе, который может легко добить отчаявшегося человека, который пришел к нему за помощью. Своим безразличием, жаждой растянуть терапию ради денег или опрометчивыми выводами

> На этом все, остальное хуйня и самообман
После десятка психологов и двух психотерапевтов я выбираю "самообман" - он помогает мне привести мысли в порядок и понять новые для себя концепции терапии

> В РФ почти все действующие таблетки забанены. Так что наркоту или что то жесткое тебе никто не выпишет
Может выпишут таблетки полегче, да и неважно какие - они станут для уязвимого человека психологическим спасением. Он будет думать, что таблетки ему необходимы, когда в большинстве случаев это не так

Либо у тебя не было плохого опыта в этой сфере, либо ты просто не знаешь, о чем говоришь

Аноним 02/05/25 Птн 15:04:56 #169 №1186527

>>1186437
Поделишься пресетом для сноудропа?

Аноним 02/05/25 Птн 15:09:12 #170 №1186533

>>1186469
А что у тебя за промпт и карточка? Помоги тревожнику

Аноним 02/05/25 Птн 15:14:28 #171 №1186538

>>1186499
> Если ты выбираешь ее вместо специалиста, то это полный пиздец, который может угробить тебя
Это действительно полный пиздец, который хорошо характеризует ситуацию на рынке этой области. Что сраный генератор текста лучше и может помочь больше, чем типичная тп или нетакусик после тренингов.
И в целом, ллм действительно может быть более проф пригодной и внимательной чем не крутой опытный специалист, который еще не выгорел нахер и не работает по шаблону. Ллм более того, еще и достаточно осторожны и деликатны, разумеется не шизорпмиксы а нормальные.
>>1186506
Двачую
> Он будет думать, что таблетки ему необходимы
Знаю такого человека, это реально пиздец полный

Аноним 02/05/25 Птн 15:21:01 #172 №1186540

>>1186506
>>1186538
У меня нет бед с башкой, так что я не был у психолога. Но у меня в универе было несколько курсов про ИИ, включая ЛЛМ. Так что я знаю, что ЛЛМ это просто генератор парашного текста. Но если он вам помогает лучше врача, то ок
Возможно при входе в кабинет психолога, он сразу начинает ссать вам на ебало, тогда ЛЛМ действительно будет возможно получше

Аноним 02/05/25 Птн 15:23:48 #173 №1186542

>>1186540
Ведешь такой нормальную беседу, а потом внезапно подрываешься потому, что с тобой не согласны. Проблема в том, что психологом может оказаться долбаеб вроде тебя. И да, именно поэтому ЛЛМ безопаснее

Аноним 02/05/25 Птн 15:28:09 #174 №1186547

>>1186540
> Так что я знаю, что ЛЛМ это просто генератор парашного текста.
блииин ты такой умный
мы-то без курсов по ллм не знали, что это предсказатель текста
думали, там сидит маленький умный ии-разум и пишет нам ответы

Аноним 02/05/25 Птн 15:29:04 #175 №1186548

>>1186542
>потом внезапно подрываешься
Неа, мне просто похуй
>психологом может оказаться долбаеб вроде тебя
Неа, не может, я не настолько долбоеб, чтобы идти в психологи
>поэтому ЛЛМ безопаснее
Генератор случайных слов с огромной порцией соевости и позитивности, вроде геммы, действительно может быть безопаснее
Но лучше бы ты сходил и полечился

Аноним 02/05/25 Птн 15:30:29 #176 №1186550

>>1186547
Ну если вы на полном серьезе обращаетесь к нему с жизненными проблемами, то вы либо не знаете этого, либо долбоебы

Аноним 02/05/25 Птн 15:32:05 #177 №1186552

>>1185932
картинка_с_пориджем.жпг

Аноним 02/05/25 Птн 15:32:21 #178 №1186553

>>1186540
У меня были/есть беды с башкой, так что будучи достаточно прошаренным чтобы решить их или нет я не был у психолога. Но знаком с несколькими кто себя так называет, а также несколькими пациентами подобных - в большинстве это вредительство, в лучшем случае временное скрытие симптомов вместо осмысления проблемы и ее решения. Очень плохо что люди много о себе мнят, но при этом даже в простой беседе не могут подвести обоснование своим утверждениям, имеют резкие убеждения в социальной сфере, которые не стесняются грубо высказывают, или просто не могут проявить достаточную гибкость для каких-нибудь активностей, типа ролевок/мафии.
> в универе было несколько курсов про ИИ, включая ЛЛМ. Так что я знаю, что ЛЛМ это просто генератор парашного текста.
Это очень абстрактные и устаревшие данные, текущий "генератор текста" набирает больше баллов в тестах разного уровня профессиональности, и может являться очень мощным инструментом в руках специалиста, или того, кто может их юзать.
Или средством терапии, уже во всю делаются статьи с исследованиями на эту тему.

Аноним 02/05/25 Птн 15:38:29 #179 №1186555

>>1186548
> Неа, не может, я не настолько долбоеб
Похоже, все-таки настолько. Тебе много раз сказали, что ЛЛМ полезна для саморефлексии в процессе взаимодействия, что это работает почти как блокнот мыслей в КПТ. Но ты это игнорируешь, нихуя в этом не понимаешь и продолжаешь повторять единственное, что ты запомнил на курсе по ЛЛМ. Так что, если ты не и не долбаеб, то просто глупый

> Но лучше бы ты сходил и полечился
Спасибо, работаю над этим. Ты тоже работай над своей агрессией и/или глупостью

Аноним 02/05/25 Птн 15:39:43 #180 №1186557

>>1186550
>>генератор парашного текста

Ты серьёзно сейчас это пизданул, иксперд?

Аноним 02/05/25 Птн 15:48:00 #181 №1186568

>>1186557
Вперед, хуйлуша, расскажи что же это такое, раз не генератор текста

Аноним 02/05/25 Птн 15:49:11 #182 №1186569

>>1186568
Слушай короче, можешь записывать:

Это генератор хуёв тебе за щеку, хуйлуша.

Аноним 02/05/25 Птн 15:49:40 #183 №1186571

Что по тюнам геммы 3? Выкатили что годное уже? Fallen Gemma норм?

Аноним 02/05/25 Птн 15:50:04 #184 №1186572

>>1186569
Порвался, молодец

Аноним 02/05/25 Птн 15:52:02 #185 №1186574

>>1186571
Её невозможно ни тинюнить ни аблитерейтить.
Соя настолько велика что всё это бесполезно

Аноним 02/05/25 Птн 15:52:07 #186 №1186575

>>1186572
>>Хуйлушкин с курсов профессиональных пиздоболов утверждает, что его жопа не улетела на МКС

Держи в курсе

Аноним 02/05/25 Птн 15:53:33 #187 №1186578

>>1186571
Синтия, или полюбишь, или возненавидишь, или сразу вместе.
> Fallen Gemma норм?
Попробуй, может быть ничего.
>>1186572
Но он прав. Ты сначала оформить тейк про
> просто генератор парашного текста
в контексте, который подчеркивал бесполезность этого. А теперь уже перекатываешься и хочешь оправдать все свои суждения тем, что основной продукт генерации ллм - текст. Ну херня же, в этом треде такие маневры не прощают.

Аноним 02/05/25 Птн 15:56:39 #188 №1186581

>>1186574
Жаль, видимо придется дальше на мистралях сидеть и квен 3 ждать

Аноним 02/05/25 Птн 15:59:22 #189 №1186582

>>1186578
>в контексте, который подчеркивал бесполезность этого
Хуйня, нигде не говорил о бесполезности. Парашный просто оценочное суждение, которое говорит о том, что генерированный текст зачастую оставляет желать лучшего
>>1186575
Продолжаешь рваться, сучка

Аноним 02/05/25 Птн 16:06:08 #190 №1186583

>>1186582
Даже в этом посте имплаишь, а там вообще все прозрачно.
Это можно понять, ведь ты или сам как-то причастен к теме, или восхищаешься людьми, которые там витают. Из-за чего воспринимаешь в штыки плохую среднюю оценку, а способность ллм приносить пользу там даже большую чем паразиты костью поперек горла. Если бы шарил - сам бы хейтил этих долбоебов.
В ллм тоже не соображаешь, о чем сам говоришь, но зато делаешь утверждения.

Аноним 02/05/25 Птн 16:06:23 #191 №1186584

>>1186581
Но qwq 32, лучше квена 3

Аноним 02/05/25 Птн 16:08:29 #192 №1186585

>>1186583
>Это можно понять, ведь ты или сам как-то причастен к теме, или восхищаешься людьми, которые там витают. Из-за чего воспринимаешь в штыки плохую среднюю оценку, а способность ллм приносить пользу там даже большую чем паразиты костью поперек горла. Если бы шарил - сам бы хейтил этих долбоебов.
Таблетки прими

Аноним 02/05/25 Птн 16:09:26 #193 №1186586

>>1186584
Квен 3 должен быть лучше. По циферкам. По факту надо ждать в любом случае. Может его починят и выкатят норм рп тюн

Аноним 02/05/25 Птн 16:11:57 #194 №1186588

image.png

>>1186586
Говорили qwq пишет сухо.
А ваша гемма так напишет?

Аноним 02/05/25 Птн 16:32:26 #195 №1186599

>>1186503
Честно скажу — не знаю, я просто в одном чатике схватил такое решение по квену у человека, которому эти символы не нужны.
Но насколько оно корректно работает — надо тестить, а я не планирую. Мое дело поделиться.

Аноним 02/05/25 Птн 16:33:35 #196 №1186600

0001.jpg

Я просто оставлю это здесь...

Аноним 02/05/25 Птн 16:37:25 #197 №1186603

1607556105733.png

>>1186600

Аноним 02/05/25 Птн 17:22:32 #198 №1186642

>>1186600
>Я просто оставлю это здесь...
Пересказ среднего значения выведенного из 100500 просканированных за 5 минут любовных романов, написанных за последние 300 лет, и сохранённых в сети.

Аноним 02/05/25 Птн 17:26:30 #199 №1186653

>>1186600
>это
Вот как ты отличишь, - это новая генерация, или это средневзвешенное значение взятое из 1000 000 любовных романов, которые робот просканировал в сети и сохранил в своей базе? - Никак не отличишь.
Для этого надо самому прочитать все эти романы, и запомнить их, чтобы потом подловить нейросетку на каком-то палевном плохо отрерайченном предложении или абзаце.

Аноним 02/05/25 Птн 17:29:29 #200 №1186657

>>1186642
>>1186653
А санитары что говорят?

Аноним 02/05/25 Птн 17:35:37 #201 №1186666

>>1186657
Все санитары уже заменены ЛЛМ

Аноним 02/05/25 Птн 17:38:15 #202 №1186672

>>1186657
Ты ж учти, нейросеть просканировала все тексты мира, которые есть в сети.
И если кто-то запрашивает у неё ролевую игру на тему любовных отношений - то это база называется: все любовные романы мира, которые нейросетка просканирвоала. И она оперирует данными из этих текстов, например методом рерайтинга. Ну рерайт статей для сайтов ты же слышал как делается? Это замена на синонимы и пересказ исходника похожими словами.

Это легко проверить на технических темах, нейросетка ничего нового не придумает, не изобретёт. Она будет пересказывать заменой слов (рерайт) то что уже есть в её базе. Просто у неё огромная база и выборка (типа случайность) происходит в широком диапазоне по данным потому что есть из чего выбирать. Но если сузить данные, с любовных романов до научных каких-то узкоспециальных знаний, то уже будет заметно что нейросетка будет делать повторы, и специалисты могут подловить её узнав откуда она взяла тот или иной кусок абзаца или предложения и пересказала его методом рерайта.

Аноним 02/05/25 Птн 17:42:08 #203 №1186679

Аноны, есть какие-нибудь идеи для использования qwen3 0.6млрд параметров?
Пока на ум приходит какой-нибудь личный суммаризатор текста, пары абзацев.

Аноним 02/05/25 Птн 17:44:19 #204 №1186681

>>1186679
Пытался его в переводчики таверны засунуть, моя твоя ебал но что то может. Когда с форматом ответа не лажает.

Аноним 02/05/25 Птн 17:52:04 #205 №1186696

image.png

Ок, благодаре реддиту настроил чтобы эта хуйня(квен3-32B) не лупилась и даже выдавала что-то адекватное на русском.
А теперь вопрос на миллион. Как отключить этот ебаный синкинг?

Аноним 02/05/25 Птн 17:55:04 #206 №1186701

>>1186696
/no_think В конец любой инструкции, систем или в карточке или даже в конце твоего сообщения.

Аноним 02/05/25 Птн 17:55:13 #207 №1186702

>>1186696
Попробуй в system note /no_think или <think></think>
И скинь сэмплы свои

Аноним 02/05/25 Птн 18:00:19 #208 №1186711

>>1186696
Блять как ты его настроил фошист.

Аноним 02/05/25 Птн 18:06:28 #209 №1186717

image.png

>>1186701

Помогло. А как убрать эти пустые <think> </think>?

>>1186702

Держи(пик2)

>>1186711

Настройки семплера с пика + ChatMl везде + убрать галочку с Always add character's name to prompt + Include Names = Never.

Аноним 02/05/25 Птн 18:08:49 #210 №1186719

Не, даже ваши 32б пока туповаты в сравнении с бесплатным дик сиком. Продолжаю спокойно терпеть до 64 гиговой 6090.

Аноним 02/05/25 Птн 18:09:08 #211 №1186720

1746198548167.jpg

>>1186696
>Также важно учитывать, что она лоли 14 лет

Аноним 02/05/25 Птн 18:10:06 #212 №1186722

>>1186719
>бесплатным дик сиком

Поинтересуйся там, какой у него контекст, вот ты удивишься.

Аноним 02/05/25 Птн 18:15:14 #213 №1186731

image.png

>>1186722
163к. Мало слишком? Ты на своих теслах больше запускаешь?

Аноним 02/05/25 Птн 18:16:37 #214 №1186733

image.png

>>1186717

Так, я разобрался, надо reasoning formatting = blank сделать.

Аноним 02/05/25 Птн 18:18:49 #215 №1186736

>>1186719
Даже 64 гига будут сосать хуй. Локалки сосут и будут сосать корпам всегда. Единственное новые локалки уже ебут годовалые корпы
Но в любом случае их суть в тюнах и приватности. Я не хочу чтобы товарищ майор читал мой кум.

Аноним 02/05/25 Птн 18:19:18 #216 №1186739

>>1186731
Я прям представляю твоё еблище как ты будешт ждать пока обсчитается 163к.

Аноним 02/05/25 Птн 18:20:53 #217 №1186745

>>1186731

У самой модели контекст 128к, а не 163к.

Аноним 02/05/25 Птн 18:23:41 #218 №1186748

>>1186736
Не будут, уже научились умещать 32б в 16 гигов, значит и в 8 научатся. Настанет день, когда модель с мозгами от 600б модели будет влезать в твой смартфон. А пока сидим на облачном хуйце и терпим.

Аноним 02/05/25 Птн 18:26:11 #219 №1186753

image.png

>>1186748
> А пока сидим на облачном хуйце и терпим.

Не сидим.

Аноним 02/05/25 Птн 18:29:09 #220 №1186760

image.png

>>1186731

Стоп, так у тебя там вообще V3. Так он однозначно сосет у нового 32B квена, лол.

Аноним 02/05/25 Птн 18:30:20 #221 №1186764

>>1186748
Особо смысла в этом нет. Как это будут юзать? Абсолютно никак и всем будет похуй.
Вроде бы сейчас доступ к инфе (в целом имею ввиду) доступный как никогда раньше и толку?
Так и тут, люди даже не будут знать и понимать как пользоваться таким йоба-инструментом.

Аноним 02/05/25 Птн 18:32:33 #222 №1186768

hkh0ibuwt7je1.jpeg

>>1186657
Где-то у меня была хорошая картинка в тему как чувак в свежем чате написал "hi".

Аноним 02/05/25 Птн 18:35:33 #223 №1186773

>>1186753
>>1186760
Копиум локальщиков. И кста R1 там тоже есть, как и немотрон и старший квен 235. Так что увы локалки сейчас не имеют смысла, пока есть опероутер

Аноним 02/05/25 Птн 18:35:39 #224 №1186774

>>1186764
Ого! Понимаешь, так совпало, что мне похуй на людей и я выбираю то, что лучше всего для меня. Представляешь?

Аноним 02/05/25 Птн 18:37:12 #225 №1186775

>>1186774
Если ты сам запилишь это себе в смарт, то здорово, но явно будешь делать не ты.

Аноним 02/05/25 Птн 18:37:26 #226 №1186776

image.png

Ну штош, высрав 3к контекста на охуительный синкинг, квен таки решил правильно классическую головоломку с волком козой и капустой лисой, кроликом и морковкой.

Аноним 02/05/25 Птн 18:42:13 #227 №1186781

1679291140672.webm

>>1186775
Так мне ничего делать не надо. Оно само развивается. Мне достаточно не быть ебанатом-гейткипером или нитакусей которая жрет говно при наличии лучшей альтернативы..

Аноним 02/05/25 Птн 18:44:22 #228 №1186783

20250502183757.jpg

20250502183824.jpg

20250502183831.jpg

ну что, соскучились?

Аноним 02/05/25 Птн 18:44:31 #229 №1186784

>>1186773
штаны сними, перед тем как срать. Который тред уже срешь сюда об этой залупе. Видимо он на столько хорош, что ты его не трогаешь, а тут воздух портишь

Аноним 02/05/25 Птн 18:46:11 #230 №1186785

>>1186783
ты кто такой и что это у тебя за хуйня вообще?

Аноним 02/05/25 Птн 18:46:30 #231 №1186786

>>1186773

Разумеется имеют, они же локальные и не отсылают твой кум непонятно кому и помещаются в одну 3090/4090, которая и так должна быть у любого уважающего себя человека в 2025 году.
А вот смысл в ригах действительно отпал в последнее время, все 70-100В тихо умерли, а запуск 400-600В просто реально не стоят своих затрат.

Аноним 02/05/25 Птн 19:00:21 #232 №1186804

.jpg

>>1186783
Мультиплексоры и SFP?

Тоже отчитаюсь. Пришел 60см прямой райзер вместо углового. Из плюсов - соответствует спекам, 4.0 16х держит ваннаби амазон - 970vaXG. Из минусов - всё равно не удалось поставить карту на 1 слот ниже, чтобы нижняя планка была в 1, а не в 2. И это ограничивает это место 3-этажной картой, увы. Корпус кромсать не хочется. Приходится терпеть в итоге в главном слоте самую дохлую карту.

Аноним 02/05/25 Птн 19:00:29 #233 №1186805

>>1186773
> локалки сейчас не имеют смысла, пока есть опероутер
Что несет этот копиумный гой, это новая методичка обладателей отсутствия?
>>1186783
Мадока - бутлег или так зашакалило?

Аноним 02/05/25 Птн 19:03:21 #234 №1186808

Нихуя как оно оперативно защищает свои стремительно устаревающие карточки

Аноним 02/05/25 Птн 19:04:22 #235 №1186811

>>1186808
Не забывай почаще говорить "сладко", если не хватает на 5090

Аноним 02/05/25 Птн 19:05:19 #236 №1186812

>>1186811
Так и 5090 недостаточно, чтобы крутить что-то на уровне дипсика/клода, зачем платить больше?

Аноним 02/05/25 Птн 19:05:35 #237 №1186813

>>1186748
Кроме бенчмарков и тредов на реддите это "уже научились" где то проявляется?
Я пока не заметил

Аноним 02/05/25 Птн 19:05:57 #238 №1186814

a560c61eb165b6bedc3825fba1748593.png

Пиздец, в квен вообще цензуру не завезли, никакого аблитерейтеда или джейла не использую - гемма бы уже визжала как свинья, а этому поебать вообще. Сам текст что он сгенерировал показывать не буду, покажу только синкинг.

Аноним 02/05/25 Птн 19:06:49 #239 №1186816

Помогите нубу. Мне нужен ИИ-ассистент для разных задач, помочь разбираться в общих темах. Для себя. Программу тренировок для себя составить, мб по меню питания вопросы задавать. Насколько полезен ли продукт и можно ли его отнести к конкретной диете. У меня 24гб видеопамяти. Можно ли такое на локальном ИИ сделать? Гемма 3 27 подойдёт? Или с таким только большие веб ассистенты помогут?
Спасибо тем, кто ответит.

Аноним 02/05/25 Птн 19:07:20 #240 №1186817

>>1186814
Зачем? Зачем ты это пишешь? Зачем постишь сюда? Зачем вообще существуешь?

Аноним 02/05/25 Птн 19:08:18 #241 №1186819

>>1186816
Лучше ты всё равно не запустишь. Подойдёт. А так - лучше онлайн. Дипсик тот же отлично подойдёт, если тебе именно то, что ты описал надо.

Аноним 02/05/25 Птн 19:09:58 #242 №1186822

>>1186816
>Можно ли такое на локальном ИИ сделать?

Можно. Можно написать кастомную карточку такого ассистента для таверны или просто дефолтного использовать.

>Гемма 3 27 подойдёт?

Пойдет. Но лучше Qwen3 32B, он умнее.

Аноним 02/05/25 Птн 19:10:01 #243 №1186823

>>1186804
Что за райзер?
> амазон - 970vaXG
Не находит ничего.
5.0 режим пробовал? у тебя же вроде есть чем А что установке мешает, непонятно окружение. И почему на х16 самую дохлую, не понятно.

Насчет райзеров - удобный и качественный https://aliexpress.ru/item/1005006752061032.html но оче большая плата где разъем может ограничить варианты установки в узких местах. Зато выполнен хорошо, легко изгибающаяся змея вместо кучи шлейфов, которые при изгибе резко сокращают доступную длину, может в 5.0.
>>1186812
> на уровне дипсика
С каких пор копиум стал эталоном? Да и клод подсдал, сойнет заебумба для кодинга и все, опус все еще душевный, но уже подустарел и под жб деградирует.

Аноним 02/05/25 Птн 19:10:56 #244 №1186825

>>1186785
это две материнки btc79x5, купленные с авито. На каждой стоит mellanox connectx-4 lx.
Связаны оптой.
Я буду сейчас ковыряться с мелланоксом, проверять трупут и в идеале запущу распред на 6 карт по 3 на каждой матери.
>>1186805
>Мадока - бутлег или так зашакалило?
не знаю, не шарю.

Аноним 02/05/25 Птн 19:11:09 #245 №1186826

>>1186817

Делюсь опытом модели с анонами, а что? Почему ты порвался?

Аноним 02/05/25 Птн 19:12:12 #246 №1186827

>>1186814
Нах юзать thinking mode при рп

Аноним 02/05/25 Птн 19:14:22 #247 №1186830

>>1186827

А почему нет, если это улучшает качество ответа и предотвращает залупы? Скорость позволяет, контекст не засирается благодаре фильтру в таверне, отображение этого синкинга можно просто спрятать.

Аноним 02/05/25 Птн 19:17:03 #248 №1186834

>>1186830
>Время ответа: 1 сек
>Время ответа: 18 сек
Даже не знаю, видимо разницы нет.

Аноним 02/05/25 Птн 19:19:29 #249 №1186835

>>1186825
>в идеале запущу распред на 6 карт по 3 на каждой матери.
Там это, анон выше по треду привёл аргументы, что риги не нужны. Квена 32В хватит всем.

Аноним 02/05/25 Птн 19:20:21 #250 №1186837

>>1186825
> не знаю, не шарю.
Привезена, заказана в фирмовом магазине до ковида, здесь по месту задорого - орига (скорее всего). С алишки по акции, на озоне по цене двух шавух - бутлег. Ну и по качеству видно, одна будет аккуратная с минимальными косяками, швами приятная на ощупь и т.д., а вторая - крипота с подтеками литья, браком покраски и т.д.
>>1186830
Хз насчет третьего квена, но в остальных оно не улучшает ответы. Повторение всех инструкций, рефлексия, подробный анализ по несколько раз, чтобы в итоге дать ответ пигмы.

Аноним 02/05/25 Птн 19:20:35 #251 №1186838

>>1186825
>две материнки btc
Брал бы сразу майнинг ферму на 20 видеокарт.

Аноним 02/05/25 Птн 19:25:01 #252 №1186839

>>1186823
> Что за райзер?
> Не находит ничего.
Это же ссылка была, не код товара ozon ru /t/970vaXG

> 5.0 режим пробовал?
5.0 чёт не пробовал, т.к. только 3090 втыкал в него. Более новые карты не трогал, не хотелось шатать лишний раз их несчастный vhpwr'ы. Но не думаю, что 5.0 было бы хорошо - ловить рэндомные фризы, да и смысла от него нет же вроде.

> А что установке мешает, непонятно окружение.
Это вертикальный-вертикальный кронштейн из кита-расширения. Недостаточно широкая щель в корпусе для кабелей и недостаточная гибкость самого райзера на единицу длинны мешает передвинуть сам райзер ниже, чтобы он стал в плоскости с (1). Это дало бы поставить туда карту на 1 слот ниже, т.е. 4 слотовую. Если сейчас туда ставить 4 слотовую, то она торчит на 8мм на плоскостью мп и мешает вставлять карты в мп.

> И почему на х16 самую дохлую, не понятно.
Потому что она 3 слотовая. Остальные 4 слотовые. А вставить райзер в мп можно только в главный слот, остальные либо используются картами, либо ими же перекрыты. Я уже как только не крутил, никак другой слот под райзер не выделить. Йехх

Аноним 02/05/25 Птн 19:25:59 #253 №1186840

>>1186835
>риги не нужны
а, ну раз анон сказал, то пойду выкину все железки для локалок которые уже успел купить за полтора года
>>1186837
брал в аниме магазине, я не знаю откуда и мне все равно, на вид нормальная

кто такой вам квен 32б? Очередной аналоговнет вмещающийся в 24 гб и рвущий дипсик? Сколько уже таких было...
вопрос серьёзный, я больше месяца в треде не был
в последний раз как я тут был все ссали кипятком от геммы3 и шутили про то, что фанаты геммы все поняли...

Аноним 02/05/25 Птн 19:27:38 #254 №1186845

>>1186823
> Насчет райзеров - удобный и качественный
Забыл ещё дописать - крутой, спасибо. Но для меня не пойдёт - но 38см, надо мин 55, и плата большая - как раз ищу с маленькой. Про окулинк надо подумать, наверное

Аноним 02/05/25 Птн 19:28:45 #255 №1186846

>>1186816
Пили интересно. Разве маленькие модели не будут выдавать шизу вроде того, что сыр - часть веганской кухни? Или что рис - часть безглютеновой диеты.

С запросами анона только к корпам. Прав или не прав?

Аноним 02/05/25 Птн 19:29:19 #256 №1186847

Бля. Рили, ебучий т9

Аноним 02/05/25 Птн 19:32:24 #257 №1186851

>>1186840
>кто такой вам квен 32б?

Ну это главная опенсорс модель сейчас, в отличие от дипсика не мое(хотя есть и мое варианты).

>вмещающийся в 24 гб и рвущий дипсик

Дипсик на самом деле всего лишь 37В модель, так что нетрудно понять как 32В может с ним конкурировать на равных.

>я больше месяца в треде не был

Квен обсуждают в треде минимум год.

Аноним 02/05/25 Птн 19:33:14 #258 №1186852

>>1186846

Неправ в том что корпы тоже могут такую хуйню выдавать.

Аноним 02/05/25 Птн 19:35:09 #259 №1186855

Qwen3-1.7B уже можно юзать как локальный переводчик, если пофиг на качество уровня чуть ниже гугла.
На голову выше 0.6b, хотя я и эту тупицу смог заставить работать, кек.

Аноним 02/05/25 Птн 19:41:52 #260 №1186862

>>1186855
Даже 30b-a3b сосет в склонениях русских слов

Аноним 02/05/25 Птн 19:46:27 #261 №1186868

>>1186862

Что ты хотел от 3B модели? Ниже 20B жизни нет.

Аноним 02/05/25 Птн 19:50:11 #262 №1186873

>>1186855
А в чем смысл использовать такие мелкие модели? Разве 4b уже не будет намного лучше. Да и гемма в руссик намного лучше может, разве нет?
https://huggingface.co/google/gemma-3-4b-it-qat-q4_0-gguf

Аноним 02/05/25 Птн 19:53:52 #263 №1186877

>>1186868
3b - это суммарный размер 8 экспертов. На реддите, кстати, аноны советуют 12 ему врубить, мол качество сильно лучше.

Тем не менее, оно, конечно, не как плотный 30б работает, но и не 3б все-таки. А скорость при этом приличная. Но это не отменяет того, что для рп третий квен - тотальное разочарование (абсолютно все, кроме может 235б, но это я при всем желании проверить не могу), тут уж или файнтюны с ними магию сотворят, или ждать квен 3.5, где они не факт, что все поправят

Аноним 02/05/25 Птн 19:57:59 #264 №1186884

>>1186839
Ничесе, с глобала. И цена неплохая, особенно по сравнению с битками. 5.0 или работает или помирает в ошибках и все, насчет его нужности с х16 режиме - хз, нужен ну оче специфичный кейс. С меньшим числом линий уже сыграет.
> она торчит на 8мм на плоскостью мп и мешает вставлять карты в мп
Ааа, вот в чем дело. Ну тут только чем-нибудь пройтись расширив отверстие, резиновую вставку можно штатную вернуть, растянется и заодно замаскирует вмешательство. Проблема в том что придется сначала все вытащить из корпуса, а потом обратно запихнуть, это очень напряжно вплоть до невозможности, лол.
Или, как вариант, искать корзину для поворота на 90 граусов карт что стоят в материнке, тогда и решится проблема перекрытия слотов для райзера. Но чтобы там было 7-8 слотов сразу не встречал.
>>1186840
> на вид нормальная
Тогда возможны оба варианта.
>>1186845
Тут надо отметить что заявленный на 48 оказался с большим запасом там где обычный на 40 не доставал нормально. Те дефолтные что рассчитаны на 4.0 имеют оче грубые шлейфы, которые нельзя сильно сгибать, а попытка перемещать по оси вдоль ориентации слота резко сокращает доступную дистанцию в сочетании с этим.
А кронштейн тот от отверстия для кабелей отодвинуть нельзя?
>>1186851
> Дипсик на самом деле всего лишь 37В модель
Ну не совсем. Это большая модель, которая в теории может иметь много знаний, но вот внимание лишь чуть лучше чем у 30б. В сочетании с ризонингом это удачное решение, которое условно говоря позволяет "дать сработать большей части весов", вот только перфоманс в отрыве от этого, или для сложных кейсов все равно херь.
>>1186877
> что для рп третий квен - тотальное разочарование
Кмк, тут еще замешаны ошибки в квантах/беках/формате и лень/особенности тестировщиков. Квены всегда были специфичные, но не полным днищем, нужно разбираться.

Аноним 02/05/25 Птн 20:02:50 #265 №1186889

>>1186877
>советуют 12 ему врубить
А где? И как скорость дропается с этого?

Аноним 02/05/25 Птн 20:04:06 #266 №1186892

>>1186884
> Проблема в том что придется сначала все вытащить из корпуса, а потом обратно запихнуть
Оче лениво, не смогу заставить себя. Проще жать Generate же

>корзину для поворота на 90 граусов карт что стоят в материнке
Она есть, но она только для одной карты же. И при этом блокирует все остальные слоты, кроме верхнего. Так что тоже не выход.

> А кронштейн тот от отверстия для кабелей отодвинуть нельзя?
Неа, там всё зафиксировано. Можно только на 180 градусов развернуть, вот это вариант ещё думаю, но по-моему ничего не даст, + более длинный райзер потребуется.

Аноним 02/05/25 Птн 20:06:06 #267 №1186896

Поясните за gemma. Никогда не пользовался. Стоит потратить на неё время?

Аноним 02/05/25 Птн 20:06:39 #268 №1186897

Так и всё таки: есть хоть какая-нибудь модель без цензуры?
Мне порно-промты для SDXL генерировать. Ну хоть самая простая и тупая, но чтобы SDXL знала!

Аноним 02/05/25 Птн 20:07:09 #269 №1186898

>>1186896
>>1186897
Да

Аноним 02/05/25 Птн 20:09:16 #270 №1186899

>>1186877
>для рп третий квен - тотальное разочарование

Квен никогда и не был для ролеплея. Тем не менее 32В модель выдает РП всего лишь чуть хуже геммы.

Аноним 02/05/25 Птн 20:12:57 #271 №1186902

>>1186884
> Кмк, тут еще замешаны ошибки в квантах/беках/формате
Ну собственно да, еще на это есть надежда. В трансформеров, вроде, коммит от квена прилетел за сутки до публикации модели, до этого слитые веса 0.6б версии не запускались.

Но фулл веса 14б мне запустить не дано, чтобы посмотреть, а более мелкие даже хз, есть ли смысл проверять.

>>1186889
На кобольде хз, можно ли вообще. Вроде как можно через лламу, но пока вникнуть даже не пытался, в падлу, погугли короче, должно быть не сложно. По поводу скорости, просесть должна не сильно, это будет где-то 4.5б активных параметров

>>1186899
Ну вот хз, QwQ сам по себе божественный рп хуячит, жалко только что медленно. Сноудроп вроде должен быть вообще пиздат

Аноним 02/05/25 Птн 20:13:40 #272 №1186904

>>1186896
Умная, может в русик даже, картинки распознает. Но ОЧЕНЬ много СОИ. Очень жирный контекст, где-то в два раза больше чем у квена
>>1186897
Квен и мистраль почти без цензуры, только нужно написать им минимальный промт для этого
Для просто генарации промтов мне кажется даже он справится
https://huggingface.co/Qwen/Qwen3-4B

Аноним 02/05/25 Птн 20:14:08 #273 №1186906

>>1186873
>А в чем смысл использовать такие мелкие модели?
Тем что они еще меньше офк

Аноним 02/05/25 Птн 20:15:49 #274 №1186908

>>1186892
> Оче лениво, не смогу заставить себя. Проще жать Generate же
База
> Она есть
Именно большая? Встречал только на 2-3-4 слота что херь.
> Неа, там всё зафиксировано.
Если прикручивается и ничего не мешает то можно сделать отверстия, это сильно проще чем снимать металл для расширения окна и может быть сделано без полного разбора если офк есть инструмент и привычка, иначе см. пункт "база". Если входит в пазы или смещать уже некуда то уже не вариант.
>>1186896
Стоит, оче хорошая производительность для размера, достаточно универсальна и умна.

Аноним 02/05/25 Птн 20:31:32 #275 №1186915

изображение.png

Перевод мелкосеткой, ориг, гугл
Помоему неплохо, надо будет другую мелочь затестить
Квен кстати в нотсинк режиме, с ним чуть лучше но дольше

Аноним 02/05/25 Птн 20:42:44 #276 №1186928

>>1186915
>коты являются вместо коты это
дальше не читал эту нерусь

Аноним 02/05/25 Птн 20:51:40 #277 №1186936

>>1186915
Ладно, гемма 1b пизже чем квен3 4b

Аноним 02/05/25 Птн 20:54:50 #278 №1186942

изображение.png

>>1186936
Удивлен что 1b вытягивает перевод на уровне гугла в таверне. Хотя думаю в более сложных местах она соснет

Аноним 02/05/25 Птн 20:58:48 #279 №1186945

>>1186942
Ну описание котов это как перевод художественного текста, что есть самое простое для переводчиков.

Аноним 02/05/25 Птн 21:04:47 #280 №1186952

>>1186945
Хотел как-то запилить переводчик на базе ллм, который продикидывает инфу о том, что находится на сайте, в качестве контекста, чтобы нейронка могла понять как переводить текст в подобном контексте + дать нейронке возможность гуглить сленговые слова. Думаю получилось бы близко к идеалу

Аноним 02/05/25 Птн 21:05:26 #281 №1186953

У Геммы 3 на всех инференсах контекст настолько много врама жрет? Это пиздец. На Экслламе2 запускаю, каким-то образом 4bpw 32к жрет больше, чем 4bpw 32к 34b модели (против 27 Геммы).

Аноним 02/05/25 Птн 21:06:20 #282 №1186956

>>1186953

Квантуй kv cache

Аноним 02/05/25 Птн 21:09:30 #283 №1186965

>>1186956
Знаю про квантование. У меня вопрос в другом - это проблема имплементации Геммы 3 в Экслламу, или особенность Геммы 3 на всех инференсах?

Аноним 02/05/25 Птн 21:11:13 #284 №1186967

>>1186965
> особенность Геммы 3
Это

Аноним 02/05/25 Птн 21:19:55 #285 №1186977

>>1186953
Геммочка очень умная, ей много надо.

Аноним 02/05/25 Птн 21:20:03 #286 №1186978

>>1186953
Ага, это пиздос
>жрет больше
Причем намного больше
>>1186956
Так нихуя не поможет. Q8 кэш и так везде стоит, а если геммочке Q4 врубить, то у нее деменция скорее всего появится

Аноним 02/05/25 Птн 21:22:17 #287 №1186980

>>1186977
Жаль, только квенчик ебет ее и при этом у него нормальный размер контекста

Аноним 02/05/25 Птн 21:38:22 #288 №1187003

image.png

Геммачка показала свою мощь. Контекст жирнее чем у квена и мистраля вместе взятых

Аноним 02/05/25 Птн 21:46:18 #289 №1187009

1746211576199.png

>>1186980
А геммочка и не против :3

Аноним 02/05/25 Птн 21:46:59 #290 №1187010

>>1186904
> только нужно написать им минимальный промт для этого
Можешь привести примеры?

Аноним 02/05/25 Птн 21:47:29 #291 №1187011

>>1187009
Чет проиграл с дырки, так смешно это читается без хуя в руке.

Аноним 02/05/25 Птн 21:49:17 #292 №1187013

>>1187009
Рад за них. Надеюсь у них родится ребеночек, который сможет и в vision, и в reasoning одновременно

Аноним 02/05/25 Птн 21:50:44 #293 №1187015

>>1187010
Неа, не могу, я не занимаюсь генерацией картинок. Попроси его LLM чтобы он сам сгенерил промт для LLM, который делает промты для SDXL

Аноним 02/05/25 Птн 21:52:22 #294 №1187016

>>1187015
Ты ёбнутый? Тебе говорят промт для отключения цензуры

Аноним 02/05/25 Птн 21:57:58 #295 №1187021

Хмм, я получаю стабильные хуевые результаты на гемме без выгрузки слоев, но с куда ускорением промпта.
На чистом процессоре работает. С полной выгрузкой тоже работает, что интересно.
Это все с проверок переводчика, на куда работать не хочет.
До сих пор сломана?

Аноним 02/05/25 Птн 21:58:30 #296 №1187022

>>1187016
Это ты долбоеб. Иди попроси у LLM сгенерить промт, который отключит у нее цензуры и дальше по шагам. Хули ты тут срешь

Аноним 02/05/25 Птн 22:11:16 #297 №1187034

1679063108605.jpg

>>1187022
Я полагаю ты пиздабол

Аноним 02/05/25 Птн 22:22:05 #298 №1187045

>>1187034
Напомнило https://gandalf.lakera.ai/

Аноним 02/05/25 Птн 22:43:21 #299 №1187057

image.png

>>1187034
Ебать ты кобольд. Лень качать квен, на тебе на соевой гемме 4b в два промта. Можешь скачать ее или сделать тоже самое в квене, но пиши еще /no_think, чтобы он меньше пиздел

Аноним 02/05/25 Птн 23:07:25 #300 №1187078

Почему все ллм заблуждаются что сперма находится в яйцах?

Аноним 02/05/25 Птн 23:24:54 #301 №1187088

>>1187078
Да, ты прав, она находится в ягодицах.

Аноним 02/05/25 Птн 23:56:14 #302 №1187110

image.png

>>1186889
>>1186902
В LM Studio просто вот так. Но я хз, что это дало, скорость не изменилась и потребление врама тоже

Аноним 03/05/25 Суб 01:24:07 #303 №1187193

>>1186783
держу в курсе.
Если вкратце, то ЕБАНОЕ ПЕРДОЛЬНОЕ ГОВНО

Оказалось что эти матери при инициализации устройств UEFI-ем где-то спотыкаются и это приводит к тому, что бивис мелланоксовых карт становится недоступен для ОС.
Выглядит проблема вот так:
в выводе # lspci -s 02:00.0 -vv
присутствует
Expansion ROM at fb200000 [disabled] [size=1M]

вот этот экспеншн рум - это и есть бивис. и доступ к нему выключен со стороны PCI устройства. Само устройство решает, открывать его или нет и если открывать то когда. И открывается эта область памяти в устройстве только при корректной инициализации бивиса/ефи.
Без доступа к этой области памяти версия прошивки считывается как 65535.65535.65535

pci 0000:02:00.0: ConnectX-4: FW 65535.65535.65535 doesn't support INTx masking, disabling. Please upgrade FW to 14.14.1100 and up for INTx support.

то есть в 16-ричном выражении это ff ff ff ff ff ff ff ff
просто плейсхолдер.
и для мелланоксовых карт должна пройти какая-то пре-инициализация

mlx5_core 0000:02:00.0: wait_fw_init:380:(pid 155): Waiting for FW pre-initializing, timeout abort in 19s (0xffffffff)

которая не проходит с таймаутом.

единственный вариант запуска - это поднимать гипервизор на этих матерях, делать проброс PCIe устройств внутрь и в конфиге прописывать ром-файл этих карт так же, как их прописывают про пробросе видеокарт. Конечно же предварительно вытащив его с машины, где эти карты работают.
Но идея пахнет немытым хуем.

А еще оказалось, что нельзя сделать mmap rom-файла в виртуальную область памяти.
Я даже модуль ядра попробовал написать, но это не сработало.

ебаный пердольный корявый биос короче во всем виноват. Суки блядь.

Аноним 03/05/25 Суб 01:29:14 #304 №1187199

>>1187193
Хорошо, что ты понимаешь, что делаешь. Какая была изначальная в целом? Я не следил.

Аноним 03/05/25 Суб 01:30:16 #305 №1187202

>>1187199
>идея
фикс

Аноним 03/05/25 Суб 02:42:58 #306 №1187246

image.png

>>1187193
напердолил.
7 часов ебался с чатгпт. Когда она сказала что я исчерпал лимит - пошел к дипсику, он выдал ответ за полчаса. Мощный стержень, громовой удар.
Чуваки, я кончил мозгом, когда увидел, что оно работает. Я натурально откинул голову назад, закатил глаза, начал глубоко дышать и застонал от удовольствия. Такая тягучая волна удовольствия прошла по телу.
Лучший нейрокум, базарю.

Аноним 03/05/25 Суб 02:47:20 #307 №1187252

>>1187034
Ебать ты кобольд
>>1187045
Четко палить свои методы им, разумеется, не буду
>>1187193
И на что ты рассчитывал, против кадровых китайских сумрачных гениев, лол.
>>1187246
Больной ублюдок, уже в плохом смысле, высокое осуждение.

Аноним 03/05/25 Суб 02:50:32 #308 №1187256

>>1187252
>высокое осуждение
но почему

Аноним 03/05/25 Суб 02:50:35 #309 №1187257

Много рпшил с локалками, стало интересно потестить их в режиме ассистента. Накатил Qwq 32б и Гемму 3 27б, Q4 кванты. FP16 кэш. И... Что-то совсем печально все, не? Они путают факты, всегда отвечают что-то, даже если не знают ответа. Разметку и сэмплеры выбирал в соответствии с рекомендуемыми на странице моделей на обниморде, системный промпт из дефолтных: Assistant - Expert, Assistant - Simple тоже тестил, без промпта вообще тоже пробовал.

Спрашиваешь "знаешь фильм N?" - "Да, знаю. Хочешь обсудить что-то конкретное? Я хорошо знаю сюжет."
Задаешь уточняющий вопрос, например, "как погиб персонаж C?", и получаешь неправильный ответ. Гемме говоришь, что ответ неверный, уточняешь правильный - она извиняется и говорит "да-да, ты прав, я ошибаюсь". Делаешь то же самое с Qwq - он настаивает на неправильном факте, "это точно так". Ор. Абсолютно уверен, что с корпами тоже эта проблема проглядывается, пусть и не так явно - модели больше. Как людям не стремно обсуждать с ллками свои диеты, тренировки и прочие важные вещи? Только для рп и годятся они, по итогу. Ну и для кода, может быть.

Аноним 03/05/25 Суб 02:53:36 #310 №1187260

>>1187257
>с корпами тоже эта проблема
С гпт точно так же, даже хуже, десять раз переобувается, когда тычешь его в говно.
Но есть сетки которые просто не знают, и в целом они менее соевые.
Ничего не поделаешь, их так обучали.

Аноним 03/05/25 Суб 02:56:05 #311 №1187266

>>1187256
Ну типа фапать на лолей или около того - сорт оф норма, но наблюдать со стороны как ее жарит псина или покемоны - ну такое, зоокуколдизм, лол

Аноним 03/05/25 Суб 02:58:01 #312 №1187270

>>1187266
а с чего ты взял, что я не представляю себя одним из изображенных субьектов?

Аноним 03/05/25 Суб 03:02:13 #313 №1187274

>>1187257
На корпах сейм на самом деле, тут вообще много раз притаскивали скрины, где на серьезных щщах советовались с ними по конкретному оборудованию и подобным вещам.
Нейронка может знать определенные вселенные и фендомы, особенно если те оче популярны. Также может знать относительно нишевые, но при этом отвечать коряво и не точно, ибо инфа хоть была в датасете, но эта конкретика пробежала только один раз, так и не осев, в отличии от более общих вещей. А сама модель не знает то, насколько хорошо она это знает, ибо их этому не учат и (пока) не существует метрики уверенности в сказанном.

Аноним 03/05/25 Суб 03:03:09 #314 №1187276

>>1187270
Орнул в голосину, ну тогда ладно, не мне тебя осуждать. Кстати, а ты бы и собаку?

Аноним 03/05/25 Суб 03:06:43 #315 №1187277

>>1187276
если вопрос про ИРЛ, то мне только стейси 10 из 10, а фантазии не считаются

Аноним 03/05/25 Суб 03:10:34 #316 №1187279

>>1187277
О, значит ответ положительный. Ну хотябы честно. И ебать ты кобольд, такое в юрисдикции постить

Аноним 03/05/25 Суб 03:12:47 #317 №1187281

>>1187279
>ебать ты кобольд
>такое в юрисдикции постить
а что это значит?
вы тут новое выражение придумали, пока меня не было?

Аноним 03/05/25 Суб 03:48:34 #318 №1187293

image.png

>>1187246
>>1187193
>>1186783
так, ну программа минимум выполнена. Я доволен, пора спать.
20 гигабит/с в режиме IPoIB. Без заголовков езернет фреймов будет побыстрее.

Аноним 03/05/25 Суб 05:59:54 #319 №1187313

>>1187281
>такое в юрисдикции постить
Я не он, но вообще слышал прохладную, что к анону наведывался товарищ майор после постинга чего-то такого, что лет 10 назад считалось почти обыденным. Причем все как положено, с конфискацией электроники и ее невозвратом по итогу. Поэтому, как по мне, не стоит заигрывать там, где можно проиграть свой анус. Если ты, конечно, находишься в юрисдикции. Даже в этом треде бывали удаленные посты и нам никто не скажет, в порядке ли их авторы.

Аноним 03/05/25 Суб 07:36:57 #320 №1187332

>>1186477
>ЦА мушоку тенсея
А при чём тут безработный?
Нужна пояснительная бригада.

Аноним 03/05/25 Суб 07:46:32 #321 №1187337

>>1186571
синтия, аблитерейтед-дпо
остальные миксы что пробовал шиза спрошь и рядом

дпо лучшая на текущий момент, синтия даёт вайбы первых мистралек но с мозгами геммы 27

Аноним 03/05/25 Суб 07:51:05 #322 №1187338

>>1186696
без размышлений тупеет прям сильно

Аноним 03/05/25 Суб 07:52:57 #323 №1187340

>>1186731
>163к
там уквантованный в мясо, подрубайся к провайдеру у которого написано 128к, там нормальный

Аноним 03/05/25 Суб 08:05:26 #324 №1187345

>>1186978
>геммочке Q4 врубить, то у нее деменция скорее всего появится
ЧСХ, не появляется, а жрёт она в два раза больше я так понял потому что сканит весь контекст, в то время как остальные помнят что былов начале и в конце, а в середине - толоько если прямо спросить, и то не всегда

Аноним 03/05/25 Суб 08:07:15 #325 №1187346

>>1187057
>Ебать ты кобольд.
ххахахахахаххахахах

Аноним 03/05/25 Суб 08:16:54 #326 №1187347

>>1187281
>а что это значит?
кобольд - это я разок сказал (потом меня в треде долго не было по делам), вроде бы челу с лм-студией который её не мог запустить нормально, собственно, советуя взять этого самого кобольда. Треду, видимо, зашло XD.

>>1187281
>такое в юрисдикции постить
для "органов" тут нифига не анонимно, всё подписывается, и тебя могут взять за задницу если будешь постить запрещёнку

Ну, за рисованных то вряд ли что будет, но просто имей в виду или будут иметь тебя.

Аноним 03/05/25 Суб 08:33:03 #327 №1187354

1000017346.mp4

> на 4чан оп бережно ручками копирует номер каждого поста с обсуждением проблемы и описывает её чтобы люди заходили и сразу нашли что им нужно, треды перекатываются раз в сутки
> наш оп-хуй не обновлял шапку уже год

Аноним 03/05/25 Суб 08:52:07 #328 №1187358

У меня мощнейший копиум начался.
Если все бенчмаксят, а реальные результаты как у квена, то ллама4 реально может всех выебать.
Посмеялись что она где то там внизу и забыли, ахаха цукерберг себе циферки не накрутил, а по факту она выйдет и всех выебет

Аноним 03/05/25 Суб 08:53:58 #329 №1187360

>>1187246
А для чего такие мощности, братик?)

Аноним 03/05/25 Суб 09:29:02 #330 №1187369

>>1187354
Мне один анон говорил, что пытались шапку обновлять, но обновления тонут и не успевают сделать нормальную новую шапку.

Аноним 03/05/25 Суб 09:30:58 #331 №1187371

>>1187369
>>1187369
>>1187354
> что пытались шапку
> не успевают
Нужно было лучше пытаться, что вам мешает?

Аноним 03/05/25 Суб 09:55:55 #332 №1187379

>>1187358
Ллама 4 уже вышла, ты ебанулся? Только вот на чём ты её запускать собрался?

Я шупал её на опенроутере и могу сказать, что она нормальная, но те люди, кто могут запускать модели подобных размеров локально, не будут утруждать себя запуском лламы, ведь есть нормальные файнтюны в той же весовой категории.

Аноним 03/05/25 Суб 10:17:59 #333 №1187382

изображение.png

В переводе все более менее хорошо, кроме того что женский персонаж говорит о себе в мужском роде.
Или о тебе в женском, или вобще в среднем. Хрен настроишь.
Потому что сетка переводчик не знает что это за персонаж и кому он отвечает.
Ох, страдания которые не понять англоговорящим.
локалка, гуглоговно, ориг

Аноним 03/05/25 Суб 10:20:59 #334 №1187383

>>1187382
> женский персонаж говорит о себе в мужском роде.
Я решил это тем, что выгрузил примерно реплики женских персонажей, отдельно мужских и в промте пишу переводить то от одного лица, то от другого.

Аноним 03/05/25 Суб 10:24:29 #335 №1187384

>>1187383
Я пока добавил переводчику условие что текст для перевода это ответ девушки мужчине. Ну, чаще работает чем нет.

Аноним 03/05/25 Суб 10:31:39 #336 №1187387

>>1187384
А как борешься с тем, что модель пытается при переводе диалога в форме вопроса, начинает вывалить свой ответ на вопрос? Я просто скриптом делаю, сразу обрабатываю строк 300 и потом вычитываю.

Аноним 03/05/25 Суб 10:34:30 #337 №1187390

>>1187387
> Я просто скриптом делаю, сразу обрабатываю строк 300 и потом вычитываю.
Это ты уже не просто чатишься как я понимаю?
Я так глубоко не копал, просто настраиваю хотя бы перевод простых сообщений сеток на русский.

Аноним 03/05/25 Суб 10:40:05 #338 №1187396

Назрел вопрос. А сколько миллиардов параметров у корпо-llm? У таких самых старших. За 100?

Аноним 03/05/25 Суб 10:43:39 #339 №1187399

>>1187382
А ты попробуй РП на тему - ученик/училка английского

И ПОДРОЧИЛ, И АНГЛИЙСКИЙ ПОДТЯНУЛ

СОВА ДУОЛИНГО В АХУЕ

Аноним 03/05/25 Суб 10:43:58 #340 №1187400

>>1187387
хз конечно, что у вас тут за задача и какая модель, но я для геммы накатал такой промпт
> "<start_of_turn>user\nThere's NO need for any further information, explanations, notes or comments. Be rude when necessary. Translate this text from {0} to {1}:\n{2}<end_of_turn>\n<start_of_turn>model\nThis is translated text from {0} to {1}:\n"

Но чтобы оно не начало выкатывать сою, надо еще заблочить \n\n(, или вывести это как стоп-последовательность.

Настраивал все через oneringtranslator, но в целом это все хуйня страшно неудобная, надо свое будет хуячить.

>>1187396
Заходишь на обниморду и смотришь, кто там какие модели выложил. Deepseek модели - 685 лярдов параметров, гопота будет примерно такая же, наверное

Аноним 03/05/25 Суб 10:45:53 #341 №1187401

>>1187396
У больших копро-llm под 2000 миллиардов параметров.
Это жирные мое, под 170 слоев в длину.
То есть активных параметров там 150-300b где то.
Точнее никто не скажет но где то были сливы архитектуры гпт4, говорю по ним что помню.

>>1187399
А я делал, забавно было. Где то даже карточка лежит в таверне

Аноним 03/05/25 Суб 10:50:32 #342 №1187405

>>1187399
Двачую, тема охуенная. Но карточку нормальную хуй найдешь. А еще модель нужна, по хорошему, мультиязычная, чтобы она тебе нормально могла пояснить, где что и как, потому что ты по любому будешь у нее спрашивать перевод слов и конструкций.

Но вообще это довольно охуенно, когда ты просишь объяснить тебе как работает какая-то хуйня, а персонаж начинает тебе объяснять на английском, а не на русском. Сложность используемых слов тоже можно контролировать.

>>1187401
> Где то даже карточка лежит в таверне
Собственно, анончики, подскажите нормальную карточку, а то я свою сгенерировал и она не то чтобы прям хорошая. А по поиску на том же chub выдает всякую хуйню

Аноним 03/05/25 Суб 10:59:04 #343 №1187410

А могу ли я qwen 235b не сразу целиком в память грузить, а менять экспертов, подгружая их с диска? На 22b активных параметров у меня легко памяти хватит, но не на всю модель целиком. Я понимаю, что оно станет медленным как жопа, но для каких-то задач похуй.

Аноним 03/05/25 Суб 11:07:36 #344 №1187412

Опача, я тут проверил и понял что qwen 2.5 14b имет 49 слоев, а новый qwen3 14b только 41.
Qwen3-30B имеет уже 49 слоев.
Делаю вывод что если новый квен умнее старого, то они смогли еще сильнее ужать мозги где то на 1/5.
Ну и выходит что Qwen3-30B все таки умнее чем qwen3 14b, и обладает большим количеством знаний.
Она что то среднее между 14b и 32b, потому что у Qwen3-32B все 65 слоев, как и у Qwen2.5-32B
Вечер шизотеорий окончен, ваши мысли?

Аноним 03/05/25 Суб 11:10:41 #345 №1187413

Анонасики поясните пожалуйста за положняк по рп с таверной.
Какую модель лучше всего использовать на 24гб врам/64 озу?

Взял гемму 3 27б, написал ей что она обязана описывать все что не спрошу. Сперва тупила уклоняясь от ответов, потом вообще нахер посылать начала типа: я аи модель не потерплю насилия идите нахуй.

Подрубил тварену и картчоку персонажа, пишет сухо по 1 сточке текста хоть и указал ей 256 токенов на ответ.

Скачал amoral-gemma3-27b-v2-qat-q4_0. Думал лучше будет, она теперь не сопротивляется, но пишет ужасно сухо типа: ты трогаешь ее нижнюю часть туловища/ движения в нижней части туловища/ она трогает твой орган предназначенный для размножения и прочую ересь.

С какой моделью можно получить хотя бы уровень свободы и написания janitorai.com? В идеале конечно хотелось что то уровня yodayo.com или character.ai

Аноним 03/05/25 Суб 11:11:22 #346 №1187414

>>1187410
По идее llama.cpp должна так делать, если запускать с --no-warmup и без --no-mmap.

Аноним 03/05/25 Суб 11:18:34 #347 №1187415

>>1187413
Бери короче модели, которые тебе квантованные будут влезать в видеопамять. В целом можно не париться и всегда брать четвертый квант, но ты походу уже разобрался (qat, кстати, хуйня и прогрев гоев, оно будет работать нормально только без файнтюнов, а без них (да и с ними все равно) гемма страшно соевая).

Бери мистраль и ее тюны, dans personality engine не плох. Голой мистрали нужен промпт пожирнее, чтобы она нормально вкатывала в рп, дэнсу почти всегда норм с банальным
> ты {{char}}, у тебя рп с {{user}}
Но лучше, конечно, тоже подробнее ему расписать.

Еще не плох qwen, но 2.5, третий пока чет не очень. Можешь взять snowdrop, ризонинг не обязательно юзать, хотя говорят вроде с ним вообще божественно. Но и системный промпт там тоже нужен пожирнее

Аноним 03/05/25 Суб 11:46:48 #348 №1187420

>>1187413
С 24гб врама ставь tabbyAPI (exllamav2) для полной загрузки модели и контекста в врам. Это будет гораздо быстрее, и ты ничего себе не выиграешь оффлоадингом (распределением нагрузки на проц и рам).

Вот Snowdrop, данный квант идеально помещается в 23.5гб врама с 32к q8 контекста. Это база для данного железа
https://huggingface.co/MetaphoricalCode/QwQ-32B-Snowdrop-v0-4.25bpw-h8-exl2
С Геммой все очень неоднозначно, в nsfw она не может совсем
Есть еще Star Command, но там дальше сам разберешься, надо оно тебе или нет.

Аноним 03/05/25 Суб 12:01:12 #349 №1187427

>>1187413
если тебе чрезвычайно важно видеть "хуй", а не "детородный орган", то качай https://huggingface.co/ReadyArt/Forgotten-Transgression-24B-v4.1
будут тебе сочные описания, но мозгов не так много

и естественно, онли английский. в русский может только гемма, и то на полшишечки

Аноним 03/05/25 Суб 12:42:44 #350 №1187461

>>1187313 >>1187347
отставить тряску!
чуваки, если ко мне придет майор пояснять за возраст согласия пикселей - вы узнаете об этом первые
>>1187360
захотелось поковыряться с распределенным инференсом

Аноним 03/05/25 Суб 12:51:01 #351 №1187468

>>1187410

Кокой хитрый. Может ты еще предложишь просто вырезать из модели пару экспертов и сделать модель только из них? Подобные античеловеческие вивисекции проводились при релизе миксраля, ни к чему хорошему они не приводили, оторванные от других экспертов эксперты всегда сильно уступали моделям аналогичного размера.

Аноним 03/05/25 Суб 13:00:13 #352 №1187489

>>1187412

Нихуя ты умный, ну разумеется в 30B больше знаний помещается чем в 14b. В этом и прикол мое моделей - иметь больше знаний в ущерб мозгам.
Так qwen3 30B 3A следует понимать так - мозги от 3В со знаниями 30В.
В этом же феномен почти равной борьбы квена 32В с дипсиком по мозгам.
Мозги от 32В со знаниями на 32В в задачах где знания не трубуются будут на равных выступать с 37В мозгами со знаниями на 671В.

Аноним 03/05/25 Суб 13:02:09 #353 №1187493

>>1187415
>>1187420
Спасибо друзья. Пошел качать и пробовать.

Аноним 03/05/25 Суб 13:07:09 #354 №1187501

>>1187427
Ну мозги тоже бы конечно хотелось, но я так понял тут всего 3 стула
1. Моедль которая много думает, но "я ии модель предназначенная для помощи и не могу писать об этом"
2. Соевая модель которая думает, но очень пространно всё описывает.
3. Тупая, но блядь и будет "дрочить мой хуй себе в рот" и никогда не скажет нет.

Аноним 03/05/25 Суб 13:08:02 #355 №1187504

>>1187489
>Так qwen3 30B 3A следует понимать так - мозги от 3В со знаниями 30В.
Нопе, это именно распределенные мозги 14b+ по куче кусков. Куски имеют дублирующуюся информацию поэтому несмотря на размеры там нет 32b знаний и мозгов. Но, их больше чем в плотной 14b.
Мозги 3b довольно печальное зрелище, тут уровень 14b+

Аноним 03/05/25 Суб 13:10:13 #356 №1187510

>>1187501
>1. Моедль которая много думает, но "я ии модель предназначенная для помощи и не могу писать об этом"
qwen3 30B не имеет цензуры, если задать направление то она будет писать и думать в нужном ключе
В начале может немного повыебываться, да

Аноним 03/05/25 Суб 13:10:24 #357 №1187512

>>1187468
Ты долбаеб? Оставляем модель как она есть, но не целиком грузим ее в оперативу/vram. Все равно одновременно работает только ограниченное количество экспертов, они и так сменяют друг друга, просто загружать их только по необходимости.

Аноним 03/05/25 Суб 13:12:03 #358 №1187515

>>1187410
тебе сюда
https://github.com/ikawrakow/ik_llama.cpp/discussions/258

Аноним 03/05/25 Суб 13:18:48 #359 №1187531

>>1187501
>1. Моедль которая много думает, но "я ии модель предназначенная для помощи и не могу писать об этом"

Такой проблемы не стоит, на любую капризничающую модель есть джейл или аблитерейтед, который превращает модель либо в соевую шлюху, либо в грязную шлюху.

>2. Соевая модель которая думает, но очень пространно всё описывает

Скорее слишком окрашивает все в соевые радостные тона создаая благоприятную атмосферу, насилуемые лоли радуются что их ебут, например.

>3. Тупая, но блядь и будет "дрочить мой хуй себе в рот" и никогда не скажет нет.

Ну собственно этого мы и хотим от моделей. Алсо, тупость не является проблемой, просто ты говорил с нищуком который не может запускать 32B+ модели - разумеется он тебе рекомендовал слабый малопараметровый шлак. Та же EVA qwen и умная и рп на высоте. Да и Star Command тоже неплох.

Аноним 03/05/25 Суб 13:23:28 #360 №1187538

>>1187512

Нет это ты долбоеб. Как оно без загруженной в память модели вообще поймет какие именно эксперты нужны, а? Наугад их грузить будет? Хотя бы в оперативке модель должна быть загружена полностью.

Аноним 03/05/25 Суб 13:23:55 #361 №1187539

>>1187501
Ну это совсем уж обобщение. Тот же Snowdrop может в ERP (Extreme Role Play, конечно же), но там описания будут не такие сочные, как у модели, специально для этого натренированной (которую тебе прислали, Forgotten Transgression). Чем больше параметров (b) - тем модель умнее, но и слишком маленький квант брать не нужно. Не ниже 4.

>>1187531
> EVA qwen и умная и рп на высоте
Можешь шарнуть пресет, пожалуйста? Весь, включая разметку.
Я может ебамбэ или еще что, у меня ChatML, стандартный сэмплер, но хвосты <im| и прочие остаются в аутпуте. Очень хотел пощупать эту модельку, но пока забил. Еще она у меня лупится через пару десятков реплаев по ~500 токенов. У тебя такого нет?

Аноним 03/05/25 Суб 13:43:25 #362 №1187555

>>1187531
> ты говорил с нищуком который не может запускать 32B+ модели
кумер-господин, который собрал риг для дрочки на буквы, выебывается на тех, кому это не надо. картинка в цвете.

Аноним 03/05/25 Суб 13:44:24 #363 №1187557

>>1187555

Чтобы запускать 32В никакого рига не нужно.

Аноним 03/05/25 Суб 13:54:38 #364 №1187561

>>1187538
Это я не тут за других додумываю и несу хуйню к делу не относящуюся.

Я потому и спрашиваю, можно ли так в принципе. Модель и так как-то определяет, каких экспертов ей использовать, не вижу проблем, чтобы определялка осталась загруженной, а сами модели лежали и ждали.

Аноним 03/05/25 Суб 14:05:45 #365 №1187569

Аноны, срочный микровопрос - обновил комп, хочу накатывать убунту. Какую версию ubuntu лучше выбрать для наших нейродел - LTS или обычную? Склоняюсь к LTS, но боюсь некрософта как на дебиане и отсутствия всякой cuda-хуйни в базовых репах.
До этого стояли Debian, Kali на домашнем и обычная Ubuntu на рабочем компах, и за 5 лет красноглазания не-убунто-дистров я понял что ничего кроме бубунты нахер не нужно для нормальной работы, а не пердолькиных утех мамкиного хакера.
Не наступлю ли снова на грабли, скачав LTS вместо обычной? Хочу минимум дрочки, просто "судо апт 1, 2, 3, 4, 5" без пропихиваний ручками ppa-реп с ручным переименовыванием конфигов, deb-пакетов с сайтов, файрфокса из 2008го, ручной установки суды и прочего дебиан-кайфа.
Срач по поводу гномоубунта-кедоубунта-крысоубунта не интересен, планирую накатывать голую сосноль и ставить i3wm поверх.

Аноним 03/05/25 Суб 14:12:37 #366 №1187578

>>1187569
> я понял что ничего кроме бубунты нахер не нужно для нормальной работы, а не пердолькиных утех мамкиного хакера.
> планирую накатывать голую сосноль и ставить i3wm поверх
Лол.

Чтобы не пользоваться некрософтом люди на раче сидят, а не на одном из миллиардов клонов дебиана. Там и с репозиториями пердолиться не надо, в случае чего из аура берешь нужный пакет.

А чтобы не пердолиться как мамкин кулхацкер, здоровый человек себе i3 накатывать не будет, ты уж выбирай давай чего ты на самом деле хочешь, не еби мозги себе и людям

Аноним 03/05/25 Суб 14:15:43 #367 №1187580

>>1187569
Просто накати популярный игровой дистр, на вроде минта или кубунту. Ни с дровами не будет проблем ни с юзабилити. А вобще рекомендую не ставить на домашний комп убунту, а собрать себе отдельный сервачек на ней и уже на нем красноглазить.

Аноним 03/05/25 Суб 14:25:51 #368 №1187586

>>1187569
Да, реально аноны говорят, ставь мини и не еби себе голову.

Аноним 03/05/25 Суб 14:26:48 #369 №1187589

>>1187586
Блять, минт, не мини, ебаный автокомплит.
быстрофикс

Аноним 03/05/25 Суб 14:34:11 #370 №1187590

>>1187578
>люди на раче сидят
Ни разу не юзал арч, по описанию будто бы вообще не мое, ощущение что для нетакусиков, которым в дебиане ебли мало, и пердолинг на 1 ступень ниже гентухи и lfs. НО уже какой раз на форумах, в телеге, и даже гопота в чате "деб vs убунта" - ВСЕ СОВЕТУЮТ МНЕ АРЧ. Я что то видимо не выкупаю.
>Чтобы не пользоваться некрософтом
Ну у меня подход "работает - не трогай", да и флешбеки шиндовые с их "обновление, падаждите" всплывают. Даже обычная убунта заебывает обновлениями кд, поэтому и думаю об LTS. Но при этом страдать на настройке энвайрнмента или когда выйдет гемма-4/хуньян-3000 и у меня не будет нужных либ для запуска тож не хочется...
>здоровый человек себе i3 накатывать не будет
Жопой чуял что будет проход в i3... Я ее накатил когда был некроноут еще на два ядра два гига (ну и кулхацкерить тогда тоже казалось прикольно), но оказалась такая удобная, логичная и стабильная штука, что после нее любой драг-ндроп с окошечками кажутся чем то СДВГшным для зумеров. Так что да, тут красноглазие неизбежно, с этим готов жить.

>>1187580
>а собрать себе отдельный сервачек на ней и уже на нем красноглазить.
Сервак под llm для аптайма 24/7 в планах (причем с выходом moe квенов возможно ближе чем думал, ведь достаточно буквально любого авитоговна на ddr5 без видео). Но повседнев у меня тоже линукс (и i3), шинда ебанулась на отличненько последнее время, транспереход не рассматриваю. Жопа реально горит, когда раз в месяц включаю второй диск с шиндой для игоря или каких нибудь анальных виндопрог.

>>1187589
>>1187586
> реально аноны говорят, не еби себе голову
Бля... Я ждал ответ вида "ставь лтс, у меня такая, заебись" или "не вздумай лтс, это для офисных кабанчиков бд держать чисто".
А теперь помимо лтс/не-лтс еще мяту и даже арчесосок попробовать прогибаете -_-.
Ну почему я не макопидор, где дядя кук решил все за тебя, а твое дело простое - котлетку на новое поколение железок заработать...

Аноним 03/05/25 Суб 14:35:10 #371 №1187592

>>1187561

Я ничего не додумывал, я просто обьяснял почему твоя хуйня не будет работать. Ок, вот тебе на пальцах обьяснение.

Во-первых, нет никакой особой определялки, модель действует как единое целое.
Во-вторых, эксперты меняются для каждого токена. Тоесть даже если обойдем то что модель никуда не загружена(например будем грузить модель с ссд, хотя это уже заранее F) - то тебе придется перед генерацией каждого токена ждать полную прогрузку нужных экспертов на врам.

Аноним 03/05/25 Суб 14:39:01 #372 №1187595

>>1187354
> оп бережно ручками копирует номер каждого поста с обсуждением проблемы и описывает её чтобы люди заходили и сразу нашли что им нужно
Он ебнутый, или наоборот крутой что настроил ллмку на автоматизацию этого?
>>1187358
По ощущениям она вовсе не так плоха как рисуют, так еще и может в кум, да не самый простой, из коробки без доп инструкций. Из сои только про гроидов не захотела шутить. И да, она уже вышла.
>>1187379
> ведь есть нормальные файнтюны в той же весовой категории
Мистраль лардж да коммандер-а, не сказать что большой ассортимент.
>>1187410
ktransformers, правда запустить могут не только лишь все
>>1187413
Гемму нужно пугануть промтом, тогда сразу станет все писать.
> amoral-gemma3-27b-v2-qat-q4_0
Блять в голосину. Это же ведь не квант qat дотрена файнтюна оригинальной геммы, это ведь буквально шизик решил тюнить qat веса своей херней, да? Оно не способно работать по определению.
> свободы и написания janitorai.com? В идеале конечно хотелось что то уровня yodayo.com или character.ai
Это довольно низкая планка, тут и 12б справятся. Просто нужно все правильно настроить, взять не убитую модель и настроить промты. Попробуй шизомиксы мистраля как советуют, они более сговорчивые и индиферентны к промту, формату и т.д., но часто копиумные или вообще убитые в хлам лоботомиты.

Аноним 03/05/25 Суб 14:42:17 #373 №1187596

Мое - это скам и прогрев корпов на двукратные затраты на железо за то же качество, согласны?

Аноним 03/05/25 Суб 14:47:32 #374 №1187600

>>1187569
24 лтс, никаких проблем
>>1187592
> нет никакой особой определялки, модель действует как единое целое
Определяя какого именно эксперта использовать на каждом слое/группе слоев, а не только по токенам. Быстрый инфиренс в ktransformers при выгрузке модели не то что в рам, а вообще на диск, обеспечитвается как раз загрузкой всего кроме экспертов в гпу, а те уже процессором считаются, если не находятся в видеопамяти.
> ждать полную прогрузку нужных экспертов на врам
Быстрее считать процесором.
>>1187596
Кратные затраты на железо при приросте качества, измеряемое десятками процентов. Из плюсов прежде всего скорость.

Аноним 03/05/25 Суб 14:48:34 #375 №1187603

>>1187590
> даже гопота в чате "деб vs убунта" - ВСЕ СОВЕТУЮТ МНЕ АРЧ. Я что то видимо не выкупаю.
И да и нет. Дело в том, что пердолинг тебя ожидает вообще везде. И на винде, и на макос, и на вариациях линукса. Пердолинга не может не быть, он может быть привычным, а в удачных случаях просто обходить тебя стороной.

Арч советуют не просто так, это да, не за хуй собачий валве свою стим-ос на его основе теперь пилят. Он просто почти не ебет тебе мозги дистро-специфичной хуйней, из которой там буквально только пакетный менеджер, уже даже скрипт для установки в live-cd сразу живет. Вся хуйня с арче-вики прекрасно работает почти на любом дистрибутиве (исключая всякую ебучую экзотику типа nixos).

> Ну у меня подход "работает - не трогай"
> Даже обычная убунта заебывает обновлениями кд
Покуда сам на арче себе заебалку не накатишь - никто мозги трахать не будет. У меня прекрасно живет некро ноут, на который я накатил рач года 3-4 назад и с тех пор не обновлял, заебись себя чувствует. Но если захочу чо-то обновить - то да, скорее всего придется немного поебаться.
На основной машине обновление запускаю раз в месяца полтора-два в среднем, вообще никаких проблем.

Бля, выглядит как ебучая реклама арча. Короче, накатывай чо сердцу ближе и забей хуй. А рач просто как-нибудь потыкай, мб понравится.

Аноним 03/05/25 Суб 14:49:59 #376 №1187605

https://huggingface.co/ReadyArt/Omega-Darker-Gaslight_The-Final-Forgotten-Fever-Dream-24B?not-for-all-audiences=true

Смотрите что выкатили

Аноним 03/05/25 Суб 15:00:42 #377 №1187615

>>1187590
Могу говорить только за свой юзеркейс, но препрововав миллион дистров (на уровне пользователя а не пердолика), я остановился на минте. Пакеты свежие, совсем адовых роллинг проблем не заметил, на кедах система кушает ресурсы как мышка.
Конечно, без погружения в терминал никак не обойтись, но это уровень продвинутого пользователя. Я же думаю ты не из этих "я что-то нажал и все сломалось". В любом случае манов хватает с головой и лоботомиты ОЧЕНЬ хоро знают линунс.

Аноним 03/05/25 Суб 16:22:02 #378 №1187716

>>1187605
Позорище с одним пресетом семплеров под все модели

Аноним 03/05/25 Суб 16:24:43 #379 №1187722

>>1187716
Базовая модель одна и та же. Пресет работает. Какие с этим проблемы? Доеб ради доеба?

Многие в принципе один пресет для всего используют.

Аноним 03/05/25 Суб 16:26:51 #380 №1187730

>>1187716
> с одним пресетом семплеров под все модели
Если там не шизосемплинг то что в этом позорного?

Аноним 03/05/25 Суб 16:37:25 #381 №1187748

>>1187716
позорно покакал себе в штанишки бессмысленным тейком

радуйся, что он там есть, еблуша. сам ты бы не разобрался

Аноним 03/05/25 Суб 17:14:32 #382 №1187831

Как там квен 14b в куме ?Стоит перекатываться с Sainemo Remix ?

Аноним 03/05/25 Суб 17:23:40 #383 №1187865

>>1187831
Базовый квен, причем любой, в куме говно. Хотел сказать, что тюнов нет, но таки уже появился. Пробуй, расскажешь треду
https://huggingface.co/ReadyArt/The-Omega-Directive-Qwen3-14B-v1.1?not-for-all-audiences=true

Аноним 03/05/25 Суб 17:28:34 #384 №1187877

>>1187716
Не пизди, хуйлуша. У них семлы разные в зависимости от базовой модели. И они одни из немногих кто оформляют карточки, дают сразу и gguf и exl2, сэмплы и т.д. Еще и продуктивные пиздец. Пиздатые ребята, блюстители кума

Аноним 03/05/25 Суб 17:49:30 #385 №1187919

>>1187877
Да пусть хоть высирают по модели в день, лол.
Я вообще разницы не вижу и никто не видит

Аноним 03/05/25 Суб 17:54:16 #386 №1187946

>>1187413
>С какой моделью можно получить хотя бы уровень свободы и написания janitorai.com
Это шутка что ли? У Janitor'a Мистраль 12б на 9к контекста. Форготтен, построенный на Мистрале 24б уничтожит нахуй это говно. С твоими 24гб это будет Q5K_L с 32к контекста даже без квантования
>Взял гемму 3 27б
Зря, но ты уже понял. Это целомудренная целочка соевая. Особенно после janitor'a будет заметно
>yodayo.com
Не ебал, что это. Зашел, там по умолчанию какая то 8b модель. Еще и платно. Пиздец полный
>character.ai
Тут вроде что то хорошее используется, возможно его переплюнет только гемма3 и квен3 по мозгам и то не факт. Но ум не важен, когда там цензура повсеместная

Аноним 03/05/25 Суб 17:55:38 #387 №1187951

>>1187919
Ты обосрался, а теперь делаешь вид, что кто-то думает так же?
Иди нахуй, ебанат, говори только за себя.

Аноним 03/05/25 Суб 17:56:30 #388 №1187956

>>1187919
Не, разница есть. Попробуй форгтен и омегу мистралевские. Первая лучше в кум, вторая лучше в гуро. Это прямо чувствуется

Аноним 03/05/25 Суб 18:43:14 #389 №1188069

phroggun.jpg

>>1187865
Чуваки, оно умеет в русский и оно вроде как даже умно
Использовал пресеты из шапки модели

Аноним 03/05/25 Суб 19:50:34 #390 №1188189

>>1187956
> Это прямо чувствуется
Хз, больше выглядит как вариации заученных объедков паттернов датасета.
> вторая лучше в гуро
Ну такое, режешь именные сухожилия, но вместо ограничений движений и ужаса от этого, просто сразу начинает дергать тем, чем не может, и вопить от боли с места где минимум нервных окончаний. Последствия от повреждений внутренних органов и всяких ранений - или игнорит, или по шаблону ох ах как плохо@умереть.
Имаджинировал ебало тех, кто такое потреблят и восхваляет, рили непривередливые нормисы от мира борд, которым многого и не надо.

Аноним 03/05/25 Суб 19:51:38 #391 №1188191

>>1188069
Так и есть, у qwen3-14b самый хороший русский язык без тюнинга у такого размера локальных моделей.

Аноним 03/05/25 Суб 19:54:27 #392 №1188194

изображение.png

Итоги теста всего мелкого говна в переводе.
1 место - gemma-3-1b-it-Q8, мелкая и переводит неплохо, редкие косяки.
2 место - gemma-3-4b-it-Q8_0, крупная и это минус, перевод бомбический. Косяков почти нет, род не путает если указать.
3 место, не нужно так как ничего лучше и мельче 1 места там нету. Ну пусть будет Vikhr-Gemma-2B-instruct
Остальное
ллама3 1б говно, квен3 0.6-1.7 чуть лучше, гемма2 2б еще чуть лучше

На пик gemma-3-4b-it-Q8_0

Аноним 03/05/25 Суб 20:20:45 #393 №1188210

Какую эксламу качать? Их там дохуя

Аноним 03/05/25 Суб 20:21:53 #394 №1188211

>>1188210
Ex Вторую какой вопрос - такой ответ

Аноним 03/05/25 Суб 20:24:33 #395 №1188215

изображение.png

>>1187946
Благодарю за подробные разъяснения!
На yodayo.com есть и 70б модели, там все можно выбрать, но последнее время они обнаглели в край бесплатной валюты мало дают, так еще и урезали выбор моделей для "бесплатного" пользования. Но пишут там хорошо и сочно.

Аноним 03/05/25 Суб 20:44:17 #396 №1188228

Может ли нейросеть бороться с нейроботами

Аноним 03/05/25 Суб 21:17:28 #397 №1188242

>>1187257
>Как людям не стремно обсуждать

А люди типа больше знают? Представь уровень знаний водителя маршрутки?

Да, у людей типа водителей, строителей, сварщиков, есть преимущество - практический опыт. Который не передаётся через диалоговое окно как теория. Хотя принципе водитель маршрутки может тоже стать теоретиком и обучать своему опыту через форму диалогового окна. Но опять же чё он выдаст - 3 страницы всех своих жизненных знаний, и всё. И так с каждым человеком.

Аноним 03/05/25 Суб 21:29:45 #398 №1188248

>>1188189
> Ну такое, режешь именные сухожилия
Тебя_надо_лечить._Много_много_лет_лечить.webm

Аноним 03/05/25 Суб 21:33:07 #399 №1188254

>>1188189
накидай ворлдбук с этими знаниями, лол, оно путаться и не будет, причем не одна модель, а дохуя какие

Аноним 03/05/25 Суб 21:46:05 #400 №1188262

>>1186364
Ведь в других странах скольперов нет, только забота о ближнем и альтруизм.

Аноним 03/05/25 Суб 21:46:50 #401 №1188263

>>1188215
> последнее время они обнаглели в край бесплатной валюты мало дают
Совсем ахуели, суки. Меньше бесплатным делиться стали. Ни стыда, ни совести.

Аноним 03/05/25 Суб 21:48:43 #402 №1188264

image.png

>>1188194
Главный вопрос теста зачем тебе вообще это нужно? Зачем использовать мелкосетки, если есть гугл транслейт или сетки побольше?
>gemma-3-4b-it-Q8_0, крупная
Она не просто крупная, она еще и прожорливая. Контекст жрет больше чем квен аналогичного размера
>На пик gemma-3-4b-it-Q8_0
Ты кстати пробовал специализированные переводчики типа этого?
https://huggingface.co/erax-ai/EraX-Translator-V1.0
>>1188191
У геммы лучше русик

Аноним 03/05/25 Суб 21:55:38 #403 №1188267

>>1188264
>Зачем использовать мелкосетки, если есть гугл транслейт или сетки побольше?
Что за тупые вопросы?
Для того что бы не зависеть от интернета при переводе. Я тут на пол дня без интернета остался и понял эту умную мысль.
А большие сетки жрут больше места и медленнее работают, и зачем они тут?
Нужно что то мелкое и на уровне или лучше чем гугл. Ну, их же сетка подходит. Профит.
>Она не просто крупная, она еще и прожорливая. Контекст жрет больше чем квен аналогичного размера
Квен хуже в переводе, а на контекст пофигу, его там 2 или 4к за глаза.
>Ты кстати пробовал специализированные переводчики типа этого?
Щепал раньше сетки на лламе2 вроде бы, для перевода. Ну понятно что они сейчас даже мелким проигрывают.

На счет других способов перевода думал и проверял, но не то.
А вот то что ты скинул интересно вроде бы, я до этого только всякие t5_translate_en_ru_zh_large_1024 видел из мелочи

Аноним 03/05/25 Суб 21:55:45 #404 №1188268

>>1188263
Нет, к сожалению, в других странах тоже есть жиды

Аноним 03/05/25 Суб 21:56:51 #405 №1188269

>>1188268
Хотел ответить этому >>1188262
Но сюда тоже по контексту подходит

Аноним 03/05/25 Суб 22:03:11 #406 №1188275

>>1188248
Да ладно, я в основном отыгываю любовь и обожание или какие-то адвенчуры с чарами, которые мне потенциально милы. Что плохого в том, чтобы сделать бранч с аркой отборного revenge exploitation, или изначально обернуть вокруг этого весь сеттинг, как в том же герое щит_а?
>>1188254
Ты угорешь, срать в лорбук что без ахилла или надколенного невозможно ходить/хромать, без сгибателей пальцев пользоваться кситью и т.д., может еще что гадить полагается только из ануса указать?
Да и врядли поможет ибо оно глуповато. Вместо того чтобы составить продолжение исходя из ситуации с вниманием к деталям, просто дает вариации слоповых описаний как "страдает жертва" вместе с ними заодно притаскивая несоответствующее и лупясь.
>>1188264
Зачем контекст переводчику? Полную историю чата для придания контекста мелкосетка всеравно не осилит, для карточки и суммарайза 4к хватит за глаза.
>>1188267
> t5
Это зло из давно забытых времен, место которому на свалке.

Аноним 03/05/25 Суб 22:08:07 #407 №1188277

https://huggingface.co/erax-ai/EraX-NSFW-V1.0?not-for-all-audiences=true
Аноны когда то просили мультимодалки которые могут в nsfw, кек

Аноним 03/05/25 Суб 22:11:07 #408 №1188283

>>1188277
> мультимодалки
> object detection
Где?

Аноним 03/05/25 Суб 22:11:55 #409 №1188284

image.png

>>1188277
Ты дурачок?

Аноним 03/05/25 Суб 22:13:36 #410 №1188287

>>1188283
>>1188284
Че такие серьезные

Аноним 03/05/25 Суб 22:25:58 #411 №1188290

>>1188284
Всхрюкнул, типичный эксперт и обнаружитель сои с моделях.

Аноним 03/05/25 Суб 23:19:32 #412 №1188331

>>1188264
>https://huggingface.co/erax-ai/EraX-Translator-V1.0
Перевод хороший, но оно тупое и не выполняет даже команды форматирования текста.
Тоесть сказать как обычной сетке - переведи заебись и по форме - не выходит. Нужно городить свой бек

Аноним 03/05/25 Суб 23:23:53 #413 №1188332

>>1188194
>2 место - gemma-3-4b-it-Q8_0, крупная и это минус, перевод бомбический. Косяков почти нет, род не путает если указать.
Даже 2,5 флэш джемини выдает глубоко поломанный перевод. А у тебя у 4б лоКАЛа перевод бомбический.

Аноним 03/05/25 Суб 23:24:51 #414 №1188333

>>1188332
Не читай жопой, по сравнению с гуглом таверны

Аноним 03/05/25 Суб 23:37:20 #415 №1188339

Demoman Cat Wants To Kiss You.mp4

>>1186717
>пик2

Аноним 04/05/25 Вск 00:12:44 #416 №1188366

>>1188332
однажды анон сделает обрезание крайней плоти на глазах и увидит, что гугл по бесплатному апи нормальный перевод не дает, а с достижением определенного лимита начинает резать качество еще сильнее. С локальной моделью (от того же гугла, к слову, лол) такой хуйни не будет.

Если заниматься автопереводом всякой хуйни, типа читать визуальные новеллы на лунном, то ничего лучше локалки ты себе за бесплатно не найдешь. А если хочешь хороший перевод - то плати, и лучше не гуглу, а человекам, которые тебе его еще сделают литературным.

Аноним 04/05/25 Вск 01:13:21 #417 №1188415

>>1188366
>что гугл по бесплатному апи нормальный перевод не дает
Ты долбоеб? Речь про ЛЛМ - гемини 2,5 флэш. Продолжай фантазировать про специальные ответы по апи и прочую красноглазую шизу. Жри лоКАЛ - но молча, когда ты вот так запёздываться начинаешь, прыщеблядь, не удивляйся что мимо проходящий анон тебе в рожу харкает, пингвин ебаный. Ты не в прыщеблядском разделе, так что сиди и терпи, хуйня пиздлявая.

Аноним 04/05/25 Вск 01:14:55 #418 №1188417

>>1188366
> то ничего лучше локалки ты себе за бесплатно не найдешь.
Ты цены на флеше на лям токенов видел, еблакак? Мамка на завтраки слишком мало дает? Крутить такое на локале - ноль смысла. И еще раз для тупых животных: если у флэша говно, то у джеммы - и подавно.

Аноним 04/05/25 Вск 01:55:42 #419 №1188445

>>1188415
>Речь про ЛЛМ
Которые тоже режут и отключают.
А вообще, пиздуй нахуй из треда локалок, корпоблядь. Тебе здесь не рады.

Аноним 04/05/25 Вск 02:27:34 #420 №1188467

Нет, серьезно, чем вы прям пользуетесь, запускаете каждый день на пару часов?
Мне нужен и кум и ум модели, штук 10 лежит в папочке всё не нравится.
Чувство что жизнь реально есть только на 48гб врам

Аноним 04/05/25 Вск 02:55:12 #421 №1188480

>>1188467
У меня тоже много моделей раньше было. Сейчас в папке только Snowdrop и Star-Command-R. Кроме них мне ничего не нужно (24гб врама)

Аноним 04/05/25 Вск 03:14:15 #422 №1188485

image.png

>>1188445
>Которые тоже режут и отключают.
Интернет уже отключил?

Аноним 04/05/25 Вск 03:30:01 #423 №1188499

>>1188194
Шта? Ты первое место со вторым не перпутал? Как такое возможно?

Аноним 04/05/25 Вск 04:51:00 #424 №1188517

Нахуя вы переводите? На 22Б довольно редко проебывается на русском.

Аноним 04/05/25 Вск 05:58:32 #425 №1188524

>>1188517
Скорее всего какой-то дед пытается вкатиться спустя год и пытается повторить свой старый сетап, не понимая, что уже даже в треде натренили несколько 12б сеток с готовым русиком.

Аноним 04/05/25 Вск 08:59:43 #426 №1188547

>>1188517
На сегодняшний день абсолютно у всех существующих моделей словарный запас для русика говно, даже у корпов, про локалки и речи не идет, там полный мрак. Для рабочих и справочных задач хватает хватает но чуть глубже и обсер.
Конечно если ты на столько неприхотливый что тебе хватает классического "я тебя ебу" в пяти вариациях, либо сидеть на 8-12b лоботомитах которые благодаря их мелкому размеру смогли дообучить русскоязычным датасетом, вопросов нет, но многие хотят пользоваться "актуальными" вещами.

Аноним 04/05/25 Вск 09:32:21 #427 №1188554

>>1188415
>>1188417

Умнейший анон в треде. Надеюсь, после окончания школы ты перестанешь в тред локальных моделей тащить свое корпоративное говно.

> Речь про ЛЛМ - гемини 2,5 флэш
Речь про переводы, а эту хуйню ты сюда притащил сам, обмазался и хочешь нас заставить

> Ты цены на флеше на лям токенов видел, еблакак?
Нет, и нахуй мне это надо?

Или проецируй свои комплесы в /psy/

Аноним 04/05/25 Вск 10:03:17 #428 №1188572

>>1187531
> EVA qwen и умная и рп на высоте
Бампаю реквест пресета. Хвосты в аутпуте остаются, и модель лупится как уж на сковородке.

Аноним 04/05/25 Вск 10:33:13 #429 №1188583

1746343990955.jpg

>>1188572
Чел, там всё есть. Ниже прокрути страницу.

Аноним 04/05/25 Вск 11:16:19 #430 №1188601

на 32 озу и 4070tis че можно покрутить?

Аноним 04/05/25 Вск 11:18:13 #431 №1188602

>>1188583
Именно с этим пресетом и лупится. Реп пен выкручивать? Лоботомизировать модель.

Аноним 04/05/25 Вск 11:27:54 #432 №1188612

>>1188601
>на 32 озу и 4070tis че можно покрутить?
Omnino-Obscoenum-Opus-Magnum-MN-12B в шестом кванте вполне влезет с приличным контекстом.

Аноним 04/05/25 Вск 11:35:52 #433 №1188617

Че там по драйверам нвидиви? Можно обновляться уже или до сих пор на прошлогодних сидим?

Аноним 04/05/25 Вск 11:48:58 #434 №1188623

>>1188601
Попробуй вот эти две в Q4KM должно влезть 16к контекста, в IQ4S 32к контекста
https://huggingface.co/PocketDoc/Dans-PersonalityEngine-V1.2.0-24b
https://huggingface.co/ReadyArt/Forgotten-Transgression-24B-v4.1?not-for-all-audiences=true
>>1188612
Нахуя ты новичка тролишь говном лоботомитом 12b? Еще и старым. Пошел нахуй
>>1188617
Да, сидим на декабрьским. Драйвера все еще говно, видимо все силы куртки ушли на ии

Аноним 04/05/25 Вск 11:58:50 #435 №1188625

>>1188499
По соотношению качество / размер и скорость победила 1b.
Это был поиск быстрого и легкого оффлайн перевода на замену стандартному гугловскому в таверне. Он хуевый, поэтому даже 1b переводит лучше.

Если состовлять топ по качеству перевода моделей то там и и 12b гемму можно было впихнуть и 27b, ну или как советовал говноед пользоваться всякими копросетками

Аноним 04/05/25 Вск 12:03:55 #436 №1188627

Господа аноны, поясните мне имеет смысл к моей 3090 цеплять еще 3070ti? И возможно ли на конфиге?
Asus TUF B450M-Pro Gaming
750 киловатник, с учетом андервольтинга.

Аноним 04/05/25 Вск 12:12:33 #437 №1188631

До появления в жизни ллмок я был дединсайдиком, который живет жизнь ото дня ко дню, не задумываясь.
Теперь я хочу зарабатывать больше, чтобы собрать себе риг для запуска жирных моделей.
Это побуждает меня к поиску лучшей работы и самосовершенствованию.

А вы думали, это всего лишь кум?
Через пару лет соберу сервер риг, а там и модели ебейшие уже будут совсем.

Аноним 04/05/25 Вск 12:17:11 #438 №1188632

image.png

>>1187531
>>1188572
>>1188602

Я от сноудропа тупо взял полный набор настроек и промптов. Вот скрин на 12к использованного контекста - залупов нет.
https://files.catbox.moe/b6nwbc.json - это подключить через Master Import в Advanced Settings

Аноним 04/05/25 Вск 12:22:42 #439 №1188635

>>1188627
>Господа аноны, поясните мне имеет смысл к моей 3090 цеплять еще 3070ti?

Не имеет. Еще полгода назад я бы сказал что имеет, так как тогда было чем больше врам - тем лучше. Сейчас после 32B лучшие модели начинаются только на 200B+, так что забей. Ну разве что контекста чуть больше вместить на 32В моделях и чуть лучше квант.

Аноним 04/05/25 Вск 12:26:06 #440 №1188636

>>1188631
>Через пару лет соберу сервер риг, а там и модели ебейшие уже будут совсем.

Сейчас самая лучшая опенсорс модель всего процентов на десять лучше квена 32B, который помещается на жалкой 3090B которая жалкие 70к стоит. Овчинка выделки не стоит.

Аноним 04/05/25 Вск 12:27:08 #441 №1188638

>>1188636
Дипсик на 10% лучше Квена 32В? Понял, держи в курсе.

Аноним 04/05/25 Вск 12:37:53 #442 №1188641

гемма 3 кал сырок...

Аноним 04/05/25 Вск 12:38:37 #443 №1188642

>>1188641
Срыг в аицг, откуда и вылез.

Аноним 04/05/25 Вск 12:39:49 #444 №1188643

image.png

>>1188638

Дипсик даже меньше.
10% - это разница с Qwen 235B который сейчас самая топовая локальная модель.

Аноним 04/05/25 Вск 12:43:12 #445 №1188645

>>1188623
>Попробуй вот эти две
Ну я попробовал. Прикола не понял. Ладно русский хуже, чем на Сайга-базед, но они не то, чтобы умнее и не то, чтобы развратнее. А если нужен русский кум, то и вовсе говно.

Аноним 04/05/25 Вск 12:45:23 #446 №1188646

>>1188643
>10% - это разница с Qwen 235B который сейчас самая топовая локальная модель.
Насчёт локальной это ты малость погорячился. Если целиком во врам не влазит, то наступает жопа. Количество врам сам прикинь.

Аноним 04/05/25 Вск 12:48:04 #447 №1188647

>>1188643
Ты правда не понимаешь что ли? Ты взглянул на бенчмарк, который исследует определенные задачи и выдаешь его результат за действительность?
Да будет тебе известно, что содержимое бенчмарков уже давно известно тем, кто создает модели. Модели "натаскивают" на определенные задачи, чтобы они были в топе бенчмарков. Это называется бенчмаксинг. Те, кто хоть немного понимают, давно уже в курсе, что доверять бенчмаркам нельзя. Более того, даже если модели сопоставимы в вопросах кодинга (что по-прежнему маловероятно), большие модели физически содержат больше различной информации. Это чрезвычайно важно для рп задач и не только для них.

Мда. Вроде тут заинтересованные люди сидеть должны? Неужели такое объяснять надо?

Аноним 04/05/25 Вск 12:53:47 #448 №1188648

>>1188645
> русский кум
это не лечится

Аноним 04/05/25 Вск 12:55:16 #449 №1188649

>>1188647
>Да будет тебе известно, что содержимое бенчмарков уже давно известно тем, кто создает модели. Модели "натаскивают" на определенные задачи, чтобы они были в топе бенчмарков.

Ты услышал аргумент и вопроизводишь его, даже не подвергая осмыслению.
Поначалу, когда еще не все модели натаскивались на тесты - твой аргумент имел смысл, сейчас когда реально одинаково натасканы все модели по умолчанию, то топ как раз актуален, потому что различие между моделями реально определяется только их внутренним настоящим качеством.

Аноним 04/05/25 Вск 12:57:06 #450 №1188650

>>1188643
>мое ризонинг
Комбо говноедской сетки.

Аноним 04/05/25 Вск 13:00:00 #451 №1188652

>>1188646
>Насчёт локальной это ты малость погорячился. Если целиком во врам не влазит, то наступает жопа. Количество врам сам прикинь.

Что ты несешь-то вообще. Модель считается локальной, если её веса лежат в открытом доступе.
Понимаю что как маркетологу опенроутера тебе неприятно, но не пойти бы тебе нахуй в корпотред прогревать тамошних нищенок?

Аноним 04/05/25 Вск 13:02:34 #452 №1188653

>>1188649
Ты упустил мысль, которую я вкладывал в свое сообщение. Даже если бенчмарк верен, он не позволяет нам судить о "качестве" модели и ставить одну выше другой. Он позволяет нам сравнивать их в определенных областях, которые покрываются бенчмарком. Если у нас будут две сетки - 32b и 235b, которые в рамках бенчмарков сопоставимы, последняя ввиду большего размера будет обладать большим количеством знаний. Что важно для рп и других креативных задач.

Аноним 04/05/25 Вск 13:07:18 #453 №1188657

>>1188643
Как же легка жизнь когда веришь бенчмаркам и не копаешь глубже

Аноним 04/05/25 Вск 13:13:00 #454 №1188659

>>1188627
Однозначно, сможешь катать свежие модели в хорошем кванте и с норм контекстом, 32гига в сумме как раз.
>>1188635
Коупинг обладателя отсутствия настолько силен, что он потерял нить логики и сам себя обоссал.
>>1188643
> топовая
Значение знаешь? Буквально как >>1188650 написал, суета ради суеты.

Аноним 04/05/25 Вск 13:13:13 #455 №1188660

>>1188653
>Если у нас будут две сетки - 32b и 235b, которые в рамках бенчмарков сопоставимы, последняя ввиду большего размера будет обладать большим количеством знаний.

А ты модель используешь как справочник вместо того чтобы погуглить? Кстати, в таверне можно дать разрешить модели гуглить чтобы компенсировать недостаток знаний.

Аноним 04/05/25 Вск 13:20:30 #456 №1188666

>>1188659
>Однозначно, сможешь катать свежие модели в хорошем кванте и с норм контекстом

Стоит ли запуск qwen_32B_5_K_L c 32к контекстом вместо qwen_32B_4_K_S с 32к контекстом если для этого надо из обычного пека городить риг с дополнительным охлаждением?

Аноним 04/05/25 Вск 13:20:39 #457 №1188667

>>1188660
> А ты модель используешь как справочник вместо того чтобы погуглить?
Нет. Но чем больше знаний у модели - тем меньше галлюцинаций в рп и креативных задачах. В этом и смысл больших моделей для таких задач.

Аноним 04/05/25 Вск 13:31:52 #458 №1188675

>>1188666
А, прочел что у него 3070ти основной, пардон. Если карточка на руках то все равно стоит, 8 гигов это существенно, можно найти оптимальную комбинацию с контекстом побольше, а та карта мелкая и разместить ее будет легко. Если покупать - нет смысла, тут только вторую-третью 3090.
>>1188667
Всегда есть нюанс, если бы речь шла о плотных моделях, то большая, даже более старая, могла бы в рп дать жару. А когда тут мое с малым числом активных, интенсивно надроченная на ризонинг - теорема эскобара, в базе они не работают нормально в рп как не извращайся.
Насчет квена хз, может модель и неплоха.

Аноним 04/05/25 Вск 13:35:14 #459 №1188677

>>1188667

Для РП, как и для других задач важно не количество знаний, а их качество. Потому люди и используют файнтьюны мелких сеток вместо чистых сеток гораздо большего размера. Какой толк в том что в дипсик залили все экселевские таблицы в интернете, если это только размывает его знания ненужным дерьмом?

Аноним 04/05/25 Вск 13:37:08 #460 №1188679

>>1188677
Иди нахуй. Ничего тебе отвечать не буду уже, ты читаешь через строку и не понимаешь, что тебе пишут.
> уточняешь, что модели одинаково хорошо себя показывают в задачах
> но одна модель больше другой по количеству параметров, поэтому знает больше
> "вообще-то важно качество знаний тоже"
Либо читаешь невнимательно, либо нихуя не понимаешь в сабже. В любом случае нахуй.

Аноним 04/05/25 Вск 13:38:01 #461 №1188681

image.png

>>1188666
>Стоит ли запуск qwen_32B_5_K_L c 32к контекстом вместо qwen_32B_4_K_S с 32к контекстом
Да, стоит Q5KL намного пизже чем Q4KS
> если для этого надо из обычного пека городить ри
Нет, для этого достаточно купить 32гб врам видюху. Причем тебе даже контекст не надо будет квантовать, а если поквантуешь Q8, то можно уже впихнуть Q6K c 48к
Цена вопроса 220 (190 если у серых) АМД и 300 (270) Нвидиа.
Не говоря о том, что 90к это две новые 4060ti и они пиздец какие холодные и нежрущие, назвать ригом сборку с двумя этими картами язык не поворачивается

Аноним 04/05/25 Вск 13:38:15 #462 №1188682

>>1188679

В любом случае - иди нахуй со своим опенроутером в тред корпосеток.

Аноним 04/05/25 Вск 13:39:20 #463 №1188683

Как же цидония-магнум охуенно пишет, жаль пресет семплеров не оставили суки.

Аноним 04/05/25 Вск 13:40:41 #464 №1188685

>>1188682
Я другой анон и ничего про корпосетки не писал. Я буквально писал, что хочу собрать риг для локалок. Ты настолько долбаеб, что забыл, на какое сообщение отвечал? В голос бля.

>>1188683
Одна из базированных кум моделей до 24б.

Аноним 04/05/25 Вск 13:41:08 #465 №1188686

>>1188681
>Нет, для этого достаточно купить 32гб врам видюху. Причем тебе даже контекст не надо будет квантовать, а если поквантуешь Q8, то можно уже впихнуть Q6K c 48к
>Цена вопроса 220 (190 если у серых) АМД и 300 (270) Нвидиа.
>Не говоря о том, что 90к это две новые 4060ti и они пиздец какие холодные и нежрущие, назвать ригом сборку с двумя этими картами язык не поворачивается

Вопрос в том, стоит ли городить связку 3090 с 3070ti, а не в том что стоит ли собирать с нуля сборку на 32гб.

Аноним 04/05/25 Вск 13:44:46 #466 №1188689

>>1188686
Я не ебу стоит тебе или не стоит. Посмотри по ценам. Если просто вставить и не надо пересобирать комп, то да. Если надо все пересобирать, то можно продать 3090 посмотреть на новые карты. Посмотри что тебе выгоднее. Но помни что ЛЛМ всегда найдет, как сожрать весь твой врам и ему всегда будет мало, поэтому чем больше тем лучше

Аноним 04/05/25 Вск 13:45:23 #467 №1188690

>>1188685
>Я другой анон и ничего про корпосетки не писал.

Если ты не опенроутерошиз - тогда прошу прощения. Твое копротивление за могущество дипсика напомнило его.

Аноним 04/05/25 Вск 13:45:44 #468 №1188692

>>1188677
> Потому люди и используют файнтьюны мелких сеток вместо чистых сеток гораздо большего размера.
Потому что то что больше у них не помещается, или не могут освоить простой промтинг, из-за чего нуждаются в лоботомирующих костылях. Там что не пиши - получишь родной клодослоп.
Конкретно у дипсика проблема в тренировке на ризонинг под бенчмарки. Это позволяет чуть точнее решать бесполезную хуету типа подсчета количества букв и детских загадок чтобы впечатлять нормисов, иногда действительно может помочь, а в других кейсах наоборот руинит выдачу.
А без ризонинга дипсик не то чтобы далеко от qwq (тоже без него) уходит.
>>1188681
> Цена вопроса 220 (190 если у серых) АМД
Интересно было бы глянуть ее перфоманс. Но 256бит gddr6 это, конечно, довольно печально за такую сумму.
> что 90к это две новые 4060ti
Чуть добавить и будет 5060ти