Комментарии / Профиль Theta-Lev / Хабр

Пользователь

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

Qwen 3 вышла год назад, за это время локальные нейросеть двинулись далеко вперёд и сейчас активно используется Qwen 3.5-3.6. Llama 4 вышла год назад и даже на английском на момент выхода была значительно хуже своих аналогов (включая Qwen 3). Открытая яндексовская нейросеть вообще несопоставима сейчас ни с чем, так как это дообученный китаец, судя по тестам сообщества.

Даже если брать то время и ограничения (модели, вышедшие не позднее весны 2025) — где мегапопулярная Гемма 3, использующая свой токенизатор и отлично поддерживающая русский язык?

Так что реально статья будто бы должна была выйти месяцев девять назад, причём тогда бы она всё равно была бы неполна

Запрещённая математика в твоём autograd: бесконечно малые, дуальные числа и нестандартный анализ

Theta-Lev 3 мая в 05:50

Ну и далее всё тоже довольно нескладно. Само описание нестандартного анализа нормальное, дульные числа тоже неплохо введены, но предложения по применению прям хромают: от использования дуальных чисел для вычисления производной нет никакого толка, ведь в предложенном примере (как были введены дуальные и заданы производные для них) спокойно можно ввести автоматизацию для взятия точной производной. В реальности же разностные схемы существуют, так как все реальные физические данные приходят с шумом, точных вычислений с числами с плавающей точкой нет, да и функции зачастую не какие-то простые, композиция элементарных, а со спецфункциями или вообще какие-то интегральные монстры. Дискретные модели вообще не особо пользуются свойствами из анализа (стандартного или нестандартного), у них там свой дискретный анализ присутствует. Ну а приплетение парадокса Банаха-Тарского, который вообще не связан никак с анализом, а есть следствие очень неоднозначной аксиоматики

Как итог, единственную причину в целом изучать нестандартный анализ, тут автор не указал: нестандартный анализ более интуитивен. Почти все следствия анализа в нестандартном получаются проще и несколько более наглядно, большинство исследователей отмечают лучшую заинтересованность студентов при изучении, и прочие подобные выводы

Запрещённая математика в твоём autograd: бесконечно малые, дуальные числа и нестандартный анализ

Theta-Lev 3 мая в 05:27

Довольно небрежное описание введения, которое портит впечатление от дальнейшего прочтения: любой математик, дай ему

$\delta Q = dU + \delta A$

будет говорить не про полные/неполные дифференциалы, а про вполне хорошо определённые дифференциальные формы и их замкнутость и точность. И тогда там будет не интегрирование, а гомологические свойства, и это как раз будет тем самым внутренним свойством, которое и разделяет использование физиками разных символов. Для математиков это разные по свойствам объекты

Свой ИИ без облаков: практический гайд по llama.cpp + Qwen

Theta-Lev 4 апр в 06:48

О, наконец-то статья о llama.cpp; большинство туториалов останавливаются на куцых lm studio или ollama, не трогая исходное ядро для инференса

Локальные LLM модели: обзор и тестирование

Theta-Lev 19 сен 2025 в 12:16

Есть способ сборки llama.cpp на андроид (например, по инструкции отсюда: https://www.reddit.com/r/LocalLLaMA/comments/1moabey/comment/n8ccxt8/?utm_source=share&utm_medium=mweb3x&utm_name=mweb3xcss&utm_term=1&utm_content=share_button), и в целом это будет отлично работать, но учитывайте, что на телефонах очень небольшие RAM и многие модели придется сильно квантифицировать (уменьшать точность весов, облегчая модель и уменьшая качество работы) либо выбирать очень небольшие модели. Мне удавалось использовать максимум 7b модели в квантификациях q5_k_l (то есть веса используют 5 бит, кроме входных и выходных, которые используют 8 бит), оптимально использовать 4b модели типа той же gemma, которую упоминали в статье

А, ну и у gemma3 даже у 4b модели есть возможность мультимодальности (а именно, она может принимать в качестве запроса ещё и картинки), правда локально на планшете запускать и мультимодалки что-то очень долго

Топ самых реалистичных генераторов изображений: сравниваем DALL·E 3, Midjourney, FLUX и Stable Diffusion

Theta-Lev 12 апр 2025 в 19:00

Что-то прям совсем плохое сравнение. Почему у Flux нет в качестве плюсов той же кастомизации, что у SD, учитывая, что на том же CivitAI сейчас огромный ажиотаж на обучение файнтюнов и лор для этой модели? Почему не указан, какой SD анализируется и на какой получен результат (SD 3.5 — современный неказистый максимум, но все поголовно пользуются 1.5, XL и Pony)

Вышла Qwen QwQ 32B — размышляющая модель, сопоставимая с DeepSeek R1 и o1-mini

Theta-Lev 10 мар 2025 в 18:12

Попробуйте qwen 2.5 coder 7-14B: https://github.com/QwenLM/Qwen2.5-Coder, возможно квантованную в Q8 или Q5_K_L, у меня на похожем железе и на похожих нагрузках модели работают и выдают по 7.5-8 токенов в секунду (это может отличаться в зависимости от процессора или видеокарты, если на ней будете часть слоёв хранить)

Вышла Qwen QwQ 32B — размышляющая модель, сопоставимая с DeepSeek R1 и o1-mini

Theta-Lev 10 мар 2025 в 18:06

В большинстве интерфейсов для локального инференса моделей (то есть для локальной работы) это делается в настройках. В разнообразных веб-вариантах надо разбираться на месте

У вас новый ремонт? Лучше! Рисунок нового ремонта. Как мы из Stable Diffusion сделали дизайнера интерьеров

Theta-Lev 11 июл 2024 в 06:40

Классная работа проделана, итоги по отзывам и использованию впечатляют

Если будете в будущем какие-то ещё проекты на SD делать, попробуйте инструмент HiDiffusion: https://hidiffusion.github.io/

Фактически это надстройка над SD, меняющая некоторые внутренние операции нейросети, позволяющая использовать её для разрешений бо́льших, чем обучающий датасет. Я спокойно с HiDiffusion генерирую на 1.5 изображения 1920×1080 локально, бо́льших размеров мне скорее железо не позволяет в разумное время генерировать результат. А использовать SD 1.5 сильно удобнее из-за того, что его всё ещё активно файнтюнят под разные задачи и эту модель сильно проще обучать по времени

Stability AI: Восставшие из мертвых — Stable Diffusion 3 получает второй шанс с обновлением лицензии

Theta-Lev 10 июл 2024 в 23:15

Ну, с изменением лицензии всё остальное станет делом времени. Просто любой файнтюнер SD3 не решился бы с исходной лицензией выложить в открытую свою доработку модели, так как если сторонний человек попробовал бы на этом заработать и StabilityAI об этом бы узнала — автору файнтюна бы грозили серьезные штрафы и суд. А с изменением лицензии сейчас начнут дорабатывать модель

Что только заставляло StabilityAI так долго идти до такого решения...

Четыре основных аксиомы философии

Theta-Lev 1 сен 2023 в 10:39

Автор, хоть и философ, но логику всё-таки позабыл вероятно:

В начале раздела "Философия как наука" автор пишет „А уж то верны ли эти аксиомы или нет, будет следовать из соответствия выводимых из них положений наблюдениям, фактам.“. Есть проблема с этим суждением, а именно противоречие с классическим определением импликации. По нему из ложного утверждения может следовать любое утверждение: ложное или истинное, причем истинность следуемого утверждения непроверяема в таком случае.

Вообще каждый раз, вводя аксиоматику, требуется проверять её на соответствие предмету и непротиворечивость, а истинность отдельных аксиом считается (именно что считается в рамках этой аксиоматики) очевидной и не нуждается в обсуждении. Ну и в физике аксиоматика определяется именно из фактов и наблюдений, а не наоборот: например, одной из современных аксиом считается работоспособность всех "законов физики" в любой точке пространства-времени в том формате, в котором эти законы должны применяться. Это утверждение недоказуемо физически (просто потому, что у нас нет возможности изучать это утверждение в прошлом для всех точек пространства, равно как и скорее всего не получится удостовериться в этом в будущем во многих областях, которые нам станут просто недоступными из-за расширения вселенной), но учёными получилось его проверить и научное сообщество считает его истинность высоковероятной. Ваша же аксиоматика, в силу своей специфики, вообще не может быть проверена, потому её применимость к физике под большим вопросом

Как я понял, эта статья является первой в серии, потому вопрос "в догонку": а какова практическая польза этого подхода к физике? Он описывает какие-то новые эффекты, которые можно проверить? Он объясняет эффекты, которые современными теориями не объясняются? Уточняют какие-то результаты или объясняют различия между теорией и экспериментом?