Comments / Profile of fishan / Habr

User

Что делает shuffle=True и как не сломать порядок

Хорошая статья для начинающих, годная. Начинал так же. сейчас не шейкаю вообще ничего встроенными инструментами. К подготовке обучающих данных стал подходить скрупулезно, споткнулся несколько раз, теперь это отдельное направление. Стратифицирую все ручками, сначала исследуем подопечного, потом разделяю скриптами написанными специально для данных с полным логом, потом еще проверка уже подготовленных данных. К слову датасеты разделяю на файлы обучения, валидации и тестовые, к тестовым данным подпускаю только изолированную модель, что бы сравнивать с валидацией, через несколько эпох, для контроля заучивания теста и валидации. При создании датасетов использую практически всегда RobustScaler и делаю клипинг квентилями. Данные сортирую по выборкам с пристальным вниманием, что бы во все выборки попали одинаково наборы данных, исключительные моменты, принудительно отправляются в обучающую выборку. Разделение данных во время обучения как по мне плохая практика, нет контроля качества данных. Временные ряды так же можно разделять на логические фрагменты. например, разделение на недели часто подходит.

Look

Нейрошиза: как мы потеряли голову из-за искусственного интеллекта

fishan May 29 at 14:40

выглядит как крик обиженного программера старой закалки, когда он часами рожает функцию или метод, пыхтит и переписывает по несколько раз, когда для него цель это кодить с умным видом и не подходите к нему, он так привык годами, а если что не складывается, то бороздит часами stack overflow. и создает топики, знает сторожил не только по никам, а по настоящим именам и тут о горе горькое, хлебушек отняли, народ отваливается, его перестали почитать и приклоняться. не можешь адаптироваться считай списан. толи специально писал, что бы все поняли, то ли от того что не шарит, не понял, но уклон на чат жопити при впйбкодинге повеселило. сам он может и не пробовал, но жопити это адская пытка, он может только что то посоветовать подправить, но давать емучто то писать даже не представляю такие ситуации для себя. да и ии использовать можно по разному, я к примеру считаю, что лычшее для крупных проектов это Gemini от гугла конечно платная версия. сначала можно дать ему провести исследование по вопросу, потом на основе отчета, а то и нескольких исследований, которые на секундочку по 60 листов со ссылками на чем основано исследование, составляешь им же план реализации. скармливаешь этот план и папку с кодом, который пишешь вместе с ним новым чатам, в моменты начала галюценирования и продолжаешь пилить. работа сводится к контролю за реализацией. к слову мне 48, кодить еще с бейсика на zx spectrum в 12 лет начал. у самого it контора небольшая, занимаюсь iot для сельского хозяйства. так что чем для меня как руководителя хорошо, я могу сам без помошников закрыть многие орг работы, остальным остаеться следовать разработанным инструкциям. разработка превратилась в развлечение.

Look

Исследование Anthropic: AI-модели скрывают свои настоящие мыслительные процессы даже при пошаговых объяснениях

fishan Apr 7 at 11:56

не надо людей в заблуждение вводить, описывая многослойный перцептрон в современной реализации, сейчас таких псевдо МоЕ расплодилось много, это попытка использование существующих сетей на новый лад, да что собственно, читайте https://habr.com/ru/articles/882948/

Look

Исследование Anthropic: AI-модели скрывают свои настоящие мыслительные процессы даже при пошаговых объяснениях

fishan Apr 6 at 15:33

это ты приводишь описание dense модели, где все пропускается по слоям и сгенерированные токены снова добавляются к токенам embedinga в первый слой и модель гоняет их по кругу с учетом контекста, пока слои внимания не прекратят рефлексировать положительно или не ограничены контекстным окном. но сейчас другая архитектура пришла, микс экспертов, где он в процессе ответа сам себя перепроверяет и отслеживает, разбивает вопрос на смысловые нагрузки. то есть по сути этот микс экспертов внутреннего диалога приходит к мнению, а через него формулирует ответ. то есть модель не гоняет по кругу как в денс моделях, там нет слоев, вернее экспертов можно сравнить с отделами в библиотеке. в зависимости от модели и настройках активны одновременно несколько экспертов этим заведует обученная небольшая нейронка, которая выбирает экспертов по признакам. типа если задача об архитектуре, то будут зайдействованы эксперты, которые с этим связаны, остальные не задействованы.

Look

Выбор локальной LLM модели. Публикация на сайт с чатом

fishan Mar 20 at 13:49

не понятно какие llama модели запускались, видимо самые кастрированные дистилированные с квантизацией в 2 на бита и какие настройки были у моделей. так как такие ответы, где в перемешку русский с другими я там встречал. модель.

Look

Запускаем DeepSeek-R1 на обычном сервере с 768Гб ОЗУ в LM-Studio

fishan Feb 10 at 04:57

зачем вообще VM ? да еще и полуобморочный виндовс, смех. из нормального сервера калькулятор получился.

Look