Comments / Profile of ratatosk / Habr

How to become an author

Дмитрий Бабаев @ratatosk

Machine Learning Practitioner

ProfileArticles2PostsNewsComments44

Как мы обучали модели для кода GigaCode

ratatosk Aug 13 at 21:53

Для правил не до конца понимаю как это поможет без добавления их в контекст. Но думаю можно сделать открытый репо для сбора задач, которые потом пойдут в SFT модели.

Как мы обучали модели для кода GigaCode

ratatosk Aug 12 at 20:09

Агентный режим будет в теории смотреть на все файлы проекта, + будет брать дополнительные инструкции из AGENTS.md или аналогичного файла. Размер контекстного окна тоже планируем увеличивать со временем, думаю в агентном режиме 128К получится поддержать. Но этого всего не обязательно хватит если в этом JSON какая то очень необычная логика.

Еще если этот формат JSON для UI сколь нибудь распространен, то можно что то придумать по добавлению специальной синтетики в претрейн или посттрейн, но это уже гораздо более сложная история.

Как мы обучали модели для кода GigaCode

ratatosk Aug 12 at 12:52

Хотим агентный режим до конца этого года сделать. Про приоритет на запросы не уверен что могу что то определенное сказать, я больше про вещи связанные с ML и LLM.

Как мы обучали модели для кода GigaCode

ratatosk Aug 11 at 14:56

Какую то поддержку MCP в плагинах IDE коллеги наверное уже скоро смогут сделать, но насколько она будет полезна - другой вопрос. Сначала логично сделать релиз агентного режима работы, что я думаю произойдет в этом году. Тогда возможно пригодится и поддержка MCP тулов.

Как мы обучали модели для кода GigaCode

ratatosk Aug 11 at 12:11

Это совсем свежая модель, еще не успели с ней сравниться. Интересно будет посмотреть на результаты. Важный момент в том, что эта модель все же больше на чат а не комплишн задачи ориентирована.

Как мы обучали модели для кода GigaCode

ratatosk Aug 10 at 10:43

Я думаю мы в какой то момент сделаем поддержку использования моделей по API, без плагинов. Это логичный путь развития. Плюс мы планируем некоторые модели публиковать в open-source, их можно будет развернуть на собственном железе.

Как мы обучали модели для кода GigaCode

ratatosk Aug 9 at 17:14

Тут сложно что то кратко сказать, есть аргументы и за то что правильная конфигурация должна появится сама в процессе обучения, например, как пишет в Саттон в bitter lesson. Но, часто, на практике, специализированное решение побеждает общее.

Как мы обучали модели для кода GigaCode

ratatosk Aug 9 at 10:06

То что плагин не умеет из чата код в файл вставлять это да, наша большая недоработка(. Но у нас тут большие планы по улучшению и доработке UI, в том числе, хотим добавить inline edits и качественную интеграцию чата с кодом. И собираемся достаточно скоро сделать в плагинах агентный режим работы с кодом.

Как мы обучали модели для кода GigaCode

ratatosk Aug 8 at 19:14

У нас сейчас чат модель поддерживает 32K на все входные токены + ответ. Пока что 38K не влезет. Планируем в будущем расширить контекст до 256K.

Как полюбить математику и подружиться с ней на всю жизнь, если ты уже не школьник

ratatosk Apr 3 at 18:22

Из материалов на английском есть еще по теорверу очень доступный курс https://projects.iq.harvard.edu/stat110

И еще книги Kalid Azad https://betterexplained.com/ очень хорошо подходят для начального погружения в математику

Встречаем YandexGPT 5 — в Алисе, облаке и опенсорсе

ratatosk Feb 25 at 21:10

Интересно, а чтобы стартовать с весов Квена, взяли его токенизатор? Или как то придумали как их использовать со своим токенизатором?

Статья очень интересная, много классных идей! Вот бы еще репорт в формате ресерч статьи.

Тест-драйв PyTorch 2.0 и заглядываем под капот «двушки»

ratatosk Dec 28 2024 at 19:34

Triton — это новый язык программирования, который обеспечивает гораздо более высокую производительность, чем CUDA

Triton это не язык программирования, а сервер для инференса и работает он поверх CUDA

Логика сознания. Часть 12. Поиск закономерностей. Комбинаторное пространство

ratatosk Feb 28 2023 at 18:09

На завершающем этапе применяется идея бустинга. Решающие деревья формируют комитет для голосования. На основании коллективного мнения создается наиболее правдоподобный ответ. Главное достоинство бустинга – это возможность при объединении множества «плохих» алгоритмов (результат которых лишь немного лучше случайного) получить сколь угодно «хороший» итоговый результат.

Возможно речь все-таки не о бустинге а о бэггинге?

Владелец Tesla Model Y рассказал, что у электромобиля спустя 5 дней после покупки отвалился руль прямо на трассе

ratatosk Feb 2 2023 at 16:19

Автопилот решил отбросить руль чтобы кожаный не мешал

Война ML фреймворков, русский стартап потеснит запад

ratatosk Dec 22 2022 at 19:28

Pied Piper?

Фронты третьей мировой: ARM China

ratatosk Sep 24 2022 at 12:43

Довольно забавно, что в вашем комментарии можно заменить слово китаец, на слово русский, и, он останется, во многом, верным. Тем не менее, мы находимся там где мы сейчас.

Кто за всех решил, что python удобен для «гражданской» аналитики?

ratatosk Jun 8 2022 at 15:36

Люди, работающие с R, должны знать статистику, а люди, знающие статистику, должны знать, что то, чем вы занимаетесь в этой статье называется систематической ошибкой отбора.

Вы отобрали примеры, когда R лучше Python, проигнорировав случаи где все наоборот, и, никак не учли актуальность ваших примеров.

Приведу только один пример, который для меня является решающим в выборе R vs Python. 99% нейросетевого коммюнити использует Python, и, работая с R, исследователь оказывается в изоляции, не может использовать код из свежих (и не очень свежих) статей, и, имеет огромные проблемы при взаимодействии с коллегами.

С 13 апреля GitHub начал блокировать аккаунты российских компаний и разработчиков

ratatosk Apr 15 2022 at 14:26

У меня у нескольких коллег из Сбера заблочили

Сбер открыл бесплатный доступ к инструменту подготовки датасетов

ratatosk Feb 8 2022 at 15:27

Так как код выложен под лицензией Apache патенты никак не ограничивают.

Contributors provide an express grant of patent rights. См. раздел 3. Grant of Patent License. в лицензии Apache.

Вселенная Стивена Вольфрама

ratatosk Feb 6 2022 at 20:08

Описанное в статье очень похоже на идеи математической вселенной Тегмарка https://en.wikipedia.org/wiki/Our_Mathematical_Universe

1