All streams
Search
Write a publication
Pull to refresh
22
1
Ибрагим Бадертдинов @Ibragim_bad

Machine Learning Engineer

Send message

40 млн GitHub-репозиториев: открытый датасет метаданных для анализа и обучения

Level of difficultyEasy
Reading time4 min
Views2.1K

Я собрал датасет метаданных по ~40 млн публичных репозиториев GitHub. Внутри — звёзды, форки, лицензии, язык, описание, размер, дата создания и др. Схема по смыслу максимально совместима с GH Archive/GitHub API. Лицензия — MIT. Ниже — как скачать, что внутри и идеи использования.

Датасет: ibragim-bad/github-repos-metadata-40M

Читать далее

Tutorial: Как установить Copilot и использовать его эффективно

Level of difficultyEasy
Reading time5 min
Views161K

Copilot – система автодополнения кода от GitHub на основе модели Codex.
В статье даю советы по эффективному использованию Copilot на основе 6 месяцев личного опыта. Также добавил инструкцию по установке из России.

Tldr: Copilot подходит для повторяющихся задач и как замена поиску по документации популярных библиотек. Помогает быстрее писать код. Не подходит для решения узких сложных задач и проектов с нуля. 

Читать далее

Как AI помогает в изучении английского? Личный опыт

Reading time5 min
Views28K

В начале года я решил поменять работу и начал готовиться к собеседованиям. Понял, что мне нужно подтягивать английский, так как после звонка с hr меня бросало в холодный пот. В конце подготовки, я уже спокойно проходил собеседования на английском языке. В статье будут: план подготовки, виды упражнений, инструменты, которыми пользовался.

Читать далее

Как я начал заниматься стендапом, посвятил этому 100 часов, получил друзей, тусовку и 10 новых скиллов

Reading time8 min
Views6.5K

Днем я пишу код, а вечером хожу на открытые микрофоны и выступаю со стендапом. Когда увидел, что посвятил стендапу 100 часов, я решил написать этот текст.
TLDR:
+ прокачал публичные выступления
+ познакомился с классными людьми
+ начал проще относиться к сложностям

Погнали

Как устроен процесс найма и собеседований на позицию Machine Learning Engineer

Reading time5 min
Views26K

Это статья с 21-ой ссылкой о подготовке к собеседованиям. Я собеседовался на позиции Machine Learning Engineer.

Разобрал основные этапы (алгоритмы, machine learning system design, поведенческий этап) и как к ним готовиться.

Читать далее

Кейсы применения ChatGPT для задач программиста

Reading time3 min
Views37K

Разберем 7 примеров использования ChatGPT, которые могут помочь программисту. Также посмотрим, как хорошо она умеет писать код. В статье выжимка из популярных тредов твиттера и блог-постов, чтобы вы могли не тратить время на их чтение.

Читать далее

Как я закончил «Школу 21» и вкатился в машинное обучение после медицинского вуза

Reading time6 min
Views37K

Все об обучении в «Школе 21» из собственного опыта. Что я вынес за эти три года и как нашёл работу. В конце поделюсь полезными ссылками и советами, если кто-то захочет повторить этот путь.

TLDR: я прошел Школу 21, научился там кодить и нашел первую работу.

Читать далее

Как мы анализируем предпочтения пользователей виртуальных ассистентов Салют

Reading time9 min
Views3K
Приветствую всех! Меня зовут Ибрагим, я работаю в SberDevices и занимаюсь машинным обучением. Сегодня я расскажу о том, как мы находим и анализируем интересы и предпочтения пользователей наших виртуальных ассистентов Салют.

Также поделюсь видео с моего недавнего выступления на онлайн-конференции «Применение ML в Digital-продуктах», которую проводили коллеги из AGIMA и Epoch8.


В этом посте мы разберём следующее:

  • где можно искать данные, если для задачи нет готового датасета; 
  • как можно быстро и дёшево увеличить размер своего датасета;
  • как использовать кластеризацию сырых данных;
  • какие есть методы улучшения качества датасета после разметки.

Вступление


Работая над виртуальными ассистентами, нам часто необходимо обучать специфические модели-классификаторы, которые решают свою узкую задачу. У таких задач есть несколько особенностей:

  • отсутствие готовых датасетов;
  • отсутствие чёткой структуры классов, на которые можно разделить данные;
  • наличие сырых логов, в которых могут быть интересующие нас данные;
  • сильный дисбаланс классов, где самый многочисленный класс – это класс нерелевантной информации.

Для решения подобных задач, мы выработали определенный пайплайн – последовательность шагов, которая позволяет быстро и дёшево обучить нужную модель. Ниже рассмотрим процесс обучения модели для классификации интересов пользователей.

Information

Rating
1,578-th
Location
Москва, Москва и Московская обл., Россия
Registered
Activity