Машинное обучение *

Основа искусственного интеллекта

Статьи Посты Новости Авторы Компании

AlexandraPurgina 26 мар в 11:32

Нужен ли продакт в ML-команде? Мнение изнутри

Простой

9 мин

Блог компании Lamoda Tech Машинное обучение *Управление разработкой *Управление продуктом *Карьера в IT-индустрии

Мнение

Пять лет назад из обычного продакт-менеджмента я перешла в команду с дата-сайентистами. И весь процесс моей работы сильно изменился.

Раньше после определения потребностей пользователя я приходила к команде разработки с готовой задачей и дизайн-макетами. А после разработки забирала готовый продукт, чтобы отдать его в A/B-тест.

В ML все работает иначе. Команда включается уже на этапе исследования, погружается в бизнес-цели и техническую постановку задачи. Именно исследования занимают львиную долю времени дата-сайентистов, и только после начинается разработка.

Ну, или не начинается. Или разработка начинается, но совсем не той идеи, которая была вначале.

Я — Саша Пургина, руковожу развитием продуктов на основе данных в Lamoda Tech. В этой статье я расскажу на примере Lamoda, почему разработка ML-продуктов — это сложность и риск. И приведу примеры ошибок, когда хороший продакт в команде может увеличить шансы на успех, имея определенные знания и навыки.

Серебряной пули не ждите, но пара интересных мыслей должна найтись!

+28

grigory_froltsov 26 мар в 11:09

Борьба с энтропией в e-com. Как поддерживать актуальными данные о товарах в вечно меняющемся мире

10 мин

811

Блог компании СберМаркет Разработка под e-commerce *Машинное обучение *Управление e-commerce *Управление продуктом *

Всё течёт, всё изменяется. Особенно информация — она очень быстро устаревает. В e‑com неактуальные данные о товарах могут сильно подпортить клиентский опыт. Если удовлетворенность пользователей — важный фокус вашей работы, мне есть чем поделиться:)

Всем привет! Я Григорий Фрольцов, Product Lead машинного обучения в команде контента в СберМаркете. В этой статье я расскажу, какие «сюрпризы» могут происходить с данными об ассортименте, а также о том, с помощью каких продуктовых решений мы эти сложности решаем. Цель моей работы — добиваться максимально актуальной информации на витринах сервиса: с помощью ML и не только.

Расскажу про типовые и нетиповые проблемы. Опишу, какие инструменты используем, чтобы минимизировать рассинхрон в передаче знаний между оффлайн‑точкой и онлайн‑площадкой для торговли. Если вы аналитик или биздев в e‑com, продакт‑менеджер интернет‑магазина или работаете над эффективностью операций, точно найдёте для себя интересный инсайты.

+10

SmartEngines 26 мар в 11:00

«Чтобы достичь индустриального уровня западных стран, нужно поставить конкретную задачу. Ее никто никому не ставит»

Простой

27 мин

9.7K

Блог компании Smart Engines Машинное обучение *История IT Искусственный интеллект Логические игры

Интервью

«Анекдот, характеризующий наш промышленный подход: если индусу поставить задачу через месяц что‑то сделать, то через месяц он принесет идиотскую программу, которая будет плохо работать. А если русскому математику поставить аналогичную задачу — через месяц сделать программу, примерно через 25 дней он пришлет сообщение, что задача поставлена неправильно и ее надо ставить совершенно по‑другому». О чем это мы? Через призму юмора и науки говорим о нейронных сетях, искусственном интеллекте, приводя лишь отрывок из нового выпуска подкаста «Синий экран смерти». В программе принял участие Владимир Львович Арлазаров — советский и российский ученый, доктор технических наук, член‑корреспондент РАН, директор по науке Smart Engines.

В ходе беседы пионер в области искусственного интеллекта в СССР и мире рассказал о работе над программой «Каисса», которая 50 лет назад победила на первом чемпионате мира среди компьютерных программ, поделился мнением о научном обмене и высказал теории о будущем искусственного интеллекта.

+17

slivka_83 25 мар в 09:00

Самый лучший в мире курс по Машинному обучению — Алгоритмы Машинного обучения с нуля

1 мин

23K

Python *Машинное обучение *Искусственный интеллект

Обзор

Краткий обзор курса, который я недавно закончил пилить на степике. Курс хардкорный :) В нем необходимо с нуля писать алгоритмы машинного. Наверное это один из лучший способов досконально разобраться в алгоритме.

Курс бесплатный: https://stepik.org/course/68260/promo

+31

egaoharu_kensei 23 мар в 21:45

Наивный байесовский классификатор. Основная идея, модификации и реализация с нуля на Python

Сложный

8 мин

6.2K

Python *Data Mining *Алгоритмы *Машинное обучение *Искусственный интеллект

Туториал

Наивный байесовский классификатор (Naive Bayes classifier) — вероятностный классификатор на основе формулы Байеса со строгим (наивным) предположением о независимости признаков между собой при заданном классе, что сильно упрощает задачу классификации из-за оценки одномерных вероятностных плотностей вместо одной многомерной.

Помимо теории и реализации с нуля на Python, в данной статье также будет приведён небольшой пример использования наивного Байеса в контексте фильтрации спама со всеми подробными расчётами вручную.

+10

egaoharu_kensei 22 мар в 14:58

Метод опорных векторов (SVM). Подходы, принцип работы и реализация с нуля на Python

Сложный

14 мин

Python *Data Mining *Алгоритмы *Машинное обучение *Искусственный интеллект

Туториал

Метод опорных векторов (Support Vector Machines или просто SVM) — мощный и универсальный набор алгоритмов для работы с данными любой формы, применяемый не только для задач классификации и регрессии, но и также для выявления аномалий. В данной статье будут рассмотрены основные подходы к созданию SVM, принцип работы, а также реализации с нуля его наиболее популярных разновидностей.

+16

Exosphere 21 мар в 13:23

Нейросети в авторитете: вы не угадаете, сколько статей про нейронки и ML было в 2013 году на Хабре

Простой

5 мин

9.8K

Блог компании Хабр Машинное обучение *Контент и копирайтинг *Искусственный интеллект

Дайджест

Человечество не умеет жить без мечты. Глобальной, размашистой, такой — чтобы всё или ничего. Люди мечтали летать, как птицы, видеть, как звери, обгонять самых быстрых, создавать золото из олова, не болеть, лечить рак, чинить гены, жить вечно, летать в космос, дотронуться до Луны… Что-то получается, что-то не сразу, что-то — и вовсе нет. Вторую половину XX и пока весь XXI век человечество мечтает…научиться думать. Только не головами, которые как раз мечтают и воплощают мечты в конкретные решения, а железными мозгами: создать компьютеры, обрабатывающие информацию по тому же принципу, что и люди, а то и способные к абстракции и воображению, — обучить машину думать. Это весьма практичная мечта, которая по задумке должна сделать мир лучше и перевернуть медицину, психологию, культуру, искусство, инженерию и почти всё, где мы используем мысль и речь. Догадались, о чём речь?

+32

zakhmatov 21 мар в 10:00

Как DDoS-атаки стали для нас рутиной и как ML помогает их отражать

10 мин

Блог компании Яндекс Спам и антиспам Информационная безопасность *Машинное обучение *Искусственный интеллект

Несколько лет назад увидеть DDoS-атаку было целым событием. Если такое и случалось, то инцидент тщательно анализировала целая команда специалистов, а каждая извлечённая крупица информации использовалась для обучения моделей, формирования новых факторов и улучшения подходов для защиты от новых потенциальных атак.

Но постепенно число атак увеличивалось, и в какой-то момент отбить очередной DDoS стало обычным делом. Только за прошедший 2023 год мы в Яндексе отразили 1002 атаки. В этом нам помогло инхаус-решение — Антиробот, который работает на уровне L7 сетевой модели OSI.

В этом посте я хочу рассказать о том, как работает, на чём обучается Антиробот и с какими атаками ему приходится иметь дело. А ещё расскажу, почему важно системно подходить к анализу каждой атаки и как ML помогает отражать их.

+31

derunat 20 мар в 15:57

Как графы знаний и LLM могут друг другу помочь

Средний

4 мин

3.5K

Блог компании НТР Машинное обучение *Искусственный интеллект

Обзор

Recovery Mode

Предобученные языковые модели генерируют качественный текст, сравнимый по качеству с человеческим (иногда даже превосходящий его). Но некоторые проблемы остаются даже у лучших LLM — сеть не понимает, что говорит. Может получаться хоть и виртуозный с точки зрения грамматики и лексики, но всё-таки неверный по смыслу результат.

+15

odmin227 20 мар в 12:00

Превратите свой пет-проект из хобби в карьеру

Средний

12 мин

20K

Машинное обучение *Учебный процесс в IT Развитие стартапа Карьера в IT-индустрии Искусственный интеллект

Туториал

Привет, Хабр!

Меня зовут Данил Картушов, в этом посте я расскажу, почему и как именно pet-project'ы могут стать ключом к вашей карьере.

Надеюсь, что после этого поста ты сможешь раскрыть свой потенциал к обучению и по-новому взглянуть на процесс обучения.

Начнем!

+29

Dmytro_Kikot 20 мар в 11:01

Услышать несказанное: преобразование движений мышц в речь

18 мин

828

Блог компании ua-hosting.company Машинное обучение *Научно-популярное Носимая электроника Здоровье

Одним из самых явных эволюционных отличий человека от других обитателей планеты является умение говорить. Конечно, другие животные также способны издавать звуки, используемые для коммуникации между особями. Но именно человек способен на вербальное, связанное по смыслу и логике общение. Для реализации вербальной передачи сигналов человеку нужны голосовые связки. Однако из-за травм, заболеваний или хирургического вмешательства у человека может развиться дисфония (нарушение речи) или полная дисфункция речи. Ученые из Калифорнийского университета в Лос-Анджелесе (США) разработали тонкое гибкое устройство, которое прикрепляется к шее и преобразует движения мышц гортани в слышимую речь. В создании этого устройства использовалось машинное обучение, позволяющее распознавать и сопоставлять определенные движения мышц с определенными словами. Из чего сделано чудо-устройство, как именно оно работает, и насколько оно эффективно? Ответы на эти вопросы мы найдем в докладе ученых.

Читать дальше →

+14

Mik42 19 мар в 13:51

Ищем Арнольда Шварценеггера среди мужчин, женщин и детей с помощью нейросети на С++

Средний

24 мин

7.7K

Блог компании YADRO C++ *Машинное обучение *Искусственный интеллект

Туториал

Привет, Хабр! Меня зовут Кирилл Колодяжный, я ведущий инженер-программист в YADRO. Помимо основных рабочих задач, включающих исследование проблем производительности СХД, я увлекаюсь машинным обучением. Участвовал в коммерческих проектах, связанных с техническим зрением, 3D-сканерами и обработкой фотографий. В задачах часто использовал С++, хотя машинное обучение традиционно ассоциируется с Python. Этот язык программирования буквально захватил сферу, его используют повсюду — от обучающих курсов до серьезных ML-проектов.

Однако Python — не единственный язык, на котором можно решать задачи машинного обучения. Так, альтернативой может стать С++. Если последний вам ближе, вам будет интересен и полезен этот текст.

Под катом разберемся:

• как организовать работу с данными и загрузку обучающего датасета,

• как описать структуру нейронной сети,

• как использовать уже готовые алгоритмы машинного обучения из доступных библиотек и фреймворков,

• как организовать конвейер обучения сети,

• как использовать предобученные глубокие сети для решения задач.

+20

divolko3 19 мар в 13:36

Google DeepMind создал новый ИИ, способный неплохо играть в компьютерные игры. На что он способен?

4 мин

2.2K

Блог компании МТС Машинное обучение *Научно-популярное Искусственный интеллект Игры и игровые консоли

На Хабре не раз и не два писали об искусственном интеллекте, который превосходит человека в разных настольных и компьютерных играх. Но это специально обученные агенты, которые специализируются на какой-то конкретной игре. А можно ли разработать систему, способную взаимодействовать с трёхмерным окружением любой игры без длительной предварительной подготовки? Корпорация Google считает, что да, и подтвердила свои слова делом. Она создала агента, способного на это. Какие возможности у новой разработки?

+10

re9ulus 19 мар в 10:00

Quantization Deep Dive, или Введение в современную квантизацию

Средний

16 мин

12K

Блог компании Яндекс Программирование *Алгоритмы *Машинное обучение *Искусственный интеллект

✏️ Технотекст 2023

Привет! Меня зовут Василий Землянов, я занимаюсь разработкой ML-инфраструктуры. Несколько лет я проработал в команде, которая делает споттер — специальную маленькую нейросетевую модельку, которая живёт в умных колонках Яндекса и ждёт от пользователя слова «Алиса». Одной из моих задач в этой команде была квантизация моделей. На пользовательских устройствах мало ресурсов, и мы решили, что за счёт квантизации сможем их сэкономить — так в итоге и вышло.

Потом я перешёл в команду YandexGPT. Вместо маленьких моделей я стал работать с очень крупными. Мне стало интересно, как устроена квантизация больших языковых моделей (LLM). Ещё меня очень впечатляли истории, где люди берут гигантские нейросети, квантизируют в 4 бита и умудряются запускать их на ноутбуках. Я решил разобраться, как это делается, и собрал материал на доклад для коллег и друзей. А потом пришла мысль поделиться знаниями с более широкой аудиторией, оформив их в статью. Так я и оказался на Хабре :)

Надеюсь, погружение в тему квантизации будет интересно как специалистам, так и энтузиастам в сфере обучения нейросетей. Я постарался написать статью, которую хотел бы прочитать сам, когда только начинал изучать, как заставить модели работать эффективнее. В ней мы подробно разберём, зачем нужна квантизация и в какой момент лучше всего квантизовать модель, а ещё рассмотрим разные типы данных и современные методы квантизации.

+81

rds29 18 мар в 14:49

Расчёт вкусов пользователя для ленты рекомендаций с применением item2vec-подхода

Средний

6 мин

1.9K

Блог компании VK Блог компании ОК Машинное обучение *Социальные сети и сообщества

Кейс

Ежемесячная аудитория ОК только в России превышает 36 млн человек. Причём это активные пользователи, которые хорошо взаимодействуют с нашим контентом: ставят Классы, комментируют, делают репосты. Залогом активного отклика во многом является формирование новостной ленты с учетом предпочтений каждого конкретного пользователя.

Меня зовут Дмитрий Решетников. Я тимлид команды рекомендаций в Ленте ОК. В этой статье я расскажу, как выглядит наш пайплайн рекомендации в ленте новостей, о месте item2vec в нём и результатах внедрения такого подхода.

+25

Nikuson 18 мар в 11:01

Симуляция миров: как работает нейросеть SORA

Средний

4 мин

13K

Блог компании Timeweb Cloud Машинное обучение *Искусственный интеллект

Обзор

Видеоконтент стал неотъемлемой частью нашей жизни. ТикТок, Ютуб и прочие платформы с каждым днём всё больше используются людьми как способ отвлечься от повседневности и позволяют ненадолго предаться прокрастинации. Кто бы что ни говорил, но в 2024 году человек не представляет без него жизни, но создание качественного контента это довольно трудоемкая задача. В ней нам может помочь новая нейросеть OpenAI “SORA”.

В этой статье мы рассмотрим, как работает новая революционная нейросеть синтеза видео SORA, пофилософствуем на эту тему и, конечно, помечтаем о AGI.

Читать дальше →

+26

SGarik 17 мар в 14:20

FinRL: Библиотека глубокого обучения с подкреплением для автоматизированной торговли акциями

Средний

12 мин

Блог компании OTUS Машинное обучение *Бизнес-модели *Финансы в IT

Из песочницы

Перевод

Глубокое обучение с подкреплением (Deep Reinforcement Learning - DRL) является эффективным подходом в количественных финансах. Однако обучение торгового агента DRL, который бы решал, где торговать, по какой цене и в каком количестве, сопряжено с ошибками, а так же со сложной разработкой и отладкой.

Библиотека FinRL облегчает новичкам знакомство с количественными финансами и разработку собственных стратегий торговли акциями. Она позволяет пользователям оптимизировать свои собственные разработки и легко сравнивать их с существующими схемами. В рамках FinRL виртуальные среды настраиваются с помощью наборов данных фондового рынка, торговые агенты обучаются с помощью нейронных сетей, а функционал обратного тестирования (backtesting) анализирует эффективность торговли. Кроме того, в систему включены важные торговые ограничения, такие как стоимость сделки, ликвидность рынка и степень неприятия риска инвестором. FinRL отличается полнотой, хорошим практическим руководством и воспроизводимостью, что упрощает работу новичкам.

+21

AVikharev 14 мар в 11:38

Как выбрать и внедрить OCR-систему для распознавания и сверки документов

Простой

5 мин

1.4K

Блог компании Fix Price Машинное обучение *Искусственный интеллект Подготовка технической документации *

Приветствую, друзья! Меня зовут Александр Вихарев, и я работаю системным аналитиком в проектах для Fix Price.

Одной из самых сложных задач при работе с документацией является сверка документов. Причем сверка трудна и с точки зрения программной реализации, если заниматься этим самостоятельно. Для нас же эта задача особенно важна, поскольку все документы должны подписываться только теми людьми, у которых есть на это полномочия. В противном случае это может привести к правовым и финансовым проблемам — например, при подписании договоров на оказание услуг. Также могут наблюдаться и несовпадения в предварительно согласованной и подписанной версиях, что при ручной проверке выявлять долго.

Чтобы избежать этого и освободить время специалистов компании, занимающихся сверкой документации, было решено разработать свою OCR-систему на основе решений внешних поставщиков. Технология OCR (optical character recognition, оптическое распознавание символов) позволяет извлекать текстовые слои из отсканированных документов для сверки и переводить их в удобные для работы форматы.

+10

egaoharu_kensei 13 мар в 20:20

Градиентный бустинг. Реализация с нуля на Python и разбор особенностей его модификаций (XGBoost, CatBoost, LightGBM)

Сложный

28 мин

6.7K

Python *Data Mining *Алгоритмы *Машинное обучение *Искусственный интеллект

Туториал

На сегодняшний день градиентный бустинг (gradient boosting machine) является одним из основных production-решений при работе с табличными, неоднородными данными, поскольку обладает высокой производительностью и точностью, а если быть точнее, то его модификации, речь о которых пойдёт чуть позже.

В данной статье представлена не только реализация градиентного бустинга GBM с нуля на Python, но а также довольно подробно описаны ключевые особенности его наиболее популярных модификаций.

+20

PatientZero 13 мар в 12:00

Дилемма ИИ: когда обучение больших языковых моделей заходит в тупик

Простой

11 мин

4.8K

Программирование *Машинное обучение *Искусственный интеллект

Мнение

Перевод

ИИ готовится заменить сотни тысяч должностей не только в разработке ПО, но и во множестве других областей: в журналистике, творческой работе, общении с покупателями и так далее. Это та же самая мантра, которую мы слышим по поводу каждой технологической инновации: «Компьютер полностью заменит людей». Старая история из фильмов про терминаторов.

Хотя я уже перечислил некоторые возможные последствия для ПО в своей статье «Мы снова в кризисе ПО, но в ближайшее время ИИ никого не заменит», мне бы хотелось рассмотреть, что произойдёт, если большие языковые модели (Large Language Model, LLM) полностью заменят человеческий труд. Содержание дилеммы будет практически одинаковым для всех областей, но я сосредоточусь на разработке ПО, потому что самые громкие заявления об LLM звучат как раз в её сторону.

+18

1 2

4 5 ...

49 50

Машинное обучение *

Нужен ли продакт в ML-команде? Мнение изнутри

Борьба с энтропией в e-com. Как поддерживать актуальными данные о товарах в вечно меняющемся мире

«Чтобы достичь индустриального уровня западных стран, нужно поставить конкретную задачу. Ее никто никому не ставит»

Самый лучший в мире курс по Машинному обучению — Алгоритмы Машинного обучения с нуля

Истории

Наивный байесовский классификатор. Основная идея, модификации и реализация с нуля на Python

Метод опорных векторов (SVM). Подходы, принцип работы и реализация с нуля на Python

Нейросети в авторитете: вы не угадаете, сколько статей про нейронки и ML было в 2013 году на Хабре

Как DDoS-атаки стали для нас рутиной и как ML помогает их отражать

Как графы знаний и LLM могут друг другу помочь

Превратите свой пет-проект из хобби в карьеру

Услышать несказанное: преобразование движений мышц в речь

Ищем Арнольда Шварценеггера среди мужчин, женщин и детей с помощью нейросети на С++

Google DeepMind создал новый ИИ, способный неплохо играть в компьютерные игры. На что он способен?

Ближайшие события

Quantization Deep Dive, или Введение в современную квантизацию

Расчёт вкусов пользователя для ленты рекомендаций с применением item2vec-подхода

Симуляция миров: как работает нейросеть SORA

FinRL: Библиотека глубокого обучения с подкреплением для автоматизированной торговли акциями

Как выбрать и внедрить OCR-систему для распознавания и сверки документов

Градиентный бустинг. Реализация с нуля на Python и разбор особенностей его модификаций (XGBoost, CatBoost, LightGBM)

Дилемма ИИ: когда обучение больших языковых моделей заходит в тупик

Вклад авторов

Работа