Все потоки
Поиск
Написать публикацию
Обновить
775.31

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Социалистическое медиа «Диалектик» рассказывает о своих NLP проектах в 2023, публикует датасеты и делится кодом

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров7.2K


Почти сразу после публикации поста про систему поиска новостей о трудовых конфликтах в СНГ я познакомился с коллективом проекта «Диалектик». Ребята отмечали важность отслеживания зарубежных забастовок и анализа опыта мирового рабочего движения в отстаивании трудовых прав. Поэтому я начал помогать «Диалектику» своими навыками работы с алгоритмами машинного обучения.


Было решено разработать систему, которая бы автоматически находила новости о зарубежных трудовых конфликтах. Во время разработки этой системы я познакомился с другими техническими проектами «Диалектика», о которых хочу рассказать в этом посте. Почти каждый проект включает в себя анализ данных, поэтому публикуемые в открытый доступ данные и код могут быть полезными Data Science сообществу.

Читать дальше →

Скрытая угроза: критерии классификации атак на нейронные сети

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2.4K

Нейронные сети являются неотъемлемой частью нашей повседневной жизни и находят широкое применение в различных областях, включая системы распознавания (банковской, идентификационной и другой чувствительной информации), а также различные системы управления и обеспечения безопасности. Однако нейронные сети – всего лишь мощный инструмент обработки данных, у которого, как и у всякого инструмента, есть недостатки.

Узнать, какие

ИИ самоучка: модель реконструкции голограмм с самоконтролируемым обучением

Время на прочтение11 мин
Количество просмотров2.6K


Понимание чего-либо является результатом знаний, а знание — результатом обучения. Этот принцип применим не только по отношению к людям, но и к искусственному интеллекту. Разница в том, что ИИ нуждается в определенной обучающей базе, состоящей из конкретных примеров, которые могут служить основой для понимания того, что ИИ должен делать. Человек же может экстраполировать, интерполировать, додумывать, строить логические цепочки — все это позволяет нам понять что-то, примеров чего мы ранее не видели. Особенно ярко данное отличие проявляется в случаях, когда ИИ задействован в вычислительной визуализации и микроскопии. В этих случаях эффективность ИИ напрямую зависит от контролируемого обучения, требующего колоссального объема разнообразных и помеченных обучающих данных. Собрать и подготовить эти данные для обучения — трудоемкий, дорогостоящий и долгий процесс. Было бы здорово, если бы ИИ обучался без них. Ученые из Калифорнийского университета в Лос-Анджелесе (США) разработали модель ИИ с функцией самоконтроля, которая может обучаться без необходимости в экспериментальных данных, используя исключительно законы физики. Как именно работает данная модель, и насколько она эффективна? Ответы на эти вопросы мы найдем в докладе ученых.
Читать дальше →

Основные ресурсы нейронных сетей для начинающих и энтузиастов

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров13K

Собрал все в одном месте! Выбор образовательных материалов в области нейронных сетей, а также различные проекты с открытым исходным кодом с нейронными сетями, которые могут быть полезны для разработки сервисов

Ознакомиться

Seldon в MLops-инфраструктуре beeline business

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров3.4K

Привет, Хабр!

В этой статье затронем тему организации процессов Machine Learning Operations (MLops) в beeline business, особое внимание акцентируем на тестировании моделей машинного обучения. Тестирование мы построили с использованием Gitlab (CI/CD), Mlflow и open-source фреймворка Seldon Core для деплоя REST API или gRPC сервисов с моделями в среде Kubernetes. А пока… 

Читать далее

Бережем время, деньги, нервы: наш опыт улучшения справочника факторов для ML-моделей оценки риска. Часть 2

Время на прочтение12 мин
Количество просмотров1.1K

Всем привет! С вами дата-сайентисты банка «Открытие» Иван Кондраков, Константин Грушин, Станислав Арешин и Алексей Дьяков. Часто даже самые хорошие произведения, будь то фильмы, книги или компьютерные игры, остаются без сиквела. А еще чаще сиквел просто не дотягивает до оригинала… К счастью, это не наш случай! Мы возвращаемся с прямым продолжением нашей статьи о программной генерации длинного списка факторов. И, поверьте, мы следовали всем правилам хорошего сиквела: наш сиквел держит планку качества, продолжает идеи оригинала, при этом полезной информации в нем еще больше!

Гоу скорее к тексту!

Архитектура рекомендаций: как дать пользователю соцсети то, что ему понравится

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров5.3K

Сегодня я расскажу, про базовое решение задачи рекомендации текстового контента на конкретном примере — ленте одной российской социальной сети. Посмотрим, что под капотом у сервиса рекомендаций, какие данные нужны для построения векторов пользователей, как ранжируются посты и к какой архитектуре рекомендательной системы мы пришли спустя несколько месяцев экспериментов.

Читать далее

Информатика будущего: Яндекс.Учебник и образовательная нейросеть

Время на прочтение2 мин
Количество просмотров9.8K

Привет, любители математики и информатики! Сегодня я расскажу о новой вехе в образовательной сфере, которая может кардинально изменить подход к изучению информатики. Яндекс Учебник представляет инновационный продукт – образовательную нейросеть, созданную совместно с опытными преподавателями информатики. Давайте заглянем в будущее образования и рассмотрим, какие возможности открываются перед учащимися благодаря этой интеллектуальной технологии.

Читать далее

Помощник металлурга: ML-решение для сталеваров

Время на прочтение6 мин
Количество просмотров1.7K

Антон Головко, специалист машинного обучения центра машинного обучения компании «Инфосистемы Джет»

Мы в центре машинного обучения «Инфосистемы Джет» делаем интересные проекты для металлургии, и не прочь поделиться опытом. Эта статья будет полезна энтузиастам машинного обучения, а особенно тем, кто интересуется применением ML в промышленности. Из текста вы узнаете, какие факторы должен учитывать сталевар при выплавке металла, о точках оптимизации металлургических процессов и подводных камнях в обучении ML-моделей для производства.

Узнать о применени ML в металлургии

Железный Асессор, ML-оценка манеры вождения и безопасный диспатч: как технологии делают такси безопаснее

Время на прочтение8 мин
Количество просмотров3.8K

До появления Такси, машину часто вызывали «от борта»: находили или останавливали такси и договаривались о цене и маршруте. Кто и как повезёт пассажира — тот ещё вопрос. Теперь с появлением агрегаторов требования к перевозкам сильно выросли. 

В этом посте я расскажу, как мы внедряли технологии, которые повышают безопасность пассажиров и водителей. За годы существования сервиса мы научили алгоритмы проверять документы, считывать опасное вождение, а также подбирать водителей в соответствии со сложностью заказа.

Читать далее

Реально Бесконечное (лето) RuGPT3.5: Генерация новеллы на ходу нейросетью

Уровень сложностиСредний
Время на прочтение24 мин
Количество просмотров29K

Я уж было подумал, что эпоха локальных трансформерных нейросетей ушла, оставив после себя невеликое наследие (можно пересчитать на пальцах), однако неделю назад RuGPT3.5 от сбера вышла в открытый доступ и обещала быть мощной моделью, о ней и пойдёт речь в этой статье.

Будет создан прототип text adventure, основанного на тексте Everlasting summer, проведена оценка потенциала RuGPT3.5 в разных аспектах подобной задачи и проведено дообучение модели для получения лучших результатов.

Перейти на другую временную линию

Изучаем математическую статистику — гайд для новичков

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров45K

Я искренне считаю, что математическая статистика должна стать базовым навыком каждого маркетолога и продакта. Сейчас, к сожалению, это не так. Поэтому и написал «путеводитель» по статистике, для тех, кому тяжело подступиться к изучению данного раздела математики и, тем более, сделать его «навыком».

Все представленные ниже материалы основаны на моём опыте изучения математической статистики.

Читать далее

Собеседуем ChatGPT в бэкенд: эксперимент

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.7K

Рассказываем, как собеседовали в ЮMoney робота-инженера и какое из заданий он сделал на уровне мидл-разработчика. При этом ИИ обошёл реального кандидата Юрия, который утверждал, что у него три года опыта, а на самом деле оказался джуном.

Читать далее

Ближайшие события

Сбор данных для машинного обучения: этапы, методики и рекомендации

Время на прочтение15 мин
Количество просмотров10K

Все успешные компании постоянно собирают данные. Они отслеживают поведение людей в Интернете, организуют опросы, мониторят отзывы, слушают сигналы от умных устройств, извлекают значимые слова из электронных писем и предпринимают другие шаги для накопления фактов и чисел, помогающих им принимать бизнес-решения. Хотя современный мир изобилует данными, сбор ценной информации включает в себя множество организационных и технических трудностей, которые мы и рассмотрим в этой статье. Особое внимание мы уделим методикам сбора данных и инструментам для аналитики и проектов машинного обучения.
Читать дальше →

Целостность, точность, согласованность: три фактора, обеспечивающие качество машинного обучения

Время на прочтение4 мин
Количество просмотров2.3K

Эффективность моделей машинного обучения напрямую зависит от обучающих данных. Если данные неполны или размечены неверно, то эти пробелы отразятся на прогнозах модели.

Но как выявлять высококачественные данные и обеспечивать их уровень уже в процессе работы над проектом? И что означает «качество данных» в контексте машинного обучения?

Можно упростить ответ на этот вопрос, сведя качество данных к трём основным характеристикам: целостности (integrity), точности (accuracy) и согласованности (consistency).

  • Целостность: надёжность используемого датасета
  • Точность: степень валидности и корректности присвоенных аннотаций
  • Согласованность: степень согласованности присвоенных аннотаций во всём датасете

Можно воспринимать каждый из этих факторов как часть высокоуровневой дорожной карты для обеспечения качества данных на всех этапах конвейера аннотирования.
Читать дальше →

Под капотом поискового движка: Как Uzum Market применяет ML, чтобы вы нашли желаемое

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров7.1K

Привет, меня зовут Даша, я отвечаю за ранжирование в команде поиска Uzum Market. За время существования нашей команды мы успели накопить достаточный багаж факапов знаний, чтобы начать делиться им с вами.

Поиск — один из основных источников дохода маркетплейсов. Сценарий, где пользователь приходит на платформу с конкретной целью приобрести товар гораздо более вероятен, чем тот, где он зашел полистать ленту.

Ежедневно сотни тысяч пользователей полагаются на поиск Uzum Market, чтобы найти нужные им товары. Наша цель как команды, ответственной за поисковый движок, — предоставить им лучший сервис и помочь найти именно то, что они ищут.

С каждым днем количество товаров в нашем маркетплейсе растёт, и если раньше мы показывали десятки релевантных товаров по одному поисковому запросу, то сейчас их уже тысячи. Как правильно отранжировать товары, чтобы пользователь дошёл до чекаута? Какие данные нужны, чтобы определить релевантность товара по запросу? На какие метрики ориентироваться, чтобы измерить качество поиска?

На эти и другие вопросы мы пытаемся ответить ежедневно. И сегодня я приоткрою завесу над некоторыми решениями, которые мы уже реализовали на нашей площадке, а также расскажу про боли и трудности, с которыми пришлось столкнуться на пути к статистически значительным изменениям в метриках.

Велком всех под кат в увлекательное путешествие по внутренностям поиска Uzum Market!

Читать далее

Нейронки в финтехе: пока небезопасно и только для простых задач. В общем, ИИ — не Senior, господа, расслабимся…

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.3K

Привет от ЮMoney!

В июле мы запустили подкасты ЮVoice о технологиях в финтехе, о найме в IT и об электронных платежах. А тема про нейронки — одна из первых, которую решили обсудить в новом формате: тренд всё-таки. Главные мысли из подкаста собрали в небольшую статью, но если любите формат аудио, то можно поберечь глаза и пойти послушать, о чём мы там рассказали.

Не хочу читать статью, лучше включу подкаст >>

Раскрываем карты: в каких задачах ЮMoney использует ИИ, к чему нейросети всё ещё не готовы, какие эксперименты мы проводили с ChatGPT и чего ждать в будущем от искусственного интеллекта в финтехе.

Всё-таки прочитаю

От распределённого бэкенда — к сильному ИИ. Чем сейчас занимается легендарный Джефф Дин?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров12K


На Хабре иногда рассказывают про выдающихся программистов современности, таких как Линус Торвальдс, Фабрис Беллар и Джефф Дин. Про этих людей ходят легенды. Особенно выделяется последний, которого в шутку сравнивают с Чаком Норрисом.

Шутки про Джеффа Дина дают понимание, насколько легендарной стала эта личность среди разработчиков Google:

«Когда Джефф Дин разрабатывает программу, то сначала создаёт бинарник, а потом пишет исходный код как документацию».

«Джефф Дин однажды не прошёл тест Тьюринга, потому что правильно установил 203-е число Фибоначчи менее чем за секунду».

«Джефф Дин родился 31 декабря 1969 года в 23:48. Ему потребовалось 12 минут, чтобы запустить свой первый счётчик времени».
Читать дальше →

Создание deepfake видео и синтез речи open-source проект Wunjo AI

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров13K

Привет, мир!

Я бы хотел рассказать о своем open-source проекте Wunjo AI с открытым исходным кодом, который позволит вам создавать дипфейк видео и синтезировать речь из текста у себя на компьютере. В этом посте я постараюсь познакомить вас с возможностями Wunjo AI и пригласить вас поддержать проект на GitHub.

Познакомимся подробнее

Импортозамещаем numpy, pandas, scipy и sklearn

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров11K

Речь пойдет о библиотеках-аналогах numpy, pandas, scipy и sklearn на C++ (np, pd, scipy, sklearn соответственно).

Эти проекты изначально задумывались как хорошее дополнение к портфолио, однако затем наступило всё более и более плотное вовлечение в процесс работы над ними, челенджи становились всё более и более существенными, и проект превратился в несколько отдельных проектов, содержащих десятки тысяч строк кода...

Читать далее

Вклад авторов