Все потоки
Поиск
Написать публикацию
Обновить
784.81

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Сквозная оптимизация в промышленности

Время на прочтение9 мин
Количество просмотров2.7K

В этом посте я хочу рассказать о своем опыте разработки технологии, которая управляет интеллектуальными решениями, используемыми в  промышленности, чтобы сделать их работу эффективнее и обнаружить скрытые выгоды для бизнеса.

Предыстория

Для начала приведу пример системы, которыми управляют классы продуктов, описываемых в статье.

Некоторое время назад я столкнулся с задачей оптимизации расхода ферросплавов (далее ФС). При производстве стали сталевары добавляют специальные вещества, ферросплавы, чтоб получить нужную марку с определенным химическим составом (см. схему с этапами ниже). Например, чтобы содержание Si в полученной стали было не менее 0.2 % (в технологической инструкции обычно указан диапазон, допустим от 0.2 до 0.3, но мы для простоты будем говорить только о нижней границе).

Читать далее

Как мы создаём новые языки в Yandex SpeechKit. Рассказываем на примере узбекского

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров6.4K

Всем привет! Меня зовут Антон Ермилов, я руковожу командой разработки эффективных моделей машинного обучения в Yandex Cloud. Самый популярный среди наших ML-сервисов — Yandex SpeechKit, сервис распознавания и синтеза речи. В SpeechKit мы уже создали модели распознавания речи для 10 европейских языков, турецкого и казахского, а также модели синтеза речи для пяти языков. Недавно мы добавили узбекский язык. 

В этой статье я расскажу на примере узбекского, как мы добавляем новый язык в сервис: как создаются технологии синтеза и распознавания речи, как мы обучаем модели, какие встречаются сложности.

Читать дальше

Data Fusion Contest. Издание 2-ое, переработанное и дополненное

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.3K

Соревнование Data Fusion Contest 2023 в этом году состоялось во второй раз и собрало  сильнейшие индустриальные команды и отдельных любителей моделей алгоритмов машинного обучения. Кто-то участвовал впервые, а кто-то, уже умудрённый прошлым опытом был явно настроен только на победу.

В этот раз мы решили принципиально изменить задание и придумали новый формат. Что произойдет, если столкнуть лицом к лицу участников, мотивированных атаковать модели машинного обучения, с другими участниками, мотивированными свои модели защищать? Кто победит, каким окажется тот стек моделей и подходов, который приведет к победе? Что важнее, знания и опыт, или гибкость ума или нестандартные подходы?

Мы задали себе все эти вопросы и решили найти ответы на практике, подготовив для участников Data Fusion Contest 2023 очень нестандартное и по теме и по формату соревнование по Adversarial ML с атаками на модели машинного обучения, а также с их защитой.

Давайте разбираться, что из этого получилось по факту, и какие решения предложили участники, чтобы оказаться в рядах победителей!

Читать далее

Меня нанял робот, или рекрутинг сотрудников как продукт

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров3.2K
image

Казалось бы, рекрутинг высококвалифицированных сотрудников не может быть продуктом. Это процесс, который невозможно полностью автоматизировать: речь идёт о людях и их мастерстве. Особенно дело касается преподавателей, где в отличие от многих профессий процесс их привлечения включает много этапов: разностороннюю оценку квалификации, опыта, навыков, проверку биографии и так далее.

Однако мы с этой задачей справились, у нас просто не было другого выбора. Когда нужно привлекать по 800–1 000 новых преподавателей в месяц, невозможно делать это ручными методами, поэтому нам пришлось построить автоматическую систему найма, через которую сегодня проходит до 150 000 кандидатов в год. Это один из самых массовых наймов преподавателей в мире.
Читать дальше →

Форматы данных и файлов: руководство для архитекторов

Время на прочтение11 мин
Количество просмотров12K


В мире данных происходит революция. Сегодня волна Open-Source-форматов данных, поднявшаяся благодаря развитию технологий, меняет привычное положение дел для всех участников экосистемы, от поставщиков до предприятий. Вы наверняка слышали о таких форматах, как Parquet, ORC, Avro, Arrow, Protobuf, Thrift и MessagePack. Команда VK Cloud перевела статью о том, что они собой представляют и какой из них лучше выбрать. 
Читать дальше →

Разбираемся в терминах искусственный интеллект и машинное обучение

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров6.7K

Словосочетание «Искусственный интеллект» (ИИ) и все, что крутится вокруг него в последнее время — одна из самых животрепещущих тем во всем мире. Горячий пирожок в технологической среде. Он оказал влияние на многие аспекты жизни, в том числе на образование. Эксперты в данной области заявляют, что «искусственный интеллект» — это общий термин и следует разделять такие специальности, как программирование, статистика и машинное обучение. Машинное обучение всегда подразумевает использование искусственного интеллекта, однако ИИ не всегда подразумевает машинное обучение.

Читать далее

Распознавание документов на Steam Deck. А нужен ли мне мой ноутбук?

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров9.1K

Привет, Хабр! Как вы знаете, мы в Smart Engines не только любим распознавать документы, но и распознавать очень разные документы на очень разных устройствах, от Odroid до Эльбруса. Недавно у нас в руках оказалась игровая консоль Steam Deck, и мы решили проверить, насколько шустро она справляется с распознаванием в сравнении с обычным ноутбуком. Если вам интересно посмотреть на результаты бенчмарка Steam Deck в не совсем обычной для нее задаче, добро пожаловать под кат!

Читать далее

Геолоцировать пользователя по Tweet-у: машинное обучение, часть I

Время на прочтение4 мин
Количество просмотров1.5K

Модели машинного обучения давно тренируются на постах в соцсетях. Самые большие текстовые корпусы созданы на основе Твиттера — они обогащают тысячи компаний сервисами, а библиотеки — академическими статьями. 

Самое интересное из всего этого спрятано за проблемами объемов данных, опечатками и жаргонизмами, кластеризацией и выбором наиболее подходящих покемонов (Large Language Models, в смысле). Под самым интересным я подразумеваю задачу определения местоположения пользователя по тексту. Каждый — от финансовых регуляторов до независимых журналистов — хочет залезть в Твиттер какого-нибудь мошенника и определить, где он прячется. 

Если есть спрос, появится и предложение. Эта серия постов будет посвящена креативным решениям по изменениям подходов, описанных в паре десятков научных статей. Мы начнем с маленьких изменений в датасетах, будем тестить разные алгоритмы фильтрации и кластеризации, языковые модели и надстройки. Расскажем, как учили модели определять отличия между «Я живу в Нью-Йорке» и «Нью-Йорк — лучший город на планете».

Читать далее

Почему для MLOps лучше выбирать Open Source, а не проприетарное ПО

Время на прочтение3 мин
Количество просмотров2.1K


Самому обеспечивать гибкость и контроль собственного ML-пайплайна — это важно. Команды по машинному обучению могут использовать проприетарные платформы или создавать собственные решения с помощью Open-Source-инструментов. Компании часто представляют проприетарные платформы как более мощные, эффективные и простые в использовании. Но в действительности они часто оказываются более сложными и менее мощными, чем их Open-Source-конкуренты.
Читать дальше →

Что делать, если человечество не сможет создать искусcтвенный интеллект никогда?

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров9.7K

Любая комбинация софтвера и цифрового хардвера - от микроконтроллера, двигающего дворники у автомобиля - до серверной фермы с много-много-ядерными процессорами, аппаратными ускорителями ML и ChatGPT - сводятся к конечному автомату с достаточно большим состоянием. Независимо от сложности и адаптивности программ.

Сводится ли к конечному автомату человеческий интеллект? К сожалению, у человеческого интеллекта есть атрибут, природа которого современной науке неизвестна и который никогда не наблюдался у конечных автоматов, например у арифмометра. Этот атрибут - ощущение собственного "я", self-awareness. Конечно вы можете сделать в программе переменную "я_чувствую_собственное_я" и присвоить ей true, а потом утверждать, что вы симулируете собственное "я", но это жульничество, а не технология.

Я вовсе не пытаюсь нагонять мистику или агитировать за бога. Self-awareness наверняка такой же физический феномен, как какая-нибудь термоядерная реакция. Но скажем древние греки не знали природы термоядерной реакции. Наверное, они вели диалоги типа "если ты не веришь, что Солнце - просто большой костер из дров, то значит ты веришь в сказки про Зевса и других богов?"

Что же делать?

cv3 — делаем OpenCV питоничным

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров12K

cv3 - это более питоничный интерфейс к OpenCV. Он упрощает работу с этой библиотекой, расширяет его синтаксические возможности, а также ускоряет исследования в области компьютерного зрения и выполнение задач по обработке изображений, при этом сохраняя гибкость и функциональность OpenCV.

Читать далее

Как мы нашли способ объяснять пользователям, почему рекомендуем именно эти магазины

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2.7K

Привет! Меня зовут Денис Красильников, я исследователь-разработчик из команды персонализации. Сегодня я расскажу, как мы с коллегами подошли к задаче оценки качества объяснения рекомендаций магазинов, в которых покупают наши клиенты. Об этом же мы написали статью и даже прошли с ней на воркшоп WSDM 2023. 

Читать далее

Первые агенты для самообучения сильного ИИ

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров21K

Тысячи учёных, программистов и просто энтузиастов по всему миру сейчас со всех сторон стараются подойти к главному изобретению в истории человечества, если оно будет сделано — это сильный ИИ (AGI, artificial general intelligence).

Один из подходов к созданию AGI — самообучение так называемых агентов, то есть автономных систем, способных найти решение для произвольных задач и улучшать его до бесконечности. Результаты первых экспериментов интересные.
Читать дальше →

Ближайшие события

MusicGen — генерируем музыку на своём ПК. Новая локальная нейросеть — знакомство и установка

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров35K

MusicGen - новая модель, позволяющая генерировать любую музыку по текстовому запросу. Сегодня мы узнаем о ней чуть больше, подумаем о том, кому она нужна, и запустим её локально.

Видимо, парням из Facebook* было мало выпустить текстовую модель Llama, давшую огромный разгон развитию локальных нейросеток, и они решили сделать то же самое в сфере музыки.

* организация запрещена в РФ

Читать далее

Классификация аудиофайлов с библиотекой Librosa

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров15K

Привет Хабр! В этой статье поработаем с аудиофайлами, используя библиотеку librosa и алгоритмы Machine learning.

Сначала немного поговорим о том, что такое аудиосигнал. Аудиосигнал представляет собой сложный сигнал, состоящий из нескольких одночастотных звуковых волн, которые распространяются вместе как изменение давления в среде. Каждый аудиосигнал имеет свои определенные характеристики, например, такие как частота, амплитуда, ширина полосы, децибел и т.д. Число волн, производимых сигналом за одну секунду называется частотой. Амплитуда показывает интенсивность звука, то есть является высотой волны. 

Читать далее

Модификация алгоритма FP Growth или как правильно ухаживать за своими деревьями

Уровень сложностиСложный
Время на прочтение8 мин
Количество просмотров3.7K

Привет, Хабр!

В поисках варианта алгоритма FP Growth, который мог бы удовлетворить моим потребностям, я столкнулся с неожиданным и крайне удивительным обстоятельством - все решения из коробки не предполагали разбиения данных на батчи (относительно небольшие наборы элементов) и последующем обучении на них. Также они не были способны дообучаться на вновь полученных транзакциях да и в целом были заточены на единовременный анализ всей транзакционной базы данных. Меня это смутило - неужели в эпоху обработки больших данных не было подробно описано или хотя бы выложено на всеобщее обозрение ни одной реализации подобного алгоритма. Возможно, я не первый, кто придумал что-то подобное, и в кулуарах научных статей найдутся схожие идеи - что ж, в любом случае это мой личный опыт и я надеюсь в каком-либо приближении он окажется вам полезен или хотя бы интересен.

Читать далее

Академия Аналитиков Авито: новый набор

Время на прочтение3 мин
Количество просмотров3.7K

Открыт приём заявок на новый поток Академии Аналитиков Авито. В этом году мы набираем студентов сразу на два направления: будем учить аналитиков данных и Data Science-инженеров. Обе программы бесплатные. 

Подать заявку можно до 13 июня. Занятия начнутся в сентябре, а вся программа продлится 13 месяцев — до конца сентября 2024 года. За это время студенты-аналитики освоят основные навыки от прикладной статистики и SQL до ML и теории экспериментов. Будущие DS-инженеры тоже разберутся с ML, а также алгоритмами и датасетами. 

Читать далее

AIsaacChat: ИИ чатбот на основе ruT5

Время на прочтение5 мин
Количество просмотров2.8K

AIsaacChat — это мобильное приложение, которое может общаться, выполнять простые текстовые инструкции и генерировать картинки. 

2023 год стал годом нового бума обработки естественного языка. В магазинах мобильных приложений можно найти огромное количество продуктов с ИИ. В основном под капотом подобные приложения обращаются к API компании OpenAI (chatGPT), и с технической точки зрения реализовать это довольно несложно. Идея создания AIsaacChat была в том, чтобы оно обращалось с языковой модели, которую мы дообучим с помощью своих ресурсов.

Второй причиной создания стала идея объединить в одном приложении генерацию картинок и текста. Очевидно, что таких приложений много, разница состоит в том, что AIsaac может понимать ваши намерения. Что это означает для пользователя? Вы можете задавать Айзеку команды в произвольной форме (“можешь резко нарисовать дом в стиле Ван Гога”), и он поймет, что именно вы от него хотите: сгенерировать текст или картинку. 

Читать далее

Хороший, плохой, злой и… свободный? Сравниваем глуповатые, но усердные AI-плагины для разработки

Уровень сложностиСредний
Время на прочтение22 мин
Количество просмотров28K

Привет, Хабр! Меня зовут Арсений, я — тимлид в команде разработки инструментов разработчика KasperskyOS. Работа нашей команды заключается в том, чтобы делать жизнь разработчика ПО под нашу собственную микроядерную OS удобной, так что любые технологии, упрощающие жизнь разработчика, не оставляют нас равнодушными. Вместе со всеми мы следим за хайпом вокруг нейросетей и решили сделать небольшой обзор AI-плагинов автодополнения кода, которые каждый из нас может использовать уже сейчас.


image


В этой заметке попробуем сравнить следующие AI плагины VSCode:


  • Copilot v1.84.61 — самый нашумевший робот
  • Tabnine v3.6.45 — самый старый из трех и самый дорогой
  • Codeium v1.2.11 — самый свежий и самый малоизвестный
  • FauxPilot — Open source, self-hosted аналог Copilot, использующий модели от CodeGen; посмотрим, что может противопоставить коммерческим продуктам OSS-проект, развернутый на моем запечном сервере.

Статья может быть полезна любому разработчику, пишущему на одном из мейнстримовых языков программирования. Также можно рассматривать ее как источник идей — как использовать этих пока глуповатых, но усердных роботов.

Читать дальше →

Создание модов для Age of Empires II с помощью нейросети

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров5.2K

В прошлом месяце я занялся придумыванием способа создания собственных спрайтов цивилизаций для наших с друзьями игр в Age of Empires II.

В этой статье рассказывается о процессе создания гибкого генератора изображений на основе промтов. Для начинающих я посоветую Alpaca, а тем, кто умеет кодить — Stable Diffusion Web UI и Python.

Выражаю особую благодарность сообществам моддеров AoEII OpenAgeSLX Studio и Age of Kings Heaven.

Читать далее

Вклад авторов