Как стать автором
Обновить
455.62

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Теперь наш синтез на 20 языках

Время на прочтение 7 мин
Количество просмотров 12K

hero_image


В нашей прошлой статье мы ускорили наши модели в 10 раз, добавили новые высококачественные голоса и управление с помощью SSML, возможность генерировать аудио с разной частотой дискретизации и много других фишек.


В этот раз мы добавили:


  • 1 высококачественный голос на русском языке (eugeny);
  • Синтез на 20 языках, 174 голоса;
  • В список языков входят 5 языков народов СНГ: калмыцкий, русский, татарский, узбекский и украинский;
  • В список языков входят 5 вариаций на тему романо-германских языков: английский, индийский английский, испанский, немецкий, французский;
  • Также в список языков входят 10 языков народов Индии;
  • Новую значительно улучшенную модель для простановки ударений и буквы ё со словарем в 4 миллиона слов и точностью 100% (но естественно с рядом оговорок);
  • Все модели наследуют все "фишки" прошлого релиза, кроме автоматической простановки ударений для языков отличных от русского;

Пока улучшение интерфейсов мы отложили на некоторое время. Ускорить модели еще в 3+ раза мы тоже смогли, но пока с потерей качества, что не позволило нам обновить их прямо в этом релизе.


Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →
Всего голосов 65: ↑63 и ↓2 +61
Комментарии 24

Система распознавания шрифта Брайля. Читаем написанное белым по белому

Время на прочтение 13 мин
Количество просмотров 12K

В 2018 году мы взяли из детдома в семью слепую девочку Анжелу. Тогда я думал, что это чисто семейное обстоятельство, никак не связанное с моей профессией разработчика систем компьютерного зрения. Но благодаря дочери через два года появилась программа и интернет-сервис для распознавания текстов, написанных шрифтом Брайля - Angelina Braille Reader.

Сейчас этот сервис используют сотни людей и в России, и за ее пределами. Тема оказалась хайповой, сюжет о программе даже показали в федеральных новостях на ТВ. Но что важнее - за свою многолетнюю карьеру в ИТ ни в одном проекте я не получал столько искренних благодарностей от пользователей.

Ниже расскажу о том, как делалась эта разработка и с какими трудностями пришлось столкнуться. Более развернутое описание приведено в публикациях [1,2].

Возможно, кто-то захочет внести в проект свой вклад.

Читать далее
Всего голосов 149: ↑148 и ↓1 +147
Комментарии 26

Не все герои носят плащи. Программист-энтузиаст построил кластер Nvidia GeForce 1080 Ti для лечения рака

Время на прочтение 8 мин
Количество просмотров 21K


Люди часто жалуются, что их работа не имеет особого смысла и не приносит большой пользы. Мол, её можно вообще не делать — и практически ничего не изменится. Никому не станет хуже.

Но мало кто находит силы, чтобы изменить ситуацию и начать полезное, важное дело, пусть и не прибыльное. Даже если окружающие цинично хмыкают, мол, идея не оригинальная, ничего у тебя не получится, да и вообще ты не подумал о том и этом…

Ниже история программиста, который решил в свободное от работы время сделать полезное для этого мира — спасти жизни людей. Может, его пример кого-то вдохновит.
Читать дальше →
Всего голосов 98: ↑98 и ↓0 +98
Комментарии 39

Мой опыт с резиновым мужиком. Github Copilot

Время на прочтение 15 мин
Количество просмотров 28K

Первая моя ассоциация с Github Copilot - это резиновый мужик-автопилот из фильма "Аэроплан". Помню, в детстве я увидел этот фильм и потом реально думал, что так автопилоты и выглядят: какая-то смешная резиновая кукла надувается и начинает управлять самолётом. И вот, через столько лет меня не покидает ощущение, что передо мной надувается какая-то кукла и пытается писать за меня код.

Короче, нежданно-негаданно мне пришёл инвайт в GitHub copilot. Я и забыл про то, что когда-то запрашивал доступ - ажиотаж давно уже спал, вроде мир не захвачен машинами, а значит, не такой уж он и крутой, да? С другой стороны, недавно к нам на позицию senior python постучал чел и сказал, что большую часть нашего тестового задания он запилил при помощи copilot, так что определённо кто-то "пилотом" пользуется. В общем, непонятно: хорошо оно или плохо? Стану ли я теперь более продуктивным? Есть только один способ проверить: в бою.

Поехали
Всего голосов 92: ↑89 и ↓3 +86
Комментарии 37

Истории

Почему GPU обманывают о своей нагрузке и как с этим бороться

Время на прочтение 10 мин
Количество просмотров 19K
В предыдущем посте я рассказывал о том, как мы строили свои суперкомпьютеры. В этом — поделюсь опытом, который мы накопили, эксплуатируя наши кластеры. Этот опыт будет полезен не только тем, кто обучает огромные ML-модели. На грабли, о которых пойдёт речь, легко наступить, даже если вы специалист с парой GPU.



Почему в распределённом обучении нельзя доверять утилизации GPU? Почему переход в эру распределённого обучения — фундаментальный сдвиг парадигмы мышления, к которому должен быть готов каждый ML-разработчик? Ещё больше «Почему» и ответов на них — под катом.
Читать дальше →
Всего голосов 75: ↑74 и ↓1 +73
Комментарии 8

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

Время на прочтение 8 мин
Количество просмотров 46K

hero_image


В нашей прошлой статье про синтез речи мы дали много обещаний: убрать детские болячки, радикально ускорить синтез еще в 10 раз, добавить новые "фишечки", радикально улучшить качество.


Сейчас, вложив огромное количество работы, мы наконец готовы поделиться с сообществом своими успехами:


  • Снизили размер модели в 2 раза;
  • Научили наши модели делать паузы;
  • Добавили один высококачественный голос (и бесконечное число случайных);
  • Ускорили наши модели где-то примерно в 10 раз (!);
  • Упаковали всех спикеров одного языка в одну модель;
  • Наши модели теперь могут принимать на вход даже целые абзацы текста;
  • Добавили функции контроля скорости и высоты речи через SSML;
  • Наш синтез работает сразу в трех частотах дискретизации на выбор — 8, 24 и 48 килогерц;
  • Решили детские проблемы наших моделей: нестабильность и пропуск слов, и добавили флаги для контроля ударения;

Это по-настоящему уникальное и прорывное достижение и мы не собираемся останавливаться. В ближайшее время мы добавим большое количество моделей на разных языках и напишем целый ряд публикаций на эту и смежные темы, а также продолжим делать наши модели лучше (например, еще в 2-5 раз быстрее).


Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →
Всего голосов 158: ↑157 и ↓1 +156
Комментарии 100

8 ошибок, из-за которых ты проиграешь в соревновательном Data Science

Время на прочтение 8 мин
Количество просмотров 15K

Привет, чемпион!

Если ты читаешь этот пост, значит, тебе стало интересно, не допускаешь ли этих ошибок ты?! Почти уверен, что ты допускал эти ошибки хотя бы раз в жизни. Мы не застрахованы от совершения ошибок, такова наша человеческая натура — ошибаться для нас естественно. Однако, я постараюсь уберечь тебя от тех ошибок, которые совершал сам или замечал у других.

Так вышло, что за время участия в чемпионатах по соревновательному анализу данных я достаточно часто бывал в призовых местах. Однако, бывали случаи, когда я лишался призовых по глупости или неосторожности. Рассказываю по порядку.
Читать дальше →
Всего голосов 59: ↑57 и ↓2 +55
Комментарии 10

Как ИИ от DeepMind помогает историкам расшифровывать поврежденные тексты из Древней Греции

Время на прочтение 5 мин
Количество просмотров 5.4K

Специалисты из DeepMind много раз реализовывали уникальные технологические проекты, которые удивляли своими возможностями. Об одном из таких проектов, AlphaGo, на Хабре рассказывали много раз. AlphaGo стал доказательством того, что технологии способны в буквальном смысле ломать шаблоны. Так, в течение многих лет считалось, что компьютер не способен побеждать в играх, где требуется интуиция. Но оказалось, что может — и доказательством тому стала многократная победа алгоритма в чемпионатах по го.

Сейчас в DeepMind разработали технологию, которая производит впечатление не яркими победами над человеком, а своими возможностями в научной отрасли — если быть точнее, в истории. Система, которая получила название Ithaca, помогает историкам читать древние тексты, которые повреждены. В запасниках музеев хранится большое количество различных артефактов прошлого, которые очень сильно повреждены временем. И если оружие, доспехи, одежду можно реставрировать, то вот тексты, которые нанесены на поврежденный папирус, пергамент и другие «носители», восстановить не так просто. Но Ithaca с этим справляется.
Читать дальше →
Всего голосов 54: ↑52 и ↓2 +50
Комментарии 7

Проблемы современного машинного обучения

Время на прочтение 41 мин
Количество просмотров 41K

Во многих популярных курсах машинного и глубокого обучения вас научат классифицировать собак и кошек, предсказывать цены на недвижимость, покажут еще десятки задач, в которых машинное обучение, вроде как, отлично работает. Но вам расскажут намного меньше (или вообще ничего) о тех случаях, когда ML-модели не работают так, как ожидалось.

Частой проблемой в машинном обучении является неспособность ML-моделей корректно работать на большем разнообразии примеров, чем те, что встречались при обучении. Здесь идет речь не просто о других примерах (например, тестовых), а о других типах примеров. Например, сеть обучалась на изображениях коровы, в которых чаще всего корова был на фоне травы, а при тестировании требуется корректное распознавание коровы на любом фоне. Почему ML-модели часто не справляются с такой задачей и что с этим делать – мы рассмотрим далее. Работа над этой проблемой важна не только для решения практических задач, но и в целом для дальнейшего развития ИИ.

Читать далее
Всего голосов 104: ↑103 и ↓1 +102
Комментарии 26

Кластеризация изображений с помощью нейросети CLIP

Время на прочтение 5 мин
Количество просмотров 5.7K

В статье пойдёт речь о том, как можно автоматически разделить датасет изображений на кластеры, которые поделены по качественному контекстному признаку, благодаря эмбедингам из нашумевшей нейронной сети CLIP от компании Илона Маска. Расскажу на примере контента из нашего приложения iFunny.

Кластеризация считается unsupervised задачей — это значит, что нет никакой явной разметки целевых значений, то есть нет «учителя». В нашем случае мы загружаем некий датасет картинок и хотим произвольно, но качественно побить его на кластеры. 

Например, набор изображений животных может разделиться на кластеры по виду, по полосатости, по количеству лап или другим признакам. В любом случае ожидается понятная логика разбивки, которую можно дальше использовать для других задач.

Под катом расскажу, как мы построили логичную кластеризацию с помощью библиотеки HDBSCAN и векторов из нейронной сети CLIP, и каких результатов добились на выходе.

Читать далее
Всего голосов 53: ↑52 и ↓1 +51
Комментарии 11

Как мы научились понимать продажи в колл-центре, или С чего начать ML-проект, если непонятно ничего

Время на прочтение 6 мин
Количество просмотров 4.1K

Не все ML-проекты начинаются с четкого формулирования результата, который мы хотим получить на выходе. С какого-то момента задача обретает стандартную для машинного обучения постановку: появляются данные и требования к модели. Однако такой постановке может предшествовать долгий и неочевидный процесс.

Если вы хоть раз смотрели детектив, то понимаете, как выглядит первичный этап в ML-проекте: проверяется множество гипотез, много времени уходит на сбор данных и погружение в процессы, планы часто меняются по ходу работы, все постоянно торопят. Несмотря на неопределенность, именно этот этап позволяет раскрыть весь потенциал внедрения машинного обучения, а значит важен как для бизнеса, так и для data scientist'ов.

Меня зовут Настя, я DS Team Lead в компании Домклик. В мае этого года мы запускали data science в команде «Речевые сервисы». За полгода реализовали несколько успешных проектов, об одном из них пойдет речь.

Читать далее
Всего голосов 52: ↑52 и ↓0 +52
Комментарии 10

Рождение Albumentations

Время на прочтение 15 мин
Количество просмотров 7.4K

В этом посте я расскажу историю появления Open Source библиотеки Albumentations как я ее запомнил. Я не буду углубляться в технические детали. Основная задача текста - логирование, то есть надо написать историю, которую мне будет интересно прочитать через 20 лет.

История будет затянутая, с лишними подробностями, более того - основная часть будет о том, как все начиналось, а уже процесс итеративных улучшений будет покрыт меньше.

Читать далее
Всего голосов 57: ↑57 и ↓0 +57
Комментарии 4

Шёпот и эмоции в Алисе: история развития голосового синтеза Яндекса

Время на прочтение 15 мин
Количество просмотров 34K


Четыре года назад мы запустили Алису. С самого начала она обладала собственным, узнаваемым голосом. Хотя проблемы тоже были: интонации хромали, эмоции скакали от слова к слову, а омонимы и вовсе ставили синтез в тупик. Алиса звучала пусть и не как робот, но ещё и не как человек.

Исследования показывают, что желание общаться с голосовым помощником напрямую зависит от того, насколько точно он имитирует речь людей. Поэтому мы постоянно работаем над «очеловечениванием» голоса Алисы. С тех пор сменилось несколько поколений нашего голосового синтеза. Мы научились расставлять интонации, отличать «замОк» от «зАмка» и многое другое.

Сейчас мы переходим на следующий уровень: учим Алису управлять эмоциями и стилем своей речи, распознавать шёпот и отвечать на него шёпотом. Казалось бы, что в этом сложного и почему всё это было невозможно ещё несколько лет назад? Вот об этом я и расскажу сегодня сообществу Хабра.
Читать дальше →
Всего голосов 81: ↑78 и ↓3 +75
Комментарии 53

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн

Обзор архитектуры AlphaFold 2

Время на прочтение 39 мин
Количество просмотров 6.3K

В данном обзоре мы подробно рассмотрим нейронную сеть AlphaFold 2 от компании DeepMind, с помощью которой недавно был совершен прорыв в одной из важных задач биологии и медицины: определении трехмерной структуры белка по его аминокислотной последовательности.

В первых трех разделах обзора описывается задача, формат входных данных и общая архитектура AlphaFold 2. Далее, начиная с раздела «Input feature embeddings», описываются детали архитектуры. В разделе «Резюме» кратко суммируется основная информация из обзора.

Читать далее
Всего голосов 52: ↑52 и ↓0 +52
Комментарии 2

Войти вайти в 37 лет, личный опыт

Время на прочтение 11 мин
Количество просмотров 46K

Сейчас мне сорок пять, и я наконец получил нормальную фултайм позицию аналитика данных. У меня первый диплом - Провизор по специальности Фармация. Я успел поработать таксистом, разнорабочим на складе лекарственных трав, заготовщиком, владельцем цеха металлообработки и одновременно рабочим в этом цеху. Был фармацевтом за кассой, заместителем заведующей аптекой, владельцем аптеки. Никогда не думал, что буду работать в IT, хотя всегда интересовался этой темой.

В школе у нас был компьютерный класс...
Всего голосов 70: ↑61 и ↓9 +52
Комментарии 77

Коротко о книге “Сильный искусственный интеллект”: что мы не знаем о будущем

Время на прочтение 7 мин
Количество просмотров 15K

На конференциях с недавнего времени стала мелькать тема “сильного искусственного интеллекта”, но, как правило, для меня находились более актуальные доклады, и я ее успешно избегал. Кроме того, в тридцатиминутном докладе люди стараются говорить как можно конкретнее, и полная картина для человека не в теме ускользает. Когда мне подвернулась книга “Сильный искусственный интеллект”, выпущенная “Альпина Паблишер”, я тут же принялся за ее изучение. Книга написана огромным количеством авторов, и часть имен хорошо известна в кругах Data Science. 

Цель книги - обобщить мысли и наработки, которые появлялись за все время по теме AGI (Artificial General Intelligence). Расскажу о них коротко в этой статье. Надеюсь, они будут любопытны и вам. 

Читать далее
Всего голосов 66: ↑65 и ↓1 +64
Комментарии 112

Зловещая долина: terra incognita, в которой расставлены нейронные сети

Время на прочтение 15 мин
Количество просмотров 20K

Не припомню, чтобы в детстве я боялся клоунов. За все детство я побывал в цирке-шапито, может быть, два раза. Зато я определенно испытывал отвращение и настороженную злость к деду Морозу,  поскольку примерно в семь лет прочел сказку Евгения Шварца «Два брата», а также был впечатлен завязкой фильма «Сказка странствий» (примерно 4.30 – 8.00). Много позже я стал понимать, что ощущение жуткой фальшивости деда Мороза было настоящим проявлением эффекта «зловещей долины». Этот эффект, получивший широкую известность в трактовке Масахиро Мори (род. 1927) в 1970 году, в дальнейшем стал предметом серьезных исследований и моделирования. В сегодняшней статье будет рассмотрено, как был обнаружен и как изучался этот феномен. Постараемся поговорить о нем с точки зрения психологии, распознавания образов и соотношения гармонии и уродства.

Статья написана в соавторстве с Екатериной Черских @MarkOcean, аспиранткой Санкт-Петербургского ФИЦ РАН.

Читать далее
Всего голосов 52: ↑51 и ↓1 +50
Комментарии 32

Как мы узнали, что одна из бригад оцинковщиков работала быстрее других и что было дальше

Время на прочтение 7 мин
Количество просмотров 24K
Практически всё, что вы видите на фото ниже — агрегат, где происходит горячее цинкование металлопроката. Полоса металла шириной от 0,9 до 1,8 м и длиной до 6,5 км проходит термическую обработку, погружается в ванну с цинковым расплавом и едет дальше по многоступенчатому технологическому процессу. Далее полоса охлаждается, режется и сматывается в рулоны.

image
Это агрегат непрерывного горячего цинкования (АНГЦ-1 в Липецке). Его размеры могут впечатлить: длина 255,8 метров – это больше чем два футбольный поля, а ширина 21 метр, по вертикали от нижней отметки (-7,0 м) до верхней отметки (+28.5 м).

Агрегат функционирует 24/7 круглый год. Если упрощенно, этот монстр включает в себя печь отжига, ванну цинкования и башню охлаждения.

Чтобы цинковое покрытие было качественным нужно учесть более 100 параметров, при том все они разные для каждого класса стали.

На АНГЦ работают 4 бригады. Однажды при анализе данных, мы увидели, что производительность одной из них была немного (совсем чуть-чуть) выше, чем у трёх других.

Очевидно, что разница в производительности зависит от скорости прохождения полосы (хорошо бы побыстрее). При этом качество продукции, помимо прочего, также зависит от скорости (поспешишь, людей насмешишь). Тут нужен тонкий баланс.

У бригад подход к выбору температурно-скоростных режимов индивидуально разный. Это примерно, как манера вождения автомобиля – кто-то гонит в левой, а кто-то за троллейбусом (утрирую, конечно). Поэтому мы сделали цифровой советчик, чтобы подтянуть и выровнять всех.
Читать дальше →
Всего голосов 64: ↑63 и ↓1 +62
Комментарии 50

Суперкомпьютеры Яндекса: взгляд изнутри

Время на прочтение 12 мин
Количество просмотров 33K


Недавно три наших новых GPU-кластера заняли 19, 36 и 40 места в рейтинге суперкомпьютеров Top500. Это лучшие результаты среди всех участвующих в нём суперкомпьютеров России. Но сегодня мы поговорим не о местах в рейтинге, а о том, чем полезно на практике участие в подобных замерах.

Из этого поста вы узнаете про наши первые попытки создать свои кластеры и грабли на этом пути. Расскажем, как устроены суперкомпьютеры для машинного обучения и почему мы в итоге пришли к собственной архитектуре. Важная часть истории будет посвящена разбору проблем замеров производительности, которые, вопреки первым впечатлениям, принесли нам не только места в рейтинге, но и реальную пользу для наших ML-проектов.

Поможет мне в этом Дмитрий Монахов dmtrmonakhov. Он уже известен читателям Хабра по докладу о разработке ядра Linux. Передаю ему слово.
Читать дальше →
Всего голосов 125: ↑124 и ↓1 +123
Комментарии 56

Рисуем вместе с CLIP Guided Diffusion HQ

Время на прочтение 7 мин
Количество просмотров 11K
UPD: эта статья была написана до выхода интереснейшего материала о нейросети ruDALL-E. Мы решили всё равно её опубликовать — таким образом у читателей будет возможность сравнить изображения, сгенерированные отечественной и зарубежной сетями. Дальнейший текст публикуется без изменений.


Во времена старого Баша мне запомнилась одна цитата:
kok:
Подскажите какой прогой перегонять книги из txt в mp3
Izzzum:
^^^^^ No Comment а почему сразу не в 3gp или XviD?
kok:
А в каком по твоему формате аудиокниги?
kok:
Или ты думаешь, что какойто дурень сидит и начитывает перед микрофоном?
Что ж, если не предъявлять слишком высоких требований к реалистичности результата, можно сказать, что сегодня у нас такие «проги» есть. Речь, конечно же, о нейросетях, которые умеют генерировать практически любые виды контента.

Читать дальше →
Всего голосов 58: ↑57 и ↓1 +56
Комментарии 8

Вклад авторов

Работа

Data Scientist
66 вакансий