Как стать автором
Обновить

Andrej Karpathy: глубокие нейросети 33 года назад и 33 года спустя

Время на прочтение 10 мин
Количество просмотров 3.8K
Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект
Перевод

На мой взгляд, статья Янна Лекуна с соавторами Backpropagation Applied to Handwritten Zip Code Recognition (1989 год) имеет определённую историческую ценность, поскольку, насколько мне известно, это первое реальное применение нейронной сети, от начала до конца обученной при помощи обратного распространения (backpropagation). Если не учитывать крошечный датасет (7291 изображений цифр в градациях серого размером 16x16) и крошечный размер использованной нейронной сети (всего тысяча нейронов), эта статья спустя 33 года ощущается вполне современной — в ней описана структура датасета, архитектура нейронной сети, функция потерь, оптимизация и приведены отчёты об величинах экспериментальных ошибок классификации для обучающего и тестового датасетов. Всё это очень узнаваемо и воспринимается как современная статья о глубоком обучении, только написанная 33 года назад. Я решил воспроизвести эту статью 1) для развлечения, а ещё 2) чтобы использовать это упражнение как исследование природы прогресса глубокого обучения.
Читать дальше →
Всего голосов 17: ↑17 и ↓0 +17
Комментарии 10

Waymo открыла доступ к большому датасету для обучения беспилотных автомобилей

Время на прочтение 2 мин
Количество просмотров 2.7K
Открытые данные *Машинное обучение *Искусственный интеллект Транспорт


Компания Waymo открыла в общий доступ и только для некоммерческого использования большой датасет, предназначенный для обучения алгоритмов беспилотных автомобилей.

Датасет «Waymo Open Dataset» содержит в себе тысячу двадцатисекундных записей, собранных с пяти лидаров и пяти камер во время реальных поездок по четырем американским городам с разными дорожными и погодными условиями, как пояснено в блоге компании.

Большая часть данных в датасете маркирована и содержит в себе суммарно о 12 млн. 3D меток и 1,2 млн. 2D меток различных объектов вокруг автомобиля.
Читать дальше →
Всего голосов 8: ↑8 и ↓0 +8
Комментарии 3

DuckDuckGo опубликовал список веб-трекеров, которые отслеживают активность пользователей

Время на прочтение 2 мин
Количество просмотров 16K
Информационная безопасность *Администрирование баз данных *
image

Поисковик DuckDuckGo разместил список веб-трекеров Tracker Radar. Он включает наименования 5326 доменов, которые 1727 компаний и организаций используют для отслеживания активности пользователей.

Данные общедоступны в соответствии с Creative Commons Attribution-NonCommercial-ShareAlike 4.0. Код, который используется для создания Tracker Radar, открыт на GitHub под лицензией Apache 2.0. Базу обещали пополнять ежемесячно.
Читать дальше →
Всего голосов 26: ↑26 и ↓0 +26
Комментарии 16

Facebook опубликовала датасет лиц с указанием пола, возраста и тональности цвета кожи

Время на прочтение 2 мин
Количество просмотров 4.1K
Работа с видео *Алгоритмы *Обработка изображений *Машинное обучение *Искусственный интеллект

Facebook AI представила открытый исходный код набора данных, предназначенного для выявления предубеждений по возрасту, полу и цвету кожи в моделях компьютерного зрения и машинного обучения. Набор «Случайные беседы» (Casual Conversations) включает 45 186 видеороликов участников и является первым в своем роде датасетом, в котором люди сами указали свой возраст и пол.

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Комментарии 9

IBM разработала датасет Project CodeNet для обучения нейросетей программированию

Время на прочтение 1 мин
Количество просмотров 3.5K
Программирование *Машинное обучение *Искусственный интеллект Изучение языков

IBM представила датасет Project CodeNet, который поможет обучать системы искусственного интеллекта программированию. Компания объявила на конференции Think 2021, что ей удалось создать аналог Rosetta Stone для кодинга.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 1

В Москве усовершенствовали портал с набором городских датасетов

Время на прочтение 2 мин
Количество просмотров 583
Открытые данные *Хранилища данных *Транспорт Урбанизм

В Москве в режиме бета‑тестирования заработал усовершенствованный Портал открытых данных. Разработчики обновили дизайн и оптимизировали внутреннюю архитектуру сайта, чтобы он был более удобным и быстрым.

Читать далее
Всего голосов 18: ↑16 и ↓2 +14
Комментарии 0

Топливо для ИИ: подборка открытых датасетов для машинного обучения

Время на прочтение 6 мин
Количество просмотров 75K
Блог компании VK Программирование *Открытые данные *Машинное обучение *


Связанные проекты сообщества Open Data (проект Linked Open Data Cloud). Многие датасеты на этой диаграмме могут включать в себя данные, защищенные авторским правом, и они не упоминаются в данной статье


Если вы прямо сейчас не делаете свой ИИ, то другие будут делать его вместо вас для себя. Ничто более не мешает вам создать систему на основе машинного обучения. Есть открытая библиотека глубинного обучения TensorFlow, большое количество алгоритмов для обучения в библиотеке Torch, фреймворк для реализации распределенной обработки неструктурированных и слабоструктурированных данных Spark и множество других инструментов, облегчающих работу.


Добавьте к этому доступность больших вычислительных мощностей, и вы поймете, что для полного счастья не хватает лишь одного ингредиента — данных. Огромное количество данных находится в открытом доступе, однако непросто понять, на какие из открытых датасетов стоит обратить внимание, какие из них годятся для проверки идей, а какие могут быть полезны в качестве средства проверки потенциальных продуктов или их свойств до того, как вы накопите собственные проприетарные данные.


Мы разобрались в этом вопросе и собрали данные по датасетам, удовлетворяющим критериям открытости, востребованности, скорости работы и близости к реальным задачам.

Читать дальше →
Всего голосов 65: ↑65 и ↓0 +65
Комментарии 10

Подборка датасетов для машинного обучения

Время на прочтение 6 мин
Количество просмотров 106K
Python *Data Mining *Машинное обучение *Искусственный интеллект
Привет, читатель!

Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

Меньше слов, больше данных.

image

Подборка датасетов для машинного обучения:


Читать дальше →
Всего голосов 66: ↑64 и ↓2 +62
Комментарии 6

Построение автоматической системы модерации сообщений

Время на прочтение 9 мин
Количество просмотров 6.7K
Мессенджеры *Python *Алгоритмы *Машинное обучение *Искусственный интеллект
image
Автоматические системы модерации внедряются в веб-сервисы и приложения, где необходимо обрабатывать большое количество сообщений пользователей. Такие системы позволяют сократить издержки на ручную модерацию, ускорить её и обрабатывать все сообщения пользователей в real-time. В статье поговорим про построение автоматической системы модерации для обработки английского языка с использованием алгоритмов машинного обучения. Обсудим весь пайплайн работы от исследовательских задач и выбора ML алгоритмов до выкатки в продакшен. Посмотрим, где искать готовые датасеты и как собрать данные для задачи самостоятельно.
Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 19

Подборка рабочих примеров обработки данных

Время на прочтение 4 мин
Количество просмотров 11K
Python *Data Mining *Big Data *Машинное обучение *
Привет, читатель.

По стопам моего первого поста подборки датасетов для машинного обучения — сделаю подборку относительно свежих датасетов с рабочими примерами по обработке данных. Ведь ни для кого не секрет, что обучение на хороших примерах проходит эффективнее и быстрее. Посмотрим, что интересного нам смогут показать одни из лучших примеров по обработке данных.

Схема работы с текущим постом унаследуется от моего поста про лучшие блокноты по ML и DS, а именно — сохранил в закладки → передал коллеге.

+ бонус в конце статьи — крутой курс от ФПМИ МФТИ.

image

Итак, давайте приступим.

Подборка датасетов с рабочими примерами обработки данных:


Suicide Rates Overview 1985 to 2016 — сравнение социально-экономической информации с показателями самоубийств по годам и странам.

Примеры обработки:

Читать дальше →
Всего голосов 17: ↑16 и ↓1 +15
Комментарии 0

Анонимность – иллюзия. По данным из обезличенных датасетов можно идентифицировать реальных людей

Время на прочтение 3 мин
Количество просмотров 26K
Будущее здесь
Перевод


Theguardian.com опубликовал выводы из исследования, сделанного двумя именитыми вузами: Бельгийским университетом UCLouvain и Imperial College London: ученые подтверждают, что существует множество способов связать любые анонимные данные с реальными людьми.
К примеру, данные с 15 демографическими атрибутами «раскроет 99,98 % жителей Массачусетса». А для небольших популяций эта процедура ещё проще: к примеру, если речь идёт о маленьком городке, то «будет не сложно идентифицировать жителей Харвич Порт, Массачусетс, в котором живёт меньше 2000 человек».
Читать дальше →
Всего голосов 56: ↑52 и ↓4 +48
Комментарии 25

На чем тестировать алгоритмы распознавания и обработки документов, удостоверяющих личность?

Время на прочтение 6 мин
Количество просмотров 4.7K
Блог компании Smart Engines Алгоритмы *Обработка изображений *Машинное обучение *Искусственный интеллект

Как известно, мы в Smart Engines занимаемся системами компьютерного зрения и распознавания документов, а также научными исследованиями в этой области. В течение нескольких лет в фокусе нашего внимания находились системы распознавания документов, удостоверяющих личность. Одной из критичных проблем, возникающих при подготовке научных статей, является отсутствие открытых датасетов, на которых можно демонстрировать сообществу разработанные нами алгоритмы и подходы. В связи с этим два года назад мы начали работу над серией открытых пакетов изображений и видеоклипов ID-документов, предназначенных, главным образом, для исследователей, и о результатах этой работы хотели бы рассказать вам под катом.


Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Комментарии 6

Ресурсы для получения датасетов изображений, о которых вы могли не знать

Время на прочтение 5 мин
Количество просмотров 7.8K
Python *Обработка изображений *Открытые данные *Машинное обучение *Data Engineering *

Привет, Хабр! Как известно, топливом для машинного обучения являются наборы данных. В качестве источников для получения датасетов, которыми люди обычно пользуются и которые у всех на слуху, являются такие сайты как Kaggle, ImageNet, Google Dataset Search и Visual Genom, но довольно редко встречаю людей, которые для поиска данных используют такие сайты как Bing Image Search и Instagram. Поэтому в этой статье я покажу как легко получить данные с этих источников, написав две небольшие программы на Python.

Читать дальше
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 2

Как собрать датасет за неделю: опыт студентов магистратуры «Наука о данных»

Время на прочтение 12 мин
Количество просмотров 8.5K
Блог компании SkillFactory Data Mining *Big Data *Хакатоны Data Engineering *
Привет, Хабр! Сегодня хотим представить вам некоммерческий открытый датасет, собранный командой студентов магистратуры «Наука о данных» НИТУ МИСиС и Zavtra.Online (подразделении SkillFactory по работе с вузами) в рамках первого учебного Дататона. Мероприятие проходило как один из форматов командной практики. Данная работа заняла первое место из 18 команд.

Датасет содержит полный список объектов торговли и услуг в Москве с транспортными, экономическими и географическими метаданными. Исходная гипотеза состоит в том, что близость объекта к транспортным узлам является одним из важнейших показателей и ключевым фактором экономического успеха. Мы попросили команду детально описать свой опыт сбора такого датасета, и вот что получилось.

TLTR: Ближе к концу статьи вы найдёте информативные графики, карты и ссылки.

Приятного чтения
Всего голосов 25: ↑24 и ↓1 +23
Комментарии 1

Нужно больше датасетов. Музыка, IT-скилы и котики

Время на прочтение 10 мин
Количество просмотров 3.1K
Блог компании SkillFactory Data Mining *Big Data *Хакатоны Data Engineering *

Привет, Хабр! Совсем недавно мы писали про открытый датасет, собранный командой студентов магистратуры «Наука о данных» НИТУ МИСиС и Zavtra.Online (подразделение SkillFactory по работе с университетами) в рамках первого учебного Дататона. А сегодня представим вам целых 3 датасета от команд, которые также вышли в финал.

Все они разные: кто-то исследовал музыкальный рынок, кто-то – рынок труда IT-специалистов, а кто-то и вовсе домашних кошек. Каждый из этих проектов актуален в своей сфере и может быть использован для того, чтобы что-то усовершенствовать в привычном ходе работы. Датасет с котиками, например, поможет судьям на выставках. Датасеты, которые необходимо было собрать студентам, должны были представлять собой MVP (таблица, json или структура каталогов), данные должны быть очищены и проанализированы. Посмотрим же, что у них получилось.

Приятного чтения!
Всего голосов 13: ↑12 и ↓1 +11
Комментарии 1

Open Source датасет SOVA: аудио для распознавания и синтеза речи

Время на прочтение 14 мин
Количество просмотров 5.1K
Блог компании Наносемантика Машинное обучение *Искусственный интеллект

Всем привет! Мы — команда компании «Наносемантика», и недавно мы запустили проект SOVA, где занимаемся сбором датасета для использования его в обучении нейронных сетей и создания виртуальных ассистентов на базе искусственного интеллекта.

Мы подготовили большой датасет для обучения движков распознавания речи и хотим поделиться им, чтобы компании могли внедрять его у себя для решения  разного рода бизнес-задач. Данные – это новая нефть, а одна из важнейших причин прогресса в системах распознавания на базе машинного обучения – наличие размеченных датасетов. Если вы интересуетесь исследованиями и разработками в области речевой аналитики – заходите под кат.

Читать далее
Всего голосов 10: ↑9 и ↓1 +8
Комментарии 6

Датасет о мобильных приложениях

Время на прочтение 7 мин
Количество просмотров 2.2K
Python *Программирование *Открытые данные *Машинное обучение *

Моя основная работа связана с мобильной рекламой, и время от времени мне приходится работать с данными о мобильных приложениях. Я решил сделать некоторые данные общедоступными для тех, кто хочет попрактиковаться в построении моделей или получить представление о данных, которые можно собрать из открытых источников. В этой статье я представлю датасет и, используя его, построю одну модель.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 0

Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе

Время на прочтение 6 мин
Количество просмотров 10K
Блог компании SberDevices Open source *Машинное обучение *Искусственный интеллект Голосовые интерфейсы *


Меня зовут Саша, в SberDevices я занимаюсь системой распознавания речи и тем, как данные могут сделать её лучше. В этой статье я расскажу о новом речевом датасете Golos, который состоит из аудиофайлов и соответствующих транскрипций. Общая длительность записей составляет примерно 1240 часов, частота дискретизации – 16кГц. На текущий момент это самый большой корпус аудиозаписей на русском языке, размеченный вручную. Мы выпустили корпус под лицензией, близкой к CC Attribution ShareAlike, что позволяет его использовать как для научных исследований, так и в коммерческих целях. Я расскажу о том, из чего состоит датасет, каким образом он был собран и каких результатов позволяет достичь.
Всего голосов 37: ↑34 и ↓3 +31
Комментарии 14

Как улучшить распознавание русской речи до 3% WER с помощью открытых данных

Время на прочтение 5 мин
Количество просмотров 4.8K
Блог компании SberDevices Машинное обучение *Искусственный интеллект Natural Language Processing *Голосовые интерфейсы *

Меня зовут Николай, когда в 2009 году я защищал диссертацию по распознаванию речи, скептики мне говорили, что слишком поздно, так как Microsoft и Google уже “всё сделали”. Сейчас в SberDevices я обучаю модели распознавания речи, которые используются в семействе виртуальных ассистентов Салют и других банковских сервисах. Я расскажу, как обучил модель распознавания речи, используя Common Voice и недавно открытый датасет Golos. Ошибка распознавания составила от 3 до 11 % в зависимости от типа тестовой выборки, что очень неплохо для открытой модели.

Не так давно наша команда подготовила и опубликовала общедоступный датасет Golos. Почему встал вопрос об обучении и публикации акустической модели QuartzNet? Во-первых, чтобы узнать, какую точность достигает система распознавания речи при обучении на новом датасете. Во-вторых, обучение само по себе ресурсоёмкое, поэтому сообществу полезно иметь в открытом доступе предобученную модель на русском языке. Полная версия статьи опубликована на сайте arxiv.org и будет представлена на конференции INTERSPEECH2021

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Комментарии 3

Global WHEAT CHALLENGE 2021 или как накормить весь мир

Время на прочтение 4 мин
Количество просмотров 848
Python *Программирование *Машинное обучение *

Представляю вашему внимаю обзор на соревнование Global Wheat Challenge 2021, а также делюсь своим опытом участия в нем.

О соревновании

Данное соревнование проводилось на площадке aicrowd.com, аналоге kaggle, и организатором был университет Саска́чеван. Денежные призы присуждались за первые три места: 1) 2000$; 2) 1000$; 3) 1000$.

Перед участниками стояла задача детектирования колосьев пшеницы на изображениях. Лучшая модель должна заместить ручной труд в задачах ученых-селекционеров и фермеров. На основе выхода работы нейронной сети ученым и фермерам будет легче посчитать их метрику качества плодородности пшеницы и выбрать наилучшую культуру для того или иного региона мира. В конечном итоге это должно повысить урожайность.

Стоит сказать, что это не первое соревнование, организованное этим университетом в рамках данной задачи. Так, например, в прошлом году он так же проводил соревнование на площадке kaggle.

Датасет

Набор данных состоит из более чем 6000 изображений с разрешением 1024х1024 пикселей, содержащих свыше 300 тыс. уникальных колосьев пшеницы. Изображения получены из 11 стран и охватывают 44 уникальных сеанса измерений. Сеанс измерения — это набор изображений, полученных в одном и том же месте в течение нескольких часов. По сравнению с конкурсом 2020 года на Kaggle, он представляет 4 новые страны, 22 новых сеанса измерений, 1200 новых изображений и 120 тыс. новых голов пшеницы. Стоит отметить, что распределение между test и train было не стратифицировано относительно сеансов измерений, то есть в test попали изображения из стран и временных периодов, не встречающихся в train. Так организаторы пытались подтолкнуть участников создавать робастный метод детекции.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 0
1