Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Audi открыла датасет для обучения беспилотных автомобилей

Транспорт
Беспилотное подразделение Audi опубликовало в открытом доступе датасет Autonomous Driving Dataset (A2D2) для обучения беспилотных автомобилей размером 2.3TB.
Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 1K
Комментарии 0

Оптимизация JSON датасетов (массивов записей)

JavaScript *
Под датасетом будем понимать массив записей JavaScript:

var dataset = [
  { foo: 'xxx', bar: xxx' },
  { foo: 'yyy', bar: 'yyy' },
  ...
  { foo: 'zzz', bar: 'zzz' }
];


Это обычное JavaScript представление некоторой части таблицы (или выборки) из реляционной базы данных: имена свойств соответствуют именам столбцов, значения свойств — значениям полей записи.

Читать дальше →
Всего голосов 46: ↑27 и ↓19 +8
Просмотры 8K
Комментарии 34

DataSet’ы в Web-сервисах – это порождение дьявола и всё мировое зло

Разработка веб-сайтов *.NET *C# *
Перевод
(Нет, на самом деле я в это не верю, но ведь неплохой заголовок получился, не так ли? DataSet’ы имеют право на существование, но только не в качестве внешних бизнес-объектов или контрактов Web-сервисов).
Читать дальше →
Всего голосов 16: ↑11 и ↓5 +6
Просмотры 6.3K
Комментарии 8

Топливо для ИИ: подборка открытых датасетов для машинного обучения

Блог компании VK Программирование *Открытые данные *Машинное обучение *


Связанные проекты сообщества Open Data (проект Linked Open Data Cloud). Многие датасеты на этой диаграмме могут включать в себя данные, защищенные авторским правом, и они не упоминаются в данной статье


Если вы прямо сейчас не делаете свой ИИ, то другие будут делать его вместо вас для себя. Ничто более не мешает вам создать систему на основе машинного обучения. Есть открытая библиотека глубинного обучения TensorFlow, большое количество алгоритмов для обучения в библиотеке Torch, фреймворк для реализации распределенной обработки неструктурированных и слабоструктурированных данных Spark и множество других инструментов, облегчающих работу.


Добавьте к этому доступность больших вычислительных мощностей, и вы поймете, что для полного счастья не хватает лишь одного ингредиента — данных. Огромное количество данных находится в открытом доступе, однако непросто понять, на какие из открытых датасетов стоит обратить внимание, какие из них годятся для проверки идей, а какие могут быть полезны в качестве средства проверки потенциальных продуктов или их свойств до того, как вы накопите собственные проприетарные данные.


Мы разобрались в этом вопросе и собрали данные по датасетам, удовлетворяющим критериям открытости, востребованности, скорости работы и близости к реальным задачам.

Читать дальше →
Всего голосов 65: ↑65 и ↓0 +65
Просмотры 68K
Комментарии 10

Feature Engineering, о чём молчат online-курсы

Блог компании VK Data Mining *Big Data *Машинное обучение *Учебный процесс в IT


Sherlock by ThatsWhatSheSayd


Чтобы стать великим сыщиком, Шерлоку Холмсу было достаточно замечать то, чего не видели остальные, в вещах, которые находились у всех на виду. Мне кажется, что этим качеством должен обладать и каждый специалист по машинному обучению. Но тема Feature Engineering’а зачастую изучается в курсах по машинному обучению и анализу данных вскользь. В этом материале я хочу поделиться своим опытом обработки признаков с начинающими датасаентистами. Надеюсь, это поможет им быстрее достичь успеха в решении первых задач. Оговорюсь сразу, что в рамках этой части будут рассмотрены концептуальные методы обработки. Практическую часть по этому материалу совсем скоро опубликует моя коллега Osina_Anya.


Один из популярных источников данных для машинного обучения — логи. Практически в любой строчке лога есть время, а если это web-сервис, то там будут IP и UserAgent. Рассмотрим, какие признаки можно извлечь из этих данных.

Читать дальше →
Всего голосов 55: ↑52 и ↓3 +49
Просмотры 23K
Комментарии 11

Delphi: самый быстрый DataSet (TJvMemoryData, TMemTableEh, TdxMemData, TkbmMemTable)

Программирование *
В этой статье я проведу сравнительный анализ DataSet'ов, которые держат данные в оперативной памяти.

Список DataSet'ов


  1. TJvMemoryData
    Разработчик: сообщество JEDI Visual Component Library (JCL + JVCL)
    JCL (версия 2.8)
    JVCL (версия 3.50)
    Официальный сайт
  2. TMemTableEh
    Разработчик: EhLib
    Версия: 9.0.040
    Официальный сайт
  3. TdxMemData
    Разработчик: DevExpress
    Версия: 15.2.2
    Официальный сайт
  4. TkbmMemTable
    Разработчки: Components4Developers
    Версия: 7.74.00 Professional Edition
    Официальный сайт

Параметры сравнения DataSet'ов


  1. Вставка записей
  2. Сортировка записей

Окружение

Delphi 10.2 Tokyo Starter
Операционная система Windows 7 SP1 Ultimate x64
Процессор Intel Core i5
ОЗУ 8 Гб

Тестовые данные


DataSet'ы будут тестироваться на данных, полученных из базы данных Firebird. Для сравнительного анализа я создал в базе данных 100000 записей с различными типами данных:

• целые числа;
• вещественные числа;
• даты;
• строки;
• изображения.
Читать дальше →
Всего голосов 15: ↑14 и ↓1 +13
Просмотры 12K
Комментарии 57

Создаем свой датасет с пришельцами

Python *Data Mining *Обработка изображений *Big Data *Машинное обучение *


Сегментацией людей с помощью нейронных сетей уже никого не удивишь. Есть много приложений, таких как Sticky Ai, Teleport Live, Instagram, которые позволяют выполнять такую сложную задачу на мобильном телефоне в реалтайме.


Итак, предположим планета Земля столкнулась с внеземными цивилизациями. И от пришельцев из звездной системы Альфа Центавра поступает запрос на разработку нового продукта. Им очень понравилось приложение Sticky Ai, которое позволяет вырезать людей и делать стикеры, поэтому они хотят портировать приложение на свой межгалактический рынок.

Читать дальше →
Всего голосов 19: ↑15 и ↓4 +11
Просмотры 11K
Комментарии 4

Подборка датасетов для машинного обучения

Python *Data Mining *Машинное обучение *Искусственный интеллект
Привет, читатель!

Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

Меньше слов, больше данных.

image

Подборка датасетов для машинного обучения:


Читать дальше →
Всего голосов 66: ↑64 и ↓2 +62
Просмотры 68K
Комментарии 4

A selection of Datasets for Machine learning

Python *Data Mining *Открытые данные *Машинное обучение *Искусственный интеллект
Hi guys,

Before you is an article guide to open data sets for machine learning. In it, I, for a start, will collect a selection of interesting and fresh (relatively) datasets. And as a bonus, at the end of the article, I will attach useful links on independent search of datasets.

Less words, more data.

image

A selection of datasets for machine learning:


Read more →
Всего голосов 12: ↑11 и ↓1 +10
Просмотры 5.8K
Комментарии 2

НеДождь. Модель для сборки. «Нервный Техник» #1 Аппарат для тренировки нейросети изготовлен в кустарной лаборатории

Python *Машинное обучение *
Хао Дорогой читатель!

Сегодня мы встречаемся не впервые: ушаты помоев объективной критики уже были вылиты хабровчанами на ранее выложенные мной наивные рассуждения об автоматической поэзии. Основными претензиями были «неприменимость этих рассуждений на практике» и «баян». Между строк читалась невероятная сложность, с которой, якобы, сопряжены манипуляции с машинным обучением. Пришло время показать, что всё намного проще, чем это принято считать.
Читать дальше →
Всего голосов 10: ↑8 и ↓2 +6
Просмотры 1.7K
Комментарии 11

Event2Mind для русского языка. Как мы обучили модель читать между строк и понимать намерения собеседника

Блог компании Сбер Python *Машинное обучение *Искусственный интеллект Natural Language Processing *
Умение модели распознавать намерения собеседника, то есть понимать зачем человек совершил то или иное действие, применимо в большом числе прикладных NLP-задач. К примеру, чат-ботам, голосовым помощникам и другим диалоговые системам это позволит эмоционально реагировать на высказывания собеседника, проявлять понимание, сочувствие и другие эмоции. Кроме того, задача распознавания намерения – это еще один шаг на пути к пониманию человеческой речи (human understanding).



Уже было предпринято несколько попыток решить данную задачу в той или иной форме. Например, на NLP-progress публикуются последние достижения в области commonsense reasoning. Слабость большинства существующих моделей заключается в том, что в их основе лежит supervised подход, то есть им требуются большие размеченные датасеты для обучения. А в силу специфичности задачи разметка часто бывает весьма нестандартной и достаточно сложной.

Для английского существует ряд корпусов и benchmark’ов, а вот для русского языка ситуация с данными намного печальнее. Отсутствие размеченных данных для русского часто является одним из основных препятствий, которое мешает русифицировать работающие английские модели.

В этом посте мы расскажем, как мы создали датасет для задачи Common Sense Reasoning в одной из ее возможных формулировок, предложенной в статье event2mind, а также адаптировали английскую модель event2mind от AllenNLP для русского языка.
Читать дальше →
Всего голосов 18: ↑16 и ↓2 +14
Просмотры 4.6K
Комментарии 6

Ресурсы для получения датасетов изображений, о которых вы могли не знать

Python *Обработка изображений *Открытые данные *Машинное обучение *Data Engineering *

Привет, Хабр! Как известно, топливом для машинного обучения являются наборы данных. В качестве источников для получения датасетов, которыми люди обычно пользуются и которые у всех на слуху, являются такие сайты как Kaggle, ImageNet, Google Dataset Search и Visual Genom, но довольно редко встречаю людей, которые для поиска данных используют такие сайты как Bing Image Search и Instagram. Поэтому в этой статье я покажу как легко получить данные с этих источников, написав две небольшие программы на Python.

Читать дальше
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 6.2K
Комментарии 2

Как переписать SQL-запросы на Python с помощью Pandas

Блог компании Plarium Python *SQL *
Перевод
В этой статье June Tao Ching рассказал, как с помощью Pandas добиться на Python такого же результата, как в SQL-запросах. Перед вами — перевод, а оригинал вы можете найти в блоге towardsdatascience.com.

image
Фото с сайта Unsplash. Автор: Hitesh Choudhary

Получение такого же результата на Python, как и при SQL-запросе


Часто при работе над одним проектом нам приходится переключаться между SQL и Python. При этом некоторые из нас знакомы с управлением данными в SQL-запросах, но не на Python, что мешает нашей эффективности и производительности. На самом деле, используя Pandas, можно добиться на Python такого же результата, как в SQL-запросах.
Читать дальше →
Всего голосов 13: ↑10 и ↓3 +7
Просмотры 7.5K
Комментарии 17

KotlinDL 0.2: Functional API, зоопарк моделей c ResNet и MobileNet, DSL для обработки изображений

Блог компании JetBrains Open source *Big Data *Машинное обучение *Kotlin *

Представляем вам версию 0.2 библиотеки KotlinDL. Это библиотека глубокого обучения, где для низкоуровневых вычислений используется TensorFlow, но с высокоуровневым API и логикой, написанными на Kotlin.

KotlinDL 0.2 теперь доступен на Maven Central (до этого он лежал на bintray, но закатилось солнышко земли опенсорсной). Появилось столько всего нового: новые слои, специальный DSL для препроцессинга изображений, новые типы датасетов, зоопарк моделей с несколькими моделями из семейства ResNet, MobileNet и старой доброй моделью VGG (рабочая лошадка, впрочем).

В этой статье мы коснемся самых главных изменений релиза 0.2. Полный список изменений доступен по ссылке.

Читать далее
Всего голосов 27: ↑27 и ↓0 +27
Просмотры 2.2K
Комментарии 3

Топ-5 инструментов для разметки данных в 2021 году

Data Mining *Обработка изображений *Big Data *Машинное обучение *
Перевод

Программы для разметки данных (data labeling) необходимы для прокачки машинного обучения и создания обучающих наборов данных. Поэтому мы решили изучить наилучшие решения из этой области, имеющиеся сегодня на рынке.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 3.7K
Комментарии 1

7 способов получить качественные размеченные данные для машинного обучения

Data Mining *Обработка изображений *Big Data *Машинное обучение *Краудсорсинг
Перевод
Наличие размеченных данных необходимо для машинного обучения, но получение таких данных — непростая и дорогостоящая задача. Мы рассмотрим семь способов их сбора, в том числе перепрофилирование, поиск бесплатных источников, многократное обучение на данных с постепенно повышающимся качеством, а также другие способы.

Любой data scientist знает, что необученная ML модель бесполезна. Без высококачественных размеченных данных для обучения контролируемое, обучение разваливается; при этом невозможно гарантировать, что модели смогут прогнозировать, классифицировать или каким-то иным образом анализировать интересующее нас явление с хоть какой-нибудь точностью.


При проведении контролируемого обучения (supervised learning) лучше не разрабатывать модель, если нет возможности найти подходящие данные для обучения. Даже если вы нашли подходящий набор обучающих данных, он не особо полезен, если его элементы не размечены, не снабжены метками и аннотациями для эффективного обучения алгоритма.
Читать дальше →
Всего голосов 6: ↑5 и ↓1 +4
Просмотры 3K
Комментарии 0

Как организовать разметку данных для машинного обучения: методики и инструменты

Data Mining *Обработка изображений *Big Data *Машинное обучение *Краудсорсинг
Перевод

Если бы у data science существовал собственный зал славы, отдельную его часть нужно было бы посвятить разметке. Памятник отвечающим за разметку выглядел бы как атлант, держащий огромный камень, символизирующий их тяжелый и скрупулезный труд. Собственной стелы заслужила бы и база данных изображений ImageNet. За девять лет её контрибьюторы вручную разметили более 14 миллионов изображений. Даже представлять этот труд утомительно.

Хотя разметка и не является особо интеллектуальным трудом, она всё равно остаётся серьёзной проблемой. Разметка — неотъемлемый этап предварительной обработки данных для контролируемого обучения. Для этого стиля обучения моделей используются исторические данных с заранее заданными целевыми атрибутами (значениями). Алгоритм может находить целевые атрибуты, только если их указал человек.

Занимающиеся разметкой люди должны быть чрезвычайно внимательны, поскольку каждая ошибка или неточность отрицательно влияет на качество датасета и на общую производительность прогнозирующей модели.

Как получить высококачественный размеченный набор данных и не поседеть в процессе работы? Главной трудностью являются выбор ответственных за разметку, оценка необходимого для неё времени и подбор наиболее подходящих инструментов.
Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 3.2K
Комментарии 3

5 трендов в аннотировании данных в 2021 году

Data Mining *Big Data *Машинное обучение *Управление персоналом *Софт
Перевод

Бум искусственного интеллекта продолжается, поэтому развиваются технологии разметки и аннотирования данных. Какой бы ни была область машинного обучения, от computer vision до автономных автомобилей, ей обычно требуется аннотировать огромное количество данных. По данным Cognilytica, рынок решений подготовки данных для машинного обучения к концу 2024 года вырастет до 3,5 миллиарда долларов. Чтобы справляться с этим растущим спросом, поставщики услуг разметки данных стратегически продумывают способы возможного масштабирования процессов аннотирования, функций инструментов и количества сотрудников с сохранением точности и качества. В этой статье мы перечислим внедряемые в рабочий процесс новшества, способные повысить его эффективность и скорость.
Читать дальше →
Рейтинг 0
Просмотры 1.1K
Комментарии 0

6 правил по обеспечению качества данных для машинного обучения

Data Mining *Big Data *Машинное обучение *Краудсорсинг Софт
Перевод
«Качество — это не действие, а привычка», — сказал великий древнегреческий философ Аристотель. Эта идея справедлива сегодня так же, как и более двух тысяч лет назад. Однако качества добиться не так легко, особенно когда дело касается данных и технологий наподобие искусственного интеллекта (ИИ) и машинного обучения.

В некоторых областях можно почти без проблем использовать данные с высокой частотой ошибок, в других же система даёт сбой при малейших погрешностях в большом датасете. Принцип «мусор на входе, мусор на выходе» нужно воспринимать со всей серьёзностью. Мельчайшая некорректность в наборах данных может иметь большое влияние на модель и приводить к созданию бесполезных результатов. Чистота и целостность данных — ключевой аспект в создании сложных моделей машинного обучения.

Читать дальше →
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 2.6K
Комментарии 0
1