Pull to refresh
48
0
Пинчук Артем @Anc

User

Send message

Топливо для ИИ: подборка открытых датасетов для машинного обучения

Reading time6 min
Views84K


Связанные проекты сообщества Open Data (проект Linked Open Data Cloud). Многие датасеты на этой диаграмме могут включать в себя данные, защищенные авторским правом, и они не упоминаются в данной статье


Если вы прямо сейчас не делаете свой ИИ, то другие будут делать его вместо вас для себя. Ничто более не мешает вам создать систему на основе машинного обучения. Есть открытая библиотека глубинного обучения TensorFlow, большое количество алгоритмов для обучения в библиотеке Torch, фреймворк для реализации распределенной обработки неструктурированных и слабоструктурированных данных Spark и множество других инструментов, облегчающих работу.


Добавьте к этому доступность больших вычислительных мощностей, и вы поймете, что для полного счастья не хватает лишь одного ингредиента — данных. Огромное количество данных находится в открытом доступе, однако непросто понять, на какие из открытых датасетов стоит обратить внимание, какие из них годятся для проверки идей, а какие могут быть полезны в качестве средства проверки потенциальных продуктов или их свойств до того, как вы накопите собственные проприетарные данные.


Мы разобрались в этом вопросе и собрали данные по датасетам, удовлетворяющим критериям открытости, востребованности, скорости работы и близости к реальным задачам.

Читать дальше →

Числа — доклад Дугласа Крокфорда о системах счисления в жизни и в программировании

Reading time20 min
Views15K
Сейчас компьютеры решают почти любые задачи. Они работают и приносят выгоду практически во всех отраслях. Но давайте посмотрим, что такое компьютер. Это машина, которая манипулирует числами. Подобные манипуляции — практически все, что они могут делать. Поэтому тот факт, что они решают так много задач, просто манипулируя числами, кажется почти волшебным.

Давайте посмотрим, откуда пришли числа, куда они могут привести и как они работают.



В основе статьи — доклад Дугласа Крокфорда (Douglas Crockford) с июньской конференции HolyJS 2017 в Санкт-Петербурге (презентацию доклада можно найти тут)

Фигуры Хладни и квантовый хаос

Reading time11 min
Views70K

Насыпав песок на колеблющуюся упругую пластинку, можно увидеть формирование фигур Хладни. Они часто служат примером «естественной красоты» физических явлений, хотя за ними стоит довольно простая физика резонансного возбуждения стоячих волн. И мало кто обращает внимание на любопытную особенность этих фигур: линии на них избегают пересечений, будто их отталкивает некая сила. Давайте попробуем понять, какая же физика скрывается за этим отталкиванием и как она связана с квантовой теорией хаоса.

Четыре типажа программистов

Reading time17 min
Views217K

Привет.


Я впервые пишу в поток об управлении и найме персонала. Речь пойдет об одном из способов классифицировать ваших будущих или действующих программистов. Мой основной тезис: все разработчики, грубо говоря, делятся на 4 больших типажа и каждому из этих типажей есть своя область применения. Попытка направить неправильный типаж на решение неподходящих для него задач ведет к провалу (неэффективная работа, или сотрудник покидает команду). Хотите знать почему так — добро пожаловать под кат. Приготовьтесь, текста много.

Читать дальше →

Нейроискусство: зачем создают картины из нейронов мозга

Reading time4 min
Views18K

image


Искусство и наука редко пересекаются. Когда это происходит и прикладное исследование, понятное лишь специалистам, обогащается визуальными образами, наука получает больше внимания обывателей. Сравните сами: исследования мозга по всему миру ведутся каждый день, но графики, диаграммы и рентгеновские снимки не вызывают у нас сильные эмоции. Однако, как только появляются красочные рисунки, иллюстрирующие воздействие на мозг, новость получает большой отклик. Вне контекста научных открытий нам просто нравится смотреть на работу внутренних органов, особенно интересно следить за функционированием полушарий, отвечающих за мышление.

Читать дальше →

Ограничения глубинного обучения и будущее

Reading time19 min
Views23K
Эта статья представляет собой адаптацию разделов 2 и 3 из главы 9 моей книги «Глубинное обучение с Python» (Manning Publications).

Статья рассчитана на людей, у которых уже есть значительный опыт работы с глубинным обучением (например, тех, кто уже прочитал главы 1-8 этой книги). Предполагается наличие большого количества знаний.



Ограничения глубинного обучения


Глубинное обучение: геометрический вид


Самая удивительная вещь в глубинном обучении — то, насколько оно простое. Десять лет назад никто не мог представить, каких потрясающих результатов мы достигнем в проблемах машинного восприятия, используя простые параметрические модели, обученные с градиентным спуском. Теперь выходит, что нужны всего лишь достаточно большие параметрические модели, обученные на достаточно большом количестве образцов. Как сказал однажды Фейнман о Вселенной: «Она не сложная, её просто много».
Читать дальше →

Гарвардский курс CS50 на русском. Все серии

Reading time4 min
Views649K


Друзья, мы рады сообщить, что перевод всего гарвардского курса CS50 закончен.

Мы писали, что в курсе 24 серии, однако последние две оказались одной и той же лекцией (одна прочитана в Гарварде, а другая в Йеле), поэтому в списке переведённых лекций не 24, а 23.

Список лекций под катом.

Что вы узнаете, прослушав этот курс:
  • Основы компьютерных наук и программирования;
  • Концепции алгоритмов и алгоритмичности мышления. Какие задачи можно решать с помощью программирования и каким образом;
  • Концепции абстракции, структуры данных, инкапсуляции, управления памятью. Основы компьютерной безопасности. Процесс разработки ПО и веб-разработка;
  • Основы языка программирования C и Scratch;
  • Основы баз данных и SQL;
  • Веб-разработка: основы CSS, HTML, JavaScript и PHP;
  • Основы подготовки презентации проектов по программированию.


Курс переведён и озвучен нашей студией по заказу JavaRush, и мы хотим сказать им огромное спасибо за поддержку!

Алгоритм Джонкера-Волгенанта + t-SNE = супер-сила

Reading time9 min
Views32K
До:



После:



Заинтригованы? Но обо всем по порядку.

t-SNE


t-SNE — это очень популярный алгоритм, который позволяет снижать размерность ваших данных, чтобы их было проще визуализировать. Этот алгоритм может свернуть сотни измерений к всего двум, сохраняя при этом важные отношения между данными: чем ближе объекты располагаются в исходном пространстве, тем меньше расстояние между этими объектами в пространстве сокращенной размерности. t-SNE неплохо работает на маленьких и средних реальных наборах данных и не требует большого количества настроек гиперпараметров. Другими словами, если взять 100 000 точек и пропустить их через эту волшебный черный ящик, на выходе мы получим красивый график рассеяния.
Читать дальше →

Шишки, набитые за 15 лет использования акторов в C++. Часть II

Reading time11 min
Views9.5K

Завершаем рассказ, начатый в первой части. Сегодня рассмотрим еще несколько граблей, на которые довелось наступить за годы использования SObjectizer-а в повседневной работе.


Продолжаем перечислять грабли


Народ хочет синхронности...


Акторы в Модели Акторов и агенты у нас в SObjectizer общаются посредством асинхронных сообщений. И в этом кроется одна из причин привлекательности Модели Акторов для некоторых типов задач. Казалось бы, асинхронность — это один из краеугольных камней, один из бонусов, поэтому пользуйся себе на здоровье и получай удовольствие.


Ан нет. На практике быстро начались просьбы сделать в SObjectizer возможность синхронного взаимодействия агентов. Очень долго я этим просьбам сопротивлялся. Но в конце-концов сдался. Пришлось добавить в SObjectizer возможность выполнить синхронный запрос от одного агента к другому.


Выглядит в коде это вот так:


Читать дальше →

Обзор топологий глубоких сверточных нейронных сетей

Reading time18 min
Views110K
Это будет длиннопост. Я давно хотел написать этот обзор, но sim0nsays меня опередил, и я решил выждать момент, например как появятся результаты ImageNet’а. Вот момент настал, но имаджнет не преподнес никаких сюрпризов, кроме того, что на первом месте по классификации находятся китайские эфэсбэшники. Их модель в лучших традициях кэгла является ансамблем нескольких моделей (Inception, ResNet, Inception ResNet) и обгоняет победителей прошлого всего на полпроцента (кстати, публикации еще нет, и есть мизерный шанс, что там реально что-то новое). Кстати, как видите из результатов имаджнета, что-то пошло не так с добавлением слоев, о чем свидетельствует рост в ширину архитектуры итоговой модели. Может, из нейросетей уже выжали все что можно? Или NVidia слишком задрала цены на GPU и тем самым тормозит развитие ИИ? Зима близко? В общем, на эти вопросы я тут не отвечу. Зато под катом вас ждет много картинок, слоев и танцев с бубном. Подразумевается, что вы уже знакомы с алгоритмом обратного распространения ошибки и понимаете, как работают основные строительные блоки сверточных нейронных сетей: свертки и пулинг.

Читать дальше →

[ В закладки ] Зоопарк архитектур нейронных сетей. Часть 2

Reading time8 min
Views41K


Публикуем вторую часть статьи о типах архитектуры нейронных сетей. Вот первая.

За всеми архитектурами нейронных сетей, которые то и дело возникают последнее время, уследить непросто. Даже понимание всех аббревиатур, которыми бросаются профессионалы, поначалу может показаться невыполнимой задачей.

Поэтому я решил составить шпаргалку по таким архитектурам. Большинство из них — нейронные сети, но некоторые — звери иной породы. Хотя все эти архитектуры подаются как новейшие и уникальные, когда я изобразил их структуру, внутренние связи стали намного понятнее.

Читать дальше →

Как обучается ИИ

Reading time27 min
Views74K

Источник изображения.

Есть ли связь между трехглазой жабой и нейронными сетями? Что общего у программы, выигрывающей в го, и приложением Prisma, перерисовывающим фотографии под стили картин известных художников? Как компьютеры одолели нарды, а затем покусились на святое — и выиграли у человека в “Космических захватчиков”?
Дадим ответы на все эти вопросы, а еще поговорим о революции, связанной с глубоким обучением, благодаря которому удалось добиться прорыва во многих областях.
Читать дальше →

Следующая золотая лихорадка ожидается на глубине в 1500 метров

Reading time14 min
Views28K


Рабаул, посёлок на северной оконечности острова Новая Британия в Папуа – Новой Гвинее, всё ещё покрыт пеплом взорвавшегося десятки лет назад вулкана. Извержения уже два раза разрушали город, один раз в 1937, второй – в 1994. Оба раза жители стойко встретили стихию и отстроились заново. Сегодня, проезжая Рабаул, вы заметите длинные участки, где пепел всё ещё лежит на краю и даже кое-где в середине дороги. Его слой такой толстый, что вам захочется закрыть окна, чтобы пыль не заполнила машину.

Этот вулкан уничтожил тогдашнюю главную индустрию острова – туризм, которому после 20 лет ещё предстоит возродиться – но он может стать основой для другой. Правда, этой индустрии пока не существует. И некоторые борцы за окружающую среду, учёные и активисты надеются, что она вообще не появится.
Читать дальше →

Предобучение нейронной сети с использованием ограниченной машины Больцмана

Reading time9 min
Views55K
Привет. Как и планировалось в прошлом посте об ограниченных машинах Больцмана, в этом будет рассмотрено применение RBM для предобучения обыкновенной многослойной сети прямого распространения. Такая сеть обычно обучается алгоритмом обратного распространения ошибки, который зависит от многих параметров, и пока не существует точного алгоритма выбора этих самых параметров обучения, как и оптимальной архитектуры сети. Разработано множество эвристик, позволяющих сократить пространство поиска, а также методик оценки качества выбранных параметров (например, кросс-валидация). Мало того, оказывается, и сам алгоритм обратного распространения не так уж хорош. Хотя Румельхарт, Хинтон и Вильямс показали сходимость алгоритма обратного распространения (тут еще более математическое доказательство сходимости), но есть небольшой нюанс: алгоритм сходится при бесконечно малых изменениях весов (т.е. при скорости обучения, стремящейся к нулю). И даже это не все. Как правило, этим алгоритмом обучают небольшие сети с одним или двумя скрытыми слоями из-за того, что эффект обучения не доходит до дальних слоев. Далее мы поговорим подробнее о том, почему же не доходит, и применим технику инициализации весов с помощью обученной RBM, которую разработал Джеффри Хинтон.

Читать дальше →

Пишем свой мессенджер P2P

Reading time7 min
Views84K

На фоне обсуждения будущего интернет мессенджеров и прочтения статьи «Почему ваш любимый мессенджер должен умереть», решил поделиться своим опытом создания P2P приложения для общения независимо от сторонних серверов. Точнее — это просто заготовка, передающая одно сообщение от клиента серверу, дальнейшее расширение функционала зависит только от Вашей фантазии.
Читать дальше →

10 правил, которые позволяют NASA писать миллионы строк кода с минимальными ошибками

Reading time3 min
Views161K

image
Маргарет Гамильтон стоит рядом с написанным ей исходным кодом бортового компьютера «Аполлона»


Лаборатория реактивного движения (Jet Propulsion Laboratory) — научно-исследовательский центр НАСА, ответственный за большинство беспилотных космических кораблей США. Там пишут много кода, и права на ошибку у них намного меньше, чем у обычных программистов.


В JPL пишут на Си, и на их сайте есть документ "JPL Institutional Coding Standard", описывающий жесткие стандарты кодирования внутри организации. Они напоминают правила программирования для встроенных (embedded) систем и систем реального времени, с ограниченными ресурсами. Но многие из правил эти просто принципы хорошего программирования. Ограничение сложности, максимальное упрощение для последующего чтения кода и отладки, отсутствие побочных эффектов. Мы в Хекслете постоянно говорим об этом в вебинарах и, конечно, в самих курсах. Мы считаем очень важным как можно раньше поднимать эти темы, поэтому про функции и побочные эффекты начинаем говорить в самом первом курсе «Основы программирования», который рассчитан на новичков. Это бесплатный курс, кстати, и в нем есть практика на языке JavaScript.


Спасибо хабраюзеру Boletus за важную поправку и дополнение:
В 2006 году Gerard Holzmann с коллективом сформулировал 10 основных правил для JPL в документе «The Power of 10: Rules for Developing Safety-Critical Code». Они вошли в основу нынешнего стандарта, наряду с MISRA C и другими дополнениями. Статья в Википедии.


Вот перевод этого списка.

Читать дальше →

Пол Грэм: «Будьте неустанно находчивы» (relentlessly resourceful)

Reading time4 min
Views10K
image
На фото — Терри Фокс, пробежал 5 373 км за 143 дня, без перерыва.

Пол Грэм описал свое видение, какими общими чертами обладают хакеры и художники. В данном эссе пойдет речь об основополагающем качестве основателя стартапа.

Семантический спектр слова "Resourceful" = <находчивый, изобретательный, продуктивный, ловкий, сообразительный, инициативный, изворотливый, хитроумный>.

Оригинал — Relentlessly Resourceful
(За перевод спасибо Andrew Tchernov)

Пару дней назад я наконец-то нашел способ описать хорошего основателя стартапа: неустанно находчив (relentlessly resourceful).

До этого лучшим, что мне удавалось сформулировать, это свести противоположные качества к одному – несчастный. Большинство словарей говорят, что это значит отсутствие успеха, удачи. Но словари не сослужат хорошей службы в данном случае. Команде, которая обыгрывает своих соперников, но проигрывает из-за судьи, не повезло, но она не несчастная. Этот термин скорее подразумевает пассивность, быть несчастным значит быть размазанным обстоятельствами — прогнуться под окружающий мир, когда нужно идти по своему пути.[1]

К сожалению, нет антонима к слову несчастный, и это мешает объяснить основателям стартапов к чему они должны стремиться. «Не будь несчастным» это что-то больше похожее на крик безысходности.

Не сложно описать это качество с помощью метафор. Лучшей, наверное, будет сравнение с бегом спиной вперед. Хороший бегун не просто стремится вперед, но и сохраняет гибкость. Они стремятся к цели, но при этом корректируют свои действия налету.

К сожалению это всего лишь метафора, причем бесполезная для большинства людей за пределами США. «Будь подобен бегуну спиной вперед», не лучше чем «Не будь несчастен».

Но, наконец, я придумал, как выразить это качество. Я писал речь для инвесторов, и мне надо было объяснить, на что надо обращать внимание в организаторах стартапов. Каким должен быть человек в противоположность несчастному? Неустанно находчивым. Не только неустанным. Этого недостаточно чтобы заставить события развиваться согласно вашему плану, ну может кроме пары неинтересных ситуаций. В интересной же – сложности будут нестандартными. Что значит, что вы не сможете просто пробиться через них потому, что вы изначально не знаете насколько они сложны; вы не знаете, где будете пробиваться через кусок пены, а где – через гранит. Поэтому вы должны быть находчивы. Вы должны стараться находить новые решения.

Будьте неустанно находчивы.
Читать дальше →

Технологии фондового рынка: 10 заблуждений о нейронных сетях

Reading time17 min
Views55K
image

Нейронные сети – один из самых популярных классов алгоритмов для машинного обучения. В финансовом анализе они чаще всего применяются для прогнозирования, создания собственных индикаторов, алгоритмического трейдинга и моделирования рисков. Несмотря на все это, репутация у нейронных сетей подпорчена, поскольку результаты их применения можно назвать нестабильными.

Количественный аналитик хедж-фонда NMRQL Стюарт Рид в статье на сайте TuringFinance попытался объяснить, что это означает, и доказать, что все проблемы кроются в неадекватном понимании того, как такие системы работают. Мы представляем вашему вниманию адаптированный перевод его статьи.
Читать дальше →

Почему некоторые люди ощущают «эмоциональный озноб» от музыки

Reading time3 min
Views118K

Древний температурный триггер в человеческом мозге настроился на новые входные данные




Трепет, дрожь, гусиная кожа, мурашки, озноб, кожный оргазм, по-английски frission, cold chill — всё это названия одного и того же явления, для которого в языке нет устоявшегося термина. По-научному, это трансцендентные психофизиологические переживания, а проще говоря — волна удовольствия, которая иногда проходит по коже при прослушивании некоторых музыкальных произведений. В качестве триггера срабатывает не только музыка, но и физический контакт с человеком, эмоциональная сцена в художественном фильме и др. На Reddit даже есть сообщество /r/frission, члены которого делятся друг с другом триггерами «кожного оргазма».

Почему возникает такая психофизиологическая реакция на эмоциональные раздражители? Почему она наблюдается не у всех, а только у некоторых людей? Учёным пока не удалось до конца изучить этот феномен, но полвека исследований позволяют сделать некоторые предположения.
Читать дальше →

Проклятие культуры

Reading time10 min
Views19K

Слепота Microsoft. Предупреждающие знаки для Google и Apple


В одной из фундаментальных книг по этой теме «Организационная культура и лидерство» Эдгар Шейн пишет:

«Самый интригующий аспект культуры как концепции состоит, пожалуй, в том, что она указывает нам на явления, лежащие в глубине, мощные по своему воздействию, но невидимые и в значительной степени бессознательные. В этом смысле культура для группы — это то же самое, что личность или характер для человека. Мы можем наблюдать результирующее поведение, но часто не видим силы, вызывающие это поведение. Как наша личность и характер направляют и сдерживают наше поведение, так и культура направляет и сдерживает поведение членов группы, и осуществляется через коллективные нормы, присущие этой группе».

В терминологии Шейна вещи вроде столов для настольного тенниса и холодильников с пивом — это два (маленьких) примера артефактов – видимых качеств организации. Их легко заметить, но их значение обычно не поддаётся расшифровке и уникально для конкретной группы (другими словами, простое копирование фишек Google не работает).
Читать дальше →

Information

Rating
Does not participate
Location
Киев, Киевская обл., Украина
Registered
Activity