Как стать автором
Поиск
Написать публикацию
Обновить
780.59

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Марковские случайные поля

Время на прочтение4 мин
Количество просмотров47K
Статья посвящена описанию метода CRF (Conditional Random Fields), являющимся разновидностью метода Марковских случайных полей (Markov random field). Данный метод нашел широкое применение в различных областях ИИ, в частности, его успешно используют в задачах распознавания речи и образов, обработки текстовой информации, а также и в других предметных областях: биоинформатики, компьютерной графики и пр.
Читать дальше →

Несколько слов о «линейной» регрессии

Время на прочтение5 мин
Количество просмотров55K
Иногда так бывает: задачу можно решить чуть ли не арифметически, а на ум прежде всего приходят всякие интегралы Лебега и функции Бесселя. Вот начинаешь обучать нейронную сеть, потом добавляешь еще парочку скрытых слоев, экспериментируешь с количеством нейронов, функциями активации, потом вспоминаешь о SVM и Random Forest и начинаешь все сначала. И все же, несмотря на прямо таки изобилие занимательных статистических методов обучения, линейная регрессия остается одним из популярных инструментов. И для этого есть свои предпосылки, не последнее месте среди которых занимает интуитивность в интерпретации модели.
Читать дальше →

Заочное обучение в ШАД Яндекса: 570 замечательных часов моей жизни

Время на прочтение6 мин
Количество просмотров59K
Два года назад на меня сильное впечатление произвела хабрастатья «Стивен Вольфрам проанализировал свою жизнь». К тому времени я уже года два записывал в Google-календаре, что и когда я делал, но к тому моменту я не задумывался, о том, что можно сделать с этой информацией. После прочтения той статьи, я понял: эту информацию можно анализировать! Сейчас я могу посчитать сколько раз мы с друзьями собирались играть в баскетбол за эти годы, сколько часов я провёл в больнице и т. п.

На этой неделе я сделал последнюю домашнюю работу в ШАД и решил посчитать сколько времени у меня ушло на обучение, сколько я в среднем тратил в неделю, сколько строчек кода я написал и т. д. Построил несколько графиков и гистограмм, показал их друзьям и понял, что, возможно, такая информация будет интересна кому-либо ещё. Так что если вы хотите узнать сколько страниц отчётов было написано, насколько верна оценка нагрузки в ШАД в 15–20 часов в неделю, а также моё субъективное мнение о курсах в ШАД, то добро пожаловать под хабракат.
Читать дальше →

Let's fix NAs

Время на прочтение5 мин
Количество просмотров7.3K
Довольно часто встречаются неполные наборы данных, в которых некоторые переменные не определены. В языке R содержимое таких переменных задается как «Not Available» — или сокращенно NA. Соответственно, возникает вопрос, как поступать с неопределенными значениям: стоит ли их игнорировать или откорректировать каким-либо образом?
Читать дальше →

Google и Microsoft теперь автоматически переводят с гаитянского креольского языка

Время на прочтение2 мин
Количество просмотров1.4K
imageУважаемое Хабрасообщество, сегодня через как всегда молниеносную Википедию (спасибо анониму!) я обнаружил, что Google Translate и Bing Translator начали осуществлять статистический машинный перевод с (и «на» тоже) гаитянского креольского языка (что такое креольский язык?). Гаитянский — один из официальных языков Республики Гаити, на котором говорят 14 миллионов человек; образовался на основе французского образца 18 века, упростился и понабрал в себя всё что только можно.

Одним из любимых моих развлечений остаётся просмотр Википедии на свежедоступном для перевода языке. Несколько месяцев назад после того как стала доступна альфа-версия перевода с персидского (фарси) Google, кажется, переводил «Владимир Путин» с персидского на русский как «сапоги». Потом перевод стал лучше.

Сейчас вы имеете вдвое больше возможностей найти что-нибудь интересное и посмеяться (исключительно над переводом!) вдвое дольше, не забыв подсказать Google как надо переводить. Кстати, удивительно, но в гаитянской Википедии номинально аж 50 тысяч статей (почти столько же сколько в греческой и Википедии на хинди) при том что из Гаити гаитянскую Википедию особо не посещают и наверное не редактируют (а теперь уж не скоро начнут). Но тем не менее! Вот татар 6-8 миллионов, что всего лишь в 2 раза меньше, а статей в татарской Википедии только 5 тысяч, что в 10 раз меньше и это нерадостный факт. Вы уверены, что в Татарстане не было землетрясений? =))

P.S.:
Поместил в ленту новостей, т.к. ни к чему другому пост не подходит.

Под катом ссылка на официальный блог Microsoft и другие блоги, потому что СМИ ещё об этом не знают.

Читать дальше →

Шоппинг с распознаванием образов

Время на прочтение1 мин
Количество просмотров3.3K
Новый интернет-магазин Modista собирает образцы товаров от сотен ритейлеров и забивает в единую базу данных (163 000 товаров по четырём категориям: обувь, часы, сумочки и очки). Далее на этой базе запускают движок распознавания образов с элементами самообучения.

Поиск покупки осуществляется исключительно через визуальный интерфейс. Щёлкаете по наиболее понравившемуся товару — и таблица перестраивается под новый шаблон. По горизонтали — подобие по форме, по вертикали — подобие по цвету.

Можно предположить, что похожие интерфейсы в будущем станут стандартным элементом любого интернет-магазина.


Читать дальше →
12 ...
434

Вклад авторов