Articles / Bookmarks / Profile of unih / Habr

Игорь Иткин @unih

Датасаентист

Profile Publications Comments 26Bookmarks 182

andrew526d Aug 18 2018 at 17:30

Ранняя вселенная 6. Динамика однородной расширяющейся вселенной, часть 2

24 min

5.7K

PhysicsPopular scienceAstronomy

На сайте бесплатных лекций MIT OpenCourseWare выложен курс лекций по космологии Алана Гуса, одного из создателей инфляционной модели вселенной.

Вашему вниманию предлагается перевод шестой лекции: «Динамика однородной расширяющейся вселенной, часть 2».

Читать дальше →

+17

alexdorofeeff Aug 13 2018 at 12:27

Искусство подбирать чужие пароли

8 min

40K

Эшелон corporate blogInformation Security*

Tutorial

В культовом фильме начала двухтысячных «Пароль «Рыба-меч» талантливому хакеру необходимо подобрать пароль в течение одной минуты. В этом ему помогает приятель, который заботливо держит пистолет у виска и темпераментная блондинка, прячущаяся под столом. Что делать, если таких друзей поблизости нет, а пароль подобрать необходимо? Например, в ходе тестирования на проникновение…

Небольшое, но важное предупреждение: если предлагаемым в статье подходом пользоваться не в рамках проектов по тестированию защищенности, то ваши действия легко могут подпасть под статью 272 УК РФ (Неправомерный доступ к компьютерной информации).

Читать дальше →

+23

N01Z3 Jun 14 2018 at 14:01

Kaggle: Amazon from Space — трюки и хаки при обучении нейросетей

9 min

19K

Open Data Science corporate blogImage processing*Machine learning*Algorithms*Python*

Летом прошлого года закончилось соревнование на площадке kaggle, которое было посвящено классификации спутниковых снимков лесов Амазонки. Наша команда заняла 7 место из 900+ участников. Не смотря на то, что соревнование закончилось давно, почти все приемы нашего решения применимы до сих пор, причём не только для соревнований, но и для обучения нейросетей для прода. За подробностями под кат.

Читать дальше →

+56

uyga Jun 14 2018 at 16:01

Code review: вы делаете это неправильно

21 min

71K

Badoo corporate blogDevelopment Management*Project management*Personnel Management*Programming*

Сегодня очень многие в разработке используют ревью кода. Практика полезная, нужная. Даже если вы не делаете ревью, вы наверняка знаете, что это такое.

На рынке есть куча инструментов для ревью кода с готовыми сценариями использования, рекомендациями и правилами. GitHub, Phabricator, FishEye/ Crucible, GitLab, Bitbucket, Upsource — список можно долго продолжать. Мы в Badoo тоже в своё время с ними работали: в своей предыдущей статье я рассказывал нашу историю ревью кода и о том, как мы пришли к изобретению собственного «велосипеда» — решения Codeisok.

Информации предостаточно, можно нагуглить кучу статей про ревью кода с реальными примерами, практиками, подходами, рассказывающих о том, как хорошо, как плохо, как нужно делать, а как — не нужно, что стоит учитывать, а что — нет, и т. д. В общем, тема «обсосана до косточек».

Именно поэтому другую часть айсберга можно и не заметить.

Читать дальше →

+57

ZlodeiBaal Jul 30 2018 at 01:02

Правда и ложь систем распознавания лиц

11 min

62K

Recognitor corporate blogImage processing*Machine learning*Algorithms*Data Mining*

Пожалуй нет ни одной другой технологии сегодня, вокруг которой было бы столько мифов, лжи и некомпетентности. Врут журналисты, рассказывающие о технологии, врут политики которые говорят о успешном внедрении, врут большинство продавцов технологий. Каждый месяц я вижу последствия того как люди пробуют внедрить распознавание лиц в системы которые не смогут с ним работать.

Тема этой статьи давным-давно наболела, но было всё как-то лень её писать. Много текста, который я уже раз двадцать повторял разным людям. Но, прочитав очередную пачку треша всё же решил что пора. Буду давать ссылку на эту статью.

Итак. В статье я отвечу на несколько простых вопросов:

Можно ли распознать вас на улице? И насколько автоматически/достоверно?
Позавчера писали, что в Московском метро задерживают преступников, а вчера писали что в Лондоне не могут. А ещё в Китае распознают всех-всех на улице. А тут говорят, что 28 конгрессменов США преступники. Или вот, поймали вора.
Кто сейчас выпускает решения распознавания по лицам в чём разница решений, особенности технологий?

Большая часть ответов будет доказательной, с сылкой на исследования где показаны ключевые параметры алгоритмов + с математикой расчёта. Малая часть будет базироваться на опыте внедрения и эксплуатации различных биометрических систем.

Я не буду вдаваться в подробности того как сейчас реализовано распознавание лиц. На Хабре есть много хороших статей на эту тему: а, б, с (их сильно больше, конечно, это всплывающие в памяти). Но всё же некоторые моменты, которые влияют на разные решения — я буду описывать. Так что прочтение хотя бы одной из статей выше — упростит понимание этой статьи. Начнём!

+83

Vasyutka Dec 4 2017 at 02:15

Капсульные сети от Хинтона

6 min

22K

Recognitor corporate blogImage processing*Machine learning*

27 октября 2017 года появилась статья доктора Джофри Хинтона с соавторами из Google Brain. Хинтон — более чем известный ученый в области машинного обучения. Он в свое время разработал математику обратного распространения ошибок, был научным руководителем Яна Лекуна — автора архитектуры сверточных сетей.

Хоть презентация была достаточно скромная, корректно говорить о революционном изменении подхода к искусственным нейронным сетям (ИНС). Назвали новый подход «капсульные сети». Пока в российском сегменте интернета мало информации о них, поэтому восполню этот пробел.

Читать дальше →

+30

rushter Jul 22 2018 at 16:27

Оптимизации, используемые в Python: список и кортеж

4 min

55K

Python*Programming*

Translation

В Python, есть два похожих типа — список (list) и кортеж (tuple). Самая известная разница между ними состоит в том, что кортежи неизменяемы.

Вы не можете изменить объекты в tuple:

>>> a = (1,2,3)
>>> a[0] = 10
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: 'tuple' object does not support item assignment

Но вы можете модифицировать изменяемые объекты внутри кортежа:

>>> b = (1,[1,2,3],3)
>>> b[1]
[1, 2, 3]
>>> b[1].append(4)
>>> b
(1, [1, 2, 3, 4], 3)

Читать дальше →

+50

olegbunin Jul 25 2018 at 12:42

Cassandra для хранения метаданных: успехи и провалы

31 min

21K

Конференции Олега Бунина (Онтико) corporate blogData storage*High performance*Database Administration*

Каким требованиям должно удовлетворять хранилище метаданных для облачного сервиса? Да не самого обычного, а для enterprise с поддержкой географически распределенных датацентров и Active-Active. Очевидно, система должна хорошо масштабироваться, быть отказоустойчивой и хотелось бы, чтобы было возможно реализовать настраиваемую консистентность операций.

Под все эти требования подходит только Cassandra, а ничто другое не подходит. Надо заметить, Cassandra действительно классная, но работа с ней напоминает американские горки.

В докладе на Highload++ 2017 Андрей Смирнов (smira) решил, что о хорошем говорить неинтересно, зато подробно рассказал, про каждую проблему, с которой пришлось столкнуться: про потерю и порчу данных, про зомби и потерю производительности. Эти истории и вправду напоминают катание на горках, но на все проблемы находится решение, за которым добро пожаловать под кат.

О спикере: Андрей Смирнов работает в компании Virtustream, реализующей облачное хранилище для enterprise. Идея состоит в том, что условно Amazon делает облако для всех, а Virtustream делает специфические вещи, которые необходимы большой компании.

+36

PatientZero Aug 9 2018 at 11:53

1000-мерный куб: можно ли сегодня создать вычислительную модель человеческой памяти?

36 min

26K

Artificial IntelligenceMathematics*Popular science

Translation

Сегодня утром на пути к кампусу Беркли я провёл пальцами по листьям ароматного куста, а затем вдохнул знакомый запах. Я делаю так каждый день, и каждый день первое слово, которое всплывает в голове и приветственно машет рукой — это шалфей (sage). Но я знаю, что это растение — не шалфей, а розмарин, поэтому я приказываю шалфею успокоиться. Но слишком поздно. После rosemary и sage я не могу помешать появлению на сцене петрушки (parsley) и чабреца (thyme), после чего в голове возникают первые ноты мелодии и лица на обложке альбома, и вот я уже снова оказался в середине 1960-х, одетый в рубашку с огурцами. Тем временем розмарин (rosemary) вызывает в памяти Роуз Мэри Вудс (Rosemary Woods) и 13-минутный пробел (хотя теперь, проконсультировавшись с коллективной памятью, я знаю, что это должны быть Роуз Мэри Вудс и пробел в 18 с половиной минут). От Уотергейта я перепрыгиваю к историям на главной странице. Потом я замечаю в ухоженном саду ещё одно растение с пушистыми серо-зелёными листями. Это тоже не шалфей, а чистец (lamb’s ear). Тем не менее, sage наконец получает свою минуту славы. От трав я переношусь к математическому ПО Sage, а потом к системе противовоздушной обороны 1950-х под названием SAGE, Semi-Automatic Ground Environment, которой управлял самый крупный из когда-либо построенных компьютеров.

В психологии и литературе подобные мыслительные блуждания называются потоком сознания (автор этой метафоры — Уильям Джеймс). Но я бы выбрал другую метафору. Моё сознание, насколько я ощущаю, не течёт плавно от одной темы к другой, а скорее порхает по ландшафту мыслей, больше похожее на бабочку, чем на реку, иногда прибиваясь к одному цветку, а затем к другому, иногда уносимая порывами ветка, иногда посещающая одно и то же место снова и снова.

Читать дальше →

+32

kirdin Aug 9 2018 at 09:00

Изучаем синтаксические парсеры для русского языка

19 min

38K

Сбер corporate blogArtificial IntelligenceMachine learning*Programming*

Привет! Меня зовут Денис Кирьянов, я работаю в Сбербанке и занимаюсь проблемами обработки естественного языка (NLP). Однажды нам понадобилось выбрать синтаксический парсер для работы с русским языком. Для этого мы углубились в дебри морфологии и токенизации, протестировали разные варианты и оценили их применение. Делимся опытом в этом посте.

Читать дальше →

+31

Firemoon Aug 11 2018 at 21:28

Как отбрасывать 10 миллионов пакетов в секунду

9 min

33K

*nix*Network technologies*System administration*System Programming*

Translation

В компании нашу команду по противостоянию DDoS-атакам называют «отбрасыватели пакетов» (the packet droppers — прим. пер). Пока все остальные команды делают клёвые штуки с проходящим через нашу сеть трафиком, мы развлекаемся поиском новых способом избавиться от него.

Фотография: Brian Evans, CC BY-SA 2.0

Умение быстро отбрасывать пакеты очень важно в противостоянии DDoS-атакам.

Отбрасывание пакетов, достигающих наших серверов, может быть выполнено на нескольких уровнях. Каждый способ имеет свои плюсы и минусы. Под катом мы рассмотрим всё, что мы опробовали.

Читать дальше →

+51

Scorobey Aug 11 2018 at 22:09

Построение орбит небесных тел средствами Python

9 min

28K

Python*Algorithms*AstronomyMathematics*Development for Windows*

Tutorial

Системы отсчёта для определения орбиты

Для нахождения траекторий относительных движений в классической механике используется предположение об абсолютности времени во всех системах отсчета (как инерциальных, так и неинерциальных).

Используя данное предположение, рассмотрим движение одной и той же точки в двух различных системах отсчета

$inline$ и

$K^{'}$ , из которых вторая движется относительно первой с произвольной скоростью

$\vec{V(t)}=\dot{\vec{R(t)}}$ , где

$\vec{R(t)}$ радиус-вектор, описывающий положение точки начала системы координат

$K^{'}$ относительно системы отсчета

$inline$ ).

Будем описывать движение точки в системе

$K^{'}$ радиус-вектором

$\vec{r^{'}}(t)$ , направленным из начала координат системы

$K^{'}$ в текущее положение точки. Тогда движение рассматриваемой точки относительно системы отсчета

$inline$ описывается радиус-вектором

$\vec{r(t)}$ :

$\vec{r}(t)=\vec{r^{'}}(t)+\vec{R}(t)$ , (1)

а относительная скорость

$\vec{v(t)}$

$\vec{v}(t)=\dot{\vec{r^{'}}}(t)+\dot{\vec{R}}(t)$ ,(2)

Читать дальше →

+27

kanadez Aug 11 2018 at 18:31

Нейросети: реализация задачи про грибы на Tensor Flow и Python

10 min

29K

Python*Artificial IntelligenceMachine learning*

From sandbox

Tensor Flow — фреймворк для построения и работы с нейросетями от компании Google. Позволяет абстрагироваться от внутренних деталей машинного обучения и сосредоточиться непосредственно на решении своей задачи. Очень мощная вещь, позволяет создавать, обучать и использовать нейронные сети любого известного типа. Не нашел на Хабре ни одного толкового текста на эту тему, поэтому пишу свой. Ниже будет описана реализация решения задачи про грибы с помощью библиотеки Tensor Flow. Кстати, алгоритм, описанный ниже, подходит для предсказаний практически в любой области. Например, вероятности рака у человека в будущем или карт у соперника в покере.

Читать дальше →

+18

NIX_Solutions Jul 24 2018 at 11:06

Памятки по искусственному интеллекту, машинному обучению, глубокому обучению и большим данным

4 min

37K

NIX corporate blogBig Data*Artificial IntelligenceMachine learning*

Translation

В течение нескольких месяцев мы собирали памятки по искусственному интеллекту, которыми периодически делились с друзьями и коллегами. В последнее время сложилась целая коллекция, и мы добавили к памяткам описания и/или цитаты, чтобы было интереснее читать. А в конце вас ждёт подборка по сложности «О большое» (Big-O). Наслаждайтесь.

UPD. Многие картинки будут читабельнее, если открыть их в отдельных вкладках или сохранить на диск.

Читать дальше →

+43

Komesk Aug 18 2018 at 22:21

Исследователи из Карнеги-Меллона создали пока самые правдоподобные «deepfakes»

2 min

21K

The future is hereArtificial IntelligenceMachine learning*

From sandbox

Когда-либо слышали о «deepfakes»? ИИ, который накладывает лицо одного человека на тело другого, использовали для замены Харрисона Форда на Николаса Кейджа в бесчисленных видеоклипах, а также и для более гнусных целей: знаменитости без их ведома появились в порно и пропаганде. Теперь, к лучшему или худшему, исследователи из Университета Carnegie Mellon разработали новую, более мощную и универсальную систему.

+24

Leono Mar 25 2018 at 11:17

Анализ данных в спорте: взаимодействие учёных, клубов и федераций. Лекция в Яндексе

9 min

15K

Яндекс corporate blogResearch and forecasts in IT*Machine learning*

Мы проводим мероприятия не только по темам, которыми занимаемся сами. В феврале мы собрали специалистов по использованию машинного обучения в спорте. Удивительно, как много процессов связывают эти две сферы — анализ данных и спорт — и какое количество нерешенных проблем возникает на стыке между ними. Перед вами доклад Дмитрия Дагаева — заместителя проректора НИУ ВШЭ.

— Сегодня я постараюсь коротко рассказать о задачах, которые уже решаются с помощью анализа данных в спорте. Мы увидим, что именно взаимодействие агентов является ключевым фактором, который позволяет решать эти задачи.

+31

andrewbo29 May 24 2018 at 13:56

Распознавание сцен на изображениях с помощью глубоких свёрточных нейронных сетей

10 min

17K

VK corporate blogMachine learning*Image processing*

Многие продукты нашей компании работают с изображениями. Некоторое время назад мы решили добавить в такие сервисы «умный» поиск по фотографиям, их теггирование. Такая функциональность будет входить в Computer Vision API для дальнейшего использования в продуктах компании. Одним из важных способов теггирования изображений является теггирование по сценам, когда в результате мы получаем что-то такое:

Читать дальше →

+31

SLY_G May 21 2018 at 15:00

Научные работы устарели; что ждёт нас дальше

18 min

18K

Popular science

Translation

Научная работа – в её современном виде – стала одним из изобретений, позволивших прогрессу развиваться. До того, как её форму разработали в XVII веке, результаты работ передавались частным образом в письмах, эфемерным образом в лекциях, или все скопом – в книгах. Не существовало мест для публичного обсуждения постепенных продвижений. Оставляя на своих страницах место для описания отдельных экспериментов или небольших технических продвижений, журналы творили хаос из разраставшейся науки. С той поры учёные стали походить на социальных насекомых: они постоянно двигали прогресс вперёд, с жужжанием, подобным стае пчёл.

Самые ранние из работ в каком-то смысле были более читаемыми, чем сегодняшние. Они были менее специализированными, более прямолинейными, короткими и не такими формальными. Матанализ изобрели лишь незадолго до этого. Весь набор данных по исследуемой теме мог уместиться в табличке на одной странице. Все расчёты, связанные с результатами, проводились от руки, и их можно было так же проверить.

+21

samsergey Jul 10 2018 at 07:28

Теория счастья. Закон арбузной корки и нормальность ненормальности

10 min

75K

Entertaining tasksMathematics*Popular science

Представляю на суд читателей Хабра неупорядоченные главы из своей книжки «Теория счастья» с подзаголовком «Математические основы законов подлости». Это ещё не изданная научно-популярная книжка, очень неформально рассказывающая о том, как математика позволяет с новой степенью осознанности взглянуть на мир и жизнь людей. Она для тех кому интересна наука и для тех, кому интересна жизнь. А поскольку жизнь наша сложна и, по большому счёту, непредсказуема, упор в книжке делается, в основном, на теорию вероятностей и математическую статистику. Здесь не доказываются теоремы и не даются основы науки, это ни в коем случае не учебник, а то, что называется recreational science. Но именно такой почти игровой подход позволяет развить интуицию, скрасить яркими примерами лекции для студентов и, наконец, объяснить нематематикам и нашим детям, что же такого интересного мы нашли в своей сухой науке.

Опубликованные главы:

• Введение в мерфологию
• Случайности случайны?
• Головокружительный полёт бутерброда с маслом
• Закон арбузной корки и нормальность ненормальности
• Закон зебры и чужой очереди
• Проклятие режиссёра и проклятые принтеры
• Термодинамика классового неравенства

В этой главе мы начнём с анализа арбузов и их корок, выясним их связь со знаменитым законом Мерфи и убедимся со всей строгостью в том, что о вкусах не спорят.

Читать дальше →

+116

250

madrugado Apr 10 2018 at 14:00

Применение сверточных нейронных сетей для задач NLP

9 min

63K

Open Data Science corporate blogData Mining*Natural Language Processing*Python*Machine learning*

Когда мы слышим о сверточных нейронных сетях (CNN), мы обычно думаем о компьютерном зрении. CNN лежали в основе прорывов в классификации изображений — знаменитый AlexNet, победитель соревнования ImageNet в 2012 году, с которого начался бум интереса к этой теме. С тех пор сверточные сети достигли большого успеха в распознавании изображений, в силу того факта, что они устроены наподобие зрительной коры головного мозга — то есть умеют концентрироваться на небольшой области и выделять в ней важные особенности. Но, как оказалось, CNN хороши не только для этого, но и для задач обработки естественного языка (Natural Language Processing, NLP). Более того, в недавно вышедшей статье [1] от коллектива авторов из Intel и Carnegie-Mellon University, утверждается, что они подходят для этого даже лучше RNN, которые безраздельно властвовали областью на протяжении последних лет.

Сверточные нейронные сети

Для начала немного теории. Что такое свертка? Мы не будем на этом останавливаться подробно, так как про это написана уже тонна материалов, но все-таки кратко пробежаться стоит. Есть красивая визуализация от Стэнфорда, которая позволяет ухватить суть:

Источник

Читать дальше →

+67

1 2

4 5 ...

8 9