Как стать автором
Обновить
3
0
tunelix2 @tunelix

Пользователь

Отправить сообщение

Задача №1. Узнайте пол и степень родства

Время на прочтение10 мин
Количество просмотров14K
В предыдущей подробной статье про Полный геном мы обещали опубликовать три задачи и подарить тест тому, кто первым решит все три правильно. Заодно в этих задачах мы даем примеры, как можно работать с генетическими данными. Сегодня публикуем первую.


Читать дальше →
Всего голосов 26: ↑26 и ↓0+26
Комментарии30

Компьютер сделает вам вкусно

Время на прочтение5 мин
Количество просмотров3.8K

Это базилик. Вы наверняка знакомы с этим растением, имеющим очень необычный вкус и запах. Или даже пробовали его в составе салатов или блюд с соусом песто. Но учёные из Лаборатории антидисциплинарных исследований Массачусетского технологического института (MIT Media Lab) уверяют, что смогли вырастить кусты базилика, который будет вкуснее и ароматнее всех, что вы встречали ранее.
Всего голосов 13: ↑11 и ↓2+9
Комментарии0

Гуляем по городу с умом — 2: ходим по городу кругами с помощью генетического алгоритма

Время на прочтение8 мин
Количество просмотров14K

В прошлой статье я описал алгоритм, позволяющий строить более интересные (в противовес более коротким, как делают всякие яндексы-гуглы) пешеходные маршруты между двумя точками. Алгоритм загружал достопримечательности, парки и прочие приятные и интересные для пешеходов объекты из Open Street Map и прокладывал маршрут через них. В итоге путь мог оказаться на 10-20% длиннее, но гораздо живописнее и интереснее.



Фото города — Alex 'Florstein' Fedorov


В комментариях многие написали, что кроме маршрутов между двумя точками им интересно было бы строить круговые маршруты, которые бы начинались и заканчивались в одной и той же точке и укладывались в заданный лимит времени. Например, если у вас есть два часа до поезда или до встречи с друзьями, съездить куда-то далеко вы за это время не успеете, а вот погулять и посмотреть красоты поблизости вполне можно.


После некоторого количества экспериментов я сочинил генетический алгоритм, который строит достаточно неплохие (для меня) маршруты в такой ситуации. Под катом описание принципа работы и несколько примеров.

Читать дальше →
Всего голосов 56: ↑55 и ↓1+54
Комментарии71

Распознавание лиц на коленно-прикладном уровне

Время на прочтение7 мин
Количество просмотров16K
В общем и целом, распознавание лиц и идентификация людей по их результатам выглядит для аксакалов как подростковый секс — все о нем много говорят, но мало кто практикует. Понятно, что мы уже не удивляемся, что после загрузки фоточки с дружеских посиделок Facebook/VK предлагает отметить обнаруженных на снимке персон, но тут мы интуитивно знаем, что у соцсетей есть хорошее подспорье в виде графа связей персоны. А если такого графа нет? Впрочем, начнем по порядку.

Какой-то черт прется в дверь с коробкой
Читать дальше →
Всего голосов 22: ↑22 и ↓0+22
Комментарии4

Обзор: от чего зависит рост или падение курса рубля

Время на прочтение3 мин
Количество просмотров9.5K


Изображение: Waltie | CC BY 2.0

В последние несколько месяцев курс рубля по отношению к доллару довольно стабилен. При этом даже в такой ситуации существуют колебания – например, в апреле курс рос, а в мае впервые за долгое время снизился. Почему так происходит? Я собрал в одном материале факторы, которые влияют на российскую валюту как в плюс, так и в минус.

Примечание: цель материала, не дать подсказку о том, как подзаработать на колебаниях, а скорее – помочь избежать ненужных потерь из-за неожиданных колебаний, которые можно было легко предвидеть.
Читать дальше →
Всего голосов 19: ↑15 и ↓4+11
Комментарии7

Переезд во Францию по работе: зарплаты, визы и резюме

Время на прочтение4 мин
Количество просмотров60K


Ниже — краткий обзор того, как сейчас можно переехать во Францию по работе в ИТ: на какую визу стоит рассчитывать, какую зарплату нужно для этой визы иметь, и как адаптировать резюме под местные традиции.
Читать дальше →
Всего голосов 62: ↑54 и ↓8+46
Комментарии187

Разработка белков в облаке с помощью Python и Transcriptic или Как создать любой белок за $360

Время на прочтение57 мин
Количество просмотров15K
Что, если у вас идея для классного, полезного белка, и вы хотите получить его в реальности? Например, хотите создать вакцину против H. pylori (как словенская команда на iGEM 2008), создав гибридный белок, который сочетает фрагменты флагеллина E. coli, стимулирующие иммунный ответ с обычным флагеллином H. pylori?

Дизайн гибридного флагеллина вакцины против H. pylori, представленный командой Словении на iGEM 2008

Удивительно, но мы очень близки к тому, чтобы создать любой белок, какой хотим, не выходя из блокнота Jupyter, благодаря последним разработкам в геномике, синтетической биологии и совсем недавно — в облачных лабораториях.

В этой статье я покажу код Python от идеи белка до его экспрессии в бактериальной клетке, не прикасаясь к пипетке и не разговаривая ни с одним человеком. Общая стоимость составит всего несколько сотен долларов! Используя терминологию Виджая Панде из A16Z, это Биология 2.0.
Читать дальше →
Всего голосов 50: ↑50 и ↓0+50
Комментарии20

Статический анализ PHP-кода на примере PHPStan, Phan и Psalm

Время на прочтение20 мин
Количество просмотров65K


Компания Badoo существует уже более 12 лет. У нас очень много PHP-кода (миллионы строк) и наверняка даже сохранились строки, написанные 12 лет назад. У нас есть код, написанный ещё во времена PHP 4 и PHP 5. Мы выкладываем код два раза в день, и каждая выкладка содержит примерно 10—20 задач. Помимо этого, программисты могут выкладывать срочные патчи — небольшие изменения. И в день таких патчей у нас набирается пара десятков. В общем, наш код меняется очень активно.

Мы постоянно ищем возможности как для ускорения разработки, так и для повышения качества кода. И вот однажды мы решили внедрить статический анализ кода. Что из этого получилось, читайте под катом.
Читать дальше →
Всего голосов 77: ↑76 и ↓1+75
Комментарии51

Big Data resistance 1 или неуловимый Джо. Интернет анонимность, антидетект, антитрекинг для анти-вас и анти-нас

Время на прочтение28 мин
Количество просмотров20K
Доброго времени прочтения, уважаемые читатели Хабра.

Прочитал за последнее время ряд статей, в том числе на Хабре, по цифровым отпечаткам браузеров и слежке за пользователями в Интернете. Например, статья Анонимная идентификация браузеров и Ловушка в интернете журнал Forbes, раздел «технологии» — «Big Data».

А может я не хочу, чтоб меня учитывали! Только, боюсь, ирония в том, что это тоже отпечаток, да, к тому же, видимо, и основная причина появления отпечатков. ИМХО, способ только один. Применительно к FireFox — если все лисицы хором и каждая в отдельности начнут тявкать, что они обыкновенные стандартные лисицы, а не тор, не хром и не макось.

Но, из академического интереса, для сохранения индивидуальности лисиц и в ответ на очередные происки дикого капитализма, хочу предложить на суд уважаемого Хабрасообщества, следующий хитрый план.
Читать дальше →
Всего голосов 32: ↑28 и ↓4+24
Комментарии16

Где и как врубиться в эмбеддинги графов

Время на прочтение30 мин
Количество просмотров32K

Привет, Хабр!


Три года назад на сайте Леонида Жукова я ткнул ссылку на курс Юре Лесковека cs224w Analysis of Networks и теперь мы будем его проходить вместе со всеми желающими в нашем уютном чате в канале #class_cs224w. Cразу же после разминки с открытым курсом машинного обучения, который начнётся через несколько дней.


image


Вопрос: Что там начитывают?
Ответ: Современную математику. Покажем на примере улучшения процесса IT-рекрутинга.


Под катом читателя ждёт история о том, как руководителя проектов дискретная математика до нейросетей довела, почему внедряющим ERP и управляющим продуктами стоит почитывать журнал Биоинформатика, как появилась и решается задача рекомендации связей, кому нужны графовые эмбеддинги и откуда взялись, а также мнение о том, как перестать бояться вопросов про деревья на собеседованиях, и чего всё это может стоить. Погнали!

Читать дальше →
Всего голосов 48: ↑42 и ↓6+36
Комментарии10

Конференция DEFCON 22. Эдриан Креншоу. На чём могут «спалиться» пользователи TOR

Время на прочтение13 мин
Количество просмотров32K
Здравствуйте, меня зовут Эдриан Крэншоу. Я сооснователь компании Derbycon, основатель Irongeek.com, интересуюсь информационной безопасностью и работаю старшим консультантом по безопасности в компании Trusted Sec. Я расскажу вам, как люди размещают свои подлинные документы в Darknet и как из-за этого их становится легко поймать.

Это всем известные истории о людях, которые использовали TOR или другие анонимайзеры и попались в основном из-за пренебрежения правилами OPSEC.

История, которой я присвоил номер 0 – это бомбы, будто бы заложенные в Гарвардском университете в прошлом году. Один парень отправил электронное письмо в разные отделы руководства университета, в том числе службе безопасности и студенческой газете, с указанием мест, в которых находились бомбы: научный центр, Sever холл, Emerson холл, Thayler холл. Он писал, чтобы они действовали быстро, потому что бомбы скоро взорвутся. Сообщение об этом было опубликовано в СМИ 16 декабря 2013 года.

Итак, кем был этот парень? Он использовал «партизанский» почтовый сервис для разовой отправки электронных писем Guerilla Mail и отправил своё письмо через TOR.



Но он не учёл то, что Guerilla Mail помещает оригинальный IP-адрес отправителя в заголовок письма. Например, если вы отправляете письмо из дома, то на нём будет указан IP-адрес вашего домашнего компьютера. На слайде показан пример, где я использовал свой почтовый ящик на irongeek.com, чтобы показать, как это работает. Этот парень подумал об анонимности и использовал TOR, поэтому в его письме был указан IP-адрес сервера TOR. Однако он не учёл, что все узлы TOR, за исключением «мостов», известны и находятся в открытом доступе – они приведены, например, на этом сайте torstatus.blutmagie.de, и легко можно определить, относится ли конкретный компьютер к сети TOR или нет. Если вы не используете «мост», очень легко отследить, кто и откуда присоединился к локальной сети Гарварда и использовал TOR в то время, когда было отправлено письмо с угрозами.
Всего голосов 30: ↑30 и ↓0+30
Комментарии20

Использование аккумулятора от iPhone при разработке носимой электроники

Время на прочтение8 мин
Количество просмотров57K
Приветствую, читатель.

Довольно часто у меня возникает задача разработки портативных устройств с питанием от одной ячейки Li-ion аккумулятора. И, если заказчика обычно это не беспокоит, то у меня, как у опытного инженера, при виде такого ТЗ по спине пробегает дрожь. Это связано с тем, что оценка уровня заряда аккумулятора, а также оставшегося времени работы — это очень непростая задача, хотя на первый взгляд может показаться иначе.



Есть несколько вариантов действия в таком случае, о них поговорим ниже.
Читать дальше →
Всего голосов 128: ↑128 и ↓0+128
Комментарии135

Я, РобоЛойер, или как искать аномалии в документах

Время на прочтение8 мин
Количество просмотров5.8K
Представляете ли вы, сколько нормативных документов в час приходится просматривать корпоративному юристу и к каким последствиям может привести его невнимательность? Бедолага юрист должен вчитываться в каждый договор, тем более, если для него нет типового шаблона, что случается часто.

Глядя в уставшие глаза нашего корпоративного юриста, мы решили создать сервис, который будет находить проблемы в документах и сигнализировать о них задремавшему юристу. В результате мы создали решение с агрегацией знаний по некоторой базе договоров и подсказками юристам, на что следует обратить особое внимание. Конечно, не обошлось без магии. Математической магии под названием Anomaly Detection.

В основном, подходы Anomaly Detection применяются для анализа поведения разнообразного оборудования для выявления отказов, или в банковском секторе для определения фрода. А мы попробовали применить эти алгоритмы для анализа юридических документов. Следуйте под кат, чтобы узнать, как мы это делали.

Читать дальше →
Всего голосов 24: ↑23 и ↓1+22
Комментарии7

Памятки по искусственному интеллекту, машинному обучению, глубокому обучению и большим данным

Время на прочтение4 мин
Количество просмотров36K


В течение нескольких месяцев мы собирали памятки по искусственному интеллекту, которыми периодически делились с друзьями и коллегами. В последнее время сложилась целая коллекция, и мы добавили к памяткам описания и/или цитаты, чтобы было интереснее читать. А в конце вас ждёт подборка по сложности «О большое» (Big-O). Наслаждайтесь.

UPD. Многие картинки будут читабельнее, если открыть их в отдельных вкладках или сохранить на диск.
Читать дальше →
Всего голосов 51: ↑47 и ↓4+43
Комментарии9

Чему я научился, пройдя множество собеседований в компаниях и стартапах из сферы ИИ

Время на прочтение14 мин
Количество просмотров38K
За последние восемь месяцев я прошел собеседования в самых разных компаниях — DeepMind в Google, Wadhwani Institute of AI, Microsoft, Ola, Fractal Analytics и некоторых других — в основном на позиции Data Scientist, Software Engineer и Research Engineer. По ходу дела мне предоставлялись возможности не только пообщаться со многими талантливыми людьми, но также по-новому взглянуть на себя с пониманием того, что хотят услышать работодатели, когда беседуют с кандидатами. Думаю, если бы я располагал этой информацией раньше, то мог бы избежать многих ошибок и подготовиться к собеседованиям куда лучше. Это и стало импульсом к написанию данной статьи — возможно, она поможет кому-нибудь получить работу мечты.


В конце концов, если уж собираешься две трети своего времени (если не больше) проводить за работой, она должна быть этого достойна.
Читать дальше →
Всего голосов 28: ↑20 и ↓8+12
Комментарии6

Универсальный API для получения информации по чекам

Время на прочтение9 мин
Количество просмотров114K
Привет жителям Хабра.

В данной статье хотелось бы рассказать про API для получения чеков, которое нам не предоставила всеми любимая ФНС.

Когда только появились QR-коды на чеках я подумал «Вау, как круто! Ты сканируешь код и видишь если не всю инфу по чеку, то ссылку на него». И какого же было мое разочарование, когда просканировав такой код я увидел что-то вроде

t=20180518T220500&s=975.88&fn=8710000101125654&i=99456&fp=1250448795&n=1

Но расстраиваться я не стал и подумал, что ФНС позаботилась о нас и предоставила API для получения такой информации. Погуглив некоторое время я понял, что ФНС нам предоставила только мобильное приложение для проверки чека и просмотра той информации, что поступила к ним от магазина.
Читать дальше →
Всего голосов 35: ↑33 и ↓2+31
Комментарии84

Что технарю нужно знать о гуманитариях?

Время на прочтение8 мин
Количество просмотров40K


Начнем с того, что разделение на физиков и лириков придумали в 60ые для смеха, типа западников и славянофилов, или патриотов и либералов, спартак или динамо — классическая “двухпартийная система” наглядно показанная в серии Южного Парка про клизму и бутерброд. Еще древние римляне называли этот принцип “разделяй и властвуй”.

В итоге разным командам дали разные книжки, а про чужие говорили «скучно, вам не понять, да и понимать НЕ НАДО», а понять меж тем легко, главное посмотреть сквозь другие очки, сменить парадигму. Ведь ни одна из парадигм не истина, а вот бинокулярное зрение сильно облегчает жизнь. А тут, дали людям разные очки, одним плюс, другим минус, гуманитариям шестеренок в часах не рассмотреть, а для технарей через 200 метров вся природа абстракция.

Но вот вам, друзья, золотой ключик открывающий миры — три книги с отлично структурированной инфой по гуманитарным наукам. Этих трех точно будет достаточно, что бы технарю понять основные гуманитарные законы и начать видеть, как это устроено на уровне механики.

Читать дальше →
Всего голосов 50: ↑44 и ↓6+38
Комментарии105

Как решить 90% задач NLP: пошаговое руководство по обработке естественного языка

Время на прочтение16 мин
Количество просмотров113K
Неважно, кто вы — зарекомендовавшая себя компания, или же только собираетесь запустить свой первый сервис — вы всегда можете использовать текстовые данные для того, чтобы проверить ваш продукт, усовершенствовать его и расширить его функциональность.

Обработкой естественного языка (NLP) называется активно развивающаяся научная дисциплина, занимающаяся поиском смысла и обучением на основании текстовых данных.

Как вам может помочь эта статья


За прошедший год команда Insight приняла участие в работе над несколькими сотнями проектов, объединив знания и опыт ведущих компаний в США. Результаты этой работы они обобщили в статье, перевод которой сейчас перед вами, и вывели подходы к решению наиболее распространенных прикладных задач машинного обучения.

Мы начнем с самого простого метода, который может сработать — и постепенно перейдем к более тонким подходам, таким как feature engineering, векторам слов и глубокому обучению.

После прочтения статьи, вы будете знать, как:

  • осуществлять сбор, подготовку, и инспектирование данных;
  • строить простые модели, и осуществлять при необходимости переход к глубокому обучению;
  • интерпретировать и понимать ваши модели, чтобы убедиться, что вы интерпретируете информацию, а не шум.

Пост написан в формате пошагового руководства; также его можно рассматривать в качестве обзора высокоэффективных стандартных подходов.
Всего голосов 38: ↑36 и ↓2+34
Комментарии11

Собеседование по Data Science: чего от вас ждут

Время на прочтение6 мин
Количество просмотров86K
Data Science – область очень перспективная. За прошлый год мы в ЕРАМ получили 210 резюме от людей, которые хотят заниматься Data Science. Из них на техническое интервью мы пригласили 43 человека, а предложили работу семи. Если спрос большой, почему так?

Мы поговорили с техническими интервьюерами и выяснили: проблема многих кандидатов в том, что они плохо представляют, чем занимаются аналитики данных. Поэтому их знания и навыки не всегда релевантны для работы. Кто-то считает, что опыта работы с Big Data достаточно, чтобы работать в Data Science, кто-то уверен, что хватит просмотра нескольких курсов по машинному обучению, некоторые думают, что хорошо разбираться в алгоритмах необязательно.

Дмитрий Никитко и Михаил Камалов – аналитики данных и технические интервьюеры из ЕРАМ – рассказали, чего ждут на собеседованиях от кандидатов, какие вопросы задают, что ценится в резюме и как подготовиться к собеседованию.


Читать дальше →
Всего голосов 32: ↑23 и ↓9+14
Комментарии7

Получение параметров команды из человеческой фразы

Время на прочтение6 мин
Количество просмотров5.5K
Хотя мне и удалось разобраться с классификацией интента, осталась более сложная задача — выцепить из фразы дополнительные параметры. Я знаю, что это делается с помощью тегов. Один раз я уже успешно применил sequence_tagging, но я не очень рад тому, что нужно держать словарь векторных представлений слов размером больше 6 гигабайт.
Читать дальше →
Всего голосов 18: ↑16 и ↓2+14
Комментарии3

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность