Как стать автором

Software Engineer

Профиль Публикации 4Комментарии 25Закладки 178

VlK 24 мар 2020 в 13:17

Strace в Linux: история, устройство и использование

17 мин

61K

Блог компании Badoo*nix*Настройка Linux*Программирование*Системное администрирование*

Технотекст 2020

В Unix-подобных операционных системах общение программы с внешним миром и операционной системой происходит через небольшой набор функций — системных вызовов. А значит, в отладочных целях полезно бывает подсмотреть за выполняемыми процессами системными вызовами.

Следить за «интимной жизнью» программ на Linux помогает утилита strace, которой и посвящена эта статья. К примерам использования «шпионского» оборудования прилагаются краткая история strace и описание устройства подобных программ.

Читать дальше →

+86

toshiba_ru 23 мар 2020 в 14:25

Распознавание речи: очень краткий вводный курс

11 мин

26K

Блог компании ToshibaНаучно-популярноеИскусственный интеллектГолосовые интерфейсы*

Рассказать неспециалисту максимально просто о работе компьютерного распознавания речи и преобразовании её в текст — задача почти непосильная. Ни один рассказ об этом не обходится без сложных формул и математических терминов. Мы попробуем максимально понятно и немного упрощённо объяснить, как ваш смартфон понимает речь, когда машины научились распознавать человеческий голос и в каких неожиданных областях используется эта технология.

Необходимое предуведомление: если вы разработчик или, тем более, математик, вы едва ли узнаете из поста что-то новое и даже посетуете на недостаточную научность материала. Наша цель — самым простым образом познакомить непосвящённых читателей с речевыми технологиями и рассказать, как и зачем Toshiba взялась за создание своего голосового ИИ.

+5

itmo 22 мар 2020 в 15:24

Подкаст: что ждет начинающих ученых в сфере МО

16 мин

5.6K

Блог компании ИТМОИнтервьюМашинное обучение*Программирование*Учебный процесс в IT

Как и обещали, приводим полную расшифровку первого выпуска нашего подкаста (послушать можно в Apple Podcasts). С нами разговаривал Андрей Фильченков, кандидат физико-математических наук, доцент факультета «Информационных технологий и программирования» и руководитель группы машинного обучения международной научной лаборатории «Компьютерные технологии».

+8

ptsecurity 19 мар 2020 в 15:08

Как системы анализа трафика обнаруживают тактики хакеров по MITRE ATT&CK на примере PT Network Attack Discovery

10 мин

10K

Блог компании Positive TechnologiesИнформационная безопасность*Сетевые технологии*Учебный процесс в ITЧитальный зал

Согласно Verizon, большинство (87%) инцидентов ИБ происходят за считанные минуты, а на их обнаружение у 68% компаний уходят месяцы. Это подтверждается и исследованием Ponemon Institute, согласно которому у большинства организаций уходит в среднем 206 дней на обнаружение инцидента. По опыту наших расследований, хакеры могут годами контролировать инфраструктуру компании и не быть обнаруженными. Так, в одной из организаций, где наши эксперты проводили расследование инцидента ИБ, было выявлено, что хакеры полностью контролировали всю инфраструктуру организации и регулярно похищали важные сведения в течение восьми лет.

Допустим, у вас уже работает SIEM, который собирает логи и анализирует события, и установлены антивирусы на конечных узлах. Тем не менее, не все можно обнаружить с помощью SIEM, так же как и невозможно на всю сеть внедрить системы EDR, а значит, «слепых» зон не избежать. Справиться с ними помогают системы анализа сетевого трафика (network traffic analysis, NTA). Эти решения выявляют активность злоумышленников на самых ранних этапах проникновения в сеть, а также во время попыток закрепиться и развить атаку внутри сети.

NTA бывают двух видов: одни работают с NetFlow, вторые анализируют сырой трафик. Преимущество вторых систем в том, что они могут хранить записи сырого трафика. Благодаря этому специалист по ИБ может проверить успешность атаки, локализовать угрозу, понять, как атака произошла и как предотвратить аналогичную в будущем.

Мы покажем, как с помощью NTA можно по прямым или косвенным признакам выявлять все известные тактики атак, описанные в базе знаний MITRE ATT&CK. Мы расскажем о каждой из 12 тактик, разберем техники, которые детектируются по трафику, и продемонстрируем их обнаружение с помощью нашей NTA-системы.

Читать дальше →

+5

Barrayar 19 мар 2020 в 16:54

Поговори со мной: что сегодня умеют голосовые боты

7 мин

12K

Блог компании VKБудущее здесьИскусственный интеллектМашинное обучение*

18 лет назад в аниме-сериале «Призрак в доспехах: Синдром одиночки» показали совершенно фантастических роботов-операторов. Помимо очень продвинутых физических возможностей (вам бы с такими пальцами код набирать!), они прекрасно умели общаться с людьми голосом. Сегодня ботами уже никого не удивишь. Мы встречаемся с ними повсеместно, в различных сферах нашей жизни. Они используются в медицинских учреждениях, банках, в продажах, в обслуживании клиентов, в социальных сетях и т.д. И если к чат-ботам мы уже начинаем привыкать, то голосовые боты для многих ещё в новинку. Да и сами технологии ещё далеки от совершенства. Какая сейчас ситуация с голосовыми ботами?

+39

SmartEngines 18 мар 2020 в 08:24

На чем тестировать алгоритмы распознавания и обработки документов, удостоверяющих личность?

6 мин

5.6K

Блог компании Smart EnginesОбработка изображений*Машинное обучение*Искусственный интеллектАлгоритмы*

Как известно, мы в Smart Engines занимаемся системами компьютерного зрения и распознавания документов, а также научными исследованиями в этой области. В течение нескольких лет в фокусе нашего внимания находились системы распознавания документов, удостоверяющих личность. Одной из критичных проблем, возникающих при подготовке научных статей, является отсутствие открытых датасетов, на которых можно демонстрировать сообществу разработанные нами алгоритмы и подходы. В связи с этим два года назад мы начали работу над серией открытых пакетов изображений и видеоклипов ID-документов, предназначенных, главным образом, для исследователей, и о результатах этой работы хотели бы рассказать вам под катом.

Читать дальше →

+6

vasiliyrubtsov 18 мар 2020 в 10:51

Как мы используем item2vec для рекомендаций похожих товаров

9 мин

16K

Блог компании AvitoTechПрограммирование*Машинное обучение*Алгоритмы*Data Mining*

Привет, меня зовут Вася Рубцов, я занимаюсь разработкой рекомендательных систем в Авито.

Основная цель площадки для размещения объявлений — помочь продавцам найти покупателей, а покупателям — товары, которые они ищут. В отличие от интернет-магазинов факт продажи происходит за пределами нашей платформы, и мы не можем это отследить. Поэтому ключевой метрикой у нас является «контакт» — это событие нажатия кнопки «показать телефон» на карточке товара, либо начало диалога в мессенджере с продавцом. Из этой метрики мы получаем «байеров» — количество уникальных пользователей в день, которые сделали по крайней мере один контакт.

Два основных продукта, которым занимается отдел рекомендаций в Авито, — это рекомендации для пользователя на главной странице или user2item и блок похожих объявлений на карточке товара или item2item. Треть всех просмотров объявлений и четверть всех контактов происходит с рекомендаций, поэтому рекомендательные движки играют важную роль в Авито.

В статье я расскажу, как мы улучшили наши item2item рекомендации за счёт item2vec и как это повлияло на user2item рекомендации.

Читать дальше →

+35

Dmytro_Kikot 18 мар 2020 в 10:50

Архивы памяти: как мозг кодирует и воспроизводит воспоминания

9 мин

25K

Блог компании ua-hosting.companyНаучно-популярноеМозгЗдоровьеБиотехнологии

С одной стороны мозг человека достаточно понятен, с другой — полон загадок и вопросов, на которые пока нет ответов. И тут все логично, учитывая, что данная система чрезвычайно сложна как с точки зрения архитектуры, так и с точки зрения протекающих процессов и связи между ними. Если по классике сравнивать мозг с компьютером, то помимо обработки информации, он выполняет и ее хранение. Любое воспоминание изымается из архивов памяти под влиянием какого-то стимула: знакомый аромат, мелодия, слова и т.д. Однако остается вопрос — где этот архив и что способствует его открытию? Ученые из NINDS (Национальный институт неврологических расстройств и инсульта) изучили мозг пациентов, больных устойчивой к препаратам эпилепсией, чтобы выявить и попытаться объяснить механизмы извлечения воспоминаний. Так как же мы вспоминаем, что происходит в мозге в этот момент и почему исследование проводилось с участием больных эпилепсией? Об этом мы узнаем из доклада ученых. Поехали.

Читать дальше →

+21

JIeM 17 мар 2020 в 11:09

Тестостерон, зачем он мужчинам и как сохранить силу к старости

12 мин

77K

Блог компании LifextЗдоровьеМозг

Статья посвящена такому важному гормону, как тестостерон, и объяснению, почему именно он делает мужчин мужчинами. Также cтатья будет интересна к прочтению прекрасным полом.

Содержание:

История открытия
Что такое тестостерон и как он работает в организме
Нормы тестостерона, диагностика, а также немного о заместительной терапии Т
Риски избытка и недостатка тестостерона
Пища для поднятия уровня тестостерона

+14

AloneCoder 17 мар 2020 в 13:44

Простая хэш-таблица для GPU

11 мин

13K

Блог компании VKАлгоритмы*ВидеокартыВысокая производительность*Хранение данных*

Перевод

Я выложил на Github новый проект A Simple GPU Hash Table.

Это простая хэш-таблица для GPU, способная обрабатывать в секунду сотни миллионов вставок. На моём ноутбуке с NVIDIA GTX 1060 код вставляет 64 миллиона случайно сгенерированных пар ключ-значение примерно за 210 мс и удаляет 32 миллиона пар примерно за 64 мс.

То есть скорость на ноутбуке составляет примерно 300 млн вставок/сек и 500 млн удалений/сек.

Таблица написана на CUDA, хотя ту же методику можно применить к HLSL или GLSL. У реализации есть несколько ограничений, обеспечивающих высокую производительность на видеокарте:

Обрабатываются только 32-битные ключи и такие же значения.
Хэш-таблица имеет фиксированный размер.
И этот размер должен быть равен двум в степени.

Для ключей и значений нужно зарезервировать простой разграничивающий маркер (в приведённом коде это 0xffffffff).

Читать дальше →

+47

VAE 16 мар 2020 в 14:17

КЛЕТКА VII. Анализ Генетического кода II

14 мин

4.3K

Математика*Криптография*Информационная безопасность*Биотехнологии

_{Иллюстрация melmagazine.com (Source)}

В настоящее время для информационного обмена широко используются сети общего доступа с каналами, не защищенными от нарушителя. Как организуется защита можно прочитать здесь.

В сообщении отправителем защищается целостность, конфиденциальность, доступность сообщения для чего используются результаты теорий кодология, криптология, стеганология.

В предлагаемой работе продолжим рассмотрение только одного частного вопроса — анализа кодов сообщений.

Читать дальше →

+5

LonelyDeveloper97 16 мар 2020 в 10:10

Нейроны и их моделирование

4 мин

11K

МозгМашинное обучение*Математика*Анализ и проектирование систем*

Недавно я написал статью про то, как работает память в мозгу. Несколько комментариев говорили о том, что я недостаточно раскрыл тему особенностей биологического нейрона. И я решил исправить свою ошибку.

В этой статье — список основных механизмов, которые отличают биологические нейроны от простой модели с весами связей и порогом активации. Я расскажу, как поправить модель, если вам понадобится эти особенности учесть.

Начинаем мы вот с этой простой картинки:

Читать дальше →

+14

alexwortega 8 мар 2020 в 17:15

Генерируем тексты песен цепями Маркова

2 мин

15K

Python*Машинное обучение*

Туториал

Из песочницы

Сегодня я хочу рассказать про свой опыт генерации текста песен с помощью python и библиотеки Markovify

Дисклеймер: автор хотел повеселить себя вечером и не придумал ничего лучше, как:

В качестве корпуса для "~~обучения~~" цепи я буду использовать текст песен группы Кис Кис.

Пикча выше иллюстрирует то как работает цепь Маркова. А вот неплохая статья.

Читать дальше →

+17

Islanna 5 мар 2020 в 20:50

Нормализация текста в задачах распознавания речи

4 мин

11K

Машинное обучение*ЗвукOpen source*Natural Language Processing*

Из песочницы

При решении задач, связанных с распознаванием (Speech-To-Text) и генерацией (Text-To-Speech) речи важно, чтобы транскрипт соответствовал тому, что произнёс говорящий — то есть реально устной речи. Это означает, что прежде чем письменная речь станет нашим транскриптом, её нужно нормализовать.

Другими словами, текст нужно провести через несколько этапов:

Замена числа прописью: 1984 год -> тысяча девятьсот восемьдесят четвёртый год;
Расшифровка сокращений: 2 мин. ненависти -> две минуты ненависти;
Транскрипция латиницы: Orwell -> Оруэлл и т.д.

Normalization

В этой статье я коротко расскажу о том, как развивалась нормализация в датасете русской речи Open_STT, какие инструменты использовались и о нашем подходе к задаче.

Как вишенка на торте, мы решили выложить наш нормализатор на базе seq2seq в открытый доступ: ссылка на github. Он максимально прост в использовании и вызывается одним методом:

norm = Normalizer()
result = norm.norm_text('С 9 до 11 котики кушали whiskas')

>>> 'С девяти до одиннадцати котики кушали уискас'

Читать дальше →

+32

worksolutions 6 мар 2020 в 12:07

Подборка статей о машинном обучении: кейсы, гайды и исследования за февраль 2020

6 мин

5.6K

Python*TensorFlow*Искусственный интеллектМашинное обучение*

Вслед за январским постом встречайте второй выпуск дайджеста. Здесь вас ждёт список англоязычных материалов за февраль, которые написаны без лишнего академизма. Публикации содержат примеры кода и ссылки на непустые репозитории. Упомянутые технологии лежат в открытом доступе и многие из них не требуют сверхмощного железа для тестирования.

Читать дальше →

+9

Gilyaru 6 мар 2020 в 11:49

Конспект по методам классификации данных

7 мин

15K

Big Data*Машинное обучение*

Из песочницы

При изучении Data Science, я решил составить для себя конспект по основным приемам, используемым в анализе данных. В нем отражены названия методов, кратко описана суть и приведен код на Python для быстрого применения. Готовил конспект для себя, но подумал, что кому-то это также может быть полезно, например, перед собеседованием, в соревновании или при запуске нового проекта. Рассчитано на аудиторию, которая в целом знакома со всеми этими методами, но имеет необходимость освежить их в памяти. Статья под катом.

Читать дальше →

+12

ritchie_kyoto 26 фев 2020 в 09:33

Все, что вы хотели узнать об LDPC кодах, но стеснялись спросить (наверное)

18 мин

35K

Python*Алгоритмы*Беспроводные технологии*Научно-популярное

Туториал

Предисловие

С кодами малой плотности проверок на чётность, которые дальше мы будем именовать коротко LDPC (Low-density parity-check codes), мне удалось познакомиться более или менее близко, работая над семестровым научным проектом в ТУ Ильменау (магистерская программа CSP). Моему научному руководителю направление было интересно в рамках педагогической деятельности (нужно было пополнить базу примеров, а также посмотреть в сторону недвоичных LDPC), а мне из-за того, что эти коды были плюс-минус на слуху на нашей кафедре. Не все удалось рассмотреть в том году, и поэтому исследование плавно перетекло в мое хобби… Так я набрал некоторое количество материала, которым сегодня и хочу поделиться!

Кому может быть интересна данная статья:

Студентам, которые хотят разобраться с данными кодами (в начале статьи будет много теории, я предупредил).
Преподавателям, которые хотели бы добавить коды LDPC в область своих семинаров.
Всем, кто любит покопаться в различных алгоритмах, а также чего-нибудь помоделировать и посравнивать (в конце будут примеры: как скрипты, так и реализации "из коробки" open-source проекта aff3ct).

В общем, присоединяйтесь!

Читать дальше →

+10

JIeM 20 фев 2020 в 17:25

Анализ крови на железо — как контролировать уровень, диагностирование причин, почему это важно

10 мин

90K

Блог компании LifextЗдоровьеМозг

Железо является важным элементом для ряда фундаментальных функций организма, одна из которых, когнитивная способность, критически необходима для гиков.

Кроме этого железо регулирует ряд процессов, часть из которых показана на картинке.

В статье мы разберемся какие бывают причины дисбаланса железа, какие анализы сдавать для контроля и как поддерживать его уровень в нормальном диапазоне.

Читать дальше →

+6

HostingManager 20 фев 2020 в 19:42

Как мы потеряли «Мир»: пожар на космической станции, столкновение с грузовиком «Прогресс», разгерметизация

23 мин

87K

Блог компании ua-hosting.companyАстрономияБудущее здесьКосмонавтикаФизика

20-го февраля 2020-го года исполняется 34 года с момента запуска и ввода в эксплуатацию космической станции «Мир». Станции, которая была обитаема с 13 марта 1986 года по 16 июня 2000 года. И могла быть обитаема ещё, если бы…

Наверняка многие из вас смотрели фильм «Гравитация», который был признан одним из лучших фильмов о космосе в истории мирового кино, но мало кто знает, что на космической станции «Мир» произошли не менее драматичные события.

23 февраля 1997 года на станции «Мир» должен был погибнуть весь международный экипаж – 4 российских космонавта, один немецкий и один американский астронавт. И тогда станцию «Мир» пришлось бы затопить не планово – весной 2001 года, а вынужденно, на 4 года раньше, с мертвым экипажем на борту. Об этой экспедиции до 2006 года принято было молчать, и до сих пор о ней мало что известно, кроме самих космонавтов и руководителей полета, никто не знал подробностей случившегося. В 2006-м, космонавты 23 международной экспедиции согласились рассказать, что же на самом деле происходило на космической станции, заложниками которой они оказались и Первый канал снял отличный документальный фильм об этом — «Некуда бежать. Пожар на космической станции», который сегодня доступен на Youtube, сайт студии Роскосмоса, почему-то выдаёт ошибку. Возможно потому, что там сказали не всю правду или потому, что правда не совсем та.

Пожар потушили, но он имел страшные последствия. Несколько месяцев космонавтам пришлось жить при температуре более +40 С, дышать ядовитыми парами этиленгликоля, а затем спасать станцию от разгерметизации, вызванной столкновением с 10-тонным грузовым кораблем «Прогресс».

И совсем недавно мой друг нашёл версию произошедшего столкновения от американцев (смотреть с 1:18:00), где астронавт Майкл Фоул, непосредственный участник событий, утверждает, что столкновение было результатом эксперимента по ручной стыковке со станцией, а что самого эксперимента не должно было быть.

Читать дальше →

+156

alez13 21 фев 2020 в 01:41

Физика текста. Часть 1. Символы

127 мин

4.3K

Data Engineering*Data Mining*Алгоритмы*

Символ — текстовый атом. Ни больше, ни меньше. В тексте каждый символ встречается определенное количество раз. Разобрав текст на символы, можно заметить некоторые особенности и закономерности. Давайте об этом и поговорим.

[Если без слов: исходники к статье]

Читать дальше →

+4

3

4 5 ...