Как стать автором
Обновить
43
0

Software Engineer

Отправить сообщение

Strace в Linux: история, устройство и использование

Время на прочтение17 мин
Количество просмотров61K


В Unix-подобных операционных системах общение программы с внешним миром и операционной системой происходит через небольшой набор функций — системных вызовов. А значит, в отладочных целях полезно бывает подсмотреть за выполняемыми процессами системными вызовами.


Следить за «интимной жизнью» программ на Linux помогает утилита strace, которой и посвящена эта статья. К примерам использования «шпионского» оборудования прилагаются краткая история strace и описание устройства подобных программ.

Читать дальше →
Всего голосов 86: ↑86 и ↓0+86
Комментарии27

Распознавание речи: очень краткий вводный курс

Время на прочтение11 мин
Количество просмотров26K


Рассказать неспециалисту максимально просто о работе компьютерного распознавания речи и преобразовании её в текст — задача почти непосильная. Ни один рассказ об этом не обходится без сложных формул и математических терминов. Мы попробуем максимально понятно и немного упрощённо объяснить, как ваш смартфон понимает речь, когда машины научились распознавать человеческий голос и в каких неожиданных областях используется эта технология.

Необходимое предуведомление: если вы разработчик или, тем более, математик, вы едва ли узнаете из поста что-то новое и даже посетуете на недостаточную научность материала. Наша цель — самым простым образом познакомить непосвящённых читателей с речевыми технологиями и рассказать, как и зачем Toshiba взялась за создание своего голосового ИИ.
Всего голосов 6: ↑4 и ↓2+5
Комментарии0

Подкаст: что ждет начинающих ученых в сфере МО

Время на прочтение16 мин
Количество просмотров5.6K
Как и обещали, приводим полную расшифровку первого выпуска нашего подкаста (послушать можно в Apple Podcasts). С нами разговаривал Андрей Фильченков, кандидат физико-математических наук, доцент факультета «Информационных технологий и программирования» и руководитель группы машинного обучения международной научной лаборатории «Компьютерные технологии».

Всего голосов 10: ↑7 и ↓3+8
Комментарии0

Как системы анализа трафика обнаруживают тактики хакеров по MITRE ATT&CK на примере PT Network Attack Discovery

Время на прочтение10 мин
Количество просмотров10K


Согласно Verizon, большинство (87%) инцидентов ИБ происходят за считанные минуты, а на их обнаружение у 68% компаний уходят месяцы. Это подтверждается и исследованием Ponemon Institute, согласно которому у большинства организаций уходит в среднем 206 дней на обнаружение инцидента. По опыту наших расследований, хакеры могут годами контролировать инфраструктуру компании и не быть обнаруженными. Так, в одной из организаций, где наши эксперты проводили расследование инцидента ИБ, было выявлено, что хакеры полностью контролировали всю инфраструктуру организации и регулярно похищали важные сведения в течение восьми лет.

Допустим, у вас уже работает SIEM, который собирает логи и анализирует события, и установлены антивирусы на конечных узлах. Тем не менее, не все можно обнаружить с помощью SIEM, так же как и невозможно на всю сеть внедрить системы EDR, а значит, «слепых» зон не избежать. Справиться с ними помогают системы анализа сетевого трафика (network traffic analysis, NTA). Эти решения выявляют активность злоумышленников на самых ранних этапах проникновения в сеть, а также во время попыток закрепиться и развить атаку внутри сети.

NTA бывают двух видов: одни работают с NetFlow, вторые анализируют сырой трафик. Преимущество вторых систем в том, что они могут хранить записи сырого трафика. Благодаря этому специалист по ИБ может проверить успешность атаки, локализовать угрозу, понять, как атака произошла и как предотвратить аналогичную в будущем.

Мы покажем, как с помощью NTA можно по прямым или косвенным признакам выявлять все известные тактики атак, описанные в базе знаний MITRE ATT&CK. Мы расскажем о каждой из 12 тактик, разберем техники, которые детектируются по трафику, и продемонстрируем их обнаружение с помощью нашей NTA-системы.
Читать дальше →
Всего голосов 4: ↑3 и ↓1+5
Комментарии2

Поговори со мной: что сегодня умеют голосовые боты

Время на прочтение7 мин
Количество просмотров12K

18 лет назад в аниме-сериале «Призрак в доспехах: Синдром одиночки» показали совершенно фантастических роботов-операторов. Помимо очень продвинутых физических возможностей (вам бы с такими пальцами код набирать!), они прекрасно умели общаться с людьми голосом. Сегодня ботами уже никого не удивишь. Мы встречаемся с ними повсеместно, в различных сферах нашей жизни. Они используются в медицинских учреждениях, банках, в продажах, в обслуживании клиентов, в социальных сетях и т.д. И если к чат-ботам мы уже начинаем привыкать, то голосовые боты для многих ещё в новинку. Да и сами технологии ещё далеки от совершенства. Какая сейчас ситуация с голосовыми ботами?
Всего голосов 30: ↑28 и ↓2+39
Комментарии14

На чем тестировать алгоритмы распознавания и обработки документов, удостоверяющих личность?

Время на прочтение6 мин
Количество просмотров5.6K

Как известно, мы в Smart Engines занимаемся системами компьютерного зрения и распознавания документов, а также научными исследованиями в этой области. В течение нескольких лет в фокусе нашего внимания находились системы распознавания документов, удостоверяющих личность. Одной из критичных проблем, возникающих при подготовке научных статей, является отсутствие открытых датасетов, на которых можно демонстрировать сообществу разработанные нами алгоритмы и подходы. В связи с этим два года назад мы начали работу над серией открытых пакетов изображений и видеоклипов ID-документов, предназначенных, главным образом, для исследователей, и о результатах этой работы хотели бы рассказать вам под катом.


Читать дальше →
Всего голосов 5: ↑4 и ↓1+6
Комментарии6

Как мы используем item2vec для рекомендаций похожих товаров

Время на прочтение9 мин
Количество просмотров16K

Привет, меня зовут Вася Рубцов, я занимаюсь разработкой рекомендательных систем в Авито.


Основная цель площадки для размещения объявлений — помочь продавцам найти покупателей, а покупателям — товары, которые они ищут. В отличие от интернет-магазинов факт продажи происходит за пределами нашей платформы, и мы не можем это отследить. Поэтому ключевой метрикой у нас является «контакт» — это событие нажатия кнопки «показать телефон» на карточке товара, либо начало диалога в мессенджере с продавцом. Из этой метрики мы получаем «байеров» — количество уникальных пользователей в день, которые сделали по крайней мере один контакт.


Два основных продукта, которым занимается отдел рекомендаций в Авито, — это рекомендации для пользователя на главной странице или user2item и блок похожих объявлений на карточке товара или item2item. Треть всех просмотров объявлений и четверть всех контактов происходит с рекомендаций, поэтому рекомендательные движки играют важную роль в Авито.


В статье я расскажу, как мы улучшили наши item2item рекомендации за счёт item2vec и как это повлияло на user2item рекомендации.


Читать дальше →
Всего голосов 35: ↑35 и ↓0+35
Комментарии29

Архивы памяти: как мозг кодирует и воспроизводит воспоминания

Время на прочтение9 мин
Количество просмотров25K


С одной стороны мозг человека достаточно понятен, с другой — полон загадок и вопросов, на которые пока нет ответов. И тут все логично, учитывая, что данная система чрезвычайно сложна как с точки зрения архитектуры, так и с точки зрения протекающих процессов и связи между ними. Если по классике сравнивать мозг с компьютером, то помимо обработки информации, он выполняет и ее хранение. Любое воспоминание изымается из архивов памяти под влиянием какого-то стимула: знакомый аромат, мелодия, слова и т.д. Однако остается вопрос — где этот архив и что способствует его открытию? Ученые из NINDS (Национальный институт неврологических расстройств и инсульта) изучили мозг пациентов, больных устойчивой к препаратам эпилепсией, чтобы выявить и попытаться объяснить механизмы извлечения воспоминаний. Так как же мы вспоминаем, что происходит в мозге в этот момент и почему исследование проводилось с участием больных эпилепсией? Об этом мы узнаем из доклада ученых. Поехали.
Читать дальше →
Всего голосов 21: ↑21 и ↓0+21
Комментарии9

Тестостерон, зачем он мужчинам и как сохранить силу к старости

Время на прочтение12 мин
Количество просмотров77K
Статья посвящена такому важному гормону, как тестостерон, и объяснению, почему именно он делает мужчин мужчинами. Также cтатья будет интересна к прочтению прекрасным полом.

Содержание:

  • История открытия
  • Что такое тестостерон и как он работает в организме
  • Нормы тестостерона, диагностика, а также немного о заместительной терапии Т
  • Риски избытка и недостатка тестостерона
  • Пища для поднятия уровня тестостерона


Всего голосов 18: ↑13 и ↓5+14
Комментарии30

Простая хэш-таблица для GPU

Время на прочтение11 мин
Количество просмотров13K

Я выложил на Github новый проект A Simple GPU Hash Table.

Это простая хэш-таблица для GPU, способная обрабатывать в секунду сотни миллионов вставок. На моём ноутбуке с NVIDIA GTX 1060 код вставляет 64 миллиона случайно сгенерированных пар ключ-значение примерно за 210 мс и удаляет 32 миллиона пар примерно за 64 мс.

То есть скорость на ноутбуке составляет примерно 300 млн вставок/сек и 500 млн удалений/сек.

Таблица написана на CUDA, хотя ту же методику можно применить к HLSL или GLSL. У реализации есть несколько ограничений, обеспечивающих высокую производительность на видеокарте:

  • Обрабатываются только 32-битные ключи и такие же значения.
  • Хэш-таблица имеет фиксированный размер.
  • И этот размер должен быть равен двум в степени.

Для ключей и значений нужно зарезервировать простой разграничивающий маркер (в приведённом коде это 0xffffffff).
Читать дальше →
Всего голосов 39: ↑36 и ↓3+47
Комментарии19

КЛЕТКА VII. Анализ Генетического кода II

Время на прочтение14 мин
Количество просмотров4.3K

Иллюстрация melmagazine.com (Source)

В настоящее время для информационного обмена широко используются сети общего доступа с каналами, не защищенными от нарушителя. Как организуется защита можно прочитать здесь.

В сообщении отправителем защищается целостность, конфиденциальность, доступность сообщения для чего используются результаты теорий кодология, криптология, стеганология.

В предлагаемой работе продолжим рассмотрение только одного частного вопроса — анализа кодов сообщений.
Читать дальше →
Всего голосов 3: ↑2 и ↓1+5
Комментарии17

Нейроны и их моделирование

Время на прочтение4 мин
Количество просмотров11K
Недавно я написал статью про то, как работает память в мозгу. Несколько комментариев говорили о том, что я недостаточно раскрыл тему особенностей биологического нейрона. И я решил исправить свою ошибку.

В этой статье — список основных механизмов, которые отличают биологические нейроны от простой модели с весами связей и порогом активации. Я расскажу, как поправить модель, если вам понадобится эти особенности учесть.

Начинаем мы вот с этой простой картинки:

image
Читать дальше →
Всего голосов 14: ↑14 и ↓0+14
Комментарии53

Генерируем тексты песен цепями Маркова

Время на прочтение2 мин
Количество просмотров15K

Сегодня я хочу рассказать про свой опыт генерации текста песен с помощью python и библиотеки Markovify


Дисклеймер: автор хотел повеселить себя вечером и не придумал ничего лучше, как:


В качестве корпуса для "обучения" цепи я буду использовать текст песен группы Кис Кис.


image


Пикча выше иллюстрирует то как работает цепь Маркова. А вот неплохая статья.

Читать дальше →
Всего голосов 23: ↑15 и ↓8+17
Комментарии17

Нормализация текста в задачах распознавания речи

Время на прочтение4 мин
Количество просмотров11K

При решении задач, связанных с распознаванием (Speech-To-Text) и генерацией (Text-To-Speech) речи важно, чтобы транскрипт соответствовал тому, что произнёс говорящий — то есть реально устной речи. Это означает, что прежде чем письменная речь станет нашим транскриптом, её нужно нормализовать.


Другими словами, текст нужно провести через несколько этапов:


  • Замена числа прописью: 1984 год -> тысяча девятьсот восемьдесят четвёртый год;
  • Расшифровка сокращений: 2 мин. ненависти -> две минуты ненависти;
  • Транскрипция латиницы: Orwell -> Оруэлл и т.д.

Normalization


В этой статье я коротко расскажу о том, как развивалась нормализация в датасете русской речи Open_STT, какие инструменты использовались и о нашем подходе к задаче.


Как вишенка на торте, мы решили выложить наш нормализатор на базе seq2seq в открытый доступ: ссылка на github. Он максимально прост в использовании и вызывается одним методом:


norm = Normalizer()
result = norm.norm_text('С 9 до 11 котики кушали whiskas')

>>> 'С девяти до одиннадцати котики кушали уискас'
Читать дальше →
Всего голосов 32: ↑32 и ↓0+32
Комментарии8

Подборка статей о машинном обучении: кейсы, гайды и исследования за февраль 2020

Время на прочтение6 мин
Количество просмотров5.6K


Вслед за январским постом встречайте второй выпуск дайджеста. Здесь вас ждёт список англоязычных материалов за февраль, которые написаны без лишнего академизма. Публикации содержат примеры кода и ссылки на непустые репозитории. Упомянутые технологии лежат в открытом доступе и многие из них не требуют сверхмощного железа для тестирования.
Читать дальше →
Всего голосов 9: ↑9 и ↓0+9
Комментарии5

Конспект по методам классификации данных

Время на прочтение7 мин
Количество просмотров15K
При изучении Data Science, я решил составить для себя конспект по основным приемам, используемым в анализе данных. В нем отражены названия методов, кратко описана суть и приведен код на Python для быстрого применения. Готовил конспект для себя, но подумал, что кому-то это также может быть полезно, например, перед собеседованием, в соревновании или при запуске нового проекта. Рассчитано на аудиторию, которая в целом знакома со всеми этими методами, но имеет необходимость освежить их в памяти. Статья под катом.
Читать дальше →
Всего голосов 12: ↑12 и ↓0+12
Комментарии1

Все, что вы хотели узнать об LDPC кодах, но стеснялись спросить (наверное)

Время на прочтение18 мин
Количество просмотров35K


Предисловие


С кодами малой плотности проверок на чётность, которые дальше мы будем именовать коротко LDPC (Low-density parity-check codes), мне удалось познакомиться более или менее близко, работая над семестровым научным проектом в ТУ Ильменау (магистерская программа CSP). Моему научному руководителю направление было интересно в рамках педагогической деятельности (нужно было пополнить базу примеров, а также посмотреть в сторону недвоичных LDPC), а мне из-за того, что эти коды были плюс-минус на слуху на нашей кафедре. Не все удалось рассмотреть в том году, и поэтому исследование плавно перетекло в мое хобби… Так я набрал некоторое количество материала, которым сегодня и хочу поделиться!


Кому может быть интересна данная статья:


  1. Студентам, которые хотят разобраться с данными кодами (в начале статьи будет много теории, я предупредил).
  2. Преподавателям, которые хотели бы добавить коды LDPC в область своих семинаров.
  3. Всем, кто любит покопаться в различных алгоритмах, а также чего-нибудь помоделировать и посравнивать (в конце будут примеры: как скрипты, так и реализации "из коробки" open-source проекта aff3ct).

В общем, присоединяйтесь!

Читать дальше →
Всего голосов 10: ↑10 и ↓0+10
Комментарии4

Анализ крови на железо — как контролировать уровень, диагностирование причин, почему это важно

Время на прочтение10 мин
Количество просмотров90K

Железо является важным элементом для ряда фундаментальных функций организма, одна из которых, когнитивная способность, критически необходима для гиков.


Кроме этого железо регулирует ряд процессов, часть из которых показана на картинке.


В статье мы разберемся какие бывают причины дисбаланса железа, какие анализы сдавать для контроля и как поддерживать его уровень в нормальном диапазоне.


Читать дальше →
Всего голосов 7: ↑5 и ↓2+6
Комментарии12

Как мы потеряли «Мир»: пожар на космической станции, столкновение с грузовиком «Прогресс», разгерметизация

Время на прочтение23 мин
Количество просмотров87K
20-го февраля 2020-го года исполняется 34 года с момента запуска и ввода в эксплуатацию космической станции «Мир». Станции, которая была обитаема с 13 марта 1986 года по 16 июня 2000 года. И могла быть обитаема ещё, если бы…

Наверняка многие из вас смотрели фильм «Гравитация», который был признан одним из лучших фильмов о космосе в истории мирового кино, но мало кто знает, что на космической станции «Мир» произошли не менее драматичные события.



23 февраля 1997 года на станции «Мир» должен был погибнуть весь международный экипаж – 4 российских космонавта, один немецкий и один американский астронавт. И тогда станцию «Мир» пришлось бы затопить не планово – весной 2001 года, а вынужденно, на 4 года раньше, с мертвым экипажем на борту. Об этой экспедиции до 2006 года принято было молчать, и до сих пор о ней мало что известно, кроме самих космонавтов и руководителей полета, никто не знал подробностей случившегося. В 2006-м, космонавты 23 международной экспедиции согласились рассказать, что же на самом деле происходило на космической станции, заложниками которой они оказались и Первый канал снял отличный документальный фильм об этом — «Некуда бежать. Пожар на космической станции», который сегодня доступен на Youtube, сайт студии Роскосмоса, почему-то выдаёт ошибку. Возможно потому, что там сказали не всю правду или потому, что правда не совсем та.

Пожар потушили, но он имел страшные последствия. Несколько месяцев космонавтам пришлось жить при температуре более +40 С, дышать ядовитыми парами этиленгликоля, а затем спасать станцию от разгерметизации, вызванной столкновением с 10-тонным грузовым кораблем «Прогресс».

И совсем недавно мой друг нашёл версию произошедшего столкновения от американцев (смотреть с 1:18:00), где астронавт Майкл Фоул, непосредственный участник событий, утверждает, что столкновение было результатом эксперимента по ручной стыковке со станцией, а что самого эксперимента не должно было быть.
Читать дальше →
Всего голосов 152: ↑136 и ↓16+156
Комментарии526

Физика текста. Часть 1. Символы

Время на прочтение127 мин
Количество просмотров4.3K
Символ — текстовый атом. Ни больше, ни меньше. В тексте каждый символ встречается определенное количество раз. Разобрав текст на символы, можно заметить некоторые особенности и закономерности. Давайте об этом и поговорим.

[Если без слов: исходники к статье]
Читать дальше →
Всего голосов 8: ↑5 и ↓3+4
Комментарии7

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность