Pull to refresh
36
Karma
0
Rating
Искандер Шафиков @S0mbre

User

Lingtrain. Приложение для создания мультиязычных книг и параллельных корпусов

Open source *Programming *Machine learning *Learning languages Natural Language Processing *
Tutorial

Хочу показать, как создать мультиязычный параллельный корпус и книги при помощи моего пет-проекта.

Для примера возьмем 10 редакций "Мастера и Маргариты" Михаила Булгакова (ru, uk, by, en, fr, it, es, de, hu, zh). Сначала выровняем девять переводов с оригиналом, а затем выровняем все вместе. Получим параллельный корпус на 10 языках и много красивых книг. Приступим.

Код я оформил в виде веб-приложения, основная логика которого выполняется при помощи библиотеки lingtrain-aligner. Выравнивать можно прямиком из кода на python, либо через UI. В приложении будет удобней разрешать конфликты и там есть редактор, позволяющий корректировать получающийся корпус плюс дополнительные опции по верстке. Код у проекта открытый, можно посмотреть как все работает внутри. Приступим.

Читать далее
Total votes 56: ↑56 and ↓0 +56
Views 5.2K
Comments 25

Флешка Rubber Ducky стала ещё опаснее

GlobalSign corporate blog Information Security *Gadgets Computer hardware Periphery


Rubber Ducky — известное хакерское устройство, давно знакомое специалистам по информационной безопасности (и любителям сериала Mr. Robot). Первая версия вышла более десяти лет назад. С виду обычная флешка при подключении выдаёт себя за USB-клавиатуру и запускает произвольный скрипт. Это позволяет проводить необычные атаки, которые сложно обнаружить с помощью антивируса.

Атака Rubber Ducky — просто последовательность нажатий клавиш (чтобы открыть консоль и ввести в ней некоторые команды).
Читать дальше →
Total votes 57: ↑55 and ↓2 +53
Views 36K
Comments 112

Краткий справочник по «всем-всем» командам Linux

ГК ЛАНИТ corporate blog Configuring Linux **nix *Development for Linux *

Периодически меня на начальном курсе просят дать "список всех-всех команд с кратким описанием что делает"... Ну прям "всех-всех". И ведь если искать в интернете "такие" справочники существуют - либо про "20,30,40 команд, но самых важных", либо с неточностями и устаревшей информацией. Так что предлагаю вашему вниманию свою версию такого краткого справочника (на 300, 396, 455, 515, 612 команд) с ссылками на wiki-описание и на cheat.sh-примеры наиболее важных команд.

Справочник по всем-всем командам LINUX
Total votes 126: ↑123 and ↓3 +120
Views 79K
Comments 106

Как я делаю дрон из Raspberry Pi и ESP32 (или мои первые шаги в робототехнике)

C++ *C *Kotlin *Programming microcontrollers *Development for Raspberry Pi *
Sandbox

Всем привет, меня зовут Антон, и как вы могли уже догадаться из названия, решил я рассказать о своих попытках вкатиться в робототехнику, а в частности о своем дроне из Raspberry Pi и ESP32.

Читать далее
Total votes 71: ↑71 and ↓0 +71
Views 22K
Comments 44

Коллаборативная фильтрация

Data Mining *Algorithms *Big Data *
В современном мире часто приходится сталкиваться с проблемой рекомендации товаров или услуг пользователям какой-либо информационной системы. В старые времена для формирования рекомендаций обходились сводкой наиболее популярных продуктов: это можно наблюдать и сейчас, открыв тот же Google Play. Но со временем такие рекомендации стали вытесняться таргетированными (целевыми) предложениями: пользователям рекомендуются не просто популярные продукты, а те продукты, которые наверняка понравятся именно им. Не так давно компания Netflix проводила конкурс с призовым фондом в 1 миллион долларов, задачей которого стояло улучшение алгоритма рекомендации фильмов (подробнее). Как же работают подобные алгоритмы?

В данной статье рассматривается алгоритм коллаборативной фильтрации по схожести пользователей, определяемой с использованием косинусной меры, а также его реализация на python.


Читать дальше →
Total votes 57: ↑55 and ↓2 +53
Views 60K
Comments 20

Осваиваем LaTeX за 30 минут

RUVDS.com corporate blog LaTeX *Studying in IT
Tutorial
Translation

Это руководство нацелено на первое знакомство с LaTeX и предварительных знаний о нем от вас не потребует. К его завершению вы уже напишете свой первый документ и получите представление о ряде базовых возможностей этого инструмента.
Читать дальше →
Total votes 66: ↑61 and ↓5 +56
Views 117K
Comments 57

Реализация поиска печатей на OpenCV без нейронок, регистрации и смс

Directum corporate blog Algorithms *Image processing *
Tutorial


Не так давно перед нами стояла задача найти и извлечь печати с документов. Зачем? Например, для проверки наличия печатей в договорах с двух сторон (участников договора). У нас в закромах уже был прототип для их поиска, написанный на OpenCV, но он был сыроват. Решили откопать данный реликт, стряхнуть с него пыль и на его основе сделать рабочее решение.


Большинство приемов, описанных здесь, можно применить и вне задачи поиска печатей. Например:


  • цветовая сегментация;
  • поиск круглых объектов / окружностей;
  • конвертация изображения в полярную систему координат;
  • пересечение объектов, Intersection over Union (IoU, Коэффициент Жаккара).

В итоге, у нас было два варианта: решать с помощью нейронных сетей или же воскресить прототип на OpenCV. Почему мы решили взять OpenCV? Ответ в конце статьи.

Читать дальше →
Total votes 20: ↑20 and ↓0 +20
Views 7.6K
Comments 1

«Тюрьма народов»: сколько, кто и за что сидит в США, России и Европе

Python *Open data *Data visualization *

Результат исследования данных из открытых источников по тюрьмам США, России и Европы. Статья расскажет вам о численности тюрем, заключённых, их распределению по возрасту, полу, совершённым преступлениям и о многом-многом другом... Каков процент наполнения тюрем в России и США? Каков уровень рецидивизма? За что сидит большинство заключённых? Сколько приходится заключённых на одного охранника? Сколько тратит правительство на уголовную систему?

Узнать ответы
Total votes 119: ↑89 and ↓30 +59
Views 41K
Comments 79

Как украсть деньги с бесконтактной карты и Apple Pay

Payment systems *
Как украсть деньги с бесконтактной карты из кармана? Насколько безопасен PayPass и Apple Pay?

В статье разбираются популярные мифы и сценарии мошенничества с бесконтактными системами оплаты на примере настоящего POS-терминала, карт PayPass/payWave и телефонов с функцией Google Pay/Apple Pay.

Рассматриваемые темы:

  • Можно ли НА САМОМ ДЕЛЕ украсть деньги, прислонившись POS-терминалом к карману? — мы попытаемся полностью воспроизвести этот сценарий мошенничества от начала до конца, с использованием настоящего POS-терминала и платежных карт в реальных условиях.
  • В чем разница между физическими и виртуальными картами Apple Pay? — как происходит связывание физической карты и токена Apple Pay, и почему Apple Pay во много раз безопаснее обычной карты.
  • Используем аппаратный NFC-сниффер (ISO 14443A) — воспользуемся устройством HydraNFC для перехвата данных между POS-терминалом и картой. Рассмотрим, какие конфиденциальные данные можно извлечь из перехваченного трафика.
  • Разбираем протокол EMV — какими данными обменивается карта с POS-терминалом, используемый формат запросов, механизмы защиты от мошенничества и replay-атак.
  • Исследуем операции без карты (CNP, MO/TO) — в каких случаях на самом деле(!) можно украсть деньги с карты, имея только реквизиты, считанные бесконтактно, а в каких нельзя.

Внимание!

В статье подробно описывается гипотетическая схема мошенничества, от начала и до конца, глазами мошенника, с целью покрыть все аспекты, в которых культивируются мифы и заблуждения. Несмотря на провокационный заголовок, основной вывод статьи — бесконтактные платежи достаточно безопасны, а атаки на них трудоемки и невыгодны.

Материалы в статье представлены исключительно в ознакомительных целях. Все сцены демонстрации мошенничества инсценированы и выполнены с согласия участвующих в них лиц. Все списанные деньги с карт были возвращены их владельцам. Воровство денег с карт является уголовным преступлением и преследуется по закону.
Total votes 329: ↑323 and ↓6 +317
Views 263K
Comments 394

Как при помощи ИИ сделать распознавание вводимых вами рукописных цифр прямо в браузере

SkillFactory corporate blog Website development *JavaScript *Machine learning *TensorFlow *
Tutorial
Translation

Эта статья для новичков и не претендует на высокий технический уровень, а если вам интересны сложные современные решения, обратите внимание, например, на статью о GIRAFFE, который для генерации реалистичного движения объединяет самые современные подходы в ИИ.

В конце статьи вы найдёте ссылки на проект очень простой веб-страницы с распознаванием рукописного ввода при помощи ИИ, а прочитав это руководство, переводом которого мы делимся к старту курса о машинном и глубоком обучении, сможете самостоятельно написать такую страницу. Для этого вам понадобится свой блокнот Colab или блокнот автора статьи. Скачиваемые блокнотом файлы модели занимают меньше мегабайта.

Читать далее
Total votes 8: ↑8 and ↓0 +8
Views 4.3K
Comments 8

Создаем GAN с помощью PyTorch

OTUS corporate blog Python *Artificial Intelligence
Translation

Генеративно-состязательные сети (Generative Adversarial Networks — GAN), предложенные Goodfellow и др. в 2014 году, произвели революцию в области создания изображений в компьютерном зрении — никто не мог поверить, что эти потрясающие живые изображения на самом деле создаются машинами с нуля. И даже больше — люди раньше думали, что задача генерации невозможна, и были поражены мощью GAN, потому что традиционно в этой области просто не существует каких-либо эталонных данных, с которыми мы могли бы сравнить наши сгенерированные изображения.

В этой статье представлена ​​простая идея, лежащая в основе создания GAN, за которой следует реализация сверточной GAN с помощью PyTorch и процедура ее обучения.

Читать далее
Total votes 14: ↑12 and ↓2 +10
Views 9.8K
Comments 1

Мифы о вакцинации

Popular science Biotechnologies Health Biology

Вакцинация - одно из самых важных достижений медицины, а недоверие к вакцинации включено ВОЗ в список десяти основных проблем здравоохранения. После прочтения очередных комментариев о вакцинации от covid-2019 в соцсетях вспоминается история вакцинации от оспы в Москве 1959-1960 гг и кажется, что люди 21 века, перепрыгнув 20 век, вернулись во времена Екатерины II.

Ученые пытаются понять причины отрицательного отношения к вакцинации. 16 июля в Nature Medicine вышла статья об отношении к вакцинации в разных странах и Россия оказалась абсолютным лидером антипрививочных настроений. В нашей стране к вакцинации положительно относятся только 30%, а в конспирологические теории верит 21% населения (считают, что вирус не существует или что эпидемия - это заговор фармкомпаний или политиков). 29% опрошенных считают, что вакцины не защищают от болезни и 14% боятся заразиться от вакцины. В России, в стране с одним из самых высоких процентов людей с высшим образованием, показатели оказались в несколько раз хуже, чем в США, Индии, Пакистане, Сьерра-Леоне и Уганде.

Побочные эффекты вакцинации
Total votes 183: ↑156 and ↓27 +129
Views 67K
Comments 1030

Перехват инфракрасных пультов с помощью Flipper Zero

Flipper Devices Inc. corporate blog Gadgets


Flipper Zero — проект карманного мультитула для хакеров в формфакторе тамагочи, который мы разрабатываем.
Предыдущие посты
Как выглядит тестирование электроники Flipper Zero




Как мы делаем корпус Flipper Zero безупречным




Нахлобучиваем домофонные ключи iButton с помощью Flipper Zero




Как выглядит производство корпусов Flipper Zero изнутри




Altium 365 — как GitHub, но для разработки железа. Как мы делаем Flipper Zero




Flipper Zero — вымученная сертификация, открытие исходников и новые приколдесы




Делаем отладочную плату для Flipper Zero в Altium




Flipper Zero — план по производству и доставке




[Конкурс завершён] Помогите написать лор для Flipper Zero




Flipper Zero — предфинальные детали для пресс-форм, готовимся к запуску производства




Flipper Zero — в шаге от финальной версии железа




Псс, парень, не хочешь сделать модуль для Flipper Zero?




Flipper Zero — прогресс за сентябрь




Flipper Zero — давайте пилить вместе. Приглашаем разработчиков




Flipper Zero — как выйти на Кикстартер сидя на карантине на даче




Flipper Zero/One — теперь два устройства. Подготовка к Кикстартеру




[Flipper Zero] отказываемся от Raspberry Pi, делаем собственную плату с нуля. Поиск правильного WiFi чипа




Flipper Zero — пацанский мультитул-тамагочи для пентестера
Первый пост




Пульты от телевизоров, кондиционеров, музыкальных проигрывателей передают команды через ИК-порт. Инфракрасный порт во Flipper Zero позволяет рулить всеми ИК-устройствами: перехватывать сигналы пультов и сохранять их на SD-карту, брутфорсить неизвестные коды от бытовой техники и загружать свои коды пультов и новые протоколы.

В статье я покажу:

  • Как устроены инфракрасные приемники и передатчики
  • Какие бывают цифровые сигналы ИК-пультов
  • Перехват и анализ ИК-сигналов
  • Как с помощью Flipper Zero стать инфракрасным властелином

Total votes 84: ↑81 and ↓3 +78
Views 32K
Comments 147

Диаграмма Сэнкей (Sankey diagram) на Python

Python *Data visualization *
Sandbox

В этой статье рассмотрим, как пошагово создать диаграмму Сэнкей - от загрузки и генерирования необходимых данных до сохранения полученной диаграммы. Используемые инструменты - python, pandas и plotly.

Читать далее
Total votes 16: ↑16 and ↓0 +16
Views 9.7K
Comments 5

Перефразирование русских текстов: корпуса, модели, метрики

Python *Semantics *Programming *Machine learning *Natural Language Processing *

Автоматическое перефразирование текстов может быть полезно в куче задач, от рерайтинга текстов до аугментации данных. В этой статье я собрал русскоязычные корпуса и модели парафраз, а также попробовал создать собственный корпус, обучить свою модель для перефразирования, и собрать набор автоматических метрик для оценки их качества.

В итоге оказалось, что модель для перевода перефразирует лучше, чем специализированные модели. Но, по крайней мере, стало более понятно, чего вообще от автоматического перефразирования можно хотеть и ожидать.

Читать далее
Total votes 16: ↑16 and ↓0 +16
Views 12K
Comments 5

Сервис распознавания капч, который больше не нужен

Python *Image processing *Machine learning *

Я уже рассказывал про свой опыт в области распознавания капчи. Разумеется, кроме чисто академического интереса у меня был и материальный - иногда приходится скачивать несколько файлов с обменника, а ждать паузу и вводить капчи я не люблю. Поэтому и пользуюсь программой для закачек под названием Universal Share Downloader, или сокращённо USD. Недавно сервис обмена файлами Turbobit в очередной раз внёс изменения в свой сайт, в результате чего моя программа оказалась бесполезной. Теперь я могу рассказать о сервисе распознавания поподробнее, уже не опасаясь приблизить этот момент. Может, рост числа бесплатных скачиваний в результате использования сервиса уже повлиял. Или это просто традиционная июньская пакость от обменника - то капчу поменяют, то скорость скачивания урежут.

Читать далее
Total votes 4: ↑4 and ↓0 +4
Views 6.7K
Comments 2

Сам себе Гутенберг. Делаем параллельные книги

Open source *Python *Machine learning *Learning languages Natural Language Processing *
Tutorial

Lingtrain parallel books


Upd. 04.12.2021 — Наш телеграм канал


Если вам нравится изучать языки (или вы их преподаете), то вы наверняка сталкивались с таким способом освоения языка как параллельное чтение. Он помогает погрузиться в контекст, увеличивает лексикон и позволяет получить удовольствие от обучения. Читать тексты в оригинале параллельно с русскоязычными, на мой взгляд, стоит, когда уже освоены азы грамматики и фонетики, так что учебники и преподавателей никто не отменял. Но когда дело все же доходит до чтения, то хочется подобрать что-то по своему вкусу, либо что-то уже знакомое или любимое, а это часто невозможно, потому что такого варианта параллельной книги никто не выпускал. А если вы учите не английский язык, а условный японский или венгерский, то трудно найти вообще хоть какой-то интересный материал с параллельным переводом.


Сегодня мы сделаем решительный шаг в сторону исправления этой ситуации.


Из чего делаем


На входе у нас будут два текстовых файла с оригинальным текстом и его переводом. Для примера возьмем книгу "Убить пересмешника" Харпер Ли на русском и английском языках.


Начало документов выглядит так (отрывки приведены в таком виде, в котором они были найдены в сети):

Выровнять пересмешника
Total votes 106: ↑106 and ↓0 +106
Views 20K
Comments 67

Свой путь в мире, где есть готовое решение для всего

Programming *Development of mobile applications *Programming microcontrollers *Smart House DIY


Я стал счастливым обладателем новых часов. Тех самых, которые, наверное, было бы правильнее называть компьютером с ремешком, чем часами, но всё же. В спальне, над кроватью была LED лента, которая управлялась с пульта. Как обычно бывает, когда он был нужен, пульт постоянно был где угодно, но только не под рукой. «А что может быть ближе, к рукам, чем часы?» — подумал я и начал потирать лапки, подобно мухе на стекле…

Данное повествование — это не ещё одна инструкция о том, как сделать ту или иную вещь, следуя по пунктам, шаг за шагом. Эта история про то, как можно найти свой путь среди огромного множества протоптанных тропинок, отказавшись от готовых инструкций и решений.
Читать дальше →
Total votes 56: ↑55 and ↓1 +54
Views 16K
Comments 13

Новогодний датасет 2018: открытая семантика русского языка

Open data *Machine learning *Natural Language Processing *
Открытая семантика русского языка, об истории создания которой вы можете прочитать здесь и здесь, получила большое обновление. Мы собрали достаточное количество данных, чтобы применить поверх собранной разметки машинное обучение и построить семантическую модель языка. Что из этого получилось смотрите под катом.


Читать дальше →
Total votes 32: ↑32 and ↓0 +32
Views 7.9K
Comments 27

Чудесный мир Word Embeddings: какие они бывают и зачем нужны?

Open Data Science corporate blog Search engines *Python *Data Mining *Machine learning *

Начать стоит от печки, то есть с постановки задачи. Откуда берется сама задача word embedding?
Лирическое отступление: К сожалению, русскоязычное сообщество еще не выработало единого термина для этого понятия, поэтому мы будем использовать англоязычный.
Сам по себе embedding — это сопоставление произвольной сущности (например, узла в графе или кусочка картинки) некоторому вектору.


image

Читать дальше →
Total votes 38: ↑37 and ↓1 +36
Views 110K
Comments 23
1

Information

Rating
Does not participate
Location
Южно-Сахалинск, Сахалин, Россия
Date of birth
Registered
Activity