Как стать автором
Обновить

Анализ реальных паролей пользователей и улучшенный полный перебор

Время на прочтение 3 мин
Количество просмотров 8K
Информационная безопасность *
Прочитал сегодня на хабре перевод статьи Распределение символов в паролях. Захотелось провести свой небольшой анализ. Интерес для меня представляют длины паролей, первые символы паролей и используемые в паролях биграммы (пар смежных символов). А также в статье будет рассмотрен алгоритм улучшенного полного перебора паролей.
Читать дальше →
Всего голосов 74: ↑71 и ↓3 +68
Комментарии 44

Как собрать биграммы для корпуса любого размера на домашнем компьютере

Время на прочтение 5 мин
Количество просмотров 18K
Семантика *Data Mining *Алгоритмы *Big Data *Машинное обучение *
Из песочницы
В современной компьютерной лингвистике биграммы, или в общем случае n-граммы, являются важным статистическим инструментом. В статье мы расскажем с какими трудностями можно столкнуться при расчёте биграмм на большом корпусе текстов и приведём алгоритм, который можно использовать на любом домашнем компьютере.
Читать дальше →
Всего голосов 25: ↑20 и ↓5 +15
Комментарии 19

Сколько места в куче занимают 100 миллионов строк в Java?

Время на прочтение 4 мин
Количество просмотров 27K
Программирование *Java *
При работе с естественным языком и лингвистическом анализе текстов нам часто приходится оперировать огромным количеством уникальных коротких строк. Счёт идёт на десятки и сотни миллионов — именно столько в языке существует, к примеру, осмысленных сочетаний из двух слов. Основной платформой для нас является Java и мы не понаслышке знаем о её прожорливости при работе с таким большим количеством мелких объектов.

Чтобы оценить масштаб бедствия, мы решили провести простой эксперимент — создать 100 миллионов пустых строк в Яве и посмотреть, сколько придётся заплатить за них оперативной памяти.
Читать дальше →
Всего голосов 28: ↑21 и ↓7 +14
Комментарии 85

Паблик «Щастьематринства» и его небольшое статистическое исследование

Время на прочтение 16 мин
Количество просмотров 22K
Семантика *Data Mining *Визуализация данных *

Введение (январь 2018)


Иногда люди берутся за дела с которыми сами справиться не могут. И я не исключение.

Есть такая интересная группа ВК — #щастьематеринства( https://vk.com/zaiki_luzhaiki ). Она представляет из себя один из самых феерических источников грубого реализма. Если вы хотите разочароваться в семье, детях, мужьях и всем чем угодно, вам туда. Экзистенциальный кризис вам обеспечен (хотя бы фактом того, что там пишут по 15 постов в день и это настоящие люди). И, конечно, этим паблик и во многом привлекателен.

В какой-то момент у меня и жены, которая работает перинатальным психологом, возник интерес в исследовании того, что в этом паблике происходит. Например, наложить банальные статистические методы на содержание паблика, а вдруг чего интересного там есть. Особенно хотелось сделать какой-нибудь громкий вывод. Дескать паблик помогает людям… Или паблик рождает в людях ненависть… Или еще что-то такое выразительное.

Читать дальше →
Всего голосов 48: ↑38 и ↓10 +28
Комментарии 45

Биграммы и триграммы. Кейс сбора и анализа информации из аудио с непонятными словами

Время на прочтение 4 мин
Количество просмотров 1.6K
Блог компании Инфосистемы Джет Семантика *Машинное обучение *Искусственный интеллект Natural Language Processing *

Привет. Меня зовут Александр Родченков, я занимаюсь речевой аналитикой в центре машинного обучения «Инфосистемы Джет». Тут я расскажу о биграммах и триграммах на примере реального, хоть и довольно скромного, кейса. Что же это за «граммы» такие, с чем их «едят» и зачем они нам? Кейс решал задачу сбора и обработки данных одной из продовольственных компаний. Сложность задачи заключалась в том, что в речи было очень много специфических терминов и аббревиатур. Как мы с этим справились, и с какими неожиданностями столкнулись после, читай под катом.

Жми, не пожалеешь!
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 1