Как стать автором
Обновить
25
0
AigizK @AigizK

Пользователь

Отправить сообщение

Как избежать «подводных камней» машинного обучения: руководство для академических исследователей

Время на прочтение47 мин
Количество просмотров18K

Этот лонг-рид является сильно переработанным и расширенным переводом статьи How to avoid machine learning pitfalls: a guide for academic researchers (Lones, 2021).

Статья является кратким описанием ряда распространенных ошибок, возникающих при использовании методов машинного обучения, и руководством к тому, как их избежать. Материал предназначен в первую очередь для студентов-исследователей и касается вопросов, регулярно возникающих в академических исследованиях, например, необходимости проводить строгие сравнения и делать обоснованные выводы. Однако материал применим к использованию ML и в других областях.

Читать далее
Всего голосов 20: ↑20 и ↓0+20
Комментарии3

Всё, о чём должен знать разработчик Телеграм-ботов

Время на прочтение15 мин
Количество просмотров629K

Вы вряд ли найдете в интернете что-то про разработку ботов, кроме документаций к библиотекам, историй "как я создал такого-то бота" и туториалов вроде "как создать бота, который будет говорить hello world". При этом многие неочевидные моменты просто нигде не описаны.

Как вообще устроены боты? Как они взаимодействуют с пользователями? Что с их помощью можно реализовать, а что нельзя?

Подробный гайд о том, как работать с ботами — под катом.

Читать далее
Всего голосов 127: ↑127 и ↓0+127
Комментарии73

Обучаем модель W2NER для поиска именованных сущностей в текстах на русском языке

Время на прочтение4 мин
Количество просмотров3.9K

Всем добрый день! Предлагаю рассмотреть архитектуру новой модели W2NER для решения задачи распознавания сущностей в текстах и обучить её работе с русским языком.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Применение онтологии к решению практических задач ИБ (часть 1)

Время на прочтение11 мин
Количество просмотров21K

В мире каждый день появляется много нового, все чаще возникают новые предметные области, о возможности появления которых мы даже не задумывались еще несколько лет назад. При этом старые предметные области уходят, не выдержав конкуренции. Каждая предметная область характеризуется прежде всего специальными знаниями, описывающими объекты этой области и их свойства. Практическое использование таких знаний является уделом экспертов. Собственно, в обладании такими знаниям и состоит профессиональная компетентность эксперта. Однако оставаться всезнающим экспертом в наши дни становится все сложнее...

Познакомиться с онтологиями
Всего голосов 7: ↑6 и ↓1+5
Комментарии9

WebRTC для всех и каждого. Часть 3

Время на прочтение31 мин
Количество просмотров8.1K



Привет, друзья!


Представляю вашему вниманию третью (заключительную) часть перевода этой замечательной книги по WebRTC.



Если вам это интересно, прошу под кат.

Читать дальше →
Всего голосов 17: ↑10 и ↓7+4
Комментарии1

Загадки быстрого преобразования Фурье

Время на прочтение10 мин
Количество просмотров13K

• Метод фазово-амплитудной интерполяции (ФАИ)

• Точное определение частоты, амплитуды и фазы гармоник сигнала

• Выявление резонансов

Алгоритм быстрого преобразования Фурье (БПФ) - важный инструмент для анализа и обработки сигналов различной природы.

Он позволяет реконструировать амплитудный и фазовый спектры сигнала в частотной области представления по его амплитудным отсчётам во временной, при этом метод вычислительно оптимизированный при скромном расходе памяти.

Хотя в процессе преобразования никакая информация о сигнале не утрачивается (вычисления обратимы до округлений) алгоритму присущи некоторые особенности, которые затрудняют высокоточный анализ и тонкую обработку результатов в дальнейшем.

В статье представлен действенный способ преодоления таких "неудобных" особенностей алгоритма.

Читать на английском

Читать на русском
Всего голосов 12: ↑11 и ↓1+12
Комментарии94

Структурная адаптация, brand-new самоорганизующаяся сеть на палочках и кружочках

Время на прочтение11 мин
Количество просмотров4.7K

Речь в статье пойдет о принципиально новой ИИ методологии, основанной на распространении потока в адаптивной многомерной структуре (фильтре). Ранее подход описан нигде не был, знакомьтесь.

Читать далее
Всего голосов 8: ↑7 и ↓1+7
Комментарии15

N (Насти) алгоритм

Время на прочтение8 мин
Количество просмотров11K

Памяти Насти. Памяти дочери.

Что знаем об алгоритмах поиска? Есть граф. Чаще ориентированный. И некое целевое состояние. Фиксированное. А если нет?

Как, например, найти ребенка, который потерялся в лесу? Ведь не только вы его будете искать, но и он вас.

Передвигаться случайно? Да. Но еще лучше выбирать те направления, где меньше всего были. Есть дополнительные признаки, например следы? Отлично. В первую очередь ориентируемся на них. Потерялись следы? Вновь возвращаемся к поиску с учетом только памяти.

Читать далее
Всего голосов 14: ↑11 и ↓3+11
Комментарии6

Как сделать интерактивную карту с маршрутами на Python

Время на прочтение7 мин
Количество просмотров30K

Распространённая задача программистов в работе с геопространственными данными — отобразить маршруты между различными точками. Решением, которое может понадобиться в разработке веб-сайта, делимся к старту курса по Fullstack-разработке на Python.

Читать далее
Всего голосов 11: ↑10 и ↓1+10
Комментарии5

Возможна ли новая модель физики?

Время на прочтение17 мин
Количество просмотров8.8K

Пол жизни я был системотехником и администратором сетей. Создавал большие и маленькие программы для обеспечения работы предприятий, писал книжки для системных администраторов. А ближе к завершению жизненного пути увлёкся вопросами физики, благо, образование позволяет ориентироваться в любых её вопросах.

Имея склонность к систематизации информации, обратил внимание на возможность систематизации понятий физики.

Результатом этих поисков явилась модель физической реальности с названием Медиосо.

Нельзя говорить о том, что это альтернативная физика. Физика изучила мир почти что вдоль и поперёк. Но именно на основе анализа её достижений возникла модель Медиосо.

Модель позволяет упростить объяснение множества явлений, позволяет избежать мистики при рассмотрении представлений о пространстве и времени. В рамках модели объяснение окружающего мира не требует применения тензорного исчисления, а все выводы из неё соответствуют практике наблюдений и экспериментов.

Элементарные понятия в физике возникли преимущественно на бытовом опыте человека.

Всё что нам известно, как мы считаем, о нашей Вселенной основано на тех определениях, которые мы дали первичным понятиям (пространство, время, масса), а также на полученных математических формулах связывающих параметры наблюдаемых процессов. И вот с определениями есть проблема. Никто не дал корректного определения пространства и времени на физическом уровне.

Но есть выход. Изменим набор базовых понятий в физике. Что из этого получилось? Читайте.

Есть Дополнение от 01.03.2022.

Читать далее
Всего голосов 23: ↑13 и ↓10+6
Комментарии92

Искусство распознавания: как мы разрабатывали прототип AutoML для задачи Named Entity Recognition

Время на прочтение32 мин
Количество просмотров4.8K

Процессы и продукты банка всё время совершенствуются, и в какой-то момент приходит понимание, что рутинные операции нужно автоматизировать. Так случилось и у нас: возникла необходимость в автоматизации обработки текстовой информации. Это не только банковская тенденция — во многих сферах бизнеса сейчас растёт спрос на подобные решения, поэтому мы подумали, что хабровчанам тоже могут быть интересны наши изыскания в этой сфере. Так что сегодня расскажем  о том, как работает наш прототип AutoML для распознавания именованных сущностей (named entity recognition, NER). Ну и о том, какие результаты в итоге показала обученная модель. 

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии2

Окрашивание изображений

Время на прочтение6 мин
Количество просмотров6.4K

Статья про окрашивание изображений на основе работы Color2Embed: Fast Exemplar-Based Image Colorization using Color Embeddings. Рассмотрим, как переносить цвет с одной картинки на другую с помощью смеси из U-Net и StyleGAN v2.

Читать далее
Всего голосов 21: ↑21 и ↓0+21
Комментарии1

Как обучть мдль пнмть упртые скрщня

Время на прочтение16 мин
Количество просмотров40K

Недавно я натолкнулся на вопрос на Stackoverflow, как восстанавливать исходные слова из сокращений: например, из wtrbtl получать water bottle, а из bsktballbasketball. В вопросе было дополнительное усложнение: полного словаря всех возможных исходных слов нет, т.е. алгоритм должен быть в состоянии придумывать новые слова.


Вопрос меня заинтриговал, и я полез разбираться, какие алгоритмы и математика лежат в основе современных опечаточников (spell-checkers). Оказалось, что хороший опечаточник можно собрать из n-граммной языковой модели, модели вероятности искажений слов, и жадного алгоритма поиска по лучу (beam search). Вся конструкция вместе называется модель зашумлённого канала (noisy channel).


Вооружившись этими знаниями и Питоном, я за вечер создал с нуля модельку, способную, обучившись на тексте "Властелина колец" (!), распознавать сокращения вполне современных спортивных терминов.


Читать дальше →
Всего голосов 88: ↑87 и ↓1+86
Комментарии17

Обзор методов улучшения речи и шумоподавления: от классики к SotA

Время на прочтение10 мин
Количество просмотров13K

Всем привет! Меня зовут Оля Яковенко, я разработчик в MTS AI, занимаюсь задачами по автоматической обработке сигналов. В частности, на данный момент я исследую различные подходы шумоподавления для последующего распознавания речи, и сегодня я хотела бы поделиться с вами обзором и некоторыми находками на эту тему.

Читать далее
Всего голосов 5: ↑4 и ↓1+3
Комментарии9

Автоматический анализ документов

Время на прочтение6 мин
Количество просмотров13K

Привет, Хабр! В этой статье я расскажу о том, как восстановить структуру таблицы и извлечь рукописные числа из отсканированного документа такого плана.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии2

О том, как мы научили машину определять пол человека по его почерку

Время на прочтение5 мин
Количество просмотров4.1K

Для начала хотелось бы упомянуть, что это далеко не первое исследование подобного рода. Начиная с 1960-х готов по настоящее время было разработанно множество программных комплексов и методик, позволяющие решать задачи идентификационного (кем именно была выполнена рукопись, представленная на исследование) и диагностического характера (дифференциации рукописей на мужское и женское, вычисление предполагаемого возраста исполнителя рукописи и т. д.). В качестве примера можно привести подобные программные комплексы: «Прогноз», «POL», «Тюльпан», «ДИА», «Прост», «Рабочее место эксперта-почерковеда» и так далее.

Однако не будем углубляться в историю…

Для того, чтобы приступить к решению столь нетривиальной задачи, необходимо познакомиться поближе с объектом исследования (самим почерком), с уже известными методиками его исследования и с историей применения кибернетических методов в данной области.

Для начала кратко разберем понятие почерк:

Почерк - это зафиксированная в рукописи система привычных движений, в основе которой лежит письменно двигательный навык.

В свою очередь, он имеет следующие основные свойства:

Читать далее
Всего голосов 3: ↑2 и ↓1+3
Комментарии16

Как адаптировать языковые модели Kaldi? (со смешными животными)

Время на прочтение14 мин
Количество просмотров11K


«Как научить русскоязычную модель распознавать речь геймеров?» Подобными вопросами задаются те, кто увлекается и занимается NLP. В частности, NLP-специалистов интересует, как можно адаптировать модель Kaldi под свою предметную область, чтобы улучшить качество распознавания. Это мы и разберём в данной статье.
Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии3

Нейросетевой синтез речи своими руками

Время на прочтение12 мин
Количество просмотров95K
Синтез речи на сегодняшний день применяется в самых разных областях. Это и голосовые ассистенты, и IVR-системы, и умные дома, и еще много чего. Сама по себе задача, на мой вкус, очень наглядная и понятная: написанный текст должен произноситься так, как это бы сделал человек.

Некоторое время назад в область синтеза речи, как и во многие другие области, пришло машинное обучение. Выяснилось, что целый ряд компонентов всей системы можно заменить на нейронные сети, что позволит не просто приблизиться по качеству к существующим алгоритмам, а даже значительно их превзойти.



Я решил попробовать сделать полностью нейросетевой синтез своими руками, а заодно и поделиться с сообществом своим опытом. Что из этого получилось, можно узнать, заглянув под кат.
Всего голосов 62: ↑61 и ↓1+60
Комментарии22

Настройка аутентификации JWT в новом проекте Django

Время на прочтение28 мин
Количество просмотров91K

Данная статья является сборкой-компиляцией нескольких (основано на первой) статей, как результат моих изучений по теме jwt аутентификации в джанге со всем вытекающим. Так и не удалось (по крайней мере в рунете) найти нормальную статью, в которой рассказывается от этапа создания проекта, startproject, прикручивание jwt аутентификации.

Читать далее
Всего голосов 7: ↑6 и ↓1+10
Комментарии13

Раскладываем по полочкам параметры АЦП

Время на прочтение10 мин
Количество просмотров82K
Привет, Хабр! Многие разработчики систем довольно часто сталкиваются с обработкой аналоговых сигналов. Не все манипуляции с сигналами можно осуществить в аналоговой форме, поэтому требуется переводить аналог в цифровой мир для дальнейшей постобработки. Возникает вопрос: на какие параметры стоит обратить внимание при выборе микроконтроллера или дискретного АЦП? Что все эти параметры означают? В этой статье постараемся детально рассмотреть основные характеристики АЦП и разобраться на что стоит обратить внимание при выборе преобразователя.

image

Читать дальше →
Всего голосов 54: ↑54 и ↓0+54
Комментарии38

Информация

В рейтинге
Не участвует
Дата рождения
Зарегистрирован
Активность