Статьи / Закладки / Профиль AigizK / Хабр

AigizK @AigizK

Пользователь

Профиль Публикации 1Комментарии 612Закладки 678

novoselov_am 3 мая 2022 в 15:45

Как избежать «подводных камней» машинного обучения: руководство для академических исследователей

47 мин

18K

Машинное обучение*Искусственный интеллектData Engineering*

Из песочницы

Перевод

Этот лонг-рид является сильно переработанным и расширенным переводом статьи How to avoid machine learning pitfalls: a guide for academic researchers (Lones, 2021).

Статья является кратким описанием ряда распространенных ошибок, возникающих при использовании методов машинного обучения, и руководством к тому, как их избежать. Материал предназначен в первую очередь для студентов-исследователей и касается вопросов, регулярно возникающих в академических исследованиях, например, необходимости проводить строгие сравнения и делать обоснованные выводы. Однако материал применим к использованию ML и в других областях.

+20

tmat 24 фев 2021 в 18:08

Всё, о чём должен знать разработчик Телеграм-ботов

15 мин

629K

Мессенджеры*API*

Вы вряд ли найдете в интернете что-то про разработку ботов, кроме документаций к библиотекам, историй "как я создал такого-то бота" и туториалов вроде "как создать бота, который будет говорить hello world". При этом многие неочевидные моменты просто нигде не описаны.

Как вообще устроены боты? Как они взаимодействуют с пользователями? Что с их помощью можно реализовать, а что нельзя?

Подробный гайд о том, как работать с ботами — под катом.

+127

NewTechAudit 12 апр 2022 в 06:00

Обучаем модель W2NER для поиска именованных сущностей в текстах на русском языке

4 мин

3.9K

Python*Программирование*Машинное обучение*Natural Language Processing*

Всем добрый день! Предлагаю рассмотреть архитектуру новой модели W2NER для решения задачи распознавания сущностей в текстах и обучить её работе с русским языком.

CyberLympha 6 апр 2022 в 16:11

Применение онтологии к решению практических задач ИБ (часть 1)

11 мин

21K

Занимательные задачкиВизуализация данных*Машинное обучение*Data Engineering*

В мире каждый день появляется много нового, все чаще возникают новые предметные области, о возможности появления которых мы даже не задумывались еще несколько лет назад. При этом старые предметные области уходят, не выдержав конкуренции. Каждая предметная область характеризуется прежде всего специальными знаниями, описывающими объекты этой области и их свойства. Практическое использование таких знаний является уделом экспертов. Собственно, в обладании такими знаниям и состоит профессиональная компетентность эксперта. Однако оставаться всезнающим экспертом в наши дни становится все сложнее...

Познакомиться с онтологиями

aio350 6 апр 2022 в 15:37

WebRTC для всех и каждого. Часть 3

31 мин

8.1K

Веб-разработка*JavaScript*Блог компании Timeweb Cloud

Перевод

Привет, друзья!

Представляю вашему вниманию третью (заключительную) часть перевода этой замечательной книги по WebRTC.

Если вам это интересно, прошу под кат.

Читать дальше →

Makeman 28 мар 2022 в 07:00

Загадки быстрого преобразования Фурье

10 мин

13K

Программирование*Алгоритмы*Математика*ЗвукВизуальное программирование*

Туториал

• Метод фазово-амплитудной интерполяции (ФАИ)

• Точное определение частоты, амплитуды и фазы гармоник сигнала

• Выявление резонансов

Алгоритм быстрого преобразования Фурье (БПФ) - важный инструмент для анализа и обработки сигналов различной природы.

Он позволяет реконструировать амплитудный и фазовый спектры сигнала в частотной области представления по его амплитудным отсчётам во временной, при этом метод вычислительно оптимизированный при скромном расходе памяти.

Хотя в процессе преобразования никакая информация о сигнале не утрачивается (вычисления обратимы до округлений) алгоритму присущи некоторые особенности, которые затрудняют высокоточный анализ и тонкую обработку результатов в дальнейшем.

В статье представлен действенный способ преодоления таких "неудобных" особенностей алгоритма.

Читать на английском

Читать на русском

+12

sturex 18 мар 2022 в 14:26

Структурная адаптация, brand-new самоорганизующаяся сеть на палочках и кружочках

11 мин

4.7K

Машинное обучение*Искусственный интеллект

Из песочницы

Технотекст 2021

Речь в статье пойдет о принципиально новой ИИ методологии, основанной на распространении потока в адаптивной многомерной структуре (фильтре). Ранее подход описан нигде не был, знакомьтесь.

bvv2311 23 мар 2022 в 06:36

N (Насти) алгоритм

8 мин

11K

Алгоритмы*

Памяти Насти. Памяти дочери.

Что знаем об алгоритмах поиска? Есть граф. Чаще ориентированный. И некое целевое состояние. Фиксированное. А если нет?

Как, например, найти ребенка, который потерялся в лесу? Ведь не только вы его будете искать, но и он вас.

Передвигаться случайно? Да. Но еще лучше выбирать те направления, где меньше всего были. Есть дополнительные признаки, например следы? Отлично. В первую очередь ориентируемся на них. Потерялись следы? Вновь возвращаемся к поиску с учетом только памяти.

+11

honyaki 4 мар 2022 в 16:15

Как сделать интерактивную карту с маршрутами на Python

7 мин

30K

Python*Программирование*Геоинформационные сервисы*Блог компании Skillfactory

Туториал

Перевод

Распространённая задача программистов в работе с геопространственными данными — отобразить маршруты между различными точками. Решением, которое может понадобиться в разработке веб-сайта, делимся к старту курса по Fullstack-разработке на Python.

+10

Beard-56 27 фев 2022 в 19:37

Возможна ли новая модель физики?

17 мин

8.8K

Научно-популярноеФизикаАстрономия

Пол жизни я был системотехником и администратором сетей. Создавал большие и маленькие программы для обеспечения работы предприятий, писал книжки для системных администраторов. А ближе к завершению жизненного пути увлёкся вопросами физики, благо, образование позволяет ориентироваться в любых её вопросах.

Имея склонность к систематизации информации, обратил внимание на возможность систематизации понятий физики.

Результатом этих поисков явилась модель физической реальности с названием Медиосо.

Нельзя говорить о том, что это альтернативная физика. Физика изучила мир почти что вдоль и поперёк. Но именно на основе анализа её достижений возникла модель Медиосо.

Модель позволяет упростить объяснение множества явлений, позволяет избежать мистики при рассмотрении представлений о пространстве и времени. В рамках модели объяснение окружающего мира не требует применения тензорного исчисления, а все выводы из неё соответствуют практике наблюдений и экспериментов.

Элементарные понятия в физике возникли преимущественно на бытовом опыте человека.

Всё что нам известно, как мы считаем, о нашей Вселенной основано на тех определениях, которые мы дали первичным понятиям (пространство, время, масса), а также на полученных математических формулах связывающих параметры наблюдаемых процессов. И вот с определениями есть проблема. Никто не дал корректного определения пространства и времени на физическом уровне.

Но есть выход. Изменим набор базовых понятий в физике. Что из этого получилось? Читайте.

Есть Дополнение от 01.03.2022.

AndreyKoceruba 22 фев 2022 в 15:24

Искусство распознавания: как мы разрабатывали прототип AutoML для задачи Named Entity Recognition

32 мин

4.8K

Машинное обучение*Блог компании ВТБ

Процессы и продукты банка всё время совершенствуются, и в какой-то момент приходит понимание, что рутинные операции нужно автоматизировать. Так случилось и у нас: возникла необходимость в автоматизации обработки текстовой информации. Это не только банковская тенденция — во многих сферах бизнеса сейчас растёт спрос на подобные решения, поэтому мы подумали, что хабровчанам тоже могут быть интересны наши изыскания в этой сфере. Так что сегодня расскажем о том, как работает наш прототип AutoML для распознавания именованных сущностей (named entity recognition, NER). Ну и о том, какие результаты в итоге показала обученная модель.

Kwent 17 ноя 2021 в 12:36

Окрашивание изображений

6 мин

6.4K

Обработка изображений*Машинное обучение*Блог компании NtechLab

Технотекст 2021

Статья про окрашивание изображений на основе работы Color2Embed: Fast Exemplar-Based Image Colorization using Color Embeddings. Рассмотрим, как переносить цвет с одной картинки на другую с помощью смеси из U-Net и StyleGAN v2.

+21

cointegrated 13 янв 2018 в 21:46

Как обучть мдль пнмть упртые скрщня

16 мин

40K

Python*Data Mining*Алгоритмы*Математика*Машинное обучение*

Недавно я натолкнулся на вопрос на Stackoverflow, как восстанавливать исходные слова из сокращений: например, из wtrbtl получать water bottle, а из bsktball — basketball. В вопросе было дополнительное усложнение: полного словаря всех возможных исходных слов нет, т.е. алгоритм должен быть в состоянии придумывать новые слова.

Вопрос меня заинтриговал, и я полез разбираться, какие алгоритмы и математика лежат в основе современных опечаточников (spell-checkers). Оказалось, что хороший опечаточник можно собрать из n-граммной языковой модели, модели вероятности искажений слов, и жадного алгоритма поиска по лучу (beam search). Вся конструкция вместе называется модель зашумлённого канала (noisy channel).

Вооружившись этими знаниями и Питоном, я за вечер создал с нуля модельку, способную, обучившись на тексте "Властелина колец" (!), распознавать сокращения вполне современных спортивных терминов.

Читать дальше →

+86

Dino_the_dinosaur 19 окт 2021 в 14:13

Обзор методов улучшения речи и шумоподавления: от классики к SotA

10 мин

13K

Алгоритмы*Блог компании МТСЗвукNatural Language Processing*Голосовые интерфейсы*

Всем привет! Меня зовут Оля Яковенко, я разработчик в MTS AI, занимаюсь задачами по автоматической обработке сигналов. В частности, на данный момент я исследую различные подходы шумоподавления для последующего распознавания речи, и сегодня я хотела бы поделиться с вами обзором и некоторыми находками на эту тему.

wadik69 22 июл 2021 в 00:53

Автоматический анализ документов

6 мин

13K

Python*Обработка изображений*Машинное обучение*

Привет, Хабр! В этой статье я расскажу о том, как восстановить структуру таблицы и извлечь рукописные числа из отсканированного документа такого плана.

AndrewTessa 16 июн 2021 в 15:55

О том, как мы научили машину определять пол человека по его почерку

5 мин

4.1K

Python*Swift*Искусственный интеллект

Для начала хотелось бы упомянуть, что это далеко не первое исследование подобного рода. Начиная с 1960-х готов по настоящее время было разработанно множество программных комплексов и методик, позволяющие решать задачи идентификационного (кем именно была выполнена рукопись, представленная на исследование) и диагностического характера (дифференциации рукописей на мужское и женское, вычисление предполагаемого возраста исполнителя рукописи и т. д.). В качестве примера можно привести подобные программные комплексы: «Прогноз», «POL», «Тюльпан», «ДИА», «Прост», «Рабочее место эксперта-почерковеда» и так далее.

Однако не будем углубляться в историю…

Для того, чтобы приступить к решению столь нетривиальной задачи, необходимо познакомиться поближе с объектом исследования (самим почерком), с уже известными методиками его исследования и с историей применения кибернетических методов в данной области.

Для начала кратко разберем понятие почерк:

Почерк - это зафиксированная в рукописи система привычных движений, в основе которой лежит письменно двигательный навык.

В свою очередь, он имеет следующие основные свойства:

Dino_the_dinosaur 24 мая 2021 в 13:19

Как адаптировать языковые модели Kaldi? (со смешными животными)

14 мин

11K

Open source*Машинное обучение*Natural Language Processing*Голосовые интерфейсы*Блог компании Центр Финансовых Технологий (ЦФТ)

Туториал

«Как научить русскоязычную модель распознавать речь геймеров?» Подобными вопросами задаются те, кто увлекается и занимается NLP. В частности, NLP-специалистов интересует, как можно адаптировать модель Kaldi под свою предметную область, чтобы улучшить качество распознавания. Это мы и разберём в данной статье.

Читать дальше →

olezhkapetrov 17 мая 2018 в 18:57

Нейросетевой синтез речи своими руками

12 мин

95K

Блог компании Центр речевых технологий (ЦРТ)Машинное обучение*

Из песочницы

Синтез речи на сегодняшний день применяется в самых разных областях. Это и голосовые ассистенты, и IVR-системы, и умные дома, и еще много чего. Сама по себе задача, на мой вкус, очень наглядная и понятная: написанный текст должен произноситься так, как это бы сделал человек.

Некоторое время назад в область синтеза речи, как и во многие другие области, пришло машинное обучение. Выяснилось, что целый ряд компонентов всей системы можно заменить на нейронные сети, что позволит не просто приблизиться по качеству к существующим алгоритмам, а даже значительно их превзойти.

Я решил попробовать сделать полностью нейросетевой синтез своими руками, а заодно и поделиться с сообществом своим опытом. Что из этого получилось, можно узнать, заглянув под кат.

+60

Anonerror 19 янв 2021 в 11:26

Настройка аутентификации JWT в новом проекте Django

28 мин

91K

Python*Django*

Из песочницы

Данная статья является сборкой-компиляцией нескольких (основано на первой) статей, как результат моих изучений по теме jwt аутентификации в джанге со всем вытекающим. Так и не удалось (по крайней мере в рунете) найти нормальную статью, в которой рассказывается от этапа создания проекта, startproject, прикручивание jwt аутентификации.

+10

analog_design 17 ноя 2020 в 07:44

Раскладываем по полочкам параметры АЦП

10 мин

82K

Схемотехника*Электроника для начинающихИнженерные системы*Блог компании Миландр

Привет, Хабр! Многие разработчики систем довольно часто сталкиваются с обработкой аналоговых сигналов. Не все манипуляции с сигналами можно осуществить в аналоговой форме, поэтому требуется переводить аналог в цифровой мир для дальнейшей постобработки. Возникает вопрос: на какие параметры стоит обратить внимание при выборе микроконтроллера или дискретного АЦП? Что все эти параметры означают? В этой статье постараемся детально рассмотреть основные характеристики АЦП и разобраться на что стоит обратить внимание при выборе преобразователя.

Читать дальше →

+54

3 4 ...

32 33