Articles / Bookmarks / Profile of resetme / Habr

@resetme^{read⁠-⁠only}

Скромный пастух нулей и единиц…

ProfileComments196Bookmarks884

truefreewill Dec 13 2022 at 20:06

Классификация эмоций ОСС+

20 min

3.4K

BrainArtificial Intelligence

From sandbox

.Что такое эмоции и нужны ли они роботам? Конечно, нужны. Без эмоций общение с роботом будет подобно бутерброду без масла, т.е. чисто информационным, скучным и неполноценным. К сожалению, современная психология не может сформулировать единого согласованного определения понятия эмоции. Существует около сотни разных определений. Это то, что касается общего понятия. Кроме этого существует множество конкретных эмоций: страх, гнев, интерес и т.п. Каждая конкретная эмоция тоже требует своего определения. Ясно, что эмоции состоят, как минимум из двух составляющих: субъективного ощущения и когнитивной структуры. Субъективное ощущение свое у каждой эмоции и, возможно, его природа это величайшая загадка, к разгадке которой нет даже разумных гипотез. Очень содержательные размышления на эту тему есть на Хабре см. @codecity «Семь маргинальных гипотез о природе эмоций».

Возможно, субъективное ощущение является побочным продуктом работы человеческого организма, подобно тому, как

ОСС+

NewTechAudit May 24 2022 at 04:13

NLP. Проект по распознаванию адресов. Natasha, Pullenti, Stanza

4 min

10K

Programming*Natural Language Processing*

Многие аналитики данных сталкиваются с задачей распознавания адресов, напечатанных на документах. Для решения этой задачи я обратился к инструментам выявления сущностей в тексте с помощью NLP: NLTK, Spacy, Flair, DeepPavlov, Polyglot, AdaptNLP, Stanza, AllenNLP, HanLP, PullEnti, Natasha и тд. Глаза начали разбегаться. И что же делать? Конечно, выбрать самое лучшее. Я принял решение выбрать несколько самых популярных библиотек, поддерживающих русский язык, и сравнить, какую же из них использовать? Natasha, Stanza и PullEnti привлекли мое внимание. Далее пойдет речь именно об этих библиотеках.

einhorn Aug 28 2021 at 17:28

Расставляем ударения с помощью Natasha и Spacy

8 min

18K

Python*Machine learning*Learning languagesNatural Language Processing*

From sandbox

Представьте себя на месте изучающего русский язык иностранца. Ударение станет одним из ваших самых страшных ночных кошмаров.

Однажды я написал приложение для изучения русского, одной из функций которого была расстановка ударений. Я просто проверял каждое слово по словарю. Однако, это часто приводило к ситуации неоднозначности, когда ударение зависит от контекста. Например: "два сло́ва", но "длинные слова́".

Время подключать нейросети.

+16

NewTechAudit Jan 24 2022 at 05:52

Инструменты для решения NER-задач для русского языка

5 min

6.2K

Machine learning*Programming*Python*

Зачастую приходится работать с большими объемами документов, к примеру, исполнительными листами, заявлениями, договорами, из текстов которых нам необходимо извлечь весьма конкретную информацию: ФИО, даты рождения, наименования должности, паспортные данные, адрес, ИНН и наименование компаний, даты подписания документов и так далее. Всё это относится к задаче распознавания именованных сущностей (NER). Какие инструменты могут помочь нам в решении данной задачи для русского языка?

Пожалуй, первое что приходит в голову Data Scientist’у, когда речь идет о NLP или конкретно NER-задачах — это проекты DeepPavlov. Немного углубимся в данную тему, разберем все по порядку.

DeepPavlov — это фреймворк (open source), который помогает в разработке различных голосовых ботов, соответственно, решая различные NLP задачи.

На вход подается непредобработанный (регистры, знаки и т.д. сохранены) текст, а на выходе мы хотим увидеть, так называемые, спаны — фрагменты текста, с которыми уже можно работать (например, отнести к определенной категории).

GlobalSign_admin Dec 6 2022 at 08:45

Датировка звукозаписи по гулу в энергосети

4 min

14K

GlobalSign corporate blogSoundInformation Security*Popular scienceWorking with video*

Сравнение колебания частоты тока в целевом сигнале (target) и референсной базе данных (ref) относительно несущей частоты 50 Гц с помощью программы enf-matching, источник

В современную эпоху очень важно иметь инструменты, которые позволяют точно верифицировать аудио/видеозапись, выявить следы монтажа и поставить точную метку времени.

Рутинная цифровая криминалистика включает изучение метатегов, где указано время записи файла, но эти теги легко подделать. Но есть одна физическая характеристика, которую подделать практически невозможно без предварительных измерений частоты электрического напряжения в сети.

Речь о специфическом гудении энергосети в виде электрического шума, который всегда записывается на аудиодорожку.

Читать дальше →

+77

aio350 Dec 7 2022 at 14:01

React: работа с 3D-графикой

8 min

17K

Timeweb Cloud corporate blogJavaScript*ReactJS*Website development*Working with 3D-graphics*

Привет, друзья!

В данном туториале я покажу вам самый простой и быстрый, хотя и не очень оптимальный с точки зрения размера сборки, способ рендеринга 3D-объектов и моделей в React.

Мы решим 3 интересные задачи:

рендеринг самописного 3D-объекта;
рендеринг готовой 3D-модели;
совместный рендеринг объекта и модели.

Знание вами основ работы с трехмерной графикой в браузере является опциональным.

Источником вдохновения для меня послужила эта замечательная статья.

Если вам это интересно, прошу под кат.

Читать дальше →

+18

NewTechAudit Dec 7 2022 at 11:25

Проецирование вершин графа в векторное пространство. Часть 2. Марковская цепь и Word2Vec

6 min

2.7K

Сбер corporate blogProgramming*Algorithms*Mathematics*

И снова здравствуйте! Меня зовут Илья Котов, я Data Scientist в Сбере, участник профессионального сообщества NTA. Эта статья — вторая часть небольшого цикла, посвящённого алгоритмам вложений вершин графа в векторное пространство. Сегодня рассмотрим главную идею алгоритмов, основанных на случайных блужданиях. Перед прочтением рекомендуем прочитать первую часть.

NewTechAudit Dec 6 2022 at 10:28

Как найти и сравнить похожие изображения автоэнкодером

10 min

10K

Programming*Python*Image processing*Machine learning*

Tutorial

Привет, Хабр!

Меня зовут Владимир Паймеров, я Data Scientist и являюсь участником профессионального сообщества NTA.

Играл ли ты в детстве в игру, в которой необходимо было найти отличия на изображениях? Сегодня рассмотрю похожую задачу, называемую поиском изображений, в которой нужно будет найти все похожие изображения из датасета на загруженную фотографию из того же датасета.

dimanosov007 Dec 5 2022 at 08:33

Обнаружение сонливости водителя с помощью MediaPipe в Python

24 min

8.9K

Python*Machine learning*Artificial IntelligenceData Mining*

Tutorial

Translation

По данным CDC (Центры по контролю и профилактике заболеваний США), “по оценкам, 1 из 25 взрослых водителей (18 лет и старше) сообщают о засыпании во время вождения ...”. В статье сообщается: “... сонное вождение стало причиной 91 000 дорожно-транспортных происшествий ...”.Чтобы помочь в решении таких проблем, в этом посте мы создадим систему обнаружения сонливости водителя и оповещения, используя API-интерфейс Mediapipe для решения Face Mesh на Python. Эти системы оценивают бдительность водителя и при необходимости предупреждают водителя.

KainoRhine Dec 2 2022 at 21:54

Прогнозирование продаж Python. Как находить и сглаживать выбросы с помощью фильтра Хэмплея

4 min

13K

Big Data*

From sandbox

Те, кто работает с временными рядами, часто сталкивается с двумя проблемами. Первая – нет полных данных. Вторая – битые данные, когда встречается много выбросов, шума и пропусков. Редко встречаются случаи, когда всё было бы идеально. И данных много, и можно легко найти нужные. Такое встретишь крайне редко или почти никогда.

Возникает вопрос - как решить эту проблему? Я нашёл решение. Давайте расскажу вам, как я решаю проблему битых данных, выбросов, пропусков. Какие я использовал методы, в чем их отличия, преимущества и какие я считаю самыми лучшими.

Начнём мы с первого метода – фильтра Хэмплея. В этой статье речь пойдёт именно о нём. Я постараюсь как можно проще рассказать о его особенностях и показать всё на наглядных примерах. Приступим.

+13

dimanosov007 Dec 1 2022 at 08:16

Сравнение производительности моделей обнаружения объектов YOLO v5, v6 и v7

11 min

12K

Python*Data Mining*Machine learning*Artificial Intelligence

Translation

Если вы выполняете проект по обнаружению объектов, высока вероятность того, что вы выберете одну из многих моделей YOLO. Учитывая количество моделей обнаружения объектов YOLO, сделать выбор в пользу лучшей из них непросто.

rikki_tikki Dec 1 2022 at 10:15

BERT в двух словах: Инновационная языковая модель для NLP

7 min

36K

OTUS corporate blogArtificial Intelligence

Translation

Модель BERT (Bidirectional Encoder Representations from Transformers — “двунаправленные презентации кодировщика для трансформеров”) была представлена миру в статье, опубликованной исследователями из Google AI Language. Она вызвала нешуточный ажиотаж в сообществе машинного обучения, представив самые передовые на сегодняшний день результаты для целого ряда разных NLP (Natural Language Processing — “обработка естественного языка”) задач, включая формирование ответов на вопросы (SQuAD v1.1), формирование рассуждений на естественном языке (MNLI) и множество других категорий.

cybran24 Nov 26 2022 at 20:15

Настройка Visual Studio Code для Django

3 min

35K

Python*Django*Visual Studio*

Tutorial

Настройка Visual Studio Code для работы над проектами Django немного отличается от типичного сетапа для pure Python проектов. Например, в Django мало пользы от mypy, так как он не поддерживает типы Django. Точно также дела обстоят с линтерами, которые, без предварительной настройки, работают с кодом Django неправильно.

Lev_Perla Nov 26 2022 at 19:27

Как лучше обучать RNN для прогнозирования временных рядов?

10 min

23K

Finance in ITMachine learning*Artificial IntelligencePython*

From sandbox

Привет, Хабр!

Два последних года я в рамках магистерской диссертации разбирался с тем, как лучше использовать рекуррентные нейронные сети для прогнозирования временных рядов, и теперь хочу поделиться моим опытом с сообществом.

+19

yurkennis May 28 2013 at 08:54

Как Яндекс распознаёт музыку с микрофона

10 min

161K

Яндекс corporate blogSound

Поиск по каталогу музыки — это задача, которую можно решать разными путями, как с точки зрения пользователя, так и технологически. Яндекс уже довольно давно научился искать и по названиям композиций, и по текстам песен. На сказанные голосом запросы про музыку мы тоже умеем отвечать в Яндекс.Поиске под iOS и Android, сегодня же речь пойдёт о поиске по аудиосигналу, а если конкретно — по записанному с микрофона фрагменту музыкального произведения. Именно такая функция встроена в мобильное приложение Яндекс.Музыки:

В мире есть всего несколько специализированных компаний, которые профессионально занимаются распознаванием музыкальных треков. Насколько нам известно, из поисковых компаний Яндекс стал первым, кто стал помогать российскому пользователю в решении этой задачи. Несмотря на то, что нам предстоит ещё немало сделать, качество распознавания уже сопоставимо с лидерами в этой области. К тому же поиск музыки по аудиофрагменту не самая тривиальная и освещённая в Рунете тема; надеемся, что многим будет любопытно узнать подробности.

Читать дальше →

+305

113

fokus-lop Aug 1 2019 at 09:16

Строим систему распознавания лиц на основе Golang и OpenCV

4 min

19K

Skillbox corporate blogGo*Image processing*Programming*Studying in IT

Translation

OpenCV — библиотека, разработанная для проектов по компьютерному зрению. Ей уже около 20 лет. Я использовал ее еще в колледже и до сих пор применяю для своих проектов на C++ и Python, поскольку она имеет неплохую поддержку этих языков.

Но когда я начал изучать и использовать Go, мне стало интересно, можно ли применить OpenCV для работы с этим языком. В то время уже существовали примеры и туториалы по интеграции, но мне показалось, что они слишком сложные. Чуть позже мне в руки попался враппер, созданный командой The Hybrid Group. В этой статье я покажу, как начать с GoCV, разработав простую систему распознавания лиц с каскадами Хаара (Haar Cascades).

Читать дальше →

+17

alizar Jun 3 2011 at 13:31

«Выглядит похоже». Как работает перцептивный хэш

6 min

126K

Image processing*

Translation

За последние несколько месяцев несколько человек спросили меня, как работает TinEye и как в принципе работает поиск похожих картинок.

По правде говоря, я не знаю, как работает поисковик TinEye. Он не раскрывает деталей используемого алгоритма(-ов). Но глядя на поисковую выдачу, я могу сделать вывод о работе какой-то формы перцептивного хэш-алгоритма.

Читать дальше →

+141

QtRoS Nov 20 2022 at 09:00

Пишем Hex Viewer для Flipper Zero

Medium

11 min

13K

C*Programming microcontrollers*GadgetsDIY

Technotext 2022

Примерно месяц назад основная поставка Flipper'ов таки доехала до России. Вопреки моим ожиданиям, это не вызвало волну публикаций про создание приложений под него. Хорошие публикации есть (например, эта и вот эта), но массовости нет. Слишком долго ждали и перегорели? Пишут долго и обстоятельно? Технологический стек устройства не подходит для быстрого и легкого старта? Как бы то ни было, такой расклад ничуть не убавил мотивации поиграться с устройством!! С удовольствием уделил несколько вечеров созданию своего первого приложения под Flipper Zero: Hex Viewer, шестнадцатеричного просмотрщика. О своем опыте и интересных находках расскажу в теле статьи.

+81

a1exjob Nov 18 2022 at 12:59

Оформляем приложения по ГОСТ 7.32 в MS Word и не только

4 min

17K

Специальный Технологический Центр corporate blogTechnical Writing*

В статье предложены некоторые приемы форматирования текста, которые могут существенно облегчить оформление документов, разрабатываемых по ГОСТам, техническим писателям и всем, кто занимается разработкой таких документов. Подходы к автоматизации форматирования текста Приложений документов рассматриваются на примере ГОСТ 7.32-2017 в редакторах MS Word и LibreOffice Writer. Предполагается, что читатель знаком со стилями, применяемыми в этих редакторах, и активно их использует в повседневной работе.

+14

Scorobey Jun 10 2017 at 11:08

Решение задач линейного программирования с использованием Python

9 min

80K

Python*

Зачем решать экстремальные задачи

На практике очень часто возникают задачи, для решения которых используются методы оптимизации. В обычной жизни при множественном выборе, например, подарков к новому году мы интуитивно решаем задачу минимальных затрат при заданном качестве покупок.

К сожалению, не всегда можно положиться на интуицию. Допустим Вы сотрудник коммерческой фирмы и отвечаете за рекламу. Затраты на рекламу в месяц не должны превышать 10 000 денежных единиц (д.е). Минута радиорекламы стоит 5 д.е., а телерекламы 90 д.е. Фирма намерена использовать радиорекламу в три раза чаще чем телерекламу. Практика показывает, что 1 минута телерекламы обеспечивает объём продаж в 30 раз больший чем 1 минута радиорекламы.

Читать дальше →

+12

1 2 ...

24 25

27 28 ...

43 44