Articles / Profile of NewTechAudit / Habr

NTA @NewTechAudit

Профессиональное сообщество

Profile Publications 282Comments 307Bookmarks 96

NewTechAudit May 26 2023 at 09:44

CodeBert для автогенерации комментариев к коду

Hard

10 min

2.7K

Сбер corporate blogProgramming*Machine learning*

Case

Код программ отличается от естественного языка из-за его формализма и строгости, однако ничто не мешает воспринимать его как последовательность токенов и работать с ним, как с обычным языком. Существуют исследования, которые показали, что модель BERT, обученная на большом наборе данных, неплохо справляется с некоторыми задачами, связанными с обработкой программного кода. В этом посте я буду решать задачу автогенерации комментариев к нему. Вы узнаете, как подготовить данные для обучения, настроить нейросеть и получить результат.

NewTechAudit May 24 2023 at 10:00

Sketch: искусственный интеллект на службе аналитика данных в Pandas

Medium

23 min

3.5K

Python*Programming*Machine learning*Artificial Intelligence

Review

Привет, Хабр!

С вами Data Scientist и участник профессионального сообщества NTA Максим Алёшин.

Всего за несколько месяцев существования чат‑бот ChatGPT обрёл необычайную популярность. Пожалуй, новости, связанные с этой технологией, уже изрядно всех утомили и мало чем удивляют. Но стоит отдать должное, большое число приложений на основе языковых моделей действительно завораживает: чат‑боты стали использовать буквально во всём, от создания контента до написания программного кода.

Вот уже постепенно появляются библиотеки для Python, позволяющие использовать подобные чат‑боты прямо из Jupyter Notebooks или IDE. Сравнительно недавно вышел релиз библиотеки Sketch, которая предоставляет функции интеллектуального помощника по написанию кода для пользователей Pandas. Он, помимо прочего, понимает контекст данных, значительно повышая релевантность предложений. Библиотека доступна в PyPi и готова к использованию сразу после установки.

Больше о Sketch

NewTechAudit May 15 2023 at 12:08

Координатный квест: как найти координаты и расстояния без регистраций и смс

Medium

11 min

5.5K

Python*Data visualization*Algorithms*

Case

Привет, Хабр!

С вами участник профессионального сообщества NTA Алексей Майка.

Хочу поделиться своим опытом решения одной интересной задачки и описать весь проделанный путь.

Был обычный денёк, сидел я на работе и занимался своими айтишными делами. Ко мне пришел руководитель и сказал: «Нужно рассчитать дистанцию до границы регионов для этих адресов». При этом без всяких платных сервисов и API онлайн карт, и своими усилиями. Айтишник понял, айтишник принял, айтишник получил свою заветную эксельку и пошёл работать.

Узнать результаты

NewTechAudit May 5 2023 at 08:40

Нечеткое сравнение строк с помощью rapidfuzz

9 min

7.9K

Python*Programming*Algorithms*

Case

✏️ Technotext 2023

Привет, Хабр!

Меня зовут Антон Черниговский, я участник профессионального сообщества NTA.

В публикации расскажу, как при решении задачи нечеткого сравнения строк, среди разных инструментов сравнения (по косинусному сходству, по сходству Левенштейна, по сходству Джаро‑Винклера) был выбран лучший вариант нечеткого сопоставления. Сравнение инструментов производилось исходя из скорости выполнения, правильности сравнения и простоты реализации, с помощью библиотек rapidfuzz и sklearn.

Узнать какой инструмент лучше

+12

NewTechAudit May 3 2023 at 10:46

Извлечение открытых данных сайта zakupki.gov.ru с помощью СУБД BaseX

8 min

5.3K

Programming*Open data*Big Data*

Case

Big data season

Привет, Хабр!

Меня зовут Грошев Валерий, я Data Scientist и участник профессионального сообщества NTA.

Благодаря концепции открытого правительства, развиваемой в России, в свободном доступе появляются данные о работе государственных органов. Одной из таких площадок с данными является сайт Единой информационной системы (ЕИС) в сфере закупок. Там есть удобный поиск информации, но гораздо больше полезного можно найти на FTP версии сайта — ftp://ftp.zakupki.gov.ru, где хранятся архивы XML‑документов с публичной частью информации о состоявшихся закупках: извещения, протоколы, сведения о договорах. В моем случае была задача проверить, а размещаются ли протоколы и сведения о договорах в соответствии с требованиями 223-ФЗ.

Узнать больше

NewTechAudit Apr 13 2023 at 10:54

Как научить Наивного Байеса давать персональные рекомендации

Hard

15 min

2.6K

Programming*Machine learning*Natural Language Processing*

Case

✏️ Technotext 2023

Привет, Хабр!

С вами Дворников Дмитрий — Data Scientist и участник профессионального сообщества NTA.

Подход, о котором я расскажу, позволяет расширить функциональные возможности метода Наивного Байеса благодаря использованию весовых коэффициентов для различных групп признаков объекта датасета (модель может обучаться не только на отдельных словах в тексте, но также на некоторых метаданных, таких как авторы текста и источник информации).

С помощью разработанной ML‑модели можно улучшить качество классификации текстов при использовании обучающей выборки небольшого объёма (всего 30 объектов) и сократить время обучения модели.

Задача решалась в рамках разработки системы рекомендаций научных статей. Наработки могут быть использованы в любых задачах NLP и Text Mining.

Узнать решение

NewTechAudit Apr 6 2023 at 11:00

Снижаем размерность эмбеддингов предложений для задачи определения семантического сходства

Medium

10 min

3.1K

Machine learning*Natural Language Processing*Python*

Case

✏️ Technotext 2023

Привет, Хабр!

Меня зовут Николай Шукан, я Data Scientist и участник профессионального сообщества NTA. Сегодня речь пойдет о методах снижения размерности эмбеддингов для задач определения семантического сходства предложений.

С каждым годом растет сложность моделей, решающих вопросы семантически- и контекстно-ориентированной обработки естественного языка (NLP). Также нельзя забывать и про проблемы мультиязычности моделей. Все это сильно сказывается на увеличении их размеров и системных требований к железу для их обучения, дообучения, да и просто запуска.

Перед мной стояла задача найти и обобщить текстовые данные, представляющие собой массив предложений. Я точно знал, что среди них есть семантически схожие фразы. Однако прямой подход для определения семантического сходства наборов фраз требовал очень много памяти и времени. Чтобы решить эту проблему, я попытался уменьшить размерность векторов признаков предложений, но как понять, когда остановиться и что это даст?

Узнать подробности

NewTechAudit Mar 31 2023 at 14:20

ML-подходы по поиску похожих изображений

Medium

16 min

10K

Programming*Algorithms*Image processing*Machine learning*

Case

Machine learning season

✏️ Technotext 2023

Привет, Хабр!

Меня зовут Паймеров Владимир, я Data Scientist и участник профессионального сообщества NTA.

Компьютерное зрение (computer vision, CV) — активно развивающаяся научная область,
связанная с анализом изображений и видео. В последнее время данному направлению
уделяется большое внимание, так как CV позволяет решать множество задач, таких как
детекцию объектов, классификацию изображений, распознавание лиц и т. д., которые
в свою очередь применяются в разных сферах жизни от мобильных приложений для
наложения масок на лицо во время звонка до построения систем безопасности,
поиска преступников и мошенников. Сейчас есть инструменты, позволяющие
хранить большой объем данных и обрабатывать изображения, поэтому появилось
множество инструментов для решения различных задач. Об одной из таких задач
будет рассказано в данном посте.

+16

NewTechAudit Mar 28 2023 at 13:13

YOLOv7 для определения поз людей на видео

Medium

16 min

9.7K

Programming*Algorithms*Image processing*Machine learning*

Case

Machine learning season

Привет, Хабр!

С вами Максим Алёшин, Data Scientist и участник профессионального сообщества NTA.

В этом посте мы познакомимся с возможностями YOLOv7 для определения поз людей на видео, обсудим принцип работы алгоритма, разберёмся, чем принципиально отличается подход к детекции скелетов человека в модели YOLOv7 и других фреймворках, подробно пройдёмся по всем шагам запуска на инференс предобученной модели YOLOv7-pose для детекции людей с их скелетами.

В процессе копания в первоисточниках и не только, мне удалось почерпнуть несколько интересных фактов о YOLO, чем я поделюсь с читателями. Некоторые труднопереводимые термины будут оставаться как есть.

Узнать больше

NewTechAudit Mar 26 2023 at 09:08

Пайплайн для создания классификации текстовой информации

10 min

7.3K

Machine learning*Programming*Natural Language Processing*Python*

Case

Machine learning season

Привет, Хабр!

Меня зовут Дарморезов Вадим, я Data Scientist и участник профессионального сообщества NTA. Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен – от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.

Представим ситуацию. Перед вами важная задача – классифицировать огромный поток входящих обращений сотрудников/клиентов для дальнейшего анализа профильными сотрудниками на предмет отклонений и для построения интересующих статистик. Первое решение, приходящее в голову – в ручном режиме просматривать обращения и проводить их классификацию. Спустя пару часов, приходит осознание того, что решение было не самым правильным и так задачу не выполнить в срок. Как же тогда поступить? Именно об этом будет следующий пост.

Узнать больше

NewTechAudit Mar 24 2023 at 13:44

Поиск ошибок в логике работы чат-бота с помощью TF-IDF и DBSCAN

6 min

Python*Programming*Machine learning*Natural Language Processing*

Case

Machine learning season

✏️ Technotext 2023

Привет, Хабр!

Меня зовут Котов Илья, я Data Scientist и участник профессионального сообщества NTA.

В предложенной работе, на примере задачи поиска логических ошибок робота, я продемонстрирую, как методы тематического моделирования помогут исследователям при работе с большим объемом текстовых данных.

NewTechAudit Mar 20 2023 at 14:04

Как красиво писать формулы c LaTeX?

Easy

5 min

36K

LaTeX*Mathematics*

Tutorial

Привет, Хабр!

Меня зовут Шайдурова Арина, я Data Scientist и участник профессионального сообщества NTA. Сегодня я поделюсь с вами своим опытом использования LaTeX для написания математических формул. Всё просто и с примерами, идеально подойдет для новичков синтаксиса LaTeX.

LaTeX является очень популярным инструментом для написания различных материалов: в нём можно написать и книгу, и резюме, и дипломную работу, создать постер и даже календарь. Среди его пользователей он ценится за многие качества, но основную ценность для технических задач представляет его удобное, гибкое и легкое написание всевозможных математических формул!

+18

NewTechAudit Mar 10 2023 at 12:46

Что, где, откуда: извлекаем реляционный датасет из JSON

6 min

3.1K

Programming*Python*Data Engineering*

Case

Привет, Хабр!

Меня зовут Жеронкин Антон, я Data Engineer и участник профессионального сообщества NTA. Сегодня я расскажу как адаптировать и загрузить датасет, представляющий из себя около 5 млн. статей и связанных с ними сущностей, с сохранением при адаптации всех связей между ними.

NewTechAudit Feb 27 2023 at 14:51

Как улучшить точность ML-модели используя разведочный анализ

8 min

4.4K

Python*Programming*Machine learning*

Case

Привет, Хабр! Меня зовут Кирилл Тобола, я Data Scientist и сегодня я расскажу об опыте применения EDA (Exploratory Data Analysis) для улучшения точности ML‑модели.

Добро пожаловать в год 2912, где ваши DS навыки понадобятся для решения космической загадки. Мы получили сообщение с корабля на расстоянии 4 световых лет, и ситуация выглядит плохо.

Крейсер Титаник — межгалактический пассажирский лайнер отправился в путь около месяца назад. Почти 13 000 пассажиров находились на борту. Судно отправилось в свой маршрут, перевозя эмигрантов из нашей солнечной системы к трем новым недавно освоенным экзопланетам.

Следуя через Альфа Центавру на пути к первому пункту назначения жаркой 55 Кансри Е, крейсер Титаник столкнулся с пространственно‑временной аномалией, скрывшейся за облаком космической пыли. К сожалению, крейсер постигла та же участь, что и одноименный корабль ровно 1000 лет назад. В то время как корабль не пострадал, почти половина пассажиров переместились в альтернативное пространство.

Чтобы спасти команду и вернуть потерянных пассажиров, вам необходимо спрогнозировать кто из пассажиров переместился в альтернативную реальность используя данные из поврежденного журнала корабля. Задача помочь им спастись и не дать истории повториться вновь… Хотя может и не нужно и появится новый достаточно неплохой фильм.

Узнать, как решить задачу!

NewTechAudit Feb 13 2023 at 16:04

Технологии помогают бизнесу: как предсказать «побег» арендаторов из торговых центров при помощи ML-модели

7 min

2.7K

Сбер corporate blogMachine learning*Big Data*Artificial Intelligence

✏️ Technotext 2023

Ларин Алексей, Data Scientist

Владельцы торговых центров достаточно часто сталкиваются с ситуацией, когда арендатор прекращает свою деятельность без предварительного уведомления арендодателя. Соответственно, страдают организационные и бизнес-процессы владельца коммерческой недвижимости, падает прибыль. Сегодня поговорим о том, как технологии могут помочь решить эту проблему. Ну а использовать будем OCR-карту и модели данных.

Как всё это работает?

NewTechAudit Feb 10 2023 at 16:04

Как найти информативные фичи с лассо и в лесу

6 min

3.1K

Сбер corporate blogPython*Big Data*Machine learning*Data Engineering*

Ну здравствуй, Хабр! Меня зовут Кирилл Тобола, я Data Scientist в Сбере. Сегодня поговорим о данных. Думаю, ни для кого не секрет, что они бывают разные. В нашей работе нередко встречаются данные, содержащие сотни, а иногда и тысячи признаков. При этом количество информативных часто оказывается меньше общего числа признаков.

Если работать с ними, не производя предварительную обработку, то модели становятся сложными. Как следствие, данные требуют большего количества времени для работы и теряют в качестве. Это важно, поскольку проблема быстродействия может быть критичной для рекомендательных систем, а проблема качества свойственна, в принципе, для всех моделей. Перед нами встаёт вопрос, вернее, задача снижения размерности. Она заключается в уменьшении общего числа признаков для анализируемого набора данных. Обо всём этом сегодня и поговорим.

Узнать, как решить задачу!

NewTechAudit Feb 8 2023 at 17:32

Библиотека ML Tuning: как подобрать гиперпараметры модели GBTRegressor в PySpark

4 min

1.8K

Сбер corporate blogMachine learning*Big Data*Python*

Привет, Хабр! Меня зовут Никита Морозов, я Data Scientist в Сбере. Сегодня поговорим о том, как при помощи библиотеки ML Tuning осуществить подбор гиперпараметров модели GBTRegressor в PySpark. Зачем всё это нужно? Дело в том, что они используются в машинном обучении для управления процессом обучения модели. Соответственно, подбор оптимальных гиперпараметров — критически важный этап в построении ML-моделей. Это даёт возможность не только повысить точность, но и бороться с переобучением.

Привычный тюнинг параметров в Python для моделей машинного обучения представляет собой множество техник и способов, например GridSearch, RandomSearch, HyperOpt, Optuna. Но бывают случаи, когда предобработка данных занимает слишком много времени или же объём данных слишком велик, чтобы уместиться в оперативную память одной машины. Для этого на помощь приходит Spark. Подробности — под катом.

Как всё это работает?

NewTechAudit Feb 7 2023 at 13:39

Меры центральности в Network Science

Medium

7 min

5.2K

Python*Algorithms*Big Data*Machine learning*

Tutorial

Привет, Хабр!

Меня зовут Сергей Коньков, я Data Scientist и участник профессионального сообщества NTA. За последние 10 лет интерес к науке Network Science неимоверно возрос, что повлекло за собой закономерное развитие всевозможных инструментов для исследований в данной области. Одним из таких инструментов является python‑библиотека NetworkX, предназначенная для анализа графов или других сетевых структур. Этот пост будет направлен на объяснение и демонстрацию работы основных мер центральности, вычисляемых в графах.

NewTechAudit Feb 1 2023 at 14:14

Folium. Как сделать несколько choropleth карт в одной и зачем нужна dualMap?

5 min

Machine learning*Python*Data visualization*

Case

Привет, Хабр!

Меня зовут Екатерина Кононова, я Data Scientist и участник профессионального сообщества NTA. Часто возникает проблема визуализации данных за несколько периодов времени. Те, кто уже пытался создавать карты знают, что эту проблему можно решить с помощью разных слоёв на карте. Если заглянуть в код, то можно увидеть, что именно строка folium.LayerControl(). add_to(m) позволяет добавить на карту возможность переключения между слоями, но об этом чуть позже.

NewTechAudit Jan 24 2023 at 14:09

Как не попасть в яму с помощью нейронных сетей: технологии приходят на помощь коммунальщикам

8 min

Сбер corporate blogBig Data*Machine learning*Artificial IntelligenceSystems engineering*

✏️ Technotext 2023

Привет, Хабр! Меня зовут Андрей Соловьёв, я DS в Сбере. Вероятно, практически каждый читатель этой статьи сталкивался с проблемными дорогами, если вы автомобилист, или тротуарами, если вы пешеход. Плохие дороги — одна из актуальнейших проблем любой страны. Сегодня поговорим о том, как технологии могут помочь решить эту проблему.

Задача состоит в распознавании повреждений дорожного покрытия. Общая дорожная сеть Российской Федерации — 1,5 млн км, из которых примерно 75% — дороги общего пользования. При этом около 65% таких дорог имеют твёрдое покрытие, однако 55% из них не соответствуют нормативным требованиям. Иными словами, большинство национальных дорог содержит различные дефекты, и это становится серьёзной опасностью как для владельцев транспортных средств, так и для самого транспорта, а также для пешеходов. Что делать? Конечно же, привлечь нейросети. Как — рассказываю под катом.

1 2

4 5 ...

14 15