Articles / Bookmarks / Profile of ervin-x / Habr

How to become an author

Data Scientist

Profile Publications 2Comments 5Bookmarks 201

gritger Apr 10 2023 at 17:07

За кулисами интеллекта ChatGPT: рассказ о том, как определяют тексты, созданные ИИ

Medium

10 min

26K

Programming*Algorithms*Machine learning*«Антиплагиат» corporate blogNatural Language Processing*

Case

Изображение сгенерировано ИИ с помощью сервиса rudalle.ru

В течение нескольких последних месяцев многих, похоже, не покидает ощущение, что на глобальном рынке ИТ могут произойти серьёзные структурные изменения. Сопоставимые с тем, что происходило при появлении графических операционок, или в эпоху бума доткомов, или с появлением смартфонов.

Кто-то предрекает, что «обычные» поисковики и соцсети уйдут в прошлое, а им на смену придёт ChatGPT. Предрекают большое количество новых возможностей — и настолько же большие потрясения на рынке труда: целые профессии станут не нужны. Есть и те, кто считает, что сильный искусственный интеллект совсем рядом и серьёзное внимание нужно уделять вопросам безопасности человечества перед лицом открывающихся угроз со стороны искусственного разума.

Читать дальше →

+12

murat_apishev May 4 2023 at 15:11

Зоопарк трансформеров: большой обзор моделей от BERT до Alpaca

Hard

59 min

20K

Machine learning*Just AI corporate blogArtificial IntelligenceNatural Language Processing*

Review

Авторский обзор 90+ нейросетевых моделей на основе Transformer для тех, кто не успевает читать статьи, но хочет быть в курсе ситуации и понимать технические детали идущей революции ИИ.

Читать далее

+28

altium_spark May 23 2023 at 10:01

Как правильно проектировать электронику

15 min

25K

ГК ЛАНИТ corporate blogCircuit design*Manufacture and development of electronics*

Все электронные гаджеты, окружающие нас, были кем-то придуманы, формализованы в электрической схеме. Для них были спроектированы печатные платы, заказаны и установлены комплектующие, и в итоге было собрано готовое изделие. Каждый из этих этапов может быть реализован совершенно по-разному: от “ручной” самодеятельности до полностью автоматизированного цифрового подхода. В этой статье в блоге ЛАНИТ мы расскажем и покажем все уровни и варианты создания электронных устройств и подробно опишем новейшие технологии в проектировании электроники.

Читать далее

+88

stasyarkin Nov 10 2022 at 09:00

Summarization is all you need

10 min

4.5K

hh.ru corporate blogMachine learning*Data Engineering*

Привет! Меня зовут Станислав, я — дата-сайентист из команды Поиска в hh.ru. У нас в компании дата-сайентисты занимаются главным образом работой над рекомендательными системами. Если у вас есть резюме на hh.ru, то скорее всего вы хотя бы раз просматривали список подходящих вам вакансий. И вот то, насколько они действительно вам подошли, и является нашей зоной ответственности.

Вакансии и резюме пишут на естественном языке, поэтому обработка текстовой информации является важнейшей частью наших моделей. Один из способов такой обработки — это построение краткого содержания текста или проще говоря суммаризация. Особенно это может быть полезно если текст документа очень громоздкий и явно содержит много лишнего. В этой статье я расскажу о том, как мы применили модель суммаризации, чтобы улучшить наши модели матчинга.

Читать далее

+5

okulovas Mar 14 2023 at 10:01

Java для сисадминов

17 min

14K

Programming*Java*ГК ЛАНИТ corporate blog

Tutorial

Эта статья написана в основном для системных администраторов Java-приложений (DevOps-инженеров, SRE и других производных специализаций). Вероятнее всего, Java-разработчики уже все это прекрасно знают. Хотя Junior Java-разработчикам эта информация может помочь систематизировать знания.

Статья не претендует на полноту или полную непогрешимость. Во-первых, нельзя объять необъятное. Во-вторых, все меняется и проверенные истины могут перестать быть истинами в новых версиях. В сети существует множество статей об устройствах Java, однако в этой статье в блоге ЛАНИТ я стремился сделать выжимку основных моментов, необходимых для администраторов Java-приложений. Для более глубокого погружения в тот или иной вопрос потребуется обратиться к другим источникам.

Читать далее

+120

averkij Aug 31 2020 at 13:56

Делаем параллельный корпус из книг с помощью sentence embeddings

8 min

8.6K

Python*Data Mining*Machine learning*Learning languagesNatural Language Processing*

Tutorial

Parallel trucks (image by Unsplash

При поиске параллельных корпусов для своих нужд, — это может быть обучение модели машинного перевода или изучение иностранного языка, можно столкнуться с тем, что их не так уж и много, особенно, если речь идет не об английском, а каком-то редком языке. В этой статье мы попробуем создать свой корпус для популярной языковой пары русский-немецкий на основе романа Ремарка "Три товарища". Любителям параллельного чтения книг и разработчикам систем машинного перевода посвящается.

Задача

Такая задача называется выравниванием текстов и может быть до какой-то степени решена следующими способами:

Использовать эвристики. Можно считать количество предложений в текстах, количество слов в них и на основе этого производить сопоставление. Такой способ не дает хорошего качества, но может тоже быть полезным.
Использовать sentence embeddings. Наверняка вы слышали про модели типа word2vec или sent2vec или видели такой пример их использования — "король" + "женщина" — "мужчина" = "королева". Если коротко, то суть в том, чтобы перевести слова (предложения, тексты) в векторное пространство с сохранением семантического расстояния между ними. Такой подход открывает перед нами замечательные возможности по оценке близости текстов и их кусочков по смыслу.

Читать дальше →

+13

anastasia_galina Jan 3 2023 at 10:00

Пять сериалов про стартапы и технологии, которые стоит посмотреть

4 min

17K

ГК ЛАНИТ corporate blogPopular scienceScience fiction

Признайтесь, что каждому иногда хочется провести выходные за ничегонеделанием. Особенно это желание увеличивается под конец года. Да и зимой лениться хочется чуть больше обычного. Ну а чтобы это делать было ещё приятнее, мы решили собрать для читателей блога ЛАНИТ подборку новых сериалов, посвящённых технологическим стартапам и компаниям.

Читать далее

+120

GKasatkin Jan 17 2023 at 10:01

Мозг. Как он работает

8 min

16K

ГК ЛАНИТ corporate blogPopular scienceBrainBiology

Хочу поделиться в блоге ЛАНИТ впечатлениями о книге нейробиолога, профессора Стенфордского университета Дэвида Иглмена «Живой мозг. Удивительные факты о нейропластичности и возможностях мозга» (Москва, «Манн, Иванов и Фербер», 2022). Книга читается легко, она не содержит «страшных» медицинских терминов, которые могли бы отпугнуть читателя, и в то же время достаточно убедительно разъясняет природу мышления и причину довольно сложных случаев отклонений от нормального развития мозга.

Читать далее

+97

valeriyknyazhev Dec 30 2022 at 14:26

Инструмент для автоматической оценки конкурса при поступлении в ВУЗы РФ

7 min

11K

Python*IT career

Каждый выпускник школы сталкивается с проблемой выбора профессии и, следовательно, ВУЗа. Этот этап жизни является наиболее сложным для школьника психологически: нужно подготовиться и сдать экзамены, от которых зависит, наберут ли они проходной балл в выбранное учебное заведение. Сам процесс поступления тоже является источником стресса: новая система подачи документов не гарантирует 100% зачисление даже с необходимыми баллами. До самого последнего момента абитуриент не знает, пройдёт он или нет на бюджет в выбранных ВУЗах и решение о подаче оригиналов документов приходится принимать на основании ограниченной информации и своих собственных предположениях о дальнейшем развитии ситуации. Получается, все выпускники последние 2 месяца лета не наслаждаются заслуженным отдыхом, а всей страной играют в покер со ставками на свое дальнейшее образование!

Что можно сделать, чтобы снизить градус напряжённости для себя и/или своего ребёнка? В данной статье мы рассмотрим инструменты облегчающие и даже автоматизирующие процесс мониторинга конкурсных списков - ведь вовремя полученная информация поможет принять правильное решение в условиях всеобщей неопределенности.

Читать далее

+10

EvgenyVilkov Dec 15 2022 at 18:25

Практический опыт проектирования систем графового анализа

11 min

4.4K

System Analysis and Design*Big Data*Data storages*GlowByte corporate blog

Наши коллеги из группы компаний ГлоуБайт не так давно публиковали достаточно развернутый материал по графовой аналитике, в котором содержится базовая теория и приведены области практического применения. В этой статье мы бы хотели поделиться опытом проектирования данного класса систем, какие специализированные движки используем, какую типовую архитектуру применяем и как к ней пришли.

Читать далее

+10

AndreyKoceruba Feb 22 2022 at 15:24

Искусство распознавания: как мы разрабатывали прототип AutoML для задачи Named Entity Recognition

32 min

4.7K

Machine learning*ВТБ corporate blog

Процессы и продукты банка всё время совершенствуются, и в какой-то момент приходит понимание, что рутинные операции нужно автоматизировать. Так случилось и у нас: возникла необходимость в автоматизации обработки текстовой информации. Это не только банковская тенденция — во многих сферах бизнеса сейчас растёт спрос на подобные решения, поэтому мы подумали, что хабровчанам тоже могут быть интересны наши изыскания в этой сфере. Так что сегодня расскажем о том, как работает наш прототип AutoML для распознавания именованных сущностей (named entity recognition, NER). Ну и о том, какие результаты в итоге показала обученная модель.

Читать далее

+8

3Dvideo Dec 14 2022 at 13:31

К вопросу о математических способностях студентов или как учить переполненный мозг

23 min

230K

Programming*Algorithms*Mathematics*Popular scienceThe future is here

Я люблю давать простые задачки студентам на лекции. Во-первых, понятно, скольких мы потеряли, во-вторых, это переключение из режима потребления информации в режим выдачи результатов, в третьих — возможность проявить себя для шустрых. Сплошные плюсы!

Одна из простых задач звучит так: «При переводе картинки из цветового пространства RGB в YUV мы выполняем прореживание, то есть выкидываем каждый четный столбец и каждую четную строку в компонентах U и V (все компоненты пикселя по 1 байту). Вопрос: во сколько раз меньше данных у нас стало?» Эта операция называется chroma subsampling и широко используется при сжатии видео, например.

Забавно, что когда-то давно, когда винчестеры были меньше, а дискеты больше, студенты реально отвечали на этот вопрос быстро. А в последние годы регулярно народ в ступор впадает. Приходится разбирать по частям: «Если выкинуть каждую четную строку и каждый четный столбец, во сколько раз меньше данных будет у компоненты?» Почти хором: «В четыре». Начинаю подкалывать: «Отлично! У нас было 3 яблока, первое осталось как есть, а от второго и третьего осталось по четвертинке. Во сколько раз меньше яблок у нас стало?» Народ ржет, но, наконец-то, дает правильный ответ (заметим, не все).

Это было бы смешно, если бы от способности быстро в уме прикинуть результат не зависела способность быстрее создавать сложные алгоритмы.

И хорошо видно, как эта способность в широких массах студентов заметно плавно падает. Причем не только в нашей стране. Придуман даже специальный термин: «цифровое слабоумие» ("digital dementia") — снижение когнитивных способностей, достаточно серьезное, чтобы повлиять на повседневную деятельность человека.

Кому интересно ~~как теряют мозг студенты~~ масштабы бедствия и что с этим делать — добро пожаловать под кат!

Читать далее

+373

AntonyZak Dec 12 2022 at 11:51

Ускорение инференса модели BERT с помощью ONNX и ONNX Runtime на примере решения задачи классификации текста

12 min

7.1K

Ростелеком corporate blogMachine learning*Artificial IntelligenceNatural Language Processing*

Technotext 2022

В статье на примере определения интента по фразе клиента, полученной в текстовом виде показаны подходы для решения поставленной задачи, выбор метрик и моделей.

Сделан обзор на актуальные подходы для ускорения работы нейронных сетей, представлены библиотеки ONNX и ONNX Runtime.

Проведены тесты с использованием фреймоворков ONNX и ONNX Runtime, используемых для ускорения работы моделей перед выводом их в продуктовую среду.

Представлены графические зависимости и блоки кода.

Читать далее

+22

wunder_editor Dec 6 2016 at 15:02

Особенности Jupyter Notebook, о которых вы (может быть) не слышали

10 min

360K

Python*Programming*Wunder Fund corporate blog

Translation

Jupyter Notebook – это крайне удобный инструмент для создания красивых аналитических отчетов, так как он позволяет хранить вместе код, изображения, комментарии, формулы и графики:

Ниже мы расскажем о некоторых фишках, которые делают Jupyter очень крутым. О них можно прочитать и в других местах, но если специально не задаваться этим вопросом, то никогда и не прочитаешь.

Читать дальше →

+41

amamish Oct 25 2022 at 10:01

Никогда не поздно: начать в ИТ после 35

4 min

11K

IT careerГК ЛАНИТ corporate blog

Всегда испытывала легкую зависть к тем людям, кто с детства точно знает, кем он хочет стать. А уж что говорить про тех, кто, несмотря ни на что, добился своей цели и нашел себя в своей профессиональной деятельности. Как вы могли догадаться, я к таким не отношусь. Точнее, не относилась. Сегодня вы узнаете о превращении грустного контрактного управляющего в довольного бизнес-аналитика, работающего в ЛАНИТ.

Читать далее

+93

cointegrated Oct 9 2022 at 13:00

Первый нейросетевой переводчик для эрзянского языка

10 min

13K

Semantics*Data Mining*Machine learning*Artificial IntelligenceNatural Language Processing*

Data Mining Season

Эрзянский язык из финно-угорской семьи – один из официальных в республике Мордовия, и на нём говорят сотни тысяч людей, но для него до сих пор не было почти никаких технологий машинного перевода, кроме простых словарей.
Я попробовал создать первую нейросеть, способную переводить с эрзянского на русский (и с натяжкой ещё на 10 языков) и обратно не только слова, но и целые предложения.

Пока её качество оставляет желать лучшего, но пробовать пользоваться уже можно.
Как я собирал для этого тексты и обучал модели – под катом.

Читать далее

+68

kitaisky Oct 12 2022 at 09:43

Дистилляция BERT для задачи классификации

17 min

3.2K

Machine learning*Artificial IntelligenceNatural Language Processing*

Tutorial

Большие языковые модели это конечно хорошо, но иногда требуется использовать что-то маленькое и быстрое.

Читать далее

+6

volodya_research Sep 19 2021 at 02:52

Q-Q Plots. От чайника до профессионала за один гайд

8 min

39K

Data visualization*Statistics in IT

Tutorial

Как понять, что выборка данных принадлежит определенному распределению? Есть 2 метода: аналитический тест Колмогорова-Смирнова (тест Шапиро-Уилка для нормального) и графический метод при помощи графика квантиль-квантиль плот.

Чем так замечателен второй вариант? Он позволяет делать выводы, не основываясь на таких спорных показателях как p.value .

Графический метод является мощнейшим инструментом анализа, но как сказано в англоязычной статье википедии про Q-Q Plots, требует серьезных навыков для интерпретации. В данной статье я представляю дорожную карту пути к пониманию квантильных графиков.

Читать далее

+7

cointegrated Jun 5 2022 at 22:18

Рейтинг русскоязычных энкодеров предложений

9 min

25K

Python*Semantics*Machine learning*Natural Language Processing*

Энкодер предложений (sentence encoder) – это модель, которая сопоставляет коротким текстам векторы в многомерном пространстве, причём так, что у текстов, похожих по смыслу, и векторы тоже похожи. Обычно для этой цели используются нейросети, а полученные векторы называются эмбеддингами. Они полезны для кучи задач, например, few-shot классификации текстов, семантического поиска, или оценки качества перефразирования.

Но некоторые из таких полезных моделей занимают очень много памяти или работают медленно, особенно на обычных CPU. Можно ли выбрать наилучший энкодер предложений с учётом качества, быстродействия, и памяти? Я сравнил 25 энкодеров на 10 задачах и составил их рейтинг. Самой качественной моделью оказался mUSE, самой быстрой из предобученных – FastText, а по балансу скорости и качества победил rubert-tiny2. Код бенчмарка выложен в репозитории encodechka, а подробности – под катом.

Читать далее

+26

Aleron75 Aug 3 2022 at 12:00

Feature Engineering или стероиды для ML моделей

6 min

15K

Python*Big Data*RUVDS.com corporate blogData Engineering*

Привет, чемпион!

Часто при построении ML моделей мало просто взять сильную модель. Оказывается, иногда грамотная предобработка данных существенно важнее. Сегодня речь пойдёт про feature engineering.

Рассмотрим несколько кейсов на эту тему более подробно. Данные будут упрощённые, но обещаю, от этого примеры не станут менее интересными ?.

Читать дальше →

+38

1

2 3 ...