Articles / Bookmarks / Profile of Irkin / Habr

Иркин Шариев @Irkin

Руководитель проектов

Profile Publications 5Comments 17Bookmarks 50

derunat Mar 7 at 13:46

Выбор данных, малые языковые модели и причём здесь Шмидхубер

4 min

1.8K

Machine learning*Artificial IntelligenceНТР corporate blog

Review

Большие языковые модели — это хорошо, но интересно, можно ли получить сравнимое качество на малых моделях. Вести диалог с GPT-2 не получится, а тем более написать диплом или научную статью. Она и другие small language models (SLM) по большей части выдают слабый текст, даже если обучить их на всей Википедии.

Возможно, тут стоит вспомнить теорию Шмидхубера, который, как известно, всё придумал.

Grigory_T Mar 2 at 20:18

Cross-Encoder для улучшения RAG на русском

Medium

15 min

3.5K

Python*Machine learning*Artificial IntelligenceDIY

Tutorial

Одно из самых прикладных применений языковых моделей (LLM) - это ответы на вопросы по документу/тексту/договорам. Языковая модель имеет сильную общую логику, а релевантные знания получаются из word, pdf, txt и других источников.

Обычно релевантные тексты раскиданы в разных местах, их много и они плохо структурированы. Одна из проблем на пути построения хорошего RAG - нахождение релевантных частей текста под заданный пользователем вопрос.

Еще В. Маяковский писал: "Изводишь единого слова ради, тысячи тонн словесной руды." Примерно это же самое делают би-энкодеры и кросс-энкодеры в рамках RAG, ищут самые важные и полезные слова в бесконечных тоннах текста.

В статье мы посмотрим на способы нахождения релевантных текстов, увидим проблемы, которые в связи с этим возникают. Попытаемся их решить.

Главное - мы натренируем свой кросс-энкодер на русском языке, что служит важным шагом на пути улучшения качества Retrieval Augmented Generation (RAG). Тренировка будет проходит новейшим передовым способом. Схематично он изображен на меме справа)

+14

GeoBlackrU Mar 1 at 16:00

Одномерный лес и все прочее

Easy

7 min

3.8K

Python*Mathematics*Data visualization*Machine learning*

From sandbox

Объяснение «на пальцах» и реализация решающего дерева, случайного леса и бустинга.

Дерево принятия решений (также называют деревом классификации или регрессионным деревом) — средство поддержки принятия решений, использующееся в машинном обучении, анализе данных и статистике. Структура дерева представляет собой «листья» и «ветки». На рёбрах («ветках») дерева решения записаны признаки, от которых зависит целевая функция, в «листьях» записаны значения целевой функции, а в остальных узлах — признаки, по которым различаются случаи. Чтобы классифицировать новый случай, надо спуститься по дереву до листа и выдать соответствующее значение.

+10

black220sun Feb 26 at 10:51

Раскладываем Git по полочкам: терминология

7 min

15K

Programming*Git*Version control systems*GitHub*

From sandbox

Первый раз столкнулись с Git и не понимаете, что это такое?

Устали бездумно выполнять серию комманд чтобы закинуть свой проект на GitHub?

Хотите понять, чем отличается merge, rebase, push и pull?

Надоело видеть ошибку о non fast-forward merge и не понимать, что с этим делать?

Сейчас попробуем разобраться в этом всем.

Поехали!

+16

itGuevara Feb 24 at 00:01

Semantic BPM. Семантика и синтаксис бизнес-процессов

Medium

26 min

2.5K

Semantics*System Analysis and Design*IT Standards*Data visualization*Technical Writing*

Онтологический инжиниринг в области Управления бизнес-процессами (BPM). Семантический BPM (Business Process Management), впрочем, как и семантический ЕА (Enterprise Architecture), – это заимствование концепций (подходов к описанию и онтологизации) \ инструментов Linked Data к указанным направлениям (формализация процессов и архитектур предприятий).

«Красная нить»: когда мы формализуем процессы - мы говорим об одном и том же, но на разных языках (нотациях), поэтому стандартизация Языка семантики, онтологических концептов BPM (EA) – важная, но еще недостаточно популяризированная составляющая развития BPM (следующий этап, ВРМ 3.0). Отделение («мух от котлет») семантики от синтаксиса позволит «рафинировать» понятийный (смысловой) анализ бизнес-процессов и при их аналитике оперировать базовыми (семантическими) концептами (образами).

В Semantic BPM, как и в Semantic Web (семантическая паутина), смысл представленного процесса \ архитектуры понятен не только человеку, но и машинам и они могут его читать и обрабатывать. Эти смыслы, обычно передаваемые «человек – человек» на языке синтаксиса / графической грамматики через нотации VAD, EPC, BPMN, UML (плюс еще несколько десятков подобных вариантов \ форматов «обертывания», включая Дракон), исходно формализуются на языке семантики (стек Linked Data или аналогичный) и уже потом упаковываются в схемы с конкретной нотацией («пишутся» на языке какой-либо нотации). Для единого понимания смысловой составляющей схем применяется общая ВРМ-онтология, толковый словарь ВРМ.

PatientZero Feb 12 at 10:53

Как языковая модель предсказывает следующий токен (часть 1)

27 min

6.8K

Algorithms*Mathematics*Machine learning*Artificial Intelligence

Tutorial

Translation

Я обучил небольшой (порядка 10 миллионов параметров) трансформер по превосходному туториалу Let’s build GPT: from scratch, in code, spelled out Андрея Карпати. После того, как он заработал, я захотел максимально глубоко понять, как он устроен внутри и как создаёт свои результаты.

В исходной научной статье, как и во всех туториалах по трансформерам упор в основном делается на многоголовом самовнимании, — механизме, при помощи которого трансформеры обучаются множественным взаимосвязям между токенами, не используя рекурретности или свёртку. Ни в одной из этих статей или туториалов я не нашёл удовлетворительного объяснения того, что происходит после внимания: как конкретно результаты вычисления внимания превращаются в точные прогнозы следующего токена?

Я подумал, что могу пропустить несколько примеров промтов через обученный мной небольшой, но работающий трансформер, изучить внутренние состояния и разобраться в них. То, что казалось мне быстрым исследованием, оказалось полугодовым погружением, но дало результаты, которыми стоит поделиться. В частности, у меня появилась рабочая теория, объясняющая, как трансформер создаёт свои прогнозы, и эмпирические свидетельства того, что это объяснение, по крайней мере, правдоподобно.

Если вы знакомы с трансформерами и хотите сразу узнать вывод, то он таков: каждый блок трансформера (содержащий слой многоголового внимания и сеть с прямой связью) изучает веса, связывающие конкретный промт с классом строк, найденных в обучающем корпусе. Распределение токенов, соответствующее этим строкам в обучающем корпусе, и есть приблизительно то, что блок выводит как прогноз для следующего токена. Каждый блок может ассоциировать один и тот же промт со своим классом строк обучающего корпуса, что приводит к другому распределению следующих токенов, а значит, и к другим прогнозам. Окончательный результат работы трансформера — это линейное сочетание прогнозов каждого блока.

+27

ER_LONGBORDER Feb 8 at 15:53

Merlion Framework или как упростить работу с временными рядами

11 min

2.9K

Python*Programming*Data visualization*Machine learning*Sportmaster Lab corporate blog

Единственная причина для существования времени — чтобы все не случилось одновременно.

Альберт Эйнштейн

Привет! Меня зовут Дмитрий, я дата-инженер в SM Lab, и в этом посте хочу рассказать вам о Merlion Framework. В посте мы рассмотрим его архитектуру, полезные функции и отличия от аналогов, разберём пару практических примеров, а также посмотрим, как всё считать и на какие метрики стоит обращать внимание.

В нашем мире время является незаметным четвертым измерением, по оси которого можно упорядочивать разные события.

Временной ряд – это набор данных, описывающих изменения какой-либо переменной во времени.

Задача анализа и предсказания временных рядов остаётся актуальной для бизнеса, ведь для успешного планирования возникает необходимость прогнозирования, например, следующих показателей:

+19

Xcom-shop Feb 8 at 12:41

Лучшие видеокарты за свои деньги, которые можно купить для игр в 2024 году

Easy

9 min

70K

Computer hardwareVideo cardsГруппа компаний X-Com corporate blog

Digest

Выбор видеокарты — дело личное. Кому-то нравятся бренды, кто-то хочет сэкономить. Некоторым нравится, чтобы видюха светилась. Мы сегодня расскажем, какие видеокарты есть в наличии в разных ценовых категориях. И если вы ищете себе GPU или хотите посоветовать что-то друзьям, под катом — разбор актуального ассортимента XCOM-SHOP.

+10

lazy_mathematician Jan 31 at 17:11

О мат-нотациях и Машинах Тьюринга

Hard

10 min

2.4K

Programming*Compilers*Mathematics*

Tutorial

Всем Хабр! Совсем недавно открыл для себя некоторые прелести Латеха и начал активно в нем работать. По ходу дела возникали разные интересные мысли, которыми здесь и поделюсь. В статье пойдет речь о моих небольших дополнениях к мат-нотациям, которых мне не хватало, а также о том, как построить Машину Тьюринга с помощью оных.

Сразу оговорюсь. Да, я, конечно, знаю о том, что есть Вольфрам. Да, он содержит большую часть того, о чем пойдет речь, и еще тонну всякого-разного, чего мне не постичь за всю мою жизнь. Поэтому из первого своего прототипа этой статьи я возьму лишь самое интересное и попытаюсь рассказать так, чтобы не звучало как изобретение велосипеда. Прошу не судить строго, ибо я профан. Я лишь делюсь тем, как было бы удобно мне, возможно, кому-то тоже окажется полезным. В том числе я пишу статью, не столько, чтобы что-то рассказать, сколько чтобы быть разумно критикуемым в комментах (вместо пустых дизов).

Построить МТ

SergeyBPshenichnikov Jan 24 at 05:38

Алгебра смысла

Medium

12 min

3.9K

Semantics*Mathematics*Artificial IntelligenceNatural Language Processing*

FAQ

Пшеничников С.Б.

Знаковые последовательности (например, вербальные и нотные тексты) можно превратить в математические объекты. Слова и числа стали одной сущностью, представлением матричной единицы, которая является матричным обобщением целых чисел и гиперкомплексным числом. Матричная единица — это матрица в которой один элемент равен единице, а остальные — нули.

Если слова текста представить такими матрицами, то конкатенация (объединение с сохранением порядка) слов и текстов становится операцией сложения матриц.

С текстами можно совершать преобразования с помощью алгебраических операций, например делить с остатком один текст на другой. Математически распознавать смысл текста и вычислять контекст слов. При этом алгебра помогает интерпретировать все промежуточные этапы вычислений.

Человек видит и слышит только то, что понимает (И. В. Гёте). Понимает то, чему придает смысл как значимости для него. Смысл субъективен и зависит от интересов, мотиваций и чувств.

Л. С. Выготский различал понятия «смысл» и «значение»: «если „значение“ слова является объективным отражением системы связей и отношений, то „смысл“ — это привнесение субъективных аспектов значения соответственно данному моменту и ситуации».

По Г. Фреге «значения» — это свойства, отношения объектов, «смысл» — это только часть этих свойств. При этом и «значения» и «смысл» именуются одним «знаком», например словом. Два человека могут из списка значений выбрать для одного слова два непересекающихся фрагмента (два смысла) для его толкования.

taychinov_01 Jan 9 at 01:41

RabbitMQ как способ масштабирования ML проекта

Medium

6 min

5.6K

Python*Machine learning*

From sandbox

Данная статья будет полезна тем кто хочет расширить свой учебный (или даже рабочий) ML пет-проект добавлением новой технологии.

Весь код в статье написан для OpenSource проекта по детекции синтетического текста raisontext в рамках курса ML System Design от ODS.

mxvlpr Jan 6 at 22:23

Как я поднял свой сервер без возможности выставить для него статический IP адрес

Easy

3 min

35K

Configuring Linux*System administration*Programming*C++*DIY

From sandbox

Родился я в одном городе, позже переехал жить в другой. В родном городе остался ПК, который стоит без дела. В один прекрасный день решил я из него сделать многофункциональную удаленную машину: чтобы и кодить, и файлы хранить, и сайты/ботов хостить. Идея мне понравилась, я накатил на машину линукс, поставил все валявшиеся без дела диски и начал все это проверять. Но тут оказалось, что в родительском доме интернет тариф не поддерживает возможность установки статического IP адреса по умолчанию - адрес выдается провайдером в случайные моменты времени. Это означало, что я не мог, например, хостить какой-нибудь сервер на этой машине. Более того, я даже банально не мог к ней по SSH подключиться после смены ее адреса.

Попытки найти решение моей проблемы на просторах интернета закончились неудачей. Я не видел иного способа, кроме как поменять тариф, но это тоже представлялось невозможным.

-3

100

MarselMM Dec 12 2023 at 15:35

Локальные GPT нейронный сети — устанавливаем на домашнем ПК, запускаем и проверяем на адекватность аналоги ChatGPT

18 min

26K

Machine learning*Artificial Intelligence

From sandbox

Есть много LLM нейронных сетей, создатели которых говорят, что они аналогичны, а может даже лучше ChatGPT версий 3.5 и 4.0. Давайте попробуем протестировать их, установив их на локальный компьютер, чтобы понять, действительно ли они так хороши.

+21

MountainGoat Jan 2 at 00:40

Начинаем продолжать: обработка исходников с помощью ИИ в оффлайне

Medium

17 min

9.4K

Abnormal programming*Artificial IntelligenceNatural Language Processing*

Review

В этой статье я расскажу про расширение «Continue» для VSCode, помогающее обрабатывать исходные коды и просто текст любым ИИ, в том числе бесплатным и запущенным локально; а так же покажу, что умеет делать локальный вариант ИИ уже сейчас.

+17

MountainGoat Dec 19 2023 at 16:55

Как запустить Mixtral на своём компьютере

Medium

4 min

9.6K

Artificial Intelligence

Tutorial

Всякий раз, когда выходит новая хорошая публичная ИИ модель, Хабр наполняется вопросами "Как нам её попробовать" и неправильными ответами, будто нужно платить за какие-то сервисы или иметь железа на сто лямов. Поэтому я вновь напишу инструкцию, как запустить новейший mixtral-8x7 на обычных средних компьютерах.

MaxRokatansky Dec 29 2023 at 08:22

Красота замыканий

14 min

24K

Programming*C#*OTUS corporate blog

Translation

До того, как Java 7 вышел, я хотел написать в своем блоге статью о различных предложениях для Java 7, касающихся замыканий. Однако, когда я начал писать эту статью, я обнаружил, что начать ее без какого-либо введения в замыкания очень трудно. Со временем введение стало настолько длинным, что я опасался утратить интерес большинство читателей еще до того, как я доберусь до темы Java 7. Я решил, что вместо этого стоит написать отдельную статью о замыканиях в целом. В итоге получилось, что статья о Java 7 в моем блоге так и не появилась.

Большинство статей о замыканиях написаны с точки зрения функциональных языков, поскольку именно они, как правило, могут похвастаться лучшей поддержкой замыканий. Однако именно поэтому я счел полезным написать статью о том, как они проявляются в более традиционных объектно-ориентированных языках. Скорее всего, если вы пишете на функциональном языке, вы уже знаете о них все, что вам нужно. В этой статье речь пойдет о C# (версии 1, 2 и 3) и Java (до версии 7).

samsergey May 23 2023 at 13:00

Математическая продлёнка. Самый правильный угол

Easy

18 min

6.6K

Mathematics*Popular science

Что такое прямой угол? Почему дома, вагоны, книжки и коробки преимущественно прямоугольные? Почему расстояние от точки до прямой вычисляется вдоль перпендикуляра? Как построить прямой угол без циркуля и линейки? Что такое вертикаль и горизонталь и почему с горизонтального стола ничего не скатывается? Почему декартовы координатные оси располагаются под прямым углом? Почему ортогональные геометрические векторы перпендикулярны? Как работает теорема Пифагора в неевклидовых геометриях?

Мы найдём ответы на все приведённые выше вопросы, используя одно единственное свойства прямого угла.

Что же это за свойство?

+29

lamba2020 Dec 22 2023 at 14:30

Теория множеств и математическая логика применительно к задаче с параметром (ЕГЭ, RUS)

Medium

7 min

3.2K

Mathematics*Brain

Tutorial

From sandbox

Как легко и быстро научиться решать задачи с параметром, встречающуюся на ЕГЭ по математике (Профильный уровень)? Да никак, если не понимать, что требуется найти и как к этому прийти в техническом плане. Однако автор попытается Вас научить «Слоистому мышлению», которое так необходимо для постановки самому себе мини подзадач, упрощающих поиск правильного решения.

comerc Dec 22 2023 at 08:00

Подробное объяснение принципа KISS в программном обеспечении

18 min

Programming*Designing and refactoring*Development Management*

Translation

Когда я ищу информацию о принципе KISS в Интернете, я натыкаюсь на множество сайтов, определяющих его в паре строк: важна простота, давайте быть простыми, конец. Они часто не объясняют, что такое простота, почему простота важна и как ее достичь.

Простота - это одна из ведущих идей, которую мы должны помнить всегда, проектируя систему. Проблема: ее действительно трудно достичь.

Вы угадали: мы погрузимся в простоту (и сложность) в этой статье. Я не буду писать обо всех различных способах, которыми сложность может проникнуть в ваш код, но, вместо этого, я постараюсь дать вам краткий обзор различных масок, которые сложность может носить, с множеством примеров. Мы перейдем от самого бизнес-домена, через мелочи (реализацию), чтобы закончить сложностью архитектуры программного обеспечения.

AntiLogik Dec 19 2023 at 15:48

На чем основана логика? Часть 1. Алгебра множеств без аксиом

Medium

9 min

6.4K

Semantics*Algorithms*Mathematics*Popular science

Analytics

Сразу начну с гипотезы, положенной в основу данной статьи: вся классическая логика основана на множествах, точнее, на алгебре множеств. Должен сказать, что в современной логике и математике эта гипотеза считается ошибочной, так как еще на рубеже XIX и XX столетий сложилось убеждение (точнее, заблуждение), что понятие «множество» противоречиво. Мне представляется, что настала пора избавляться от этого и некоторых других заблуждений, связанных с логикой.

2 3