Как стать автором
Обновить
23
0

Пользователь

Отправить сообщение

Полный гид по бенчмаркам LLM

Время на прочтение12 мин
Количество просмотров1.3K

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились.

В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.
Читать дальше →
Всего голосов 5: ↑3 и ↓2+3
Комментарии1

Поиск данных, прокачанная тренировка и судейская оценка. Как с минимальными ресурсами улучшить качество дообучения LLM

Время на прочтение11 мин
Количество просмотров1.6K

Привет, Хабр! Меня зовут Анна Щеникова, я аналитик в Центре RnD в МТС Диджитал. Почти всегда при адаптации LLM-моделей встает вопрос нехватки ресурсов на проверку гипотез. Обычно у меня есть собственное рабочее время и две карточки GPU, а распределяются они на несколько задач. Бизнес же просит приемлемый результат как можно быстрее.

В прошлом посте я рассказала про разделение адаптации open-source-моделей на четыре уровня, а в этом раскрою работу с последним из них — дообучением. Под катом покажу, как быстро получить приемлемое качество, когда базовые подходы не помогают.

Читать далее
Всего голосов 8: ↑7 и ↓1+11
Комментарии1

Как проходят архитектурные секции собеседования в Яндексе: практика дизайна распределённых систем

Время на прочтение25 мин
Количество просмотров141K
Привет, меня зовут Костя Кардаманов, я работаю в отделе технологий разработки Яндекса. Обычно такой же фразой я приветствую и кандидатов на собеседовании. А сегодня я хотел бы рассказать вам, как и зачем мы проводим интервью по дизайну систем с бэкенд-разработчиками. Сразу скажу: для фронтендеров, мобильных разработчиков и ML-инженеров подобный тип собеседований применим слабо, так что эти специальности мы здесь обсуждать не будем.

Технический уровень кандидата у нас оценивается за счет всего двух типов интервью: секции с кодом и секции дизайна компьютерных систем. Первый тип мы назначаем всем претендентам вне зависимости от их уровня, а вот у кандидатов, которые претендуют на должность старшего специалиста, нужно проверять не только способность писать эффективный и работоспособный код, но и способность разрабатывать сложные системы в целом.

Что такое дизайн информационных систем


Основная цель любой IT-компании — производить сервисы, которые решают задачи пользователей. Мы должны уметь собирать элементы системы в единый механизм, который будет эффективно выполнять поставленную цель, и если первый тип собеседований нацелен в первую очередь на проверку необходимого минимума, то интервью про дизайн систем проверяет достаточность навыков кандидата в достижении конечной цели. Далекому от IT пользователю принципы и устройство систем могут казаться бесконечно сложными, но мы, их разработчики, должны иметь (не обязательно детальное) представление о принципах функционирования и роли каждого компонента.

Опытный читатель может сказать — в мире полно платных и бесплатных решений, из которых я могу собрать систему как из деталей конструктора, зачем мне понимать устройство этих деталей?
Читать дальше →
Всего голосов 67: ↑65 и ↓2+90
Комментарии37

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 5: Поведенческое интервью + Бонусы

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров4.6K

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).

В предыдущей статье я поделился материалами для подготовки к дизайну систем машинного обучения.

В этой статье рассмотрим материалы, которые можно использовать для подготовки к поведенческому интервью, а также ресурсы, которые не подошли по тематике ни к одной из предыдущих статей.

Читать далее
Всего голосов 9: ↑3 и ↓6+1
Комментарии0

От промптов к дообучению: четыре уровня адаптации open-source моделей

Время на прочтение12 мин
Количество просмотров3.9K

Привет, Хабр! Меня зовут Анна Щеникова, я аналитик в Центре RnD в МТС Диджитал. Ко мне часто приходят задачи, где нужно использовать open-source LLM. Сразу же встает вопрос: а как адаптировать имеющуюся модель под конкретный кейс?

Мы выделяем четыре уровня адаптации. Для этого смотрим, какие потребуются навыки для решения этой задачи, сколько времени и человекочасов займет разработка. Поняв требуемый уровень, мы можем поставить себе дедлайны на проверку гипотезы и запланировать действия, если задача не решится выбранным способом. Ниже я расскажу, как мы разделяем разные уровни адаптации, что делаем на каждом из них и когда переходим на следующий.

Читать далее
Всего голосов 11: ↑11 и ↓0+16
Комментарии4

Как создать автоматизированную систему проверки кода с использованием агентов LangChain

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров1.3K

В современном разработке программного обеспечения обзор кода играет критическую роль в обеспечении качества и надежности продукта. Однако ручной обзор кода может быть трудоемким и часто требует значительного внимания со стороны опытных разработчиков. Автоматизация этого процесса предлагает несколько преимуществ. Но возможна ли? Помогут ли LLM и Агенты решить эту задачу?

Читать далее
Всего голосов 6: ↑3 и ↓3+3
Комментарии1

Всё уже придумали за нас: библиотеки с тысячами готовых GPT-промтов для работы, учёбы и отдыха

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров55K

Подборка для тех, кто пробовал использовать нейросети в своих задачах, но разочаровался в них: непонятно, как чат-бот вообще может помогать с чем-то серьёзным.

Читать далее
Всего голосов 33: ↑28 и ↓5+31
Комментарии18

Вызов функций с помощью LLM

Время на прочтение14 мин
Количество просмотров4.2K

Всем привет, меня зовут Алан, я разработчик-исследователь из команды фундаментальных исследований MTS AI. Мы изучаем возможности генеративного ИИ, и видим, что большие языковые модели отлично справляются с различными текстовыми задачами, но мы можем расширить их функционал. Например, пока что LLM не может правильно посчитать логарифм, узнать погоду или какую-то другую информацию. Как решить эту задачу? Нужно научить модель пользоваться внешними инструментами/функциями. В этой статье мы поговорим о вызове функций с помощью больших языковых моделей, рассмотрим некоторые проприетарные и открытые модели, связанные исследования, а затем проведем небольшой эксперимент с отправкой электронной почты при помощи LLM.

Читать далее
Всего голосов 10: ↑10 и ↓0+15
Комментарии3

Вихрь — семейство переведенных русскоязычных LLM

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров22K

Мы русифицировали Mistral и он работает лучше(по бенчмаркам) чем закрытые русскоязычные LLM. Как мы это сделали, ссылки на модели и бенчмарки - в статье.

Читать далее
Всего голосов 38: ↑34 и ↓4+36
Комментарии34

ruMTEB: новый бенчмарк для русскоязычных эмбеддеров

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров5.2K

Салют, Хабр! На связи команды AGI NLP и нейронных сетей Виртуального ассистента Салют. В SberDevices наши команды занимаются созданием бенчмарков, а также обучением моделей для векторных представлений текстов или эмбеддеров. В этой статье расскажем про наш новый русскоязычный бенчмарк для эмбеддеров текста — ruMTEB.

Читать далее
Всего голосов 29: ↑27 и ↓2+35
Комментарии6

Создание собственного API на Python (FastAPI): структура проекта, SQLAlchemy PostgreSQL, миграции и первые модели таблиц

Уровень сложностиСредний
Время на прочтение21 мин
Количество просмотров17K

Приветствую всех, друзья! Наша последняя статья по созданию собственного API на FastAPI вызвала огромный интерес, и за это я искренне благодарен.

Ранее мы рассматривали базовые аспекты работы с FastAPI: различные типы запросов, их валидацию и обработку, а также ответы на эти запросы. Однако, это лишь верхушка айсберга.

Уже на данном этапе код становится громоздким и сложным для понимания. К тому же, хранение данных в JSON‑файлах — это далеко не самый профессиональный подход. «Нормальные ребята» используют SQLAlchemy, причем асинхронно.

Сегодня мы займемся интеграцией асинхронной SQLAlchemy в наше FastAPI‑приложение. Для упрощения навигации и понимания кода я предложу структуру проекта, которую сам использую в каждом FastAPI‑приложении.

Отдельное внимание уделим миграциям с Alembic: что это такое и зачем они нужны. Конкретные функции для взаимодействия с базой данных мы будем рассматривать в следующей статье. Сегодня же займемся подключением, миграциями, описанием моделей таблиц и их созданием.

Читать далее
Всего голосов 10: ↑9 и ↓1+11
Комментарии2

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 4: Дизайн систем машинного обучения

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров7.1K

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor). Мы строим скоринговые (credit scoring), лидогенерационные (lead generation) и антифрод (anti-fraud) модели на телеком данных, а также делаем гео-аналитику (geo-analytics).

В предыдущей статье я поделился материалами для подготовки к этапу по специализированному машинному обучению.

В этой статье рассмотрим материалы, которые можно использовать для подготовки к секции по дизайну систем машинного обучения.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии3

Enbeddrus — обучение независящей от языка эмбеддинг-модели

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.9K

Приветствую, хабровчане!

Сегодня хочу рассказать вам историю о том, как я обучил простую и компактную независящую от языка модель-эмбеддер, которая умеет работать с техническими текстами о PHP и способна извлекать схожие эмбеддинги для параллельных текстов на английском и русском языках.

Основная причина, по которой я решил заняться этим проектом, заключается в том, что мои заметки, код и документация, накопленные за более чем десять лет практики, представляют собой солянку текстов о разных технологиях, языках программирования, пометки о настройке серверов Linux и т.д. на русском и английском языках. Поэтому мне захотелось сделать Retrieval-Augmented Generation (RAG) помогалку, которая сможет принимать запросы пользователя (меня) и эффективно находить информацию в столь разношерстой базе данных, независимо от того на каком языке я сделал запрос и на каком языке написана документация.

Для достижения этой цели необходима независимая от языка модель-эмбеддер, которая будет одинаково хорошо работать с техническими текстами на русском и английском языках.

Ещё одним важным аспектом было то, чтобы модель потребляла как можно меньше ресурсов и, если возможно, чтобы её можно было преобразовать в формат GGUF.

Читать далее
Всего голосов 12: ↑12 и ↓0+17
Комментарии0

Что нужно знать, чтобы успешно пройти System Design Interview

Время на прочтение16 мин
Количество просмотров43K

Для любого разработчика глубокое понимание основных принципов системного проектирования является необходимым условием для создания стабильных и масштабируемых программных систем, способных обеспечивать высокую производительность. Системное проектирование (System Design) включает разработку архитектуры и структуры программной системы, направленную на удовлетворение специфических требований и обеспечение требуемых показателей производительности.

С учетом стремительного прогресса в области технологий и возрастающей сложности программных приложений, овладение принципами системного проектирования становится критически важным для разработчиков, стремящихся создавать эффективные системы. Не имеет значения новичок вы или опытный специалист: освоение этих принципов позволит вам разрабатывать надежные и масштабируемые программные системы, отвечающие требованиям современных приложений.

Далее мы рассмотрим каждый из принципов более детально, чтобы понять их суть и способы применения в разработке приложений.

Читать далее
Всего голосов 49: ↑47 и ↓2+56
Комментарии26

Подбор гиперпараметров RAG-системы с помощью Optuna

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров5.5K

Сказ о том, как с помощью Opuna’ы сделать вашу RAG-систему чуточку (а может и не чуточку) эффективнее :)

Читать далее
Всего голосов 14: ↑13 и ↓1+14
Комментарии1

Теория хаоса, синергетика, неравновесная термодинамика – науки о сложных адаптивных системах

Уровень сложностиСредний
Время на прочтение28 мин
Количество просмотров6.2K

Являются ли случайность и хаос фундаментальными свойствами нашего мира, или за ними всегда скрывается некий порядок, а нам просто не хватает знаний и точности измерений, чтобы его постичь? Изучением этого вопроса занимаются несколько тесно связанных между собой междисциплинарных наук: синергетика, неравновесная термодинамика, теория хаоса, теория катастроф, фрактальная геометрия, теория систем и кибернетика. На первый взгляд эти дисциплины очень абстрактны и совершенно непонятны без изучения их сложного математического аппарата. Но в действительности они гораздо ближе к жизни, чем квантовая механика или теория относительности, поскольку имеют дело не со «сферическими конями в вакууме», а с реальными процессами.

О явлениях хаоса и самоорганизации я рекомендую прочитать книгу Джеймса Глейка «Хаос. Создание новой науки» (1987). Если же у вас нет ни времени, ни желания изучать всю историю науки о хаосе, вы узнаете всё самое важное из данной статьи. Здесь я разъясняю множество специфических терминов, которые приведут в ужас даже хорошо образованного человека: эмерджентность, синергия, флуктуации, диссипативные структуры, динамический хаос, точка бифуркации, аттракторы, фракталы и т.д. Также мы выясним, не противоречит ли самоорганизация второму началу термодинамики и действительно ли случайность, необратимость и неустойчивость являются источниками всякого развития.

Читать далее
Всего голосов 11: ↑10 и ↓1+14
Комментарии34

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 3: Специализированное машинное обучение

Уровень сложностиСредний
Время на прочтение22 мин
Количество просмотров8.4K

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).

В предыдущей статье я поделился материалами для подготовки к этапу по классическому машинному обучению.

В этой статье рассмотрим материалы, которые можно использовать для подготовки к секции по специализированному машинному обучению.

Читать далее
Всего голосов 5: ↑5 и ↓0+6
Комментарии2

Sid Meier's Civilization III от Firaxis – история создания

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров11K


Мир готовится вступить в новый век, игровая индустрия потихоньку переключает фокус внимания с приставок на компьютеры, на судебных заседаниях решается будущее Цивилизации… А что же Сид Мейер, её отец? Летит на всех парах к Альфа Центавре, строить прекрасное будущее!

Успех Sid Meier's Civilization II однозначно показал: продолжению быть. Но какому? От Microprose без Мейера или от маэстро Сида и его новой команды? Или от Activision, зашедшей с козырей и выкупившей все права у Avalon Hill – изначального правообладателя названия «Civilization»?
Читать дальше →
Всего голосов 41: ↑40 и ↓1+51
Комментарии11

История создания Civilization IV: избавление от унылости

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров11K
Историю четвёртой части «Цивилизации» можно начать с очередной смены владельца бренда Civilization: Atari (Infrogames) продала их 2К Games, дочерней компании Take-Two. Сумма сделки составила 22,3 миллиона долларов. На дворе стоял 2004-й год.



Хотя на самом деле к тому моменту разработка уже весьма активно велась, так что Сид Мейер и его студия Firaxis отнеслись к происходящему философски: смена издателя не сильно влияла на планы команды. Руководил проектом Сорен Джонсон, набравшийся опыта в работе над предыдущей частью серии.
Читать дальше →
Всего голосов 27: ↑26 и ↓1+31
Комментарии13

Рождение и проверка временем Sid Meier's Civilization II

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров7K
Сейчас пятилетний перерыв между играми одной серии не кажется слишком большим: почти с таким интервалом выходили, к примеру, Anno 2070, 2205 и 1800. Но в 90-е темп разработки был совсем иным, ведь создание игры с нуля занимало не больше года. Так почему же вторая часть «Цивилизации» увидела свет только в 1996-ом году?

image

После выхода в 1991-ом году Sid Meier's Civilization офис MicroProse был завален письмами фанатов с предложениями новых механик. Эксперимент Сида Мейера удался: Civilization высоко оценили как критики, так и простые игроки. Идея о продолжении витала в воздухе, но «Цивилизация» казалась идеальной игрой, которую нет смысла переделывать. Да и сам Сид Мейер хотел переключиться на новый проект C.P.U. Bach – интерактивную музыкальную игру, генерирующую композиции в стиле Иоганна Себастьяна Баха.
Читать дальше →
Всего голосов 25: ↑24 и ↓1+33
Комментарии10
1
23 ...

Информация

В рейтинге
Не участвует
Откуда
Копейск, Челябинская обл., Россия
Работает в
Дата рождения
Зарегистрирован
Активность