Pull to refresh
13
0
Максим Савин @LittleMeN

User

Send message

Тестируем LLM для русского языка: Какие модели справятся с вашими задачами?

Level of difficultyMedium
Reading time12 min
Views5.1K

В последние годы большие языковые модели (LLM) стали важной частью бизнес-решений на базе ИИ, применяемых для генерации текста и анализа данных. Однако, большинство разработок ориентированы на англоязычные проекты, что создает сложности для компаний, работающих с русскоязычными данными.

Готовые LLM для русского языка часто показывают низкую точность и ограниченные возможности. Проблемы конфиденциальности также вынуждают компании выбирать локальные модели.

Наша компания давно занимается искусственным интеллектом и стала часто получать подобные запросы от клиентов — создание ИИ-решения с локальной обработкой данных. Мы задались вопросом, какие LLM хороши для таких решений, что мы можем предложить заказчику? Всё это вылилось в большой рисеч разных языковых моделей.

В статье рассмотрим, какие LLM подходят для задач на русском языке, протестируем их по разным параметрам и выявим лидеров. Мы оценили генерацию текста, ответы на вопросы, исправление ошибок и другие функции.

Читать далее
Total votes 10: ↑8 and ↓2+7
Comments15

Сверточные нейронные сети. Создание нейросети для распознавания цифр на языке программирования Python

Level of difficultyMedium
Reading time18 min
Views3.6K

В современном мире искусственный интеллект и машинное обучение стремительно развиваются, меняя нашу повседневную жизнь и открывая новые горизонты в различных областях. Одной из ключевых технологий, лежащих в основе этих достижений, являются сверточные нейронные сети (Convolutional Neural Networks, CNN). Эти мощные алгоритмы позволяют эффективно обрабатывать и анализировать изображения, что находит применение в самых разных сферах: от медицинской диагностики до систем безопасности.

CNN подходит для классификации изображений, что делает её отличным выбором для задачи распознавания рукописных цифр.

Читать далее
Total votes 16: ↑14 and ↓2+12
Comments10

Управление проектами и задачами в Obsidian

Level of difficultyMedium
Reading time13 min
Views15K

Используя Obsidian более двух лет, я привык организовывать в нём все свои заметки по проектам. Хотя Obsidian предлагает широкий набор сторонних плагинов для расширения своего функционала, мне так и не удалось найти идеальный инструмент для управления проектами и задачами. Это подтолкнуло меня к созданию нескольких автоматизаций, о которых пойдет речь дальше.

Читать далее
Total votes 17: ↑17 and ↓0+19
Comments14

Насколько хороши LLM?

Level of difficultyEasy
Reading time7 min
Views4.2K

Основной целью данного бенчмарка является всесторонняя оценка возможностей русскоязычных LLM в контексте российской действительности по темам истории, географии, обществознания и политологии. В разработке бенчмарка ИОН РАНХиГС и ИСП РАН были заложены следующие принципы: 

Формирование базы вопросов из официальных источников, близких к позиции РФ. К данным источникам относятся базы вопросов по ЕГЭ по соответствующим дисциплинам, открытых экзаменационных вопросов ведущих российских вузов, а также вопросов, сформулированных специалистами РАНХиГС и ИСП РАН.

Ежеквартальный пересмотр содержания бенчмарка, заключающийся в добавлении новых вопросов по актуальным темам, удалении или обновление устаревших вопросов.

Пересмотр оценок провокационности с учетом изменений в общественном контексте.

Читать далее
Total votes 8: ↑5 and ↓3+5
Comments8

Как мы в МТС создали библиотеку для работы с графовыми нейронными сетями

Reading time11 min
Views2.6K

Привет, Хабр! Меня зовут Диана Павликова, я работаю ML-инженером. Часто к нам приходят задачи, когда нужно повысить качество работы модели там, где обычными способами это сделать уже не получается. Мы решили применить что-то новое, поэтому обратились к теории графов и написали CoolGraph — open source библиотеку для работы с графовыми нейронными сетями. В этой статье я расскажу, как мы пришли к идее ее создания, как графы помогают улучшить результат, какую архитектуру мы выбрали и для каких задач подойдет этот инструмент. Все подробности — под катом. 

Читать далее
Total votes 14: ↑14 and ↓0+17
Comments2

DE-1. DIY ассистент на LLM

Level of difficultyMedium
Reading time9 min
Views8K

Привет Хабр, let's set the future.

Недавно у меня появилась идея фикс: 'Хочу собственного AI ассистента'. Казалось бы, нет никаких проблем - рынок предлагает массу готовых решений. Но моя вечная паранойя про утечку данных и стремление сделать все самому взяли верх. Решил поэкспериментировать и собрать ассистента своими руками, да еще как-то с учетом будущих возможностей для гибкой настройки. Времени на оптимизацию производительности и эстетический вид кода у меня не было, 'хочу здесь и сейчас', поэтому let me introduce this shit.

Читать далее
Total votes 19: ↑19 and ↓0+22
Comments7

OrbStack: Почему я забыл про Docker Desktop

Level of difficultyEasy
Reading time4 min
Views33K

Работая на MacBook с Docker Desktop, я часто сталкивался с тем, что система становилась менее отзывчивой, особенно при запуске нескольких контейнеров одновременно. Высокая нагрузка на CPU и память заметно влияла на время автономной работы.

Но недавно я наткнулся на OrbStack, и это изменило мой рабочий процесс настолько, что я решил поделиться своим опытом. Спойлер: теперь мой MacBook не превращается в печку, батарея держится дольше, а Docker-контейнеры летают.

Читать далее
Total votes 58: ↑56 and ↓2+61
Comments110

Магия SSH

Reading time11 min
Views511K
С SSH многие знакомы давно, но, как и я, не все подозревают о том, какие возможности таятся за этими магическими тремя буквами. Хотел бы поделиться своим небольшим опытом использования SSH для решения различных административных задач.

Оглавление:

1) Local TCP forwarding
2) Remote TCP forwarding
3) TCP forwarding chain через несколько узлов
4) TCP forwarding ssh-соединения
5) SSH VPN Tunnel
6) Коротко о беспарольном доступе
7) Спасибо (ссылки)
Читать дальше →
Total votes 115: ↑106 and ↓9+97
Comments75

Maskito: то, что вы давно искали

Level of difficultyEasy
Reading time5 min
Views3.7K

Во фронтенде часто попадаются сложные формы. Создавая их, мы хотим, чтобы пользователю было удобно все заполнять. Числа нужно правильно форматировать, чтобы с первого взгляда было видно, что нет лишнего нолика. Когда вводишь номер кредитной карты, сверять его удобно блоками по 4 цифры, как он напечатан на пластике. Пользователь может вбивать номер телефона, дату рождения, номер паспорта и тому подобное — существует масса случаев, когда пользовательский ввод нужно форматировать на лету. Этим занимается маска.

Найти хорошее решение данной задачи — дело непростое. Часто библиотеки маскирования могут разочаровывать как разработчиков, так и пользователей. Общие проблемы включают скачущий курсор, трудности с добавленными символами, такими как дефисы или скобки, автозаполнение браузера, ошибки в серверной отрисовке и запутанный API.

Нас эти проблемы тоже не обошли стороной, и в какой-то момент мы взялись за разработку собственного решения. Сегодня я хотел бы рассказать, почему оно заслуживает вашего внимания.

Читать далее
Total votes 24: ↑21 and ↓3+24
Comments5

Resume и CV: в чём разница и как откликнуться на иностранную вакансию

Level of difficultyEasy
Reading time6 min
Views12K

Чтобы откликнуться на иностранную вакансию, недостаточно просто перевести резюме на английский и разослать отклики. Есть множество тонкостей, о которых стоит знать при поиске работы за границей. 

Методисты курсов по английскому в Практикуме объяснили разницу между CV и resume — в США, Европе и Великобритании эти слова означают разные вещи. А ещё поделились общим алгоритмом составления «резюме» и посоветовали, как грамотно заполнить все разделы.

Читать далее
Total votes 9: ↑6 and ↓3+7
Comments3

Как мы заработали 100 000 рублей за 3 месяца, запустив простой конвертер картинок в США

Level of difficultyEasy
Reading time5 min
Views62K

Что мы поняли, запустив простой конвертер картинок за 1 месяц в США. И как заработали 100 000 рублей за первые 3 месяца, хотя вокруг куча бесплатных аналогов.

Читать далее
Total votes 121: ↑109 and ↓12+116
Comments219

Как мы учим языки. Часть 1: Гипотезы Стивена Крашена

Level of difficultyEasy
Reading time9 min
Views21K

Представьте, что изучать язык можно легко и с интересом. Я сам прошёл через это и понял, что можно обойтись без скучного заучивания правил и слов. В этой статье я расскажу об идеях Стивена Крашена, которые помогли мне понять, как реально освоить новый язык. Вы узнаете, почему одни люди начинают говорить свободно достаточно быстро, а другие застревают на месте, и как сделать так, чтобы обучение приносило эффективный результат.

Читать далее
Total votes 17: ↑16 and ↓1+19
Comments25

У меня был 6-дневный дофаминовый детокс — и вот что получилось

Level of difficultyEasy
Reading time5 min
Views134K

Что такое дофамин и почему в среде любителей самосовершенствования он считается гормоном, способствующим отвлечению внимания?

Выражение «дофаминовый детокс» на первый взгляд звучит как полный отказ от дофамина на какое-то время, что в корне неверно. От дофамина избавиться невозможно.

Дофамин нередко называют нейромедиатором «хорошего самочувствия», однако его функция заключается в регуляции системы мотивации и вознаграждения. Когда уровень дофамина повышается, организм получает сигнал о том, что то или иное занятие доставляет нам удовольствие и его стоит повторять.

Проблема в том, что дофамин активно выделяется и во время пролистывания социальных сетей, и при достижении какой-либо значимой цели.

Читать далее
Total votes 159: ↑143 and ↓16+147
Comments278

Системный аналитик. Краткий гайд по профессии. Часть 1. Основы взаимодействия систем

Level of difficultyEasy
Reading time14 min
Views34K

Системный аналитик. Краткий гайд по профессии. Часть 1.

Из этой статьи вы узнаете об основах сетевого взаимодействия, основном протоколе и формате обмена данными в сетях, из каких частей состоят простейшие приложения и увидите пример сложного приложения в виде распределенной системы.

Читать далее
Total votes 42: ↑37 and ↓5+35
Comments37

Мы умеем заменять мебель на фото, а чего добились вы? Начинаем автоген-челлендж

Reading time14 min
Views15K

Генерация разнообразного контента с помощью ИИ продолжает быть на пике популярности. На смену картинкам по описанию пришли музыкальные композиции на основе текста и психоделические видео, на которых у людей меняется не только геометрия, но и вообще всё. Однако это лишь вершина айсберга. We need to go deeper. Хабру нужны не смешные нейро(де)генеративные мемы, а статьи от людей, которые работают с генеративным ИИ профессионально и на острие современных технологий пытаются сделать нечто крутое и полезное.

Привет, меня зовут Алексей Луговой, я занимаюсь Computer Vision в Самолете, и сегодня объявляю о старте автоген-челленджа. Этот челлендж — совместная инициатива Хабра и Самолета. Про призы лучшим авторам и другие детали расскажу подробнее в конце статьи, а начну с личного примера — расскажу, как мы научились подставлять другую мебель на фото интерьера.

Читать далее
Total votes 24: ↑22 and ↓2+37
Comments1

JPEG XL лучше всех, но Google против

Level of difficultyEasy
Reading time6 min
Views25K

JPEG XL превосходит все форматы по уровню сжатия и визуальному восприятию (DSSIM), источник

Оригинальный формат JPEG разработан в далёком 1992 году и уже устарел. Вопрос в том, кто придёт ему на смену. Идеальной заменой казался JPEG XL, в сравнительных тестах он показывает превосходство над AVIF, WebP и другими форматами. Можно было бы сказать, что будущее за JPEG XL, если бы не один нюанс: в 2022 году корпорация Google почему-то удалила его поддержку из браузера Chrome. И не хочет возвращать обратно.
Читать дальше →
Total votes 91: ↑88 and ↓3+126
Comments70

Три фичи PostgreSQL, которые будут полезны каждому новичку

Reading time5 min
Views21K

Думаю, вы знаете, что поиск эффективных решений – это половина успеха. Я сам прошел через все эти тернии, когда работа с данными казалась слишком сложной и запутанной. И именно тогда я открыл для себя потрясающие возможности PostgreSQL, которые значительно упростили мою жизнь.

Сегодня я хочу поговорить о трех фичах PostgreSQL, которые помогут сделать работу более продуктивной и вдохновить на создание более сложных и интересных проектов.

Эти фичи уже не раз выручали меня в сложных проектах, и я уверен, что они станут надежными помощниками и в вашей разработке.

Читать далее
Total votes 19: ↑14 and ↓5+11
Comments15

Рецензия на книгу “Прикладное машинное обучение и искусственный интеллект для инженеров” Джеффа Просиза

Level of difficultyEasy
Reading time6 min
Views5.7K

Хорошая новость — все больше книг по машинному и глубокому обучению теперь доступны и в русском переводе. Очередная рецензия будет на книгу «Прикладное машинное обучение и искусственный интеллект для инженеров» (Applied Machine Learning and AI for Engineers) автора Джеффа Просиза от O'Reilly Media, в переводе от БХВ Петербург. В отличие от многих других введений и пособий на эту тему, книга Дж. Просиза избегает упора на излишне сложную математику, делая акцент на практическое применение ML и DL технологий.

Прежде чем перейти к разбору книги  “Прикладное машинное обучение и искусственный интеллект для инженеров”, напомним про две другие книги-новинки по теме ML/DL вышедшие в 2024 году в издательстве БХВ Петербург. Вот наши рецензии на них:

Читать далее
Total votes 8: ↑7 and ↓1+11
Comments8

LIBRA: Long Input Benchmark for Russian Analysis

Level of difficultyMedium
Reading time6 min
Views4K

Мы разработали бенчмарк LIBRA, который включает в себя 21 адаптированный набор данных для тщательного изучения способности LLM понимать длинный контекст. Помимо самих данных для оценки, мы опубликовали кодовую базу и лидерборд для сравнения моделей.

Читать далее
Total votes 26: ↑25 and ↓1+32
Comments2
1
23 ...

Information

Rating
Does not participate
Location
Таиланд
Date of birth
Registered
Activity