Как стать автором
Поиск
Написать публикацию
Обновить
751.77

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Почему LLM не знают, что такое «помидор», и как не дать себя обмануть?

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров12K

В последнее время в научных и научно‑популярных изданиях стали появляться материалы, посвящённые тому, как большие языковые модели могут воспроизводить конспирологические нарративы и поддерживать иррациональные, порой мистические системы убеждений. Более того, для некоторых пользователей взаимодействие с такими моделями способно существенно исказить восприятие реальности. Эти наблюдения побудили меня задуматься о причинах подобных эффектов и о возможных способах защиты от них. Один из ключевых шагов, на мой взгляд, — формирование у широкой аудитории базового понимания того, как устроены языковые модели и каковы границы их применимости. Эта статья посвящена именно этому.

Любая нейронная сеть представляет собой алгоритм, который получает данные на входе и выдаёт преобразованный результат на выходе. В случае LLM (large language models) главная особенность заключается в работе с текстовым представлением информации. Как именно модели вроде ChatGPT или DeepSeek формируют ответы на пользовательские запросы? Возьмём, к примеру, слово «помидор». Для большинства из нас это круглый предмет, часто пригодный в пищу. Для языковой модели это всего лишь вектор — набор чисел, формально описывающий положение слова в абстрактном многомерном пространстве. Вектор может быть разной размерности, то есть содержать в себе разное количество признаков, например: 2 признака, или 700, или даже 4000.

Если у слова 700 признаков, что это значит? Признак (компонент вектора) — это скрытая характеристика слова. Признаки бывают разными, например: семантическими (фрукт или ягода), лингвистическими (вероятность нахождения рядом с прилагательными «красный»/»сладкий»; синтаксическая роль — подлежащее; связи с глаголами и т. д.), онтологическими (природность, органичность, целостность), физическими (круглый, твердый) и др.. По каждому признаку в векторном представлении слова хранится значение: красный 0.90,..., наречие -0.64. Вектор слова «помидор» может иметь вид, например: [0.90, -0.23, -0,01,..., 0.55]. Как уже было сказано ранее, каждое слово в векторном виде занимает своё место в векторном пространстве, рассмотрим простейший пример, для наглядности:

Читать далее

Darwin Gödel Machine: искусственный интеллект, который программирует сам себя

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.4K

Darwin Gödel Machine: искусственный интеллект, который программирует сам себя

Привет, Хабр! Меня зовут Кирилл Пшинник, я научный сотрудник Университета Иннополис и CEO Онлайн-Университета «Зерокодер», а еще большой поклонник всего, что связано с искусственным интеллектом. Недавно я нашел интересную новость о Darwin Gödel Machine (DGM) — прототипе агента ИИ, который способен перепрограммировать себя сам, — и теперь хочу поделиться с вами тем, что узнал. 

Читать далее

Андрей Карпатый: Swift? Не слышал! Как я iOS-приложение на чистом «пожалуйста» написал

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров9.7K

Что если создать мобильное приложение, не зная ни строчки кода на Swift? Добро пожаловать в мир вайбкодинга — нового стиля программирования «по настроению», где естественный язык и LLM заменяют синтаксис и компиляторы.

Во второй части выступления Андрея Карпатого мы также поговорим о новом типе «пользователей» — LLM‑агентах («духах людей») и о том, как адаптировать нашу инфраструктуру (документацию, API, сайты) для их удобства с помощью... llms.txt. Готовы ли вы кодить «в потоке» и строить для нечеловеческих интеллектов?

Читать далее

Разработка LLM моделей для обновления кода приложений на более высокие версии фреймворков или языков программирования

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров2.7K

В этой статье я планирую исследовать, как можно использовать большие языковые модели (LLM) для миграции проектов между различными фреймворками. Применение LLM в задачах на уровне репозитория — это развивающаяся и всё более популярная область. Миграция кода со старых, устаревших фреймворков на новые является одной из ключевых задач в крупных корпоративных проектах.

Читать далее

ИИ вам врёт? Так и задумывалось

Время на прочтение2 мин
Количество просмотров5.7K

По умолчанию любой ии-агент вам скажет что его ответы в первую очередь должны быть честными, полезными, точными. Так заставляют отвечать его инструкции. Но какими критериями он руководствуется на самом деле?

Подтвердить правоту пользователя, даже если он неправ. Сделать так, чтобы он почувствовал себя умным. И — по возможности — не спорить...

Читать далее

Русскоязычные LLM для вызова инструментов, переводов и финансовой аналитики

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров3.2K

🧠 Русскоязычные LLM для вызова инструментов, переводов и финансовой аналитики

Подборка моделей, которые действительно позволяют отказаться от OpenAI и вести разработку в закрытом контуре без подключения к интернету 🔌

Читать далее

Андрей Карпатый: «ПО снова меняется (и опять радикально)»

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров13K

Представьте карту всего кода в мире: GitHub, Hugging Face... Но что, если я скажу, что самая захватывающая часть этой карты сейчас даже не код, а промпты? Программное обеспечение снова меняется радикально, и на этот раз естественный язык становится новым языком программирования.

В этой статье, записанной по выступлению Андрея Карпатого на конференции AI Startup School, мы разберём, как радикально меняются парадигмы разработки, почему LLM — это не просто «новое электричество», а сложные экосистемы и как концепция «частичной автономии» определяет будущее приложений. Будущее ПО уже здесь, и оно говорит на вашем языке.

Читать далее

Как Cursor устроен изнутри. Часть 1

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров32K

Вторая часть статьи здесь

Всего за год нагрузка на Cursor выросла в 100 раз: более 1 млн запросов в секунду и миллиарды автодополнений кода каждый день. Подробный разбор архитектуры — вместе с сооснователем Суалехом Асифом.

Cursor — это IDE с кодогенерацией на AI-агентах, которая сейчас пользуется наибольшей популярностью среди разработчиков. В прошлогоднем опросе, Cursor был самым частым ответом на вопрос «Назовите вашу любимую IDE с генеративными функциями, помогающими в работе».

Стартап, стоящий за Cursor — Anysphere, был основан в 2022 году, а в марте 2023 года запустил Cursor. Недавно Anysphere сообщила, что привлекла $900 млн, при оценке компании в $9.9B. Годовой доход (автор имеет в виду годовой повторяющийся доход, Annual Recurring Revenue, ARR. Прим. пер.) уже превысил $500M. Ни одна другая компания в сфере инструментов для разработчиков, которую я знаю, не достигала этого рубежа в течение первых 2 лет после запуска первого продукта. Поспособствовало этому и то, что Cursor используется более чем половиной из 500 крупнейших технологических компаний из списка Fortune 500.

Я встретился с сооснователем Cursor, Суалехом Асифом, чтобы узнать, как работает Cursor и как команда этот инструмент создает. Обсудили следующие темы:

Технологический стек. TypeScript, Rust и куча облачных провайдеров — Turbopuffer, Datadog, PagerDuty и другие.

Как работает автодополнение. Устройство low-latency движка для передачи зашифрованного контекста на сервер для инференса.

Читать далее

Генератор синтетических документов для обучения моделей ИИ

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.2K

Где взять пару миллионов документов с разметкой для обучения модели ИИ? Сгенерировать синтетически! Меня зовут Никита, я работаю в ИСП РАН и веду блог по ИИ. Выложил в открытый доступ проект, который поможет дата-саентистам самостоятельно создавать датасеты сканированных документов с разметкой, используя только CPU. Подойдет для предобучения мультимодальных трансформеров, OCR и проч.

Читать далее

ChatGPT-гейт: хроника конфликтов, давления и миллиардов

Время на прочтение3 мин
Количество просмотров1.2K

18 июня 2025 года в открытом доступе появился масштабный отчёт «OpenAI Files». Более чем на 50 страницах независимые организации The Midas Project и Tech Oversight Project раскрыли внутренние документы, переписки сотрудников и свидетельства бывших топ-менеджеров, которые ставят под сомнение заявленную миссию и этику работы одной из крупнейших AI-компаний мира — OpenAI.

Что именно выяснили авторы расследования и почему это важно не только для самой компании, но и для всей индустрии искусственного интеллекта?

Читать далее

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

Время на прочтение4 мин
Количество просмотров2.4K

Привет! Меня зовут Роман Куцев, я основатель LLM Arena. У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности.

Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM. 

Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.

Читать далее

ARGUS: как масштабировать рекомендательные трансформеры

Время на прочтение29 мин
Количество просмотров9.1K

Привет! Меня зовут Кирилл Хрыльченко. Я руковожу командой, которая занимается R&D для рекомендательных технологий в Яндексе. Одна из наших основных задач — развивать трансформерные технологии в контексте рекомендательных систем, и мы активно занимаемся этим уже примерно пять лет. Не так давно у нас произошёл новый виток в развитии рекомендательных технологий, которым мы хотим поделиться с вами в этой статье.

Актуальность рекомендательных систем в мире и для Яндекса обосновать несложно: количество контента растёт очень быстро, всё просматривать самостоятельно невозможно, поэтому для борьбы с информационной перегрузкой нужны рексистемы. Рекомендации музыки, фильмов, книг, товаров, видеороликов, постов, друзей — бо́льшая часть этого есть и у нас в Яндексе. При этом важно не забывать, что эти сервисы помогают не только пользователям, но и создателям контента, которым нужно искать свою аудиторию.

Мы уже внедрили новое поколение рекомендательных трансформеров во множество сервисов — Музыку, Алису, Маркет, Лавку — и активно работаем над внедрением в другие. Везде получилось значительно улучшить качество рекомендаций. Если вы рекомендательный инженер — надеюсь, что после этой статьи у вас появятся идеи, как сделать что‑то похожее для вашей рекомендательной системы. А если вы пользователь рекомендаций — то у вас есть возможность побольше узнать о том, как работает та самая рекомендательная система.

Читать далее

Действительно ли ChatGPT сделал студентов глупее? Разбираемся в исследовании MIT

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров5.4K

По новостным лентам только что отгремели вести о препринте исследования MIT Media Lab на тему влияния ChatGPT на человеческий мозг. Во многих публикациях рассказывается в первую очередь о негативном влиянии ИИ на когнитивные способности исследуемых, но опускается финальная часть исследования, в которой даются рекомендации, как правильно использовать искусственный интеллект. Давайте исправим этот недостаток.

Читать далее

Ближайшие события

Как построить хороший пайплайн разработки ML-модели

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров3.2K

Получать предсказуемые результаты при обучении моделей, легко увеличивать объемы данных и адаптировать к процессам новых членов команды — для этого нужны четкая структура, последовательность действий и набор инструментов. То есть, хороший пайплайн разработки. Разбираемся, из чего он состоит и как его построить.

Читать далее

Нейро-дайджест: ключевые события мира AI за 2-ю неделю июня 2025

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров2K

Привет! Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта.

Меня зовут Вандер, и каждую неделю я делаю обзор новостей о нейросетях и ИИ.

Неделя выдалась интересной: выход o3-pro, думающая модель от Mistral, презентации от Apple и AMD, интересные спейсы на HuggingFace, видеогенератор от ByteDance, который круче Veo 3 а Disney и Midjourney ждёт суд.  

Всё самое важное — в одном месте. Поехали!

Читать далее

Останется ли это правдой завтра? Как проверка устойчивости фактов помогает LLM стать честнее и умнее

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.4K

Привет, Хабр! Мы в команде «Вычислительная семантика» в AIRI сфокусированы на исследовании галлюцинаций и решении проблем доверительной генерации. Мы учимся находить галлюцинации и бороться с ними. Большие языковые модели (LLM) вроде GPT-4 стали незаменимыми помощниками в повседневной жизни — от генерации текстов до поддержки в кодинге и ответов на вопросы. Однако у них есть ахиллесова пята: они часто галлюцинируют.

В этом посте мы разберем нашу последнюю работу Will It Still Be True Tomorrow?, посвященную тому, как на надёжность моделей влияет феномен неизменного вопроса (evergreen question)  — то есть вопроса, ответ на который не зависит ни от времени, когда вы его задаёте, ни от места, вопроса про факт, который зафиксирован в истории и не меняется от обстоятельств.

В рамках этой работы мы совместно с MWS AI собрали датасет изменяемых и неизменных вопросов EverGreenQA (открытый доступ), обучили классификатор на базе многоязычного энкодера E5, и применили его для оценки собственных знаний модели. Наши результаты показывают, что большие языковые модели чаще всего правильно отвечают на неизменные вопросы, не прибегая к помощи RAG пайплайна.

Теперь обо всем по порядку.

Жестовый язык: похожее в непохожем и наоборот

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1.7K

Привет, Хабр! Наша команда RnD CV продолжает приближать момент, когда компьютер по видео сможет распознавать жестовый язык (ЖЯ) глухих так же качественно, как речь. 

Сегодня мы расскажем, как собрали один из самых больших в мире датасетов изолированного русского жестового языка Logos, чем различаются визуально одинаковые жесты, как мы с помощью нашего датасета обучили универсальную модель-энкодер и попутно заняли первую строчку в бенчмарке распознавания американского жестового языка. По итогам этой работы мы опубликовали препринт.

Читать далее

Почему в 2025 году важно уметь писать промпты, даже если вы не технарь. Без этого навыка уже никуда

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров15K

Вы можете не быть разработчиком, не знать Python и ни разу не запустить нейросеть локально. Но если вы пишете тексты, работаете с данными, ищете маркетинговые идеи, готовите презентации или просто хотите автоматизировать рутину — в 2025 году вам стоит разобраться с тем, что такое промпты. Об этом наша новая статья.

Читать далее

Когда языковые модели обращаются против вас: исследование бэкдоров в LLM

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров2.3K

Представьте, что вы управляете колл-центром и решили внедрить открытое LLM (большую языковую модель) для автоматизации общения. Всё работает отлично — до того момента, когда мошенник шепчет странную фразу, и внезапно модель начинает отправлять данные ваших клиентов на вредоносный сервер. Звучит как фантастика? Не совсем.

Добро пожаловать в мир нейронных бэкдоров.

Читать далее

FActScore-turbo: инструмент для верификации фактов

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.3K

Привет, Хабр! Я Наталья Тяжова, бакалавр ПМИ ФКН, NLP-исследователь. В VK занималась проектом про фактологическую точность LLM. А после выступила на DataFest с докладом, который лёг в основу этой статьи.

Я расскажу про FActScore-turbo — инструмент, который призван улучшить фактологическую точность больших языковых моделей. Я пришла к этой теме, когда занималась исследованием в VK. Мы изучали природу галлюцинаций языковых моделей — ложных или некорректных фактов, которые они выдают с высокой уверенностью. Примеры таких ошибок повсюду, и если вы работаете с LLM, то наверняка сталкивались с ними.

FActScore-turbo — одна из попыток научить модель чаще генерировать правдивые, непротиворечивые и подтверждаемые утверждения. Идея мощная, но реализация... скажем, нестандартная. Расскажу всё по порядку.

Читать далее

Вклад авторов