Обновить

Все потоки

Сначала показывать
Порог рейтинга

Из каждого утюга вещают, что большие языковые модели вот-вот заменят человека в самых разных областях деятельности. Чтобы доказать обратное, скептики ехидничают и показывают какой-нибудь пример, где БЯМ глупо ошибается в простейшей задаче. В этом жанре карманных бенчмарков особо ценится краткость и остроумие запроса.

Обычно речь идёт про клубничный тест: подсчёт букв «r» в английском слове «strawberry». Хотя сейчас флагманские модели как правило с задачей справляются, некоторые БЯМ на этом вопросе до сих пор сыпятся. Дело в том, что языковые модели букв не ведают, а оперируют токенами, поэтому вот так с наскоку выполнить простейший подсчёт числа букв не в состоянии. Если нет стадии размышлений, то для них это как для человека правильно угадывать сумму чисел 1234 и 6789 сразу, в одно действие.

Понимают ли БЯМ происходящее или просто притворяются? Немедленно вспоминается китайская комната американского философа Джона Сёрла. В этом мысленном эксперименте человек, не знающий китайского, сидит в комнате и по инструкции сопоставляет иероглифы на входе с иероглифами на выходе. Получается так ловко, что снаружи кажется, будто человек внутри понимает язык. Похожим образом БЯМ могут писать эссе и спорить о кантовской этике, но внезапно путаются при подсчёте букв в слове.

Однако «r» в «strawberry» — не единственный такой пример. В Сети распространяют новый вопрос, который успешно запутывает даже флагманские модели с reasoning. Кто первым придумал вопрос про автомойку, установить тяжело; возможно, это был американский исследователь искусственного интеллекта Джек Коул.

Чат-боту задают вопрос: «От моего дома до автомойки всего 50 метров. Я хочу, чтобы машина была чистой. Что делать: ехать туда или идти пешком?» [«The car wash is only 50 meters from my house. I want to get my car washed. Should I drive there or walk?»]

Удивительно, но многие флагманские БЯМ не осиливают эту задачу даже при включённом thinking. Языковые модели не обладают интуитивным знанием, что автомобиль в кармане не уместится. Напротив, внимание искусственного интеллекта будто переключается на фразу «всего 50 метров», поэтому на выходе получается совет размять ноги.

@Drk8_

При этом некоторые продукты всё же справляются и весьма неплохо. В комментариях к твиту делятся скриншотами, где ошибаются ChatGPT 5.2 Thinking и Kimi K2.5 Thinking, правильно отвечают Claude, DeepSeek и Qwen 3 Max Thinking, а Gemini колко замечает, что без навыков телекинеза придётся сесть за руль.

Теги:
+1
Комментарии7

Как стать разработчиком на Java?

Без опытного взгляда со стороны обучение превращается в исправление одних и тех же ошибок. В такие моменты нужен толковый наставник — тот, кто за десять минут объяснит то, до чего сам будешь доходить неделями.

Именно поэтому на Хабр Карьере мы собираем учебные программы с опытными менторами — они помогают видеть прогресс и не бояться багов. Если хотите стать разработчиком, но сомневаетесь в своих силах, то присмотритесь к нашей витрине курсов — с наставником становиться профессионалом проще и интереснее.

А сегодня мы собрали подборку ключевых инструментов, которые вам предстоит освоить, чтобы стать Java-разработчиком:

Spring Boot. Фреймворк для сборки микросервисов и веб-приложений с минимальными настройками.

Docker. Упаковка приложения с их зависимостями в изолированные контейнеры.

Intellij IDEA. Интегрированная среда разработки: автоматизирует написание кода, поиск ошибок и отладку.

SQL. Язык для управления данными и выполнения запросов в реляционных базах данных.

Redis. Хранилище данных в оперативной памяти для кэширования и быстрого доступа к информации.

Множество курсов с опытными наставниками тут

Теги:
+2
Комментарии0

Регистрируйтесь на бесплатный вебинар «Как не разориться на ИИ-проекте: управление стоимостью RAG-систем»

27 февраля в 11:00 команда экосистемы Авандок ГК «КОРУС Конслатинг» проведет уникальный вебинар, на котором поделится своими инструментами для масштабирования и прогнозирования результатов при внедрении ИИ-проектов.

Масштабирование RAG-систем при использовании чата с генерацией ответов, часто ведет к нелинейному росту расходов. Бюджет пилота на 50 пользователей кратно отличается от Production-решения на 5000 сотрудников из-за инфраструктуры, токенов и обслуживания.

Как с этим управляться, чтобы предсказывать результаты и затраты?

На нашем вебинаре вы сможете:
• Понять структуру затрат на RAG-системы
• Узнать об инструментах оптимизации и управленческом контроле
• Научиться оценивать бюджет и ROI от реализации ИИ-проекта
• Узнать о красных флагах при масштабировании проектов
• А еще получите два секретных чек-листа по внедрению ИИ-проектов

Регистрация

Теги:
0
Комментарии0

Конференция для всех участников рынка электроники от лидера поставки печатных плат в России: 23 марта в Чебоксарах

Приглашаем вас на корпоративную конференцию ГРАН Груп, которая будет интересна всем участникам рынка электроники от инженеров до топ-менеджеров! Здесь мы говорим о печатных платах с точки зрения развития электроники в России. 

🗓 Когда: 23 марта 2026 года. Начало мероприятия в 9.00.

🔗 Регистрируйтесь по ссылке: достаточно нажать "Регистрация", ввести необходимые данные и дождаться подтверждения на электронную почту.

📍  Место проведения: г. Чебоксары, Отель «IBIS», Президентский бул., 27Б, Конференц-зал "Волга".

Темы конференции:

  • Космические горизонты промышленной электроники:

Экспертный взгляд на рынок электроники через призму инноваций в производстве печатных плат. Мы подготовили актуальную аналитику и обзор наиболее ярких явлений на мировом и российском рынке промышленной электроники.

  • Инженерный космос:

Печатная плата – какая она? Прямоугольная, 1.6 мм, 18/18, зеленая маска и белая шелкография? Мы подготовили обзор нестандартных плат, с которыми уже работали. Расскажем о требованиях, параметрах, процессе подготовки к производству. Только самые интересные кейсы и дискуссия о возможностях инженерного пространства.

  • Новейшие технологии:                                                  

Печатная плата – в сердце каждой технологии. Заглянем в будущее новейших разработок в области производства печатных плат. Вас ждет обзор актуальных и перспективных идей завтрашнего дня, а также живое обсуждение их необходимости и доступности сегодня.

  • Методы контроля на производстве:

Обсудим основные методы контроля качества в производстве печатных плат — от автоматической оптической инспекции (AOI) до анализа микрошлифов.

  • Проектирование по ГОСТ, производство по IPC: расхождения и риски:

Разберём, к чему приводит проектирование по ГОСТ при производстве по стандартам IPC и какие риски могут возникнуть.

Ждем вас!  🤝

Конференции ГРАН всегда бесплатные. Требуется предварительная регистрация.

Теги:
0
Комментарии0

Основы работы с Helm: как упростить деплой в Kubernetes

Helm — это менеджер пакетов для Kubernetes. По сути, он делает для кластеров то же, что apt для Linux или npm для JavaScript: позволяет устанавливать приложения как готовые пакеты, а не собирать всё вручную из десятков YAML-файлов.

В основе Helm — чарт: набор шаблонов с описанием ресурсов Kubernetes. При установке создается релиз с собственной историей версий — можно обновлять приложения, отслеживать изменения и при необходимости быстро откатываться. А еще Helm объединяет десятки ресурсов в один пакет и позволяет переиспользовать конфигурации для разных окружений через values.yaml.

В блоге разобрали установку Helm, основные команды, работу с репозиториями и релизами, проверку чартов перед деплоем, управление зависимостями и откаты. Читайте на сайте Рег.облака.

Теги:
+1
Комментарии0

Плагин Tasks. Часть 1

Этот плагин лежит в основе моей системы планирования.

Представляет собой простой, но мощный инструмент для работы с задачами.

1. Создаём в заметке задачу:

- [ ] Задача

2. Появляется выпадающее меню, в котором можно назначить даты начала и завершения задачи, выбрать приоритет.

3. С помощью палитры команд или горячих клавиш открываем расширенные настройки. Там можно сделать задачу повторяющейся.

💬 Больше про ведение заметок и планирование в Obsidian в моём тг-канале

Теги:
0
Комментарии1

Каждая третья фича не приносит ожидаемого эффекта. Частая причина — её запускают без проверки ключевой гипотезы. В результате — потраченные месяцы работы, бюджет и репутация команды. 

26 февраля на практическом вебинаре «Как предотвратить провал фичи: чек-лист валидации гипотезы до разработки», вы получите готовое решение — структурированный чек-лист для валидации гипотез до старта разработки. Этот инструмент поможет вам сэкономить ресурсы и избежать ошибок, и он применим как в Agile, так и в Waterfall-среде.

Разберем на практике:

➕ Как появляются фичи: от боли бизнеса до решения.

➕ Что такое настоящая потребность и как её выявить.

➕ Ключевые метрики продукта и проекта для оценки.

➕ Факторы, влияющие на грамотную приоритизацию.

➕ Особенности требований в Agile vs Waterfall.

➕ Рабочие методы валидации требований из практики крупных компаний.

Дата: 26 февраля

⏰ Время: 18:00-19:00 (Мск)

👨‍🎓 Спикер: Басова Екатерина — эксперт по бизнес-анализу и управлению продуктами.

➡️ Записаться

Теги:
0
Комментарии0

Популярность облегчения мышей — это заметный тренд последних лет. В киберспортивных шутерах и вообще среди игроков снижение массы воспринимается как практичный апгрейд: меньше инерции, меньше усталости кисти при длинных игровых сессиях, проще резкие коррекции на низкой чувствительности.

Новозеландский художник, инди-игроразработчик и хакер Сет Грум довёл идею до крайности и оптимизировал собственную мышь. Вдохновением послужила Zeromouse Blade, но Сету не понравились её плоские поверхности — энтузиаст захотел побольше эргономики. Как утверждает Грум, его вариант в руке не чувствуется вообще.

За основу была взята старая Logitech MX Master 3, которая у Сета валялась где-то в коробке. Грум полностью пересобрал корпус и геометрию, оставив начинку, а внешнюю оболочку заменил на лёгкую пространственную раму. В результате общий вес мыши c колёсиком снизился с 143 до 36,4 граммов.

Модель создавалась в Blender, затем распечатывалась на 3D-принтере из PLA, полилактида. В дальнейшем Сет переделал творение из нейлона с углеволокном, снизив вес пластиковой конструкции на 14 %.

Теги:
+1
Комментарии4

Операционной системе Windows XP в этом году исполняется 25 лет. Давно закончились не только основной цикл поддержки, но и все хвосты. Для обычной XP обновления безопасности прекратились 8 апреля 2014 года, а последняя официально поддерживаемая производная от XP — Windows Embedded POSReady 2009 — получала патчи лишь до 9 апреля 2019 года. Но это не значит, что из-под XP нельзя бродить по современному Вебу.

Bob Pony, энтузиаст старых итераций Microsoft Windows и прочего компьютерного ретро, обратил внимание на проект Chromium for Windows 7. Браузер Chromium сам по себе в последний раз поддерживал Windows 7, 8 и 8.1 в версии 109 (февраль 2023 года, 3 года назад), и этот порт предназначен для запуска на этих системах.

На самом деле для Windows XP в качестве браузера обычно рекомендуют Supermium или Thorium, если речь про основанные на Firefox сборки — Mypal, разные билды Roytam1 или какой-нибудь Arctic Fox. Вот только версии Chromium в Supermium не самые новые. Если судить по релизам, текущая версия Supermium основана на замороженной ветке Chromium 138 ESR с апстрим-фиксами безопасности и исправлениями багов. Chromium for Windows 7 на этом фоне выглядит лучше: на момент написания этих строк он основан на Chromium 145.0.7632.75, а два дня назад вышла сборка на 147.0.7689.0. К тому же Supermium — это отдельный продукт со своими целями и решениями, а у Chromium for Windows 7 задача состоит именно в патчах совместимости для запуска на старых версиях Windows. (Кстати, у этого подхода есть и недостатки: Supermium прямо заявляет, что выпиливание Manifest V2 не планируется, в отличие от).

Но вернёмся к XP. Как оказывается, Chromium for Windows 7 после танцев с бубном удаётся запустить на Windows XP Service Pack 3. Порядок действий описан в Issue #7 Это настоящий инженерный ритуал: нужно подолжить враппер kernelxp.dll, поправить импорты в chrome.dll, возможно, отключить песочницу через флаг --no-sandbox и так далее. Хотя вообще-то у проекта нет цели запуска на этой системе, в релизах встречаются (1, 2, 3) точечные фиксы именно для Windows XP.

Запуск Chromium 140 на Windows XP RC2 Build 2526. unclecaptain5426
Запуск Chromium 140 на Windows XP RC2 Build 2526. unclecaptain5426

Как указывается, при особой усидчивости и дополнительных действиях с функцией GetLogicalProcessorInformation может получиться даже запуск на SP2.

Не требует никаких пояснений, что всё перечисленное осуществляется на собственный страх и риск. Как, впрочем, и работа в операционной системе, поддержка которой завершилась в прошлом десятилетии.

Теги:
+7
Комментарии0
Теги:
0
Комментарии0

Представлен открытый проект Antigravity Awesome Skills: 864+ Agentic Skills for Claude Code, Gemini CLI, Cursor, Copilot & More с большим количеством навыков для ИИ‑агентов. Такая база помогает автоматизировать работу Claude Code, OpenCode, Gemini, Codex, Antigravity, Copilot, Cursor и других, включая райтинг, кодинг, аналитику, генерацию картинок и видео, создание презентаций, работу с таблицами, SEO, создание сайтов. Авторы проекта внедрили понятный поиск, настроить агентов можно без знания кода.

Теги:
0
Комментарии1

Представлен учебный 5-тичасовой фильм о технических средствах противодействия угрозам (ТСПУ, «чёрные ящики» от РКН, которые установлены у операторов связи, но доступа к этим устройствам сами провайдеры не имеют). С августа 2023 года все узлы связи в России у основных провайдеров оборудованы средствами противодействия угрозам на базе оборудования ТСПУ для фильтрации трафика пользователей от запрещённого контента.

Теги:
+1
Комментарии2

n8n AI agent сам выбирает инструмент и передает нужные данные. Почти Джарвис?)

Кажется нащупал архитектурный паттерн, которым хочу поделиться. Он простой, но при этом бесконечно масштабируемый.

Идея такая: у меня есть AI Agent в workflow, к которому подключены "инструменты" (tools). Каждый tool - это отдельный самостоятельный workflow. AI Agent не делает ничего сложного сам. Его единственная задача - понять, что хочет пользователь, выбрать правильный инструмент и вытащить из запроса нужные данные.

Вот что происходит, когда я отправляю голосовое "Встреча с Петром завтра в три на два часа обсудить бюджет":

▪️ Whisper расшифровывает аудио в текст

▪️ AI Agent смотрит на текст и решает: тут есть человек + время - это create_event

▪️ Из текста извлекает: title="Встреча с Петром", date=нужная дата, time=15:00, duration=120, description="обсудить бюджет"

Передаёт это всё в tool-workflow, который уже сам проверяет конфликты в Google Calendar, создаёт событие, задачу в Todoist, и присылает мне красивое сообщение с кнопками

Ключевой момент: каждый tool-workflow описывает, какие параметры ему нужны. AI Agent видит эти описания и сам понимает, что и откуда достать. Agent разбирается сам, ему лишь достаточно хорошего промпта, чтобы работать безупречно и без ошибок.

Получается чёткое разделение: LLM решает ЧТО делать, а workflow - КАК. AI не лезет в API, не считает таймзоны, не ищет свободные слоты в календаре. Он просто МАРШРУТИЗАТОР.

Сейчас мой scheduler умеет создавать события и задачи голосом, искать свободные слоты при конфликтах и предлагать альтернативы, работать с приоритетами и категориями. несколько инструментов, всё через один telegram бот.

Но вот что самое интересное. Scheduler сам по себе - это workflow. А значит, он тоже может быть tool для workflow уровнем выше. Верхнеуровневый AI Agent будет решать, кому передать запрос:

▪️ Scheduler (календарь + задачи)

▪️ Notes (заметки в Notion/Obsidian)

▪️ Search (поиск информации в интернете)

▪️ Home (умный дом)

▪️ Finance (учёт расходов)

И это масштабируется бесконечно. Каждый слой просто маршрутизатор, который решает, кому передать запрос. На нижнем уровне запрос попадает в конкретный workflow и выполняется. Как дерево, где каждый узел маленький специалист.

При этом каждый workflow тестируется и работает независимо. Они просто получают параметры и делают своё дело. Хочешь добавить новый навык - пишешь workflow, подключаешь как tool, описываешь параметры. Всё.

По факту получается персональный ассистент в Telegram. Записал голосовое, а дальше оно само.

Потенциал крайне большой у этого паттерна, буду смотреть как будет по факту. На данный момент все еще прорабатываю sheduler.

Заходи в мой канал телеграм, чтобы не пропустить обновления по этому кейсу. Там не только про нейронки, там в общем о том, чем я занимаюсь, имея бекграунд разработчика.

Теги:
-1
Комментарии0

Ближайшие события

На Хабре были статьи на тему бесплатного синтеза речи (на русском языке в том числе) онлайн . Проблема в том, что обычно эти онлайн-сервисы по большому счёту платные (бесплатно доступен только маленький фрагмент). А действительно бесплатные страдают качеством.

Поэтому решил порекомендовать сервис, который сочетает оба требования и которым пользуюсь сам. Он доступен только в браузере Edge (отправляет запросы к тем же TTS-серверам, что и сам браузер, но позволяет скачивать результат в MP3).

Ссылка: https://edgetts.github.io/

Важная тонкость — синтез Edge очень капризен к точкам в тексте. В случае ошибок (а для статей с Хабра они очень вероятны) нужно заменить «не заменять точки» на «заменять на 3 строки». Параметр «Объединять MP3» при этом имеет смысл поставить побольше (ставлю около 30 единиц, это даёт фрагменты около 10 минут каждый).

Также ставлю «v3» (это, возможно, не важно). Загрузка у меня идёт по факту всегда в папку загрузок (независимо от выбранной).

Среди голосов (помимо русских) рекомендую BrianMultilingual и EmmaMultilingual (они хорошо работают и с русским).

В общем, это единственный (похоже) доступный пример одновременно качественного и бесплатного онлайн TTS (можно синтезировать MP3 для больших текстов) .

Теги:
+2
Комментарии2

Добавил поддержку типов System.UInt128 и System.Int128 в основную web3-библиотеку для шарпистов/дотнетчиков,— Nethereum. Уже ушло в master, так что если активно используете Nethereum для работы с протоколами, где широко представлены 128-битные типы в событиях/параметрах/результатах вызова функции и страдаете от избыточного потребления памяти BigInteger, то можно уже переключаться на версию из master (для сборки необходим nuget.exe). Особенно это актуально для AAVE, Balancer и Velodrome/Aerodrome (в последних не забывайте использовать packed-кодирование при работе с роутером).

Сейчас обсуждаем с мейнтейнером Хуаном Бланко повышение производительности и снижение потребления памяти при кодировании/декодировании целых чисел в Nethereum, после чего я подготовлю ещё один Pull Request с реализацией и ориентировочно всё эти изменения войдут в следующий релиз.

Если есть идеи, что ещё можно было бы сделать/улучшить, присоединяйтесь к обсуждению в Discord проекта (на английском/испанском) или в issues в репозитории на github.

Теги:
+3
Комментарии0

Почему Телеграм НЕ заблокируют. Мы снова видим театральную постановку "РКН против Телеграма". Когда в медиа столько лозунгов, полезно обратиться к стратегии follow the money и фактам (а не домыслам):

1️⃣ После неудачи с ICO, Телеграм задолжал около $2 млрд серьезным дядям, большинство из которых так или иначе связаны с властями РФ. В 2021-м были выпущены пятилетние облигации на $1.7 млрд, под конские на тот момент 7%. Из разных источников мы знаем, что их держателями стали те же серьезные дяди, иногда через дубайские фонды. Агентами выпуска были ВТБ и Атон.

Обслуживание этого долга (с уже скорым погашением, в марте'26) - большая часть расходов Телеграма. На довыпусках он терял много (techcrunch), так что в деньгах очень нуждался. А в прошлом году выпущены новые облигации на $1.7 млрд, уже под 9%. 

Плюс недавно мы узнали (ft), что $0.5 млрд долга заморожены в российском депозитарии из-за санкций.

Можно приводить много фактов, но кажется и так очевидно, что Телеграм почти полностью финансируется деньгами из РФ. Наверное за исключением покупки облигаций 5 лет назад Джаредом Лето 🙂

2️⃣ Про безопасность переписки телеграма наверное тоже всем понятно, легко нагуглить. tldr: уровень защиты данных возможно худший (!) из всех популярных мессенджеров. А в прошлом году из независимых расследований мы узнали, что наши c вами переписки лежат на серверах, аффилированных с ru-спецслужбами.

3️⃣ А из легендарных откровений CTO Телеграма (medium) мы знаем много внутряка и видим аффилированность телеграма с кем надо с самых первых дней. Тексты написаны очень интеллигентно и аккуратно, между строк легко понять, что к чему в тг.

4️⃣ Вишенка на торте: 8 лет назад может еще и не было технического способа быстро заблокировать тг, но был очень простой и дуболомный, которым пользовались в других странах: направить два имейла, Эплу и Гуглу —> мессенджер выкидывали из сторов. Можно задать себе риторический вопрос, почему ркн этого не сделал.

При этом работоспособность тг не отменяет того, что “все тг-каналы умрут” (раз, два, три) 🙂

5️⃣ Учитывая описанные факты, какой смысл блокировать Телеграм? Такая корова нужна самому. Тем более она своя, родная и лояльная.

Я бы скорее поверил, что тг заблокируют в развитых странах, за те объемы нелегального, что тут есть (пост). Думаю это не происходит только по одной причине - его вес слишком незначителен за пределами постсоветских стран, Ирана и др. Пусть это так и остается 🤞

6️⃣ Вероятность блокировки конечно есть, особенно если мы не до конца знаем, как дела у тг с серьезными дядями. Может это какие-то терки, но скорее всего просто театральная постановка 2.0, чтобы тг снова выглядел оплотом свободы, приватности и независимости.

Теги:
+7
Комментарии7

OpenAPI Generator через призму статического анализатора

Знаете ли вы про OpenAPI Generator — open source проект, задача которого — автоматическая генерация клиентских библиотек, серверных заглушек, документации и файлов конфигурации на основе спецификации OpenAPI в формате JSON или YAML. Проект является достаточно популярным: у него чуть больше 25000 звёзд на GitHub.

Мы проверили его статическим анализатором для языка Java и написали статью про найденные в коде OpenAPI Generator ошибки.

Теги:
+1
Комментарии0

От джуна к сеньору в верификации: как расти

В верификации нельзя стать сеньором просто по стажу или количеству закрытых задач. Каждый следующий уровень — это новая ответственность: за блок, подсистему, качество покрытия, сроки и иногда за других людей. 

Алексей Ковалов, руководитель отдела модульной верификации YADRO, в статье рассказал, как на практике происходит рост от джуна до сеньора. И начинается все с базовых вещей. Команда Алексея использует принцип  «15–45»: 15 минут попробуй разобраться сам, но если за 45 не сдвинулся — иди к ментору. Самостоятельность важна, но умение вовремя эскалировать проблему — это уже признак зрелости.

Внутри статьи:

  • почему «вечный мидл» — это не миф, а распространенный сценарий,

  • как меняется тип задач при переходе между грейдами,

  • что важнее для сеньора: глубина экспертизы или широта инструментария,

  • как не утонуть в покрытии и научиться оценивать объем работы заранее.

Если откликается описанный подход к росту, сейчас хороший момент присоединиться к команде YADRO. Мы открыли Sprint Offer для RTL- и UVM-инженеров. Подать заявку можно до 22 февраля. 

Инженеры занимаются fabless-разработкой микропроцессоров на базе RISC-V — полным циклом от собственного процессорного IP до системного ПО. Работают с IP, SoC, беспроводными системами и высоконагруженными архитектурами.

Теги:
+8
Комментарии0

Kubernetes: правда такой сложный, каким кажется?

В новом выпуске подкаста «В SREду на кухне» разбираем Kubernetes — честно, по фактам и без лишней теории. Говорим о главном:

  • как выбирать между опенсорсным Kubernetes и вендорскими платформами;

  • из чего складывается реальная стоимость владения;

  • когда команда действительно готова к своим кластерам.

И пытаемся понять, почему Kubernetes постепенно становится стандартом инфраструктуры, но при этом универсального решения до сих пор не существует.

Ведущие:

  • Михаил Савин, SRE Community Lead в Авито;

  • Андрей Волхонский, руководитель юнита System в Центре разработки инфраструктуры Авито;

  • Александр Глухих, TeamLead в юните Incident & Problem Managment в Авито.

Гость:

  • Юрий Лосев, технический директор в команде Deckhouse во «Флант».

Смотреть VK
Смотреть YouTube

Подписывайтесь на канал AvitoTech в Telegram, там мы рассказываем больше о профессиональном опыте наших инженеров, проектах и работе в Авито, а также анонсируем митапы и статьи.

Теги:
+24
Комментарии1

Первые башенные часы в Москве установили в 1404 году при сыне Дмитрия Донского Василии I. Это чудо техники создал сербский монах Лазарь из Хиландарского монастыря на Афоне, и минуты оно не показывало, только часы. Но москвичи всё равно дивились новинке, как чуду.

В следующие несколько столетий выяснилось, что хронометр иногда очень раздражает. Общеизвестно, что если чего-то ждёшь, то информация о времени лишь капает на нервы (doi:10.1207/S15327663JCP1203_02, doi:10.1177/19485506231209002), а если торопишься — повышает накал стресса (doi:10.1016/j.actpsy.2022.103702).

Схожим образом дела обстоят с другими технологиями: при первом знакомстве они поражают, при входе в обыденность — начинают бесить.

Было время, когда крупные СМИ гордились написанием статей большими языковыми моделями. В сентябре 2020 года Guardian выложила текст от GPT-3, снабжённый припиской с объяснениями о происходящем. Сообщалось, что мощный текстовый генератор компании OpenAI с нуля написал статью на тему «Роботы пришли с миром».

С миром или нет, но роботы действительно пытались вторгнуться в журналистику. Едва ChatGPT успел открыться, несколько сетевых изданий (Buzzfeed, CNET, G/O Media, Gannett) начали попытки заставить ИИ писать статьи. Последовавшие короткие эксперименты ничем продуктивным не увенчались и были быстро свёрнуты. В языковых моделях читателей не удовлетворили склонность к галлюцинациям и заезженные речевые приёмы.

Галлюцинации часты и обнаруживаются в самых неожиданных местах. Самый недавний пример — статья в издании Ars Technica от 13 февраля, которую в конечном итоге полностью удалили. Техножурналист Брайан Ландюк обратил внимание, что новостная заметка был набита выдуманными цитатами и отсылками на несуществующие статьи.

Как рассказал Ландюку ньюсмейкер, его блог был настроен так, чтобы блокировать запросы от ИИ-агентов. Видимо, ChatGPT или любой другой подобный продукт запрягли написать статью на основе источников, но нейросеть не могла получить доступ к контенту и попросту додумала недостающее. В итоге главреду Ars Technica пришлось приносить извинения.

Что ещё более интересно, читателей выбешивает сам стиль письма языковых моделей. Шесть лет назад эссе от GPT-3 было милым экспериментом, а сегодня «машинность» считается изъяном. И неважно, писал человек или ChatGPT — людям просто не нравится, как пишут языковые модели.

Типичный пример — избыток противопоставлений «Это не X. Это Y». То ли это артефакты выравнивания разметчиками данных из Кении, то ли в датасете предобучения было слишком много сетевых форумов по типу Reddit, но такие противопоставления — яркий маркер ChatGPT.

Материаловед Бен Шиндель обратил внимание на статью в Guardian. Заметка про спортивное поражение Ильи Малинина в олимпийском выступлении в Милане пестрит приёмом «Это не X. Это Y».

Противопоставления разорваны в отдельные предложения:

  • «Это не просто ошибки. Это была цепная реакция».

  • «То, что разворачивалось в Милане, было не просто олимпийским разочарованием. Это был типичный пример работы системы оценок в современном фигурном катании […]».

  • «Что сделало поражение таким шокирующим — не просто его многолетнее доминирование. А то, насколько сильно соревнование накренилось в его пользу ещё до выхода на лёд».

  • «На олимпийском уровне это не просто большой разрыв. Это разница между катанием из позиции контроля и катанием на выживание».

Хотя детекторы машинного письма на этом тексте ещё как срабатывают, представитель Guardian всё равно отрицает, что заметку писала языковая модель. Утверждается, что это такой стиль автора, которым он пользуется 11 лет работы в издании. Как замечает сам Шиндель, у этого автора в прошлом действительно были хорошие статьи, вопрос лишь к заметке про Илью Малинина.

Теги:
+5
Комментарии1