Обновить

Все потоки

Сначала показывать
Период
Уровень сложности

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели18K

Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один?

Два ответа. Первый: ценность бенчмарков – в перекрёстном подтверждении. GPT-5.4 – первое место у нас, в GPQA Diamond, в Lexometrica и в Persuasion Benchmark. Kimi K2.5 – шестое и у нас, и у Lexometrica. YandexGPT и GigaChat – внизу везде, где они вообще есть (в GPQA Diamond из 154 моделей – не попали). Четыре независимых бенчмарка – один и тот же вердикт.

Второй – важнее. Мы не нашли ни одного систематического бенчмарка, который тестирует российские модели бок о бок с глобальными на практических задачах. Если знаете такой – напишите в комментариях.

Наше исследование: 54 модели, 32 сценария на русском языке, промпты как пишет живой менеджер, два LLM-судьи с калибровкой. Обновление предыдущей статьи. Интерактивные результаты – на сайте.

Детали по исследованию

K 40-летию аварии на Чернобыле — как я на станцию гонял

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели1.8K

Немного запоздало, но решил написать свои ощущения и опыт от четырёх командировок на Чернобыльскую АЭС. До аварии.

<cut>

В 1984-1985 годах, я учился на пятом курсе МИФИ, на факультете Кибернетики в группе, специализировавшейся на софте (ПО) по управлению ракетами и ядерными реакторами. Я попал на реакторы и уже к пятому курсу знал о них почти всё. Тогда стало возможным заключать договора между учебным институтами и предприятиями, и официально получать деньги за внеучебную работу. Наша кафедра успешно сотрудничала с физиками со станции и периодически поставляла им всякие программы. И вот я тоже стал писать всякие программы и утилиты, и впервые поехал на станцию, чтобы показать будущим пользователям, как с ними работать.

Всякие смешные случаи про “сухой” закон, про то, как перепугу пропустил свой поезд из Москвы и прочие встречи с автоматчиками на входе на станцию пропущу, чтобы мне не писать, а вам не читать много букв. Напишу про ощущения студента от станции.

Первое, главное и постоянно присутствующее ощущение - радиация. Она везде, она проникает через все стенки, полы, потолок, защиту, через твоё тело и твою голову. От неё не спрячешься нигде, ни в одной комнате. И ты заражаешься, заражаешься, заражаешься. Понятно, что это миф, но этому трудно противостоять вначале. Этому ощущению помогают ещё и все “зализанные” углы. Там нет прямых углов - все стены обклеены специальным защитным покрытием и оно плавно изгибается на всех углах и стыковках. Привык я только где-то к третьей недельной командировке.

Читать далее

Quality Gates в разработке: делаем качество частью процесса

Уровень сложностиСредний
Время на прочтение23 мин
Охват и читатели1.7K

В разработке качество часто ломается не только на самих багах — но и в тех местах, где работа переходит от одного этапа к другому без ясных условий. Задача уже поехала дальше, хотя acceptance criteria ещё сырые. Формально её можно тестировать, но по факту сначала нужно собирать контекст. Пайплайн зелёный, при этом важная проверка вообще осталась за его пределами.

Такие ситуации обычно показывают не частную ошибку, а устройство процесса в целом. Когда важные условия нигде не закреплены, команда расплачивается за это уточнениями, возвратами и лишней синхронизацией. И напротив — если критерии перехода определены заранее, работать проще. Поэтому Quality Gates для нас в Островке — не только способ ничего не упустить, но и понятный маркер того, насколько процесс разработки вообще выстроен и управляем. 

Форма у таких гейтов может быть разной: автоматическая проверка, правило в workflow или простой критерий готовности. Важно не как выглядит гейт, а какую точку неопределённости он закрывает.

Под катом — практический разбор того, что вообще можно считать Quality Gate, где такие механизмы реально работают и как подбирать их под задачи команды.

Читать далее

Как оценивать работу агентов

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели1.9K

По мере стремительного развития агентных систем всё больше компаний — как крупных, так и небольших — рассматривают возможность интеграции агентов в свои рабочие процессы. Неудивительно, что многие лица, принимающие решения в этих компаниях, относятся к надёжности агентов с изрядной долей здорового скептицизма. Против недобросовестного сотрудника можно применить дисциплинарные взыскания и другие меры, но что делать с недобросовестным ИИ?

Читать далее

Как свёрточные нейронные сети видят мир

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели2.5K

Привет, Хабр! Меня зовут Яна Вольнова, я ex-разработчик систем распознавания образов, а сейчас преподаю глубокое машинное обучение в МГТУ им. Н.Э. Баумана и пишу курсы для Яндекс Практикума, например, «Инженер по глубокому обучению нейросетей» и «Компьютерное зрение — CV». Я расскажу изнутри, как устроено нейросетевое компьютерное зрение под капотом и почему «много параметров» не всегда равно «лучшая нейросеть». Речь пойдет о классике — CNN или свёрточных нейронных сетях, а в следующей статье рассмотрим, как работают трансформеры зрения.

Статья будет отличным погружением в тему для тех, кто не работал с компьютерным зрением, либо использовал CNN чисто как инструмент, не разбираясь в механизме работы. 

Читать далее

Практическое руководство по инжинирингу контекста для AI-ассистентов

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели3.9K

Каждая новая сессия с AI-ассистентом для разработки обнуляет накопленный контекст: инструменты мощные, но по своей природе «забывчивые». В итоге мы снова и снова проговариваем стек, соглашения и ограничения, тратя время на восстановление того, что уже было известно вчера.

В статье разберемся, как превратить это слабое место в управляемый ресурс: от простых файлов правил до полноценных слоёв памяти и инфраструктуры, которые позволяют ассистенту работать с учётом накопленного опыта.

Читать далее

Миллион в месяц за блокировки интернета, или чем отличается капитализм от социализма

Время на прочтение8 мин
Охват и читатели8.7K

1941 год, тяжелые бои в Европейской части СССР. Большие военные потери, тяжелое время для экономики, для населения. Фашист вовсю использует радиоканалы связи для продвижения вражеской пропаганды. Ну, например, вещает в радиоэфир, как хорошо жить в Германии и как плохо в СССР. Предлагает сдаться, ну и далее по списку.

Далее в Кремль, к Сталину является компания уважаемых и предприимчивых людей. Предлагает решить проблему. За государственный счет, всего за жалкие пару десятков миллиардов в их личный карман. Главное - как решить? Фактически – перекрыв весь спектр радиочастот, поставив оборудование-глушилки китайского немецкого собственного производства. Чтобы вообще никто вещать не мог. Тогда точно враг достучаться не сможет! А как же собственная связь, суверенная, та самая, которая нужна собственным вооруженным силам и собственному гражданскому населению? А вот так. Как-нибудь.

Товарищ Сталин и успешные предприниматели ударяют по рукам, после этого спешно создается наркомат по надзору в сфере радиовещания. Заместителю его руководителя назначается заплата в 1.5 раза выше, чем у наркома обороны. И в 3 раза выше, чем у наркомов образования и медицины. А зарплата самого наркома по надзору даже не разглашается.

Что это, социалистический сюр? Нет, это капиталистическая действительность.

Читать далее

Почему вредно сразу начинать рисовать макеты

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели3.2K

Или как дизайнеру продукта решать проблемы бизнеса и причём тут заводы с конвейерами.

Представь, к тебе пришли с задачей: в приложении низкие показатели активации пробной подписки. Пользователи скачивают приложение, но мало кто начинает триал. Тебя просят сделать что-то с онбордингом, ведь именно там последняя возможность донести ценность.

Поддавшись природному инстинкту дизайнера, ты открыл графический редактор и начал перерабатывать экраны: сократил количество экранов, обновил визуал, переписал тексты, сделал CTA контрастнее. Вроде бы всё стало лучше и понятнее. Но спустя время, когда пришла пора оценивать результаты работы цифры не сдвинулись: люди всё так же доходят до конца онбординга и закрывают приложение, не включая триал. Ты в замешательстве — время и ресурсы потрачены, а цель не достигнута. В какой момент что-то пошло не так?

Привет я продуктовый дизайнер в Альфа-Инвестициях, хочу поделиться знаниями о фундаментальной вещи, которая лежит в основе продуктового дизайна и гораздо важнее навыков UI, ведь кто будет пользоваться вашей красотой, если пользователь не видит ценности всего продукта в целом? Обо всём по порядку.

Читать далее

Недельный геймдев: #275 — 26 апреля, 2026

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели2.7K

Из новостей: RayLib 6, продажи Pragmata достигли миллиона копий за 2 дня, продажи Clair Obscur: Expedition 33 составили 8 миллионов копий, GFA Games заблокировали банковские счета в России.

Из интересностей: посиделки с разработчиками REPLACED, 7 видов пауз, ощущение живого огня, как продержаться на главной странице itch больше месяца, про технологии No Rest for the Wicked.

Читать далее

Как я создал альтернативу трансформерам

Уровень сложностиСложный
Время на прочтение13 мин
Охват и читатели4.1K

В этой статье я хочу остановиться на разборе предложенной мной архитектуры декодера и тех вариантов, с которыми я сравниваю её в исследовании, но сделать это проще и интуитивнее, чем в самой работе. На мой взгляд, существующие объяснения архитектур декодеров часто подаются разрозненно. Каждый подход описывают отдельно, без общей опоры. А ведь всё можно свести к одному фундаменту, и тогда становятся гораздо заметнее как сильные стороны каждого решения, так и их ограничения.

Читать далее

Топ антипаттернов для MongoDB, которые снижают производительность

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели2.7K

Многие из нас любят NoSQL. И MongoDB среди них является одним из топ-любимчиков. Очень часто мы выбираем нашу «Монгу» за гибкость и скорость. И это вполне логично, ведь MongoDB почти никогда не подводит... сразу. Неприхотливая, шустрая, удобная - она ведет себя как идеальный помощник: не требует лишнего, принимает любые данные, не задаёт неудобных вопросов про схему и с готовностью отвечает на каждый запрос за считанные миллисекунды.

Но потом ты начинаешь подозревать что-то неладное. И, что самое главное, происходит это не сразу, а постепенно. Сначала один запрос начинает задерживаться немного дольше обычного, потом еще один. Там, где раньше было 10-20 миллисекунд, становится 100. Ты замечаешь, что графики ведут себя странно. И начинаешь искать причину: грешишь то на версию софта, то на железо, то думаешь, что сама MongoDB какая-то не такая.

Но ответ очень часто лежит на поверхности: MongoDB не становится медленной сразу. Она лишь честно исполняет те правила, которые ей задали. И если присмотреться, почти за каждым снижением производительности стоит вполне конкретный антипаттерн.

В своей статье я предлагаю разобрать распространенные антипаттерны, которые встречаются при проектировании и работе с MongoDB. Также посмотрим на реальные известные случаи пользователей, которые в своей работе сталкивались с проблемами с MongoDB.

Читать далее

Человек-команда в роли Эйса Вентуры: как с помощью no-code и ИИ собрать простую заявочную систему

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели3.4K

Всем привет! Практически любая организация — от муниципалитета до стартапа — постоянно принимает поток разнообразных обращений. Навести порядок и ускорить их обработку можно с помощью простой заявочной системы: назначить ответственных, быстро подготовить нужные документы. Для этого подойдут готовые Helpdesk- или Servicedesk-системы, но их часто нужно интегрировать с уже имеющимися инструментами. Они хорошо работают для сложных бизнес-процессов с большими объемами заявок, но стоят дорого и требуют затрат на внедрение и поддержку. В общем, это развлечение для крупных и средних компаний. Для более простых кейсов можно собрать свою небольшую систему, используя no-code-платформы.

Меня зовут Иван, я бизнес-аналитик в MWS. В этом материале расскажу о реализации заявочной системы на платформе MWS Tables, где я взял на себя не только свою работу, но и функции всей команды — от архитектора до тестировщика. Таких примеров много, и на этом видно, как no-code и разумное использование нейросетей позволяют быстро автоматизировать бизнес-процесс и адаптировать его под меняющийся ИТ-ландшафт.

Читать далее

Краткая история биометрии: как ПЦР-метод изменил идентификацию по ДНК

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели4.1K

В 1980-е годы произошли еще два события, благодаря которым биометрия теоретически превращалась в абсолютно точную науку. В 1984 генетик из Лестерского университета Алек Джеффрис открыл в ДНК человека повторяющиеся последовательности нуклеотидов, уникальные для каждого человека, а в следующем 1985 году в журнале «Nature» он опубликовал одну за другой две статьи, которые сделали его открытие, как любили говорить как раз в те годы в нашей стране, достоянием гласности. 

В номере «Nature» от 7 марта 1985 года в статье под заголовком «Гипервариабельные «минисателлитные» участки в ДНК человека» он писал: «Геном человека содержит множество диспергированных тандемно повторяющихся «минисателлитных» участков из 10-15 пар оснований… Многие минисателлиты сильно полиморфны из-за аллельных вариаций в количестве копий повторов в минисателлитах. Зонд, основанный на тандемном повторении ядерной последовательности, может одновременно обнаруживать множество сильно вариабельных локусов и служить индивидуальным “отпечатком” ДНК при генетическом анализе человека».

Читать далее

Ближайшие события

Open WebUI (с веб-поиском) + llama.cpp

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели7.9K

Когда я решил использовать веб-поиск в OpenWebUI результат оказался бесполезным. Гайд по настройке, чтобы получать хоть сколько-то приемлемый результат найти не удалось ни на русском, ни на английском. Поэтому решил собрать всё что удалось найти в этой статье.

Читать далее

Путь до CTO: как пройти его самому и помочь пройти другому

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели5.1K

Путь к роли CTO обычно не связан с одним переломным моментом. Он складывается из последовательных изменений в мышлении, фокусе и подходе к управлению. С ростом ответственности меняется оптика: задачи команды постепенно уступают месту системным связям внутри компании, а краткосрочные цели — решениям с горизонтом в годы.

В статье поговорим о ключевых переходах, через которые проходят руководители на этом пути, и практики, позволяющие заранее выйти на следующий уровень — еще до формального повышения.

Как стать CTO

Лечим загрузчик часов Redmi Watch 5 от падений

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели4.2K

Разбираюсь с очередной моделью Xiaomi, отличная система, неплохой по железу девайс, но как всегда не идеален. Попытки обновить китайскую версию на глобальную, или перепрошивка демо часов вводят часы в состояние, которую обычный пользователь может назвать труп.

Под капотом оказывается не совсем так, я покажу что происходит с прошивкой и почему выбранные архитектурные решения приводят к такому результату, а также покажу как исправить эту ситуацию.

Читать далее

Загадочный чатбот из 60-х, к которому стояли очереди из девушек

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели5.4K

В одном из кампусов Массачусетского техинститута в 1966 году стали происходить очень странные дела. У дверей одной из лабораторий начали собираться стайки студенток и лаборанток, которым очень нужно было попасть внутрь хотя бы на 10 минут.

Нет, там не крутили только что вышедший битловский “Revolver”. Приманка для прекрасного пола была несколько технологичней: внутри располагался первый в истории созданный человеком чатбот. Его, а вернее её, звали ELIZA и она умела пленять собеседников не хуже античной сирены.

И это пугало ее создателя.

Читать далее

Чтение на выходные: «Геймдизайн. Рецепты успеха лучших компьютерных игр» Тайнана Сильвестра

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели4.5K

Если вы хоть раз залипали в игру до трёх ночи, а наутро не могли объяснить, почему — эта книга для вас. Если забрасывали разрекламированный блокбастер через час и не могли сформулировать, что бесит — тем более. Тайнан Сильвестр, дизайнер BioShock, написал инженерный трактат о том, как проектировать эмоции. В нём нет кода для игрового движка и советов в духе «сделайте героя быстрее». Есть система координат, в которой можно анализировать любой игровой опыт.

Первое, что он объясняет: события в игре не прописаны заранее. Они возникают сами, когда игрок взаимодействует с механикой. Сильвестр замешкался с прыжком в Super Mario Galaxy — Марио коснулся лавы, загорелся и взлетел как ракета, но игрок продолжал управлять им и вывел в безопасное место. Ничего из этого на диске нет. На диске только правила: гравитация, реакция на лаву, управление в воздухе. История родилась сама собой, когда игрок и механика встретились. Геймдизайнер, говорит Сильвестр, не пишет сценарии. Он собирает машину, которая их производит.

Эмоции в этой системе возникают, когда событие меняет человеческую ценность — переводит игрока из «невежества» в «знание», из «одиночества» в «вместе», из «опасности» в «безопасность». Это работает даже с информацией, которой у игрока нет. В хорроре вы идёте по коридору, зная, что за одной из дверей убийца. Вы ещё не умерли, не встретили его, но тревога уже есть. Потому что бессознательное просчитывает возможное будущее.

Отсюда — ключевое понятие информационного баланса. Игра не должна давать слишком мало информации, иначе игрок тыкается вслепую.

Читать далее

Шестибитный процессор с робкими картинками

Уровень сложностиСложный
Время на прочтение76 мин
Охват и читатели10K

Итак, в первой части я смело пообещал вторую статью «из одних картинок», но… мой маленький часовой кукушонок настолько похужал и возмудел за прошедшее время, что пришла пора знакомиться с ним, можно сказать, заново. Оптимизация не пощадила практически ничего, и, хотя я там же в камментах бо́льшую часть перемен отразил — всё равно надо начать с того, что же в сумме у нас получилось.

Нырнуть в кроличью нору

С Vim удобно программировать (часть I)

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели12K

Статья о том, как своими руками в Vim сделать универсальный (т.е. работающий для разных языков программирования) REPL (от англ. read-eval-print loop — цикл “чтение — вычисление — вывод”), да и просто сделать этот редактор более удобным.

Читать далее
12 ...
50