Обновить
1024K+

Искусственный интеллект

AI, ANN и иные формы искусственного разума

2 119,52
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Почему диффузия рисует швы на 40-мегапиксельных фото и как сделать тайлы с памятью

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели4K

У видео-моделей есть память между кадрами. У диффузионных фото-моделей - нет. Именно поэтому стандартный тайлинг профессиональных кадров на 40-150 мегапикселей всегда даёт лестницу швов на градиенте неба, плывущий цвет на коже и драматический перепад текстур на границах тайлов.

Я двадцать лет работаю ретушёром и четвёртый год пытаюсь это починить, приспособить диффузионки к профессиональной съёмке. Все эти годы любой подход, что мой, что чужой, крутится вокруг одного: режем картинку на 100+ тайлов, обрабатываем каждый отдельно, склеиваем обратно. И каждый раз вылезает то же самое - тайлы не согласовываются между собой.

В статье разбираю три идеи о том, как у фото-модели может появиться память между соседями. Восемь архитектурных классов памяти из видео-диффузии (BCLA из SANA-Video, FramePack, SVD reshape, AnimateDiff и другие): какие переносятся на тайлы, какие нет и почему.

Читать далее

Поиск решений управляемый данными. Направления развития

Время на прочтение3 мин
Охват и читатели4.3K

Это заключительная статья серии. Экспертная система, состоящая из информационных блоков и словаря, реализованная на принципах технологии поиска решений управляемого данными, позволяет накапливать и сохранять прикладные знания. Наполнение системы знаниями целиком и полностью доступно прикладным специалистам. Появляется возможность реализации прикладных задач в самых разных предметных областях с минимальным привлечением ИТ-специалистов, и практически без традиционного программирования. Опираясь на сохранённые знания, узкие прикладные специалисты могут автоматизировать свои насущные задачи. Радикально снижаются затраты на разработку и одновременно получается качественный, масштабируемый и легко сопровождаемый продукт.

Читать далее

Seedance 2.0: что это такое, обзор возможностей модели и примеры промптов для теста генератора видео

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели3.3K

Прошло уже несколько месяцев с момента анонса Seedance 2.0. Несмотря на большой ажиотаж вокруг этой модели, ее публичный релиз состоялся позже, чем ожидалось.

Причина стала ясна довольно быстро. Seedance 2.0 привлек внимание благодаря своей исключительной способности генерировать реалистичных людей, узнаваемых персонажей и сцены, которые выглядели настолько похожими на настоящие кинокадры, что это вызвало даже некоторое беспокойство.

Seedance 2.0 — это унифицированная мультимодальная система для генерации аудио и видео с входными данными в виде текста, изображений, аудио и видео.

Модель стала попадать в заголовки мировых СМИ не просто потому, что результаты были качественными и «кинематографичными». Они были настолько реалистичными, что у людей возникало чувство беспокойства. Именно по этой причине широко распространились ролики с лицами Уилла Смита, Тома Круза и Киану Ривза.

Читать далее

Поиск решений управляемый данными. Клиент-серверная архитектура и WEB

Время на прочтение6 мин
Охват и читатели3.4K

Поиск решений управляемый данными предполагает постоянное взаимодействие с пользователем. База знаний должна позволять одновременно обслуживать несколько клиентских мест. В статье рассматриваются принципиальные вопросы различных вариантов организации взаимодействия пользователей с экспертной системой (локально, в локальной сети, через интернет).

В статье не рассматриваются вопросы технической реализации типа: REST/SPA‑подход или long polling / WebSocket / server‑side session / event sourcing.

Читать далее

От выявления фальшивок до тонкостей комплаенса: чему банки обучали сотрудников с XVIIв. до наших дней — и при чем тут ИИ

Время на прочтение7 мин
Охват и читатели3.5K

Еще два-три столетия назад «взять и обучить» клерка мог только сам банк. Однако и сегодня, когда подготовкой специалистов занимаются топовые вузы, банки не пренебрегают корпоративным образованием. Рассказываем, как и чему банки учили сотрудников — 400 лет назад, в начале XX века и сейчас — и почему многие современные компании (включая МКБ) в этих вопросах делают ставку на ИИ.

Читать далее

Охота на CVE в Cursor IDE: полный технический разбор безопасности AI-редактора

Уровень сложностиСложный
Время на прочтение11 мин
Охват и читатели3.7K

Cursor — AI-powered IDE на базе VS Code, которая обрабатывает миллионы строк кода разработчиков через свои серверы. Когда я задумался о безопасности этого продукта, возник вопрос: насколько надёжна серверная модель авторизации, которая стоит между бесплатным пользователем и Claude 4 Opus?

Читать далее

ChatGPT не промахнулся ни в одном из пяти медицинских кейсов. И всё равно проиграл. Разбираем, почему

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели3.7K

В эксперимент мы шли с уверенностью, что ChatGPT хотя бы раз из пяти промахнётся с главным диагнозом. Не промахнулся. Пять из пяти: метаболический синдром, субклинический гипотиреоз, перименопауза, MGUS, статин-индуцированный рабдомиолиз. Ставка проиграна, но самое интересное оказалось не здесь.

Модели разошлись сразу после диагноза. У ChatGPT провалилось то, что в клинической работе называется «что пациент делает в ближайшие две недели»: к каким врачам идти, какие обследования сдать до начала терапии (ПСА перед заместительной терапией тестостероном, маммография перед МГТ), какие целевые уровни держать и когда перепроверять, как прочитать соотношение АСТ и АЛТ при рабдомиолизе. На четырёх плановых кейсах эта разница повторилась одинаково.

А на пятом — кейсе MGUS — проиграл уже МедАссист. ChatGPT и соотношение альбумин/глобулин посчитал явно, и конкретный список подтверждающих тестов для гематолога назвал — мы не сделали ни того, ни другого. Раздел про этот кейс у нас расписан подробнее остальных: мы договорились разбирать свои промахи внимательно, а не проматывать.

Оговорюсь сразу. Пишем мы от команды, которая делает МедАссист, — один из двух сервисов в сравнении. Интерес у нас есть, прятать его бессмысленно. Поэтому методику мы зафиксировали до первого прогона, ответы обоих сервисов приводим слово в слово, а кейс, где мы проиграли, разбираем подробно. Судить, насколько это уравновешивает конфликт интересов, — читателю.

Читать далее

Знакомство с одним прогоном Mythos применительно к Firefox: а разговоров-то было?

Время на прочтение33 мин
Охват и читатели6.1K

Когда компания Anthropic анонсировала свою большую языковую модель Mythos , на первый взгляд этот инструмент произвёл неиллюзорное впечатление, а кого-то и всерьёз озаботил. Но, вчитавшись в материалы о Mythos, замечаешь, что общественный отклик не столь однозначен, как броские заголовки. То и дело приводится цифра «до 20 000 долларов», но она не означает, что Mythos походя нашла один катастрофический баг, поиск которого был оценён в такую сумму. В собственном отчёте компании Anthropic описано, что в эту сумму входит обширный поиск, сложившийся из тысячи взаимодополняющих прогонов, а найдено было несколько десятков трофеев. Бесспорно, это тоже замечательное достижение, но правда отличается от той патетической версии событий, которую подхватила молва. Далее компания Mozilla выпустила статью, в которой рассказала, что при помощи Mythos удалось выявить в браузере Firefox 150 множество проблем, найденных средствами ИИ, причём, они клонят всё к тому же: искусственный интеллект всерьёз заявил о себе в поиске уязвимостей. В оригинале этот пост называется «The zero-days are numbered» (Нулевые дни сочтены).

Читать далее

Неприятный антиутопический мир центров обработки данных для ИИ

Уровень сложностиПростой
Время на прочтение18 мин
Охват и читатели5.2K

Когда мы ехали по юго-западу Мемфиса, КеШон Пирсон попросил меня опустить окно автомобиля — выяснилось, что наш пункт назначения лучше не просто увидеть, но и унюхать. По пути мы проехали мимо заброшенной угольной электростанции справа, а затем — действующей электростанции слева, оснащённой огромными газотурбинными установками. Пирсон, руководитель некоммерческой организации «Мемфисское сообщество против загрязнения», вёз меня к новейшему промышленному мегапроекту своего родного города.

В воздухе уже витали запахи сажи, бензина и асфальта. Потом я почувствовал покалывание, поднимающееся по ноздрям и спускающееся в горло, как будто я простудился. Когда мы приблизились, я услышал грохот кранов и грузовиков, а затем из-за группы деревьев проступил целый лес электрических опор. Наконец я увидел его — ангар с белыми стенами, размером больше дюжины футбольных полей, где Илон Маск намеревается создать бога.

Это «Колосс» («Colossus») — центр обработки данных, который компания Маска по разработке искусственного интеллекта xAI использует в качестве полигона для обучения Grok, одной из самых передовых в мире моделей генеративного ИИ. Обучение этих моделей требует ошеломляющего количества энергии; если «Колосс» будет работать на полную мощность в течение года, он будет потреблять столько же электроэнергии, сколько 200 000 американских домов. Как написал Маск в X, при полной загрузке этот объект и два других близлежащих дата-центра xAI будут потреблять почти два гигаватта энергии. Ежегодно эти объекты могут потреблять примерно в два раза больше электроэнергии, чем весь город Сиэтл.

Читать далее

Вышел DeepSeek V4. Почему это очень плохо для США?

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели8.5K

DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного.

Вот в чём дело.

Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна.

Здесь и начинается проблема.

Читать далее

Как я пришёл в аналитику, устроился в бигтех и понял, что только на рабочих задачах у меня не получится расти

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели8.7K

Всем привет! Меня зовут Сергей Тимакин, мне 22 года. Я учусь в онлайн-магистратуре НИЯУ МИФИ в партнёрстве с Яндекс Практикум на программе «Специалист по работе с данными и ИИ» и работаю аналитиком данных в Озоне. В статье рассказываю, как я стал аналитиком, устроился в Озон, зачем пошел онлайн-магистратуру и как я совмещаю учёбу с работой.

Читать далее

Наглядный пример, зачем нужны агенты

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели10K

Расскажу историю длиною в полгода, на которой прекрасно прочувствовал все прелести современных инструментов и способов эксплуатации llm.

Идея до жути простая и наверняка встречалась или приходила в голову очень многим, кто начинал задумываться об использовании llm api или после знакомства с rag. В августе 2025 года папа предложил мне создать хороший поисковик-анализатор новостей: ты даешь ему список источников и пожелания того, что хочешь увидеть в ответе, он тебе присылает в выбранный интервал сводку с источниками и отвечает на твои вопросы. Казалось бы, классическая задача чтобы показать всем удачное применение rag, словить аплодисменты и разойтись. Так показалось и мне, и я буквально за 1-2 месяца работая в свободное время собрал вполне достойный прототип. Он умел хорошо искать семантически, просить llm сформировать ответ на основе найденных постов и даже помогал их открывать. В мыслях салюты, шампанское и ai единороги.

Но реальность

Довольно быстро на самотестировании я нашел два серьезных упущения: первое - сложный запрос для такой системы оставался недопустимой роскошью: попытка найти “причины шатдауна правительства США” в лучшем случае приводила меня к заголовкам про Трампа и что-то там про переговоры, а иногда и вовсе такого рода запросы не давали никакой выборки по базе; второй серьезной проблемой стало абсолютное непонимание предметной области, если того же Трампа вектора в базе еще ставят в один ряд с Америкой и политикой, то вот ЦБ РФ может запросто восприниматься как Россия или вообще непонятная модели сущность, а может вообще трактоваться как два отдельных слова. В целом обе эти неприятности подсвечивают один известный изъян всей системы - слишком большое доверие к семантической схожести и вытекающие из нее проблемы: размытие смысла на длинных запросах, непредсказуемое поведение имен собственных, поиск связей по частотному сходству, а не смыслу.

Читать далее

SASпокалипсис отменяется: почему рынок неправильно считает угрозу ИИ-агентов для корпоративного софта

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели3.3K

SaaS Enterprise Software AI Agents Adobe Firefly Salesforce Agentforce Claude Code ChatGPT inference per-seat per-action buyback P/E инвестиции

Читать далее

Ближайшие события

Почему Хомский неудобен для AI-индустрии

Уровень сложностиСложный
Время на прочтение5 мин
Охват и читатели9.2K

О grammar constraints, валидном JSON и ошибочном понимании языка

Кажется, что разговор о формальных грамматиках в LLM - это узкая инженерная тема для тех, кто заставляет модель соблюдать формат ответа. Но вокруг этого частного приема все чаще вырастает более сильный тезис: будто ограничение генерации не просто делает вывод надежнее, а подводит модель ближе к смыслу, пониманию и даже к самой природе языка. Именно в этот момент технический разговор перестает быть только инженерным.

Читать далее

Чем умнее становятся модели, тем больше ценится способность ясно мыслить и точно формулировать намерение

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели6.9K

Image gen by ChatGPT Images 2.0

К такому выводу я пришел совместно с Сlaude, Grok, Qwen и ChatGPT, но рассказываю по порядку...

А началось с того, что пришла шальная мысль: "Риторика, которую и за предмет не считали, может оказаться весьма востребованным навыком."

Приглашаю обсудить и узнать, что думают про это современные фронтир модели.

Читать далее

Как я снимал короткометражку с тремя нейросетями и одним агентом

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели4.8K

Девять дней, ~200 долларов на кредиты, 12 рабочих сессий, 410 генераций. Короткометражка называется «Пиньята». Сцена: бандит врывается в квартиру, находит труп в петле, бьёт битой, из трупа сыплются конфеты; съел одну — улетел в цветной сон про деревню, жену и медведя на балалайке; получил пощёчину от напарника, собрали конфеты и ушли.

Читать далее

DeepSeek v4 на 1.6 трлн параметров, GPT-5.5 и Kimi K2.6, SpaceX собирается купить Cursor, пока ИИ-агенты нанимают людей

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели5.4K

Привет, это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий.

Неделя насыщенная: релиз GPT-5.5 и Kimi K2.6, новая и самая крупная модель от DeepSeek, а ещё открытый Qwen3.6-27B. Пока GPT Images 2.0 обгоняет Nano Banana, Илон Маск договорился о цене в $60 млрд за покупку Cursor, а Цукерберг начинает следить за каждым чихом сотрудников в Meta*.

Всё самое важное — в одном месте. Поехали!

* Признана экстремистской и запрещена в РФ

Читать дайджест →

Проблема промпта «пиши как человек»

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели4.1K

Борьба с «запахом ИИ» (вымарывание деепричастий, списков и канцелярита) — бессмысленная некромантия. Это происходит из‑за путаницы: попытки лечить стилистические симптомы, забывая об онтологии текста. «Пиши как человек» — это команда алгоритму сымитировать субъектность.

Сделаем «шаг назад», обратимся к филологической базе. Чтобы понять, почему текст выглядит мертвым, достаточно вспомнить, что такое функциональные стили речи и типы текстов.

Филологическая база против «Промпт‑инжиниринга»

Есть разные задачи — есть разные комбинации стилей (научный, официально‑деловой, публицистический, художественный) и типов (описание, повествование, рассуждение).

— Инструкция (как пить таблетку, как настроить сервер) — это императив и алгоритм. Здесь нет места рефлексии или метафоре.
— Новость из 4 предложений. Сухое изложение фактов: на острове таком‑то началось извержение вулкана. Географическая справка, когда последний раз извергался. Эвакуация населения.
— Рассуждение, анализ, публицистика — это зона парадокса, конфликта и мышления автора.

В базовом состоянии ИИ выдает усредненный, безопасный научно‑популярный канцелярит — один вариант на все случаи жизни, и по форме, и по содержанию. Примерно такой же бессмысленный, как ответ 42 на вопрос о жизни, вселенной и вообще.

Читать далее

ИИ дал одиночке студию. Проблема в том, что студия арендована

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели6K

Черновик идеи: переносимый manifest для AI-пайплайнов с авторством, лицензией и provenance. Как описывать маршруты между моделями так, чтобы они не зависели от одной платформы и могли сохранять вклад участников.

Читать далее

Поиск решений, управляемый данными. Тестирование и документирование

Время на прочтение4 мин
Охват и читатели2.7K

В предыдущих статьях были рассмотрены вопросы представления предметных знаний простыми и понятными для прикладных специалистов формами информационных блоков. Использование терминологического словаря предметной области в качестве естественного языка для представления знаний значительно облегчает процесс подготовки информационного наполнения системы. Так же были подробно описаны механизмы управляющие поиском решений.

Эта статья о том, как технология поиска решений, основанная на информационных блоках, способствует упрощению тестирования прикладных приложений и обеспечивает документирование получаемых решений.

В качестве иллюстративных материалов использованы фрагменты реальных приложений. Эти приложения относятся к таким прикладным областям, в которых нейросетевые технологии могут найти лишь ограниченное применение. В задачах конструкторско‑технологической и медицинской направленности требуются точные, обоснованные и воспроизводимые решения.

Читать далее