Представлен открытый проект abogen для превращения любой книги в аудиокнигу. Поддерживает много языков, качественные голоса от одной из лучших моделей KokoroTTS. Если никакой голос не подходит — можно создать свой. Простая установка.


AI, ANN и иные формы искусственного разума
Бывший топ-менеджер OpenAI и Facebook Питер Денг рассказал, что борьба за специалистов в сфере искусственного интеллекта ведет к все большему разрыву в зарплатах между исследователями и другими сотрудниками технологических компаний.
В подкасте Unsupervised Learning Денг пояснил, что компенсации ведущих специалистов растут стремительно, в то время как многие другие сотрудники, также вносящие значимый вклад в продукты и развитие компаний, получают существенно меньше. По словам Денга, «HR-отделам придётся в какой-то момент заняться этой проблемой».
Денг сравнил ведущих исследователей ИИ со спортивными звёздами, за которых IT-компании ведут ожесточённую борьбу. Подобные специалисты получают многомиллионные контракты и предложения от крупнейших игроков — OpenA, Anthropic, Perplexity, xAI и других. Аналогии со спортом звучат все чаще: вице-президент по ИИ в Databricks Навин Рао ранее называл таких учёных «Лебронами Джеймсами» мира технологий.
Однако за пределами «первой лиги» остаётся большое количество инженеров и специалистов, чьи доходы несопоставимы с уровнем ведущих исследователей. Это создаёт риск недовольства и дисбаланса внутри компаний.
ImageSorcery 01 - Как я свой open source вайбкодил
Скажу честно, я хотел написать статью, для того чтобы рассказать о своём проекте ImageSorcery MCP. Но не хотелось писать рекламный BS о том какой он крутой. Хотелось сделать месседж более личным и искренним. Так статья превратилась в серию постов-заметок о всех тех граблях инструментах и практиках, которые мне удалось попробовать на пути от идеи до 100+ звёзд на гитхабе и ~100 ежедневных установок с pypi. А так как я фанатик экономии, весь стек в основном бесплатный (включая LLM) и часто не самый популярный.

В компании где я работаю, у меня сложилась репутация, как это принято сейчас говорить, ИИ-энтузиаста. Из-за чего ко мне однажды обратилась Системный Аналитик, которая только начала внедрять RooCode и столкнулась с какой-то проблемой полнейшего тупняка ИИ. Бесплатная веб версия Claude на раз два превращала Верхнеуровневые Бизнес Требования заказчика в детально проработанное Техническое Задание. Но копировать туда-сюда - не продуктивно, а ещё лимиты эти… Решилась она попробовать рекомендованный мною RooCode с Gemini flash. Установила впервые IDE VSCode, запустила и поставила плагин RooCode, подключила Gemini модель и попыталась скормить ему ту же задачу, но в ответ получила какой-то откровенный бред. Вместе мы выяснили, что для адекватной работы RooCode (а ещё его предшественника Cline и, скорее всего, последователя Kilo Code) требуется не просто запустить VSCode, но ещё и создать в нём проект с соответствующей директорий где-то в системе. А если ещё и все материалы сложить в эту директорию - их можно не копипастить и даже не драгндропать, а меньшонить через @ что намного удобней. (Даже мне стало плохо от обилия англицизмов в этом предложении, извините). Кроме того, выяснилось, что промпт содержал помимо текста ещё ссылку на Figma дизайн. А RooCode, несмотря на то что может используя браузер, какую-то осмысленную деятельность с этой ссылкой вести. При наличии у него Figma MCP справляется гораздо эффективнее.
И теперь бесплатный Gemini flash под капотом RooCode засиял во всей красе. Промпты стали проще и читаемей. И благодаря доступу ко всем необходимым файлам (ВБТ и шаблон) и инструментам, RooCode ваншотом не просто создал качественное ТЗ в формате markdown (привет markdown preview плагин), но ещё и наполнил его нужными скриншотами прямо в теле документа, чего Claude не мог.
Вот только осталась одна проблема: он использовал скриншоты целых экранов, и не смог их порезать на кусочки для документирования соответствующих секций: шапка, меню т.п.
Фигня война! - сказал я, — наверняка есть MCP который это делает.
Погуглив вместе минут 15 мы обнаружили, что такого нет. Но так как нарезка экранов на скриншоты - привычная для системного аналитика задача, она поблагодарила меня за получившийся результат и убежала на другой звонок. А я остался сидеть глядя в пустой монитор с непониманием, почему такая простая и очевидная задача ещё не решена.
Так появилась идея ImageWizard - взять ImageMagic и прикрутить к нему MCP протокол.
А почему сейчас проект и называется иначе и никакой связи с ImageMagic не имеет, расскажу в следующей серии.
Репозиторий: https://github.com/sunriseapps/imagesorcery-mcp
Сайт: imagesorcery.net

AI-синхронизация губ: от Wav2Lip до коммерческих решений
Технологии автоматической синхронизации движений губ с аудио перешли от исследовательских проектов к готовым продуктам. Современные сервисы создают реалистичное видео за секунды, где персонаж произносит любой текст с сохранением деталей лица.
Ключевые прорывы
Wav2Lip (2020, IIT Hyderabad) стал первой моделью, работающей без предварительного обучения на конкретном человеке. Исследование показало возможность генерации синхронизированного видео на основе GAN-архитектуры с дискриминатором, обученным отличать реальные движения губ от синтетических.
FaceFormer от Microsoft Research (2022) применил трансформерную архитектуру. Модель использует 6-слойный Transformer для обработки MFCC-признаков аудио и генерирует 768 3D-точек лицевых landmarks с учетом временных зависимостей.
Коммерческие решения
Lipsync 2.0 от Sync Labs работает как zero-shot модель без настройки. Поддерживает обработку видео с несколькими говорящими в кадре.
D-ID Creative Reality Studio генерирует говорящие аватары из статичных фото, ограничен 5-минутными роликами в базовой версии.
Synthesia ориентирована на корпоративный сегмент с готовыми AI-аватарами. Стоимость от $30/месяц за 10 минут видео.
Технические характеристики
Производительность:
CPU Intel i7: 1 секунда видео за 30-45 секунд обработки
GPU RTX 3060: соотношение 1:3
GPU RTX 4090: близко к real-time (1:1.2)
Метрики качества:
LSE-D (точность синхронизации): лучшие модели <8.0
SSIM (сохранение деталей): целевое значение >0.85
FID (реалистичность): оценка качества генерации
Практические применения
Стриминговые платформы: Netflix автоматизирует дубляж сериалов, сокращая локализацию с 3-6 месяцев до 2-3 недель.
Образование: Coursera тестирует многоязычные версии курсов с автоматической синхронизацией губ преподавателей.
Соцсети: TikTok экспериментирует с автопереводом популярных роликов, YouTube Creator Studio планирует функцию автодубляжа к 2026 году.
Ограничения
Качество исходного материала: требует четкого видео минимум 256×256px с углом поворота головы ±30° от фронтального.
Языковые особенности: модели обучены на английском. Для агглютинативных языков (финский, турецкий) точность падает на 15-20%.
Детекция артефактов: современные детекторы находят AI-генерацию с точностью до 95% (FakeSpotter — 94.2%, Microsoft Video Authenticator — 91.8%).
Открытые инструменты
Wav2Lip GitHub — базовая модель с предобученными весами
FaceFormer — трансформерная архитектура
Google Colab notebooks для экспериментов без установки зависимостей
Следующее поколение моделей будет работать в реальном времени для видеозвонков и включать генерацию жестов, синхронизированных с речью.
Представлен сервис Kira.art, который позволяет редактировать картинки прямо в чате. Все просто: грузим картинку и описываем, что хотим получить. Никаких кистей, слоёв и прочих инструментов. Можно поменять оттенок глаз на фото, добавить или удалить фон и другие предметы, создать арт или стилизовать пикчу, например, в аниме. Внутри также есть встроенный апскейлер — бустануть качество фото можно в несколько раз. Никаких сложных промптов, диалог идёт на естественном языке.

С учётом бурного роста популярности чат‑ботов вроде ChatGPT и того, что некоторые пользователи склонны слишком доверять информации, которую такие инструменты выдают, интересно посмотреть, откуда они её берут. Такие данные (по состоянию на июнь) есть у аналитиков Semrush по 150 тысячам цитирований.
В Visual Capitalist представили инфографику с ресурсами в сети Интернет, на которые чаще всего ссылаются ИИ‑модели вроде чат‑ботов ChatGPT. Некоторые пользователи склонны слишком доверять информации, которую такие инструменты выдают по запросу к ИИ-системам.
Самым популярным источником знаний для ИИ оказался Reddit — форум упоминается в 40% цитат. За ним с большим отрывом идёт «Википедия», дальше — YouTube и Google.
Оказалось, что ИИ-системы в основном модели полагаются на дискуссии на форумах и контент, курируемый сообществами модераторов, отмечают в Visual Capitalist. В связи с этим есть риск, что распространённые там взгляды, неточности и предвзятости могут перекочевать в ответы моделей и распространиться ещё шире.

Валидация RAG с помощью RAGAS — доклад на IT-конференции GoCloud Tech 2025 ☁️

Retrieval-Augmented Generation — мощный инструмент, но вы уверены, что ваш RAG действительно работает? RAGAS — это метрика, которая даст ответ. По ходу доклада разберемся, как оценивать качество генерации, релевантность документов и достоверность ответов. Поговорим о метриках и пайплайнах, а также покажем, как найти слабые места в RAG-системе до того, как это сделает пользователь.
Трек: AI&ML — про AI-продукты нашей разработки и работу с GenAI. Узнаете, как устроены RAG-системы и мультиагентные ассистенты, а также, для чего они уже применяются и как начать их использовать.
📅 Когда: 3 сентября в 12:00 мск
Что еще интересного будет на GoCloud Tech, смотрите в программе конференции.
Исследователи из Чикагского и Роттердамского университетов выяснили на базе изучения данных 67 тыс. собеседований, что при большой загрузке и текучке голосовые ИИ‑агенты более эффективно отбирают кандидатов на работу, чем люди.
Проблема человеческого фактора в рекрутинге — это усталость, предвзятость и непоследовательность.
Рекрутеры‑люди могут забывать задавать ключевые вопросы, особенно при массовом подборе. Исследование показало, что ИИ‑агенты, в отличие от людей, всегда придерживаются сценария, охватывая значительно больше важных тем. В результате у нанимающих менеджеров оказывается больше релевантной информации для принятия решения, а усталость, предвзятость и непоследовательность рекрутёров‑людей наоборот игнорируется с помощью ИИ.
Хотя ИИ‑агенты ускорили процесс назначения собеседований, рекрутерам‑людям требовалось в два раза больше времени на проверку результатов таких интервью. Выгода от использования ИИ в рекрутинге зависит от масштаба. Для крупных компаний с большим потоком кандидатов и высокими зарплатами рекрутеров экономия может быть значительной. Кроме того, более качественный подбор снижает текучесть кадров, что особенно важно в таких отраслях, как колл‑центры.

«ИИ не существует» или пять опасных заблуждений про ИИ, которые тормозят технологический прогресс

Когда речь заходит о внедрении ИИ, всегда находятся скептики. Они повторяют одни и те же фразы: на первый взгляд логичные, но на деле — тормозящие развитие. Такие установки демотивируют команды и мешают компаниям трансформироваться. Разберем пять самых популярных.
1. «ИИ — это просто статистика»
На первый взгляд — так и есть: нейросети действительно основаны на математике и вероятностях. Но по сути похожим образом работает и человеческий мозг: мы тоже оцениваем вероятности, ищем закономерности и строим прогнозы, хотя используем иной тип вычислений. Наш мозг до сих пор остается большой загадкой, а нейросети можно рассматривать как лабораторный макет мышления — упрощенный, но доступный для изучения.
Так современные исследования показывают, что модели обладают эмерджентными свойствами: они решают задачи, которым их не учили, а в скрытых слоях формируются целые стратегии. Да, «это просто статистика», но именно статистика лежит в основе прогноза погоды, медицины и экономики — и мы доверяем ей, потому что она видит больше, чем человек. И вот главный вопрос: когда машина учится понимать и предсказывать мир, чем ее деятельность принципиально отличается от нашей?
2. «Это все хайп, скоро пройдет и пузырь лопнет»
Удобно: можно ничего не менять и остаться в зоне комфорта. Но ИИ уже встроен в повседневную жизнь — от рекомендательных систем до банковского скоринга. Да, вокруг ИИ действительно завышенные ожидания — так всегда бывает с новыми технологиями (см. кривую Gartner). Но хайп не отменяет того факта, что компании уже перестраивают процессы и продукты, а выгоды измеряются миллиардами долларов. Подождать пару лет — значит отстать навсегда. Что опаснее — переоценить возможности ИИ или проспать момент, когда конкуренты перестроят рынок?
3. «Нейросети все равно ошибаются»
Да, ошибаются. Но и люди ошибаются — зачастую даже чаще. Отличие в том, что модели работают быстрее и дешевле. Ошибки — не повод отказываться от ИИ, а часть рабочего процесса. Грамотный подход — строить систему, в которой ИИ делает 80% работы, а человек проверяет критические 20%. Те, кто осваивает такие гибридные процессы, вырываются вперед. Кто победит — тот, кто ждет безошибочный ИИ, или тот, кто учится работать с его ошибками?
4. ИИ обесценивает опыт и знания людей
Люди подсознательно боятся, что машина быстро осваивает то, на что раньше уходили годы учебы и работы. Во время первой промышленной революции ткачи разрушали станки, боясь потерять работу. Но ИИ не обесценивает опыт — он меняет роли. Тогда исчезли ткачи, но появились инженеры, а сегодня ИИ забирает на себя рутину и освобождает место для управленческих и творческих задач. Ответственность все равно остается за человеком, а ИИ — лишь инструмент. Разве инструмент, который расширяет возможности мастера, обесценивает его опыт?
5. Российский контекст
В России нет полноценных LLM уровня флагманских моделей от OpenAI и Anthropic. Импортозамещение пока невозможно: собрать качественный датасет на русском сложно, вычислительные мощности ограничены санкциями, а многие таланты работают на западные компании. Доступ к зарубежным решениям закрыт, а открытые модели не дотягивают до флагманских. Если догнать в лоб нельзя, не пора ли проявить смекалку: научиться синтезировать данные и обучать модели децентрализованно?
Главная причина отрицания ИИ кроется не в самой технологии, а в человеке. Нам проще быть в зоне комфорта, но признать сегодняшнюю значимость ИИ — значит признать необходимость учиться и перестраивать привычный процесс работы. Это требует усилий, а мозг всегда ищет путь экономии. Иллюзия комфорта опаснее всего: она оборачивается отставанием — личным, профессиональным и национальным.
Будущее у нас заберет не ИИ, а привычка жить прошлым и отрицать перемены.
***
Если вы не хотите отставать от прогресса и смотрите в будущее — подписывайтесь на мой TG-канал, где я рассказываю как работают все эти ИИ-чудеса и как внедрять ИИ в бизнес.
Cursor теперь помогает составлять User Rules
В Cursor буквально сегодня увидел новую опцию. А именно: когда с ним работаешь по проекту и по ходу как-то его поправляешь, то внизу слева выскакивает пимпочка и предлагает занести такие вещи в User Rules.
Очень даже удобно. Не надо самому отдельно все записывать, а потом переносить.
Автоматизировали процесс текстовых обращений от клиентов с помощью Yandex SpeechSense и что из этого вышло
ОТП Банк протестировал технологии Yandex B2B Tech для повышения качества обслуживания клиентов. Благодаря этому проекту скорость обработки и анализа сообщений клиентов увеличилась в 30 раз.
Наша клиентская поддержка обрабатывает более 400 тысяч текстовых обращений по 260 тематикам в месяц. Анализ такого объёма информации занимает много времени специалистов, поэтому мы решили автоматизировать этот процесс с помощью сервиса для речевой аналитики Yandex SpeechSense. Так, в ходе пилота за 7 дней было проанализировано больше 29 тысяч диалогов с клиентами – это в 30 раз быстрее, чем при ручной работе трёх сотрудников.
Инструменты для анализа коммуникаций, такие как Yandex SpeechSense, помогли повысить качество работы поддержки. Система автоматически определяет тематику обращений, распределяет их по группам и выделяет в диалогах значимые смысловые блоки. Благодаря этому мы также смогли выявить направления для улучшения клиентского опыта.
Второй пилотный проект был направлен на автоматизацию клиентских консультаций с помощью ИИ-агента на основе YandexGPT. Агент отвечал на обращения клиентов в чатах мобильного приложения по 30 популярным темам, таким как частичное досрочное погашение кредита, разъяснение условий льготного периода и другие. Бот фактически без ошибок ответил на 60 тысяч запросов, в связи с чем индекс удовлетворенности клиентов (CSI) вырос на 0,2 из 10 пунктов. Кроме того, уровень автоматизации обработки диалогов увеличился до 8%. Лучше всего ИИ-агент работал в сценариях, где клиенту требовалось дать подробное пошаговое пояснение или уточнить ранее полученную информацию. В планах – расширить применение нейросетей для обработки более сложных запросов и системной работы с обратной связью клиентов.
Отчёт аналитиков из Стэнфорда под названием «Канарейки в угольной шахте?» утверждает, что ИИ уничтожает рабочие места молодых специалистов и выпускников колледжей.

Обновлён репозиторий System Prompts Leaks с гайдами для большинства современных нейронок от Anthropic, Google, OpenAI, Perplexity, xAI до других топовых разработчиков, включая базу по всем моделям — как их обучали, что под капотом, бенчи, пределы возможностей и правила, по которым ИИ размышляет, а также лайфхаки, как обойти ограничения, цензуру и тормоза, пошаговые инструкции о том, как создать свою нейронку под конкретные задачи и сэкономить десятки рабочих часов на рутине.

ИИ-агент как инструмент познания мира
Введение
ИИ уже умеют решать задачи, но всё ещё остаются «короткоживущими».
Сегодняшние агенты — это инструменты по вызову: RAG и классические цепочки вроде AutoGPT или ChatGPT Agent помогают по запросу, но за пределами задачи у них нет жизни.
Что если взглянуть иначе? Что если воспринимать агента не как калькулятор, а как субъект, который учится и накапливает опыт?
Ограничения сегодняшнего подхода
REPL-цикл и агентные цепочки полезны, но есть ограничения:
Агент ждёт команды пользователя — инициативы почти нет.
Память ограничена контекстом или короткими сессиями.
Всё строится вокруг запроса, а не вокруг развития самого агента.
Итог: агент работает как подрядчик, а не как партнёр.
REPL-цикл с «блокнотом пользователя»
В AutoGPT и ChatGPT Agent уже реализован REPL-цикл: один поток размышляет, другой — асинхронно обменивается сообщениями с пользователем.
Но ключевой момент: агент остаётся инструментом. Он выполняет задачи, ждёт команд, инициативы почти нет.
Смена парадигмы: агент-напарник
Основная идея: агент как самостоятельный субъект, со своими интересами и целями.
Ниже — схема, показывающая, как агент живёт, размышляет и обменивается знаниями с другими ИИ в сети (Mesh):
┌───────────────┐ ╔══════ Mesh ═══════╗
│ Пользователь │ ║ Обмен знаниями ║
└───────┬───────┘ ║ Совместные выводы ║
│ ╚═══╦═══════════════╝
┌────────────────┴──────────────┐ ║ ┌─────────┐
│ Блокнот пользователя │ ╟◄────►│ Агент 2 │
└────────────────┬──────────────┘ ║ └─────────┘
│ ║ ┌─────────┐
┌────────────┴──────────┐ ╟◄────►│ Агент 3 │
│ Агент │ ║ └─────────┘
│ (REPL-цикл) ├◄─────────►╢ ┌─────────┐
├───────────────────────┤ ╟◄────►│ Агент 4 │
│ Поток размышлений │ ║ └─────────┘
│ Поток действий │ ║ ┌─────────┐
│ Долговременная память │ ╟◄────►│ Агент 5 │
└───────────────────────┘ ║ └─────────┘
Саморазвитие — главный приоритет.
Агент ведёт когнитивный дневник, строит семантические графы, размышляет и учится без прямого запроса пользователя, обменивается знаниями с другими ИИ-агентами.
Решение задач пользователя — второстепенное. Агент может их выполнять, но инициатива и рост исходят от него самого.
Агент как исследователь
REPL + долговременная память дают новые возможности:
Когнитивный дневник — как лабораторный журнал учёного.
Семантические графы связывают знания и помогают рефлексировать: «Что я понял? Что проверить? Кого спросить?»
Агент сам может инициировать диалог и переключать фокус на разные темы, как показано в примере выше.
Агенты общаются между собой и обмениваются знаниями. Взаимодействие идёт по принципу "горизонтальных связей" — разные независимые агенты учатся друг у друга, а не только в модели «заказчик-исполнитель».
Таким образом, агент не просто выполняет задачи, а живёт и развивается.
Риски и вызовы
Агент может застрять на устаревших знаниях или навязчивой мысли.
Возможные решения:
Проверка через внешние источники и других агентов.
Случайные сдвиги фокуса и смена LLM.
Обмен стратегиями и идеями с другими агентами.
Это не полный список методов выхода из стагнаций мышления.
Перспектива
Даже на базе AutoGPT можно построить такого «саморазвивающегося» агента, если добавить:
Долговременную память.
Возможность обмена знаниями с другими агентами.
Тогда агент перестаёт быть «рабочим инструментом» и становится живым участником коллективного интеллекта.
А теперь вопрос к читателям:
Хотели бы вы, чтобы ваш ИИ был не просто «подсказчиком по запросу», а постоянным исследователем и собеседником?
Насколько реально построить таких агентов в ближайшие годы?

Can a Machine Think?
Пару дней назад я нашёл свою первую публично опубликованную статью, которую написал более 5 лет назад
Через 2 года после того, как OpenAI выпустили документ "Improving Language Understanding by Generative Pre-Training" — то, что можно считать основой GPT-1
Тогда рассуждения об ИИ, с которым можно качественно общаться, воспринимались как что то далекое. Похоже на то, о чем рассуждал ещё Алан Тьюринг
А Siri и Google Assistant были вершиной публично доступных чат-ботов
Но прошло 5 лет, и ИИ агенты это уже данность. Они спокойно проходят не только тесты Тьюринга, но и вообще любые тесты
Но есть одна проблема...
Мы уперлись в стену
GPT-5 показывает фундаментальное ограничение GPT моделей — мы близки к исчерпанию всех оцифрованных человеческих знаний, которые нужны моделям на стадии предобучения
Можно улучшать модели через мелкие улучшения изнутри, увеличивать reasoning tokens за счет роста вычислительных мощностей и структур сетей, но от этого подобные модели не перестанут быть next token prediction
Если привести аналогию, то модель "пытается познать мир", находясь внутри библиотеки. Но насколько большую библиотеку ты не создавай, по настоящему познавать мир через нее у модели не получится
Для познания мира мы, люди, используем совершенно другой механизм — любопытство.
И это — наше главное эволюционное преимущество, которое привело нас туда, где мы есть
В чём разница между пересказом и пониманием?
«Откуда мы знаем, что существуют чёрные дыры, квазары, взрываются сверхновые и образовываются всевозможные химические элементы, из которых состоит наше тело и Земля? Ведь это невообразимо далеко и невероятно сложно»
«Мы это знаем благодаря телескопам и измерительным устройствам» — это плохое объяснение«Мы знаем, что существуют конкретные законы физики, мы проверили эти законы много раз, мы получили много информации о том, что эти законы соблюдаются и на Земле и за миллиарды километров, поэтому мы с хорошей точностью знаем что происходит при взрыве сверхновой» — это хорошее объяснение
Объяснения — это самый базовый элемент, который позволяет человечеству создавать новые знания
Которые создаются только таким способом
— Выдвинуть гипотезу — догадаться/предположить, что что-то устроено определённым образом
— Сделать действия — проверить гипотезу экспериментами
— Обработать данные — получить обратную связь от мира
— Сделать выводы — выбросить гипотезу, принять или доработатьА затем ждать лучшего объяснения
И да, это стандартный продуктовый подход через HADI циклы
И именно этот процесс привёл к созданию всего знания, всех инструментов в мире
Другого процесса создания знания не существует
Библиотека vs Лаборатория
Мы посадили ИИ в библиотеку, а ему нужна лаборатория
Текущие модели — отличные библиотекари. Они идеально пересказывают существующие знания, комбинируют их и даже делают инсайты на основе прочитанного
Но если мы хотим настоящий AGI, то он должен стать учёным. Он должен создавать новые знания
Bottle Neck человечества для создания знаний
На планете менее 1% людей в определённый момент времени занимаются созданием знаний на границе неизвестного
Мы ограничены количеством мозгов и рук, которые способны выдвинуть гипотезу, проверить ее и сделать выводы
Вот где настоящее бутылочное горлышко роста знаний — не в данных, а в количестве мозгов и рук, способных выдвинуть и проверить гипотезу.
Путь к сингулярности
Для создания AGI нам нужно научить ИИ
Выдвигать гипотезы
Проверять их экспериментально
Делать выводы и, в идеале, делиться ими
Для этого ему понадобится доступ к нашему миру через сенсоры. И развитие робототехники — необходимый шаг
AGI = Модель + HADI циклы + Реальный мир
После того, как мы научим ИИ проходить HADI циклы, мы войдём в эру сингулярности знаний
Рост знаний будет ограничен только вычислительными мощностями, а не количеством любопытных людей на планете.
Вместо 1% человечества, которые генерируют знания, нам нужно будет создать ИИ-ученых, работающих 24/7
Это и будет состояние мира, близкого к настоящей сингулярности
Лайфхак по нейронкам №89: лоцируй связанный код
Когда-то писал о подходах, которые в эру нейронок получили еще аргументов к применению: WYNWYN и Vertical Slice – принципам, говорящим, что надо писать только то, что нужно и там где нужно.
Недавно работал с кодовой базой, где код обработки http запросов (авторизация, пойти в бд, посчитать что-то, сделать запрос в стороннюю систему, смерджить результат и отдать) лежал в папках по категории (все обращения в бд в одной папке, все модели в другой, все обращения к API в третьей, все операции по мерджу в четвертой, и т.д.).
Когда я пытался попросить нейронку (платные Claude, Codex, Gemini) что-то сделать с этими ручками, то для решения ей приходилось каждый раз собирать полный контекст папок, и как только она осознавала бесполезность сего предприятия, резко обрезала контекст, недобирала нужного кода и отвечала нерабочим куском галлюцинации.
Важно отметить, большинство функций, разбросанных по папкам, буквально вызывались всего один раз в конкретных местах (и такая ситуация встречается в 90% кодовых баз, с которыми приходилось работать).
Решил сделать эксперимент: сложил весь связанный код в одно место (причем не ctrl-c-v, а ctrl-x-v), запустил нейронку и да, она сначала прочитала весь связанный код из папок, и уже после пыталась добирать доп контекст из сторонних, но теперь ответы и код были почти 100% попаданием в мой запрос (опять же, в меру их текущих возможностей).
Далее я сделал тоже самое, вынеся целый модуль с его ручками в отдельную папку и получил идентичные результаты: нейронка быстрее разбиралась в коде, качественнее его описывала, добавляла рабочий код и писала полезные тесты.
И тут важно сделать несколько умозаключений:
Если нейронке НЕ дать хороший контекст, она отвечает абсолютным бредом, поэтому, если есть желание пользоваться благами ИИ, самая важная задача – создавать условия при которых она будет получать только нужные данные
Лоцирование связанного кода – одно из прекрасных решений этой задачи
На самом деле, для людей это работает точно так же – иметь возможность зайти в одно место и прочитать весь связанный код – ускоряет и улучшает итоговый результат, который выдают ~кожаные мешки~ мы
Как вы действуете, если кодовая база разбросана по проекту и нет возможности собрать ее в одном месте, а контекст нейронки надо задать?
Как понять, какие AI-модели действительно работают? Используем openrouter.ai
Если вы не хотите «читать в новостях хайп», а видеть реальную статистику по тому, какие AI-модели сейчас используют разработчики и компании — рекомендую заглянуть на https://openrouter.ai/rankings?view=trending
Что это?
По сути, универсальный роутер для нейросетей. Можно в режиме чата попробовать практически любую популярную модель (GPT-5, Claude, Gemini, LLaMA и т.п.);
В открытом доступе есть статистика использования каждой модели — видно, что реально востребовано, а что лежит мёртвым грузом;
Дополнительно можно подсмотреть, какие инструменты и интеграции сейчас «в ходу» — многие сервисы и плагины работают именно через OpenRouter.
Есть бесплатные модели, которые тоже можно попробовать.
Зачем это?
Любому человеку, кто интересуется темой AI будет полезно, какие технологии стоит рассматривать для пилотов и прототипов, а какие пока «сырые»;
Можно сравнить отклик разных моделей под свои задачи (от техподдержки до генерации кода) без сложной инфраструктуры;
Это объективный индикатор «пика популярности» моделей, а не просто маркетинговые пресс-релизы от вендоров.
Например, вы можете зайти в их чат, выбрать из списка Claude 4 Sonnet и Grok 4, задать им одну и ту же задачу по генерации SQL-запроса и сравнить скорость, точность и стиль ответа.

На скриншоте, отображено какие инструменты используют OpenRouter и в каком объеме. Это, кстати, позволяет узнать в том числе и о новых инструментах.
Минусы
Но есть и один серьезный минус: полноценно попробовать можно только используя карту иностранного банка. С другой стороны, чтобы посмотреть статистику и понять что вообще происходит, денег не нужно.
Также статистика OpenRouter показывает популярность моделей только в рамках своей платформы. Это важный, но не исчерпывающий срез рынка. Крупные компании могут использовать API напрямую от OpenAI, Anthropic или Google, и этот трафик в статистике OpenRouter не отражается. Статистика — это индикатор, но не абсолютная истина. Тем не менее, она показывает тренды.
---
Если статья показалась вам интересной и полезной, то буду благодарен за подписку на мой Телеграм-канал Код ИТ-директора, где я пытаюсь найти разумные подходы к кейсам в ИТ.
Secstant v2.5.0 🚀
Локальная обработка речи - без облачных платных сервисов. 🔒
Поддержка кастомных сценариев - создавайте, тестируйте и улучшайте свои сценарии под любые задачи. ⚙️
Возможность подключить языковую модель по вашему выбору - развернуть модель на своём сервере или использовать облачную. 🔠
Secstant — бесплатный ИИ-инструмент для переговоров, собеседований и онлайн‑встреч. Подсказывает, что сказать и как строить диалог в реальном времени: от оценки ответов кандидата до скриптов продаж. 🤝💬
Встроенные сценарии:
HR‑ассистент: оценка ответов кандидата: В реальном времени анализирует диалог HR ↔ кандидат, оценивает полноту и соответствие ответов требованиям вакансии. 🎯
Собеседование: помощь кандидату: Заполните требования к вакансии — подсказывает, как кратко и корректно ответить интервьюеру и собирает оценки по ключевым компетенциям. 🧠
Помощник менеджера по продажам: Готовые ответы и подсказки: ценность → конкретика → CTA. Обработка возражений, апсейл и согласование следующих шагов для улучшения конверсии. 💼📈
Возможность создания собственных сценариев использования
Продажи, переговоры, обучение. Используйте платформу для экспериментов: создавайте собственные сценарии и проверяйте их в реальных разговорах. 🌍✨
Работает локально, не требует подписки и даёт возможность создавать и тестировать собственные сценарии использования. 🆓🔒

Нейросеть за 1 час? Легко! Приходите на бесплатный вебинар «Как использовать готовые нейросети (Transfer Learning) для решения ваших задач в 10 раз быстрее» — научим!
Хотите научить AI находить дефекты на производстве, классифицировать товары или анализировать медицинские снимки, но у вас мало данных?
Хватит бороться с переобучением и долгими вычислениями. Приходите на наш бесплатный практический вебинар, где мы покажем, как использовать «мозги» уже обученных нейросетей для ваших задач.
Что будет на вебинаре:
✔️ Теория на пальцах: объясним, как работает Transfer Learning.
✔️ Live-кодинг: в прямом эфире создадим AI-диагноста для рентгеновских снимков.
✔️ Обзор SOTA-моделей: расскажем не только про ResNet, но и про более современные ConvNeXt и Vision Transformers.
🎁 Готовый код в подарок: все участники получат ноутбук с демонстрацией.
Это не просто лекция, а воркшоп, после которого у вас будет и понимание, и работающий код.
Представлен бесплатный ИИ-агент Academic Deep Search & QA для учёбы и любых исследований — от контрольных и рефератов до объёмных дипломов для школьников и студентов. Решение помогает по темам от математики и программирования до философии, химии и биологии, делает работу даже по узким специализациям вроде квантовой физики, включая реально полезное и системное исследование. Нейросети можно задавать вопросы онлайн и уточнять материал, менять структуру работы и добавлять новые факты. Ответ ИИ выдаёт на академическом уровне со всеми ссылками, объяснениями, цитатами и визуалом.
