Все потоки
Поиск
Написать публикацию
Обновить
858.47

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга

По мнению специалиста по этике моделей в OpenAI Шона Гроува, в будущем наиболее ценными программистами станут те, кто умеет чётко формулировать мысли, а не просто писать код.

«Если вы умеете эффективно коммуницировать — вы уже умеете программировать», — утверждает он. Гроув считает, что программирование всегда было не столько про строки кода, сколько про структурированное выражение намерений: от понимания задачи и целей до их формализации в понятной форме как для людей, так и для машин.

Гроув называет код лишь «потерянной проекцией» (lossy projection) изначального замысла и ценностей. С развитием ИИ систем, по его мнению, главное умение программиста смещается от написания кода к созданию точных спецификаций и промптов, способных передать намерение максимально полно.

«Тот, кто пишет спецификацию — будь то менеджер, инженер, маркетолог или законодатель — и есть новый программист», — пояснил Гроув. По сути, будущее разработки смещается от технического исполнения к смысловому моделированию: важно не столько, как вы пишете код, сколько, что вы хотите выразить. ИИ берет на себя синтаксис, а человеку остаётся формулировать мысль — ясно, логично и недвусмысленно, полагает Гроув.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии1

Как улучшить режим ночной съемки с помощью нейросети на примере MEFNet

Смешивание экспозиций обычно применяют для улучшения изображений при дневной съемке, особенно в условиях яркого солнца. Но мы решили проверить: можно ли адаптировать этот способ для съемки в темноте? Он поможет осветлить изображение и заметно снизить уровень шумов.

MEFNet — это подход к слиянию изображений с разной экспозицией. Он создан для работы со статическими последовательностями кадров произвольного разрешения и в произвольном количестве. Название MEFNet происходит от термина Multi-Exposure Fusion, то есть «многоэкспозиционное смешивание». Отсюда и сокращение MEF.

Главная цель MEFNet — извлекать полезные детали как из темных, так и из пересвеченных областей, чтобы сформировать итоговое изображение с хорошим балансом яркости и контраста. При этом метод должен избегать артефактов, характерных для классических алгоритмов.

Схема работы алгоритма MEFNet. Источник: Ma, K., Duanmu, Z., Zhu, H., Fang, Y., & Wang, Z. (2019). Deep guided learning for fast multi-exposure image fusion. IEEE Transactions on Image Processing, 29, 2808-2819
Схема работы алгоритма MEFNet. Источник: Ma, K., Duanmu, Z., Zhu, H., Fang, Y., & Wang, Z. (2019). Deep guided learning for fast multi-exposure image fusion. IEEE Transactions on Image Processing, 29, 2808-2819

Схема работы алгоритма MEFNet. Источник: Ma, K., Duanmu, Z., Zhu, H., Fang, Y., & Wang, Z. (2019). Deep guided learning for fast multi-exposure image fusion. IEEE Transactions on Image Processing, 29, 2808-2819

Алгоритм MEFNet работает следующим образом. На вход подается серия изображений с разной экспозицией — они сначала переводятся в YUV-формат. Далее основная обработка выполняется только по Y-каналу, который отвечает за яркость. Дело в том, что именно яркостный компонент в наибольшей степени определяет структуру и детализацию сцены.

Затем нужно уменьшить разрешение всех изображений — так сокращаются вычислительные затраты. Полученные кадры поступают в нейросеть, которая генерирует весовые карты для каждого изображения, также в пониженном разрешении. Она обрабатывает серии произвольного пространственного размера и числа экспозиций, а также генерирует карты соответствующего размера и количества. Сеть состоит из семи сверточных слоев с расширенными свертками, которые увеличивают поле восприятия (receptive field) без потери разрешения: 

  • Слои 1–6 используют ядра размером 3×3 с разными коэффициентами расширения (dilation rates): 1, 2, 4, 8, 16, 1. Это позволяет захватывать контекст на разных масштабах.

  • Слой 7 — финальный слой с ядром 1×1, который преобразует фичи в весовые карты.

  • Нормализация — после каждого сверточного слоя (кроме последнего) применяется адаптивная нормализация (AN), сочетающая нормализацию по экземпляру (instance normalization) с обучаемыми параметрами.

  • Активация — используется Leaky ReLU (LReLU) для сохранения структурной информации.

Подробнее о MEFNet и других алгоритмах улучшения режима ночной съемки в мобильных устройствах на примере планшета KVADRA_T читайте в статье Полины Лукичевой из команды AI ML Kit в YADRO.

Теги:
Рейтинг0
Комментарии0

В системах видеонаблюдения и видеоаналитики часто приходится иметь дело с кадрами низкого качества. Объект съемки далеко, плохое освещение, ограниченные возможности камеры – и вместо четкой картинки мы получаем лишь набор пикселей. Знакомая ситуация?

"Что тут происходит? 😑"
"Что тут происходит? 😑"



Почему это большая проблема?

Распознать что-либо по такому "размытому квадратику" – серьезный вызов для алгоритмов. Стандартные модели, обученные на четких изображениях, часто теряют эффективность, когда объект занимает по высоте всего 32 пикселя (а то и 10!). Это напрямую влияет на точность работы систем в реальных условиях – будь то поиск автомобиля, предмета или распознавание лиц.

В чем сложность?

Главная трудность – "пропасть" между миром четких картинок (на которых обычно учатся модели) и миром размытых кадров. Алгоритмы плохо переносят знания из одного "мира" в другой.

Как с этим бороться?

В нашей новой (и первой) статье мы подробно разобрали ключевые подходы к решению такой проблемы в контексте распознавания лиц:

1. "Дорисовка" деталей: специальные нейросети пытаются увеличить и улучшить размытое изображение перед анализом. Работает, но есть риск "придумать" несуществующие детали.

2. Адаптация модели: как "подружить" алгоритм с плохим качеством?

  • Трюки с данными: искусственно ухудшаем хорошие изображения при обучении (сжатие, шум), чтобы модель привыкла к помехам.

  • Дообучение: учим модель на реальных размытых данных. Важно делать это аккуратно, чтобы она не забыла, как работать с четкими изображениями. Помогают методы вроде LoRA (дообучение только маленькой части сети).

  • "Учитель" для "ученика": мощная модель, видящая четкие картинки, учит компактную модель работать с размытыми, передавая свои "знания".

3. PETALface: новый подход, который динамически комбинирует разные "настройки" (LoRA-адаптеры) в модели в зависимости от качества конкретного входящего кадра. Перспективно, но требует дальнейшего изучения.

Хотите разобраться глубже?

В статье мы подробно разбираем плюсы и минусы каждого подхода, рассматриваем специализированные датасеты (TinyFace, BRIAR) и анализируем нюансы свежего метода PETALface.

Сталкивались ли вы с проблемой низкого разрешения в своих проектах? Какие методы оказались эффективными? Делитесь опытом в комментариях!

Теги:
Всего голосов 4: ↑3 и ↓1+4
Комментарии0

Представлен открытый проект под названием GenCAD: Image‑conditioned Computer‑Aided Design Generation with Transformer‑based Contrastive Representation and Diffusion Priors. Этот сервис превращает любые чертежи сразу в 3D-модель с кодом CAD. На входе обычный чертёж, на выходе — готовая 3D CAD-модель и вся история её построения с параметрами и командами, как в SolidWorks или Fusion.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии1

16-й чемпион мира по шахматам (2013—2023 год) Магнус Карлсен заскучал во время путешествия и обыграл ChatGPT 4o в шахматы без потерь своих фигур. После проигрыша всех пешек и полного доминирования противника ИИ оценила возможности шахматиста-человека на уровне рейтинга 1800-2000 по шкале FIDE или USCF.

Нейросеть GPT-4o выявила хорошее понимание Карлсеном защиты Филидора, а также его тактическую изобретательность и точность действий противника-человека в эндшпиле. ИИ считает, что результат Карлсена может быть даже выше при условии хорошей подготовки.

В настоящее время Карлсен занимает первое место по рейтингу FIDE с 2839 баллами.

Теги:
Всего голосов 4: ↑4 и ↓0+6
Комментарии2

Фото из офиса xAI стало вирусным прямо перед запуском Grok 4 — и это совсем не то, чего можно было ожидать. Высокотехнологичная штаб-квартира превратилась в настоящий палаточный лагерь. В связи с тем, что последние усилия по выпуску чат-бота была уже на подходе, работа над ним шла настолько интенсивна, что разработчикам буквально приходится ночевать в палатках. Один из членов команды xAI даже пошутил: «Это не может быть наш офис — здесь должно быть гораздо больше палаток».

Теги:
Всего голосов 4: ↑4 и ↓0+7
Комментарии5

Компания xAI вместе с Илоном Маском представила новую нейросеть Grok 4. В ней сделан упор на рассуждениях и академических способностях. Маск заявляет, что это «самый умный ИИ в истории человечества».

Среди достоинств Grok 4 разработчики проекта выделили:

  • в AIME 25 (математической олимпиаде) Grok 4 выдала 100% правильных ответов;

  • в тесте Humanity’s Last Exam нейросеть набрала 44,4% при использовании многоагентной архитектуры. С этим тестом почти никто не справляется; без многоагентного режима — 25%, что все ещё больше других моделей;

  • Grok 4 способен сам вести бизнес — он делает это в шесть раз эффективнее, чем если бы человек занимался этим сам;

  • превзошла PhD-уровень во всех предметных тестах, включая математику, программирование и физику;

  • может симулировать столкновение двух чёрных дыр прямо в браузере;

  • способна открывать новые законы физики, и эту особенность Маск будет использовать для колонизации Марса;

  • большой вероятностью предсказывает различные спортивные события, например, исход чемпионата по баскетболу, просто сканируя Polymarket;

  • в 10 раз мощнее, чем Grok 3;

  • создаёт готовые игры всего по одному промпту, ИИ способен собирать шутеры за пару часов, налету подтягивать 3D-модели из сети и даже натягивать на них текстуры;

  • в голосовом режиме Grok 4 научилась шептать, петь, менять интонации и отвечать быстрее ChatGPT.

Новая модель Grok 4 станет доступна подписчикам Supergrok за $30 в месяц. Также будет прокачанная версия Grok 4 Heavy за $300 в месяц. xAI готовит отдельную модель Grok 4 для кодинга — построенную специально для программистов.

Теги:
Всего голосов 5: ↑4 и ↓1+4
Комментарии0

Nvidia стала первой в истории компанией с капитализацией в $4 трлн (больше крипторынка, который весь составляет $3,6 трлн). Это происходит на фоне бума нейросетей.

Теги:
Всего голосов 4: ↑4 и ↓0+6
Комментарии0

Зачем говорить с китами?

Закончилась моя вахта в экспедиции по мониторингу морских млекопитающих у Кольского полуострова.

В этих водах наблюдения никогда не проводились на постоянной основе. У ученых нет понимания, сколько животных там появляется и как они мигрируют. Яркое напоминание о том, как мало мы о них знаем. Всю поездку я читал переведенную с помощью Gemini книгу How To Speak Whale, вышедшую в 2022 году. Она не дает четкого ответа на вопрос «как говорить с китами», скорее объясняет, почему стоит попробовать. Однако, за три года, прошедшие с печати, этой задачей занимались в Google в партнерстве с The Wild Dolphin Project и Технологическим институтом Джорджии. В апреле они представили проект DolphinGemma.

DolphinGemma — нейросеть, вдохновленная архитектурой больших языковых моделей, но работающая со звуком. Ее обучили на записях одной группы дельфинов с Багам. С 1985 года команда WDP документирует их жизнь, взаимодействия и вокализации.

DolphinGemma работает как аудиопроцессор: анализирует последовательности естественных звуков дельфинов, выявляет закономерности и структуры, а затем прогнозирует вероятные следующие звуки в последовательности. Примерно так же большие языковые модели предсказывают следующее слово в предложении.

В медиа ее сразу окрестили «переводчиком с дельфиньего». Однако большинство серьезных исследователей морских млекопитающих, включая Куницу, относятся к этой идее скептически: полноценного языка у морских млекопитающих может и не быть. DolphinGemma — не переводчик, а аналитический инструмент.

Как это работает

Модель прослушивает, какие звуки дельфины издают один за другим, и выявляет устойчивые паттерны. Например, если после звуков A и B чаще всего следует звук C — это может быть отдельный сигнал A-B-C. Тогда исследователи возвращаются к видео и смотрят, что в такие моменты делали дельфины. Допустим, в 80% случаев они играли — значит, можно предположить, что это типичная игровая вокализация.

Главная фишка в том, что модель находит такие закономерности в терабайтах данных намного быстрее, чем это сделал бы человек, годами прослушивая записи. С ее помощью можно обнаруживать неизвестные звуковые паттерны, которые могли ускользнуть от человеческого внимания, а затем попытаться найти их связь с действиями дельфинов.

Эксперимент с двусторонней коммуникацией

В то же время у DolphinGemma есть и другая функция — генерация звуков. Она может создавать сигналы, похожие на дельфиньи — а значит, животным будет проще их воспроизвести. Исследователи планируют применить их в экспериментах.

Логика такая: люди создают искусственные свисты для конкретных предметов — шарфов, водорослей, игрушек. Они ныряют, воспроизводят синтетические звуки и демонстративно обмениваются предметами между собой — так, чтобы дельфины это видели и поняли правила игры: звук = предмет.

Надежда на то, что любопытные дельфины начнут имитировать эти звуки, когда захотят получить конкретный предмет. Специальный носимый компьютер на базе смартфона Pixel в реальном времени распознает, какой именно звук имитирует дельфин, и через подводные наушники сообщит исследователю: «Дельфин просит шарф». Исследователь даст ему шарф, закрепляя связь звук-предмет.

Это не язык, скорее простая сигнальная система, как у людей и собак, но если животные научатся ею пользоваться — это скажет многое об их разуме.

Хотите знать больше? Подписывайтесь на меня в Telegram.

Теги:
Рейтинг0
Комментарии0

Представлен бесплатный сервис для транскрибации аудио и видосов в текст — TranscribeAI. Система вытащит текст из любого медиа, даже если там много помех. Внутри — Whisper от OpenAI. Поддерживает больше 100 языков и знает русский. Принимает файлы до 4 ГБ во всех популярных форматах — MP3, WAV, MP4, AVI, MOV, MKV. Перегоняет всё в текстовый файл, расставляет таймкоды и маркеры. Может создать субтитры в формате SRT.

Теги:
Всего голосов 3: ↑1 и ↓20
Комментарии13

Присоединяйтесь к третьему Cloud․ru Tech Lab: AI&ML — митапу для тех, кто планирует внедрение AI в свои сервисы и не только 🤖

📅 Дата: 24 июля в 18:00
📍 Место: Москва, ул. Большая Почтовая, 40, строение 4, Гоэлро Лофт, зал Tesla, 3-й этаж

Расскажем, как мы автоматизировали пользовательские сценарии с помощью AI-агента, подробно разберем устройство нашего стека (агенты, RAG, Ragas) и объясним, почему сейчас все говорят про Model Context Protocol (MCP) и как собрать MCP-сервер без кода.

В программе:

  • Как мы встроили AI-агента в онлайн-обучение и улучшили опыт студентов — Стас Гридин, менеджер проектов, и Илья Жбанов, Data Science инженер, Cloud.ru.

  • Адаптация RAGAS для оценки RAG — Иван Ловцов, старший Data Science инженер.

  • MCP: почему о нем все говорят? — Игорь Латкин, управляющий партнер и системный архитектор, KTS.

  • Как мы приручили мультиагентный хаос с A2A — Артемий Мазаев, менеджер продукта, Cloud.ru.

  • Секретный доклад от приглашенного эксперта.

А еще — демозона AI-решений на базе Cloud.ru Evolution, активности, живой нетворкинг и возможность лично задать вопросы практикам и архитекторам.

Мы предусмотрели два формата участия:

  • офлайн — для тех, кто планирует лично посетить площадку,

  • онлайн — для тех, кто хочет посмотреть доклады в записи.

Зарегистрироваться на митап 👈

Теги:
Рейтинг0
Комментарии0

Исследовательская группа Model Evaluation & Threat Research из Калифорнийского университета в Беркли представила новый способ измерения прогресса больших языковых моделей. Вместо привычных метрик вроде точности ответов или скорости генерации учёные предложили другой аспект: сколько времени требуется человеку на задачу, которую ИИ может успешно выполнить хотя бы в 50% случаев?

Согласно расчётам, с каждым годом модели справляются с всё более объёмными задачами, и темп этого роста — экспоненциальный. С 2019 года способности LLM в решении задач улучшаются вдвое каждые 7 месяцев:

  • GPT-2, вышедший в 2019 году, мог справиться только с ответами на вопросы, что в среднем занимает у человека до минуты;

  • GPT-4, который появился в 2023, уже мог брать на себя задачу вроде «найти факт в интернете», которая занимает у человека от 8 до 15 минут;

  • более продвинутые модели вроде Claude 3.7 и OpenAI o1 могут бать на себя задачи, выполнение которых человеком выходит за пределы часа.

Если темпы роста сохранятся, то уже к 2030 году языковые модели смогут решать за часы задачи, которые потребовали бы 167 часов работы человека — это условный месяц работы в графике 5/2. Речь идёт о комплексной интеллектуальной работе: от оптимизации архитектуры кастомного чипа до запуска нового продукта или даже написания содержательной книги.

В исследовании, например, в 167 часов оценена задача открыть новую компанию. Авторы исследования считают, что к 2030 году ИИ сможет браться за такую задачу автономно, то есть не в виде ассистента, а как самостоятельный исполнитель.

Исследование не учитывает внешние ограничивающие факторы, и авторы сами об этом говорят. Даже если ИИ будет таким умным, как его описывают, его возможности могут упереться в вычислительные мощности или доступ к памяти.

Теги:
Рейтинг0
Комментарии1

GPT — мать. Отец — open-source. Хабраредактор локально пророс

Вначале представление о финальном продукте весьма расплывчато: нужен ИИ-помощник, который будет обладать полной информацией обо всех текстах в блоге YADRO и отвечать на вопросы по ним в формате чат-бота. Когда я начинал пост, в блоге было 223 статьи, что открывает большой простор для кросслинковки. Хочу, чтобы помощник подсказывал, на какие из предыдущих статей блога я могу сослаться в новой. Было бы здорово получать тематические подборки статей, что мы иногда добавляем в анонсы связанных митапов. Еще какие-нибудь сценарии я, наверно, придумаю на ходу.

Другая задача, как мне кажется, будет сложнее — аналитика в разрезе тем и других атрибутов статей, особенно качественных, а не количественных. Но не буду грустить заранее: это пет-проект, take it easy. К тому же в итоге получилось наоборот: именно в качественных, а не количественных вопросах прогресс чат-бота оказался заметнее.

Создаю новый диалог с GPT-4o и закладываю в нее требования. Нейросеть бодро предлагает несколько вариантов реализации.

GPT-4 + LangChain (или ChatGPT API с RAG). «Минусы: платно (и затраты могут вырасти при больших объемах)». Тот же минус — и в варианте «решения под ключ (SaaS-инструменты): writer.com, jasper.ai, copy.ai». А есть что-нибудь на open source?

Да, причем это был первый вариант в списке: open-source LLM + векторная база (например, LLaMA 3 + FAISS / Weaviate / Qdrant). При сравнении трех опций GPT даже подчеркнул преимущества этой: «максимальная точность, контроль, гибкость». Честно говоря, ожидал от OpenAI больше саморекламы, приятно удивлен. Давай остановимся на open source, но смогу ли я осилить это в одиночку?

«Да, ты вполне можешь создать такую систему сам, особенно если у тебя есть базовые навыки Python и немного понимания в работе с API или веб-разработке». Два года назад я прошел базовый месячный курс по Python. С веб-разработкой все точно не лучше, а с API… в общем, здесь уже только вера в себя осталась.

Редактор блога YADRO Николай Землянский создал локального ИИ-помощника, который анализирует статьи на Хабре, выделяет темы и делает подборки со ссылками. Что получилось в MVP и как будет развиваться проект — читайте в статье.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии1

Ближайшие события

Как Новосибирский государственный университет использует ресурсы облака Cloud.ru Evolution для размещения умного чат-бота в Telegram 🎓

Что за компания

Новосибирский государственный университет — пример эффективной интеграции образовательного процесса и научной деятельности. На базе механико-математического факультета НГУ работает лаборатория прикладных цифровых технологий, в которой проводят разработки на базе искусственного интеллекта.

Какая была задача

Один из проектов лаборатории — умный чат-бот в Telegram на базе больших языковых моделей. На сайте университета есть интеллектуальная база знаний, с помощью которой можно найти информацию или ответ на вопрос. Задача бота — упростить и сократить поиск до нескольких секунд. 

Команда НГУ искала мощное и выгодное решение для размещения бота, а также тестирования других гипотез.

Как ее решили

Сотрудники НГУ самостоятельно перенесли и развернули проект. Для размещения выбрали виртуальную машину с GPU 4 vCPU/64 ГБ RAM/1 GPU V100 на облачной платформе Cloud.ru Evolution, которая идеально подходит для задач машинного обучения, искусственного интеллекта и обработки трехмерной графики. А еще она позволяет масштабироваться по мере необходимости и использовать ресурсы по модели pay-as-you-go.

Что в результате

Чат-бот помогает решить сразу несколько задач университета:

  • привлечь абитуриентов,

  • разгрузить службу поддержки,

  • упростить поиск изображений по внутренней базе знаний.

Среднее время ответа чат-бота — до 10 секунд.

Читать кейс полностью 💼

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии2

Исследование показало, что некоторые учёные начали оставлять в своих научных статьях скрытые промты для ChatGPT, чтобы нейросеть хвалила их работу.

При проверке научного портала arXiv уже нашлись 17 работ от 14 ведущих вузов мира — в каждой статье были скрытые промпты, которые просили ИИ хвалить её и не подсвечивать минусы. Учёные в научных статьях прячут нужный промпт для ИИ в белом тексте минимального размера, а на выходе получают похвалы и восхищение их трудом от «прочитавших» статью ИИ-сервисов.

Теги:
Всего голосов 14: ↑14 и ↓0+20
Комментарии2

От слов к телу: путь к настоящему ИИ

Вы сидите на холодном складе в грязном квартале Мишен в Сан-Франциско. День за днем управляете роборуками через перчатки с трекингом движений. Медленно, с усилием складываете одежду и собираете коробки — все ради одной цели: научить нейросеть действовать в реальном мире.

Добро пожаловать в штаб-квартиру Physical Intelligence, стартапа, основанного выходцами из DeepMind. Их цель — не чат-бот, а универсальный робот, способный взаимодействовать с физическим миром, как человек.

Но в отличие от разработчиков ChatGPT, они не могут положиться на залежи интернет-текстов. Посты с Reddit и статьи из Википедии не научат машину держать чашку или гладить рубашку. Сенсорику, телеметрию и управляющие сигналы приходится собирать вручную. Человек, словно кукловод, ведет за собой робота, формируя эталонные движения и реакции. Это медленно, дорого и плохо масштабируется: один оператор не может "наработать" больше 24 часов данных в сутки.

Теперь переместимся на конференцию AI Ascent 2025, где выступает Джим Фан из NVIDIA. Он показывает, как в симуляции за два часа можно пройти путь, на который в реальном мире ушло бы десять лет: гуманоидные роботы учатся двигаться в виртуальной реальности.

Но главное — не это. Фан говорит о том, что он называет физическим Тестом Тьюринга:

Попросите убраться и приготовить обед. Если вы не сможете отличить, кто это сделал — человек или робот — тест пройден

Пока этот тест не прошел никто. Потому что нейросети по-прежнему не имеют телесного опыта этих действий. Это ключевая мысль, тем более что звучит она от директора по ИИ в NVIDIA.

Языковые модели вроде GPT, Claude или Gemini живут в пещере Платона. Они изучают мир по теням — по текстам, изображениям, аудио. Они видят описания, но не проживают реальность.

Настоящий интеллект не просто вычисляет. Он чувствует и действует. Он обретает тело, через которое познает: ошибки, сопротивление, вес, равновесие, трение, успех. Все это — то, что философы называют qualia — субъективные, необъяснимые переживания, формирующие "я". Вот почему так важно дать роботам, например, осязание.

Чтобы пройти физический Тест Тьюринга, машине нужно не больше слоев и токенов, а тело и среда, в которой она учится. Как у детей: игрушки, касания, падения, неожиданности. Ведь и наш мозг формируется не текстами, а опытом.

Но правда в том, что и мы сами смотрим на тени на стене пещеры. Они фактурные, цветные, пахнущие, — но физики напоминают: вселенная гораздо сложнее, чем подсказывают чувства.

А каким будет разум, способный чувствовать тоньше? Острее? Через десятки сенсоров, которых у нас нет, через сигналы, которые мы не в состоянии воспринять? Возможно, путь к сверхразуму — не в вычислительной мощности, а в сенсорной плотности. В телесности. В новых каналах восприятия и способах взаимодействия с миром, которые для нас недоступны.

Путь — в выходе из пещеры.

Хотите знать больше? Подписывайтесь на меня в Telegram.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Теперь за специалистов по искусственному интеллекту платят больше, чем за футболистов.

Теги:
Всего голосов 3: ↑2 и ↓1+2
Комментарии4

В открытый доступ вышла книга по машинному обучению Machine Learning Q and AI. Ранее целый год фундаментальный труд Себастьяна Рашки можно было купить только на Амазоне, и вот автор открыл книгу для всех бесплатно.

Внутри огромный сборник тем по Deep Learning, 30 глав отборной, понятной и подробной информации по компьютерному зрению, LLM, эвалу и методам деплоя моделей, а также множество примеров и практических пояснений — автор все объясняет на схемах и картинках. Также есть упражнения после каждой главы.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Чем занимается команда Data Science в финтехе

Рассказывает Слава, инженер машинного обучения в ЮMoney.

У нас в компании много данных, которые можно обрабатывать, чтобы улучшать пользовательский опыт. Например, данные пользовательских обращений ЮKassa из разных каналов: чатов с техподдержкой, почты, звонков в колл-центр.

Мы передаём тексты из обращений модели, которую обучили относить их к определённому классу (подключение СБП, вопросы по возвратам, платёжным методам и т. д.). Постоянно появляются новые темы, поэтому приходится регулярно дополнительно обучать модель. Разбив все поступающие обращения по группам, можно оценить их количество и построить дашборд.  

Если по одной теме у нас пять тысяч обращений, по второй — десять тысяч, а по третьей — всего два, значит, нам нужно уделить особое внимание первым двум.

В классификаторе пользовательских обращений мы используем языковые модели типа BERT. Также развиваем использование больших языковых моделей (LLM). У них много знаний «из коробки», они не требуют дообучения и могут применяться для разных задач. Есть и недостатки (требовательность к вычислительным ресурсам или галлюцинации), но LLM способны выполнять задачи намного быстрее, чем человек.

Ещё одно интересное направление Data Science, которое мы тестируем, — распознавание изображений и классификация по категориям. Сейчас мы решаем эту задачу с помощью модели clip, но планируем проверить эффективность работы visual LLM, например Qwen-VL. Этот вид моделей анализирует изображение и даёт текстовое описание, которое можно использовать в продуктах, например при проверке сайтов, которые подключаются к ЮKassa.

Также LLM хорошо выполняет задачи написания саммари — например, по итогам проведённой встречи. Предварительно отдельная модель (у нас это Whisper) переводит аудио в текст, что сильно ускоряет работу коллег.

***

Делитесь в комментариях, есть ли команда Data Science в вашей компании и какие задачи она решает. 🙌 А также следите за нашими новыми материалами о том, как технологии меняют финтех изнутри. Впереди ещё много интересного!

Теги:
Рейтинг0
Комментарии0

АГЕНТЫ И АГЕНТНАЯ ЭКОНОМИКА. 30.06.25. ИЮНЬ ВСЁ.

Микро-дайджест недели. Интересные мысли и инсайты.

Дайджест по материалам зарубежных медиа. Минимум булшита, максимум инсайтов.

=>  «Агенты не всегда следуют правилам», — сказала Мэй Хабиб в прошлую среду на сцене VB Transform. «Они ориентированы на результат. Они интерпретируют. Они адаптируются. И их поведение действительно становится очевидным только в реальных условиях».

Это означает отказ от традиционного жизненного цикла разработки программного обеспечения при работе с адаптивными системами.

То есть, процесс рассуждения как бы выносит агентов из формата "это просто код", потому что они демонстрируют поведение «мыслящих сущностей», чья логика во многом формируется не в момент написания условий взаимодействия, а только в момент их реалтайм использования. И это выглядит похожим на разумное, а порой и на неразумное, поведение.

=>  В прошлом дайджесте я написал о концепте "Один мир, один язык", но забыл прикрепить подкаст, который я сгенерил для вас по этой теме. Исправляюсь.

=> Профессор-экономист Anton Korinek доносит мысли о вариативности сценариев на рынке труда. Процесс подготовки осознания и принятия населением больших изменений идет полным ходом. Пока все сходятся на том, что человек+ИИ это выгодно всем, поэтому людям надо поскорее брать новые навыки, ну и склонять свои правительства к управляемому и регуляторному подходу к внедрению ИИ-технологий.

Мне только одно не понятно, если половина мира находится в свободном рынке, то как они собираются это регулировать?

=> Alexandre Bobeda, айвентор из Бразилии, запустил свой мини-стартап Recipfy

"Моя коллекция рецептов была просто катастрофой. У меня были скриншоты, наброски, PDF-файлы, случайные ссылки на блоги. Ничего не было доступно для поиска или использования, когда я действительно хотел что-то приготовить.

Поэтому я создал то, что мне было нужно: менеджер рецептов, который позволяет вам загружать фото, скан или текст, и он автоматически извлекает, организует и помечает ваши рецепты. Он поддерживает как английский, так и португальский языки, и все синхронизируется в браузере."

Стэк, на котором он это запустил: Lovable, Windsurf (как замена VS Code), Supabase  (база данных и бэкэнд), Vercel (хостинг приложений для быстрого развертывания и глобальной производительности), Klaviyo (рассылка + отзывы пользователей), LLM (Mistral как основной движок, Gemini 3.5 Pro и Claude Sonnet 4 для UX и функционала).

Я бы хотел, чтобы в России появилось больше айвенторов (предпринимателей нового поколения, которые запускают министартапы и дизраптят действующий бизнес).

=> Большая Игра. Кто будет владеть каналами дистрибуции и что делать уже сегодня?

Идет невидимая борьба не за технологии, а за владение новыми платформами дистрибуцией. Дистрибуции всего: контента, трафика, и самое главное - за владение пользователем, его контекстом.

Грядет следующий большой сдвиг в этой дистрибуции, и он изменит то, как продукты находят пользователей, так же радикально, как это сделали поисковые системы, социальные платформы и магазины приложений до него.

Ты не выбираешь, играть или нет. Ты выбираешь, когда и насколько умно играть. Это рынок. Но теперь игра идет быстрее.
И поскольку чат это диалог, то весь маркетинг и продажи сместятся в формат диалогов туда, где проводит свое время пользователь. Это ключевой инсайт, но как всегда рекомендую смотреть, чтобы слышать нюансы, которые важны именно для вас.

=> Deep Research Agents это новый этап в развитии интеллектуальных систем: они планируют, исследуют, анализируют и создают отчёты автономно. Их сила в комбинации гибкого поиска, инструментальной экосистемы и продвинутого обучения. Однако вызовы остаются: масштабируемость, оценка, мультимодальность, сотрудничество.

=> Гайд по тестированию ИИ-приложений OWASP

=> Мануал, как подготовить ваше API для ИИ (LLMs и ИИ-агентов)

Предыдущие материалы и выпуски дайджеста за июнь, там до сих пор много интересных инсайтов!

Альфред Лао. Айвентор и Фред

Теги:
Всего голосов 6: ↑5 и ↓1+4
Комментарии0

Вклад авторов