Обновить
769.33

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга

Фото из офиса xAI стало вирусным прямо перед запуском Grok 4 — и это совсем не то, чего можно было ожидать. Высокотехнологичная штаб-квартира превратилась в настоящий палаточный лагерь. В связи с тем, что последние усилия по выпуску чат-бота была уже на подходе, работа над ним шла настолько интенсивна, что разработчикам буквально приходится ночевать в палатках. Один из членов команды xAI даже пошутил: «Это не может быть наш офис — здесь должно быть гораздо больше палаток».

Теги:
Всего голосов 4: ↑4 и ↓0+7
Комментарии5

Компания xAI вместе с Илоном Маском представила новую нейросеть Grok 4. В ней сделан упор на рассуждениях и академических способностях. Маск заявляет, что это «самый умный ИИ в истории человечества».

Среди достоинств Grok 4 разработчики проекта выделили:

  • в AIME 25 (математической олимпиаде) Grok 4 выдала 100% правильных ответов;

  • в тесте Humanity’s Last Exam нейросеть набрала 44,4% при использовании многоагентной архитектуры. С этим тестом почти никто не справляется; без многоагентного режима — 25%, что все ещё больше других моделей;

  • Grok 4 способен сам вести бизнес — он делает это в шесть раз эффективнее, чем если бы человек занимался этим сам;

  • превзошла PhD-уровень во всех предметных тестах, включая математику, программирование и физику;

  • может симулировать столкновение двух чёрных дыр прямо в браузере;

  • способна открывать новые законы физики, и эту особенность Маск будет использовать для колонизации Марса;

  • большой вероятностью предсказывает различные спортивные события, например, исход чемпионата по баскетболу, просто сканируя Polymarket;

  • в 10 раз мощнее, чем Grok 3;

  • создаёт готовые игры всего по одному промпту, ИИ способен собирать шутеры за пару часов, налету подтягивать 3D-модели из сети и даже натягивать на них текстуры;

  • в голосовом режиме Grok 4 научилась шептать, петь, менять интонации и отвечать быстрее ChatGPT.

Новая модель Grok 4 станет доступна подписчикам Supergrok за $30 в месяц. Также будет прокачанная версия Grok 4 Heavy за $300 в месяц. xAI готовит отдельную модель Grok 4 для кодинга — построенную специально для программистов.

Теги:
Всего голосов 5: ↑4 и ↓1+4
Комментарии0

Nvidia стала первой в истории компанией с капитализацией в $4 трлн (больше крипторынка, который весь составляет $3,6 трлн). Это происходит на фоне бума нейросетей.

Теги:
Всего голосов 4: ↑4 и ↓0+6
Комментарии0

Зачем говорить с китами?

Закончилась моя вахта в экспедиции по мониторингу морских млекопитающих у Кольского полуострова.

В этих водах наблюдения никогда не проводились на постоянной основе. У ученых нет понимания, сколько животных там появляется и как они мигрируют. Яркое напоминание о том, как мало мы о них знаем. Всю поездку я читал переведенную с помощью Gemini книгу How To Speak Whale, вышедшую в 2022 году. Она не дает четкого ответа на вопрос «как говорить с китами», скорее объясняет, почему стоит попробовать. Однако, за три года, прошедшие с печати, этой задачей занимались в Google в партнерстве с The Wild Dolphin Project и Технологическим институтом Джорджии. В апреле они представили проект DolphinGemma.

DolphinGemma — нейросеть, вдохновленная архитектурой больших языковых моделей, но работающая со звуком. Ее обучили на записях одной группы дельфинов с Багам. С 1985 года команда WDP документирует их жизнь, взаимодействия и вокализации.

DolphinGemma работает как аудиопроцессор: анализирует последовательности естественных звуков дельфинов, выявляет закономерности и структуры, а затем прогнозирует вероятные следующие звуки в последовательности. Примерно так же большие языковые модели предсказывают следующее слово в предложении.

В медиа ее сразу окрестили «переводчиком с дельфиньего». Однако большинство серьезных исследователей морских млекопитающих, включая Куницу, относятся к этой идее скептически: полноценного языка у морских млекопитающих может и не быть. DolphinGemma — не переводчик, а аналитический инструмент.

Как это работает

Модель прослушивает, какие звуки дельфины издают один за другим, и выявляет устойчивые паттерны. Например, если после звуков A и B чаще всего следует звук C — это может быть отдельный сигнал A-B-C. Тогда исследователи возвращаются к видео и смотрят, что в такие моменты делали дельфины. Допустим, в 80% случаев они играли — значит, можно предположить, что это типичная игровая вокализация.

Главная фишка в том, что модель находит такие закономерности в терабайтах данных намного быстрее, чем это сделал бы человек, годами прослушивая записи. С ее помощью можно обнаруживать неизвестные звуковые паттерны, которые могли ускользнуть от человеческого внимания, а затем попытаться найти их связь с действиями дельфинов.

Эксперимент с двусторонней коммуникацией

В то же время у DolphinGemma есть и другая функция — генерация звуков. Она может создавать сигналы, похожие на дельфиньи — а значит, животным будет проще их воспроизвести. Исследователи планируют применить их в экспериментах.

Логика такая: люди создают искусственные свисты для конкретных предметов — шарфов, водорослей, игрушек. Они ныряют, воспроизводят синтетические звуки и демонстративно обмениваются предметами между собой — так, чтобы дельфины это видели и поняли правила игры: звук = предмет.

Надежда на то, что любопытные дельфины начнут имитировать эти звуки, когда захотят получить конкретный предмет. Специальный носимый компьютер на базе смартфона Pixel в реальном времени распознает, какой именно звук имитирует дельфин, и через подводные наушники сообщит исследователю: «Дельфин просит шарф». Исследователь даст ему шарф, закрепляя связь звук-предмет.

Это не язык, скорее простая сигнальная система, как у людей и собак, но если животные научатся ею пользоваться — это скажет многое об их разуме.

Хотите знать больше? Подписывайтесь на меня в Telegram.

Теги:
Рейтинг0
Комментарии0

Представлен бесплатный сервис для транскрибации аудио и видосов в текст — TranscribeAI. Система вытащит текст из любого медиа, даже если там много помех. Внутри — Whisper от OpenAI. Поддерживает больше 100 языков и знает русский. Принимает файлы до 4 ГБ во всех популярных форматах — MP3, WAV, MP4, AVI, MOV, MKV. Перегоняет всё в текстовый файл, расставляет таймкоды и маркеры. Может создать субтитры в формате SRT.

Теги:
Всего голосов 3: ↑1 и ↓20
Комментарии13

Присоединяйтесь к третьему Cloud․ru Tech Lab: AI&ML — митапу для тех, кто планирует внедрение AI в свои сервисы и не только 🤖

📅 Дата: 24 июля в 18:00
📍 Место: Москва, ул. Большая Почтовая, 40, строение 4, Гоэлро Лофт, зал Tesla, 3-й этаж

Расскажем, как мы автоматизировали пользовательские сценарии с помощью AI-агента, подробно разберем устройство нашего стека (агенты, RAG, Ragas) и объясним, почему сейчас все говорят про Model Context Protocol (MCP) и как собрать MCP-сервер без кода.

В программе:

  • Как мы встроили AI-агента в онлайн-обучение и улучшили опыт студентов — Стас Гридин, менеджер проектов, и Илья Жбанов, Data Science инженер, Cloud.ru.

  • Адаптация RAGAS для оценки RAG — Иван Ловцов, старший Data Science инженер.

  • MCP: почему о нем все говорят? — Игорь Латкин, управляющий партнер и системный архитектор, KTS.

  • Как мы приручили мультиагентный хаос с A2A — Артемий Мазаев, менеджер продукта, Cloud.ru.

  • Секретный доклад от приглашенного эксперта.

А еще — демозона AI-решений на базе Cloud.ru Evolution, активности, живой нетворкинг и возможность лично задать вопросы практикам и архитекторам.

Мы предусмотрели два формата участия:

  • офлайн — для тех, кто планирует лично посетить площадку,

  • онлайн — для тех, кто хочет посмотреть доклады в записи.

Зарегистрироваться на митап 👈

Теги:
Рейтинг0
Комментарии0

Исследовательская группа Model Evaluation & Threat Research из Калифорнийского университета в Беркли представила новый способ измерения прогресса больших языковых моделей. Вместо привычных метрик вроде точности ответов или скорости генерации учёные предложили другой аспект: сколько времени требуется человеку на задачу, которую ИИ может успешно выполнить хотя бы в 50% случаев?

Согласно расчётам, с каждым годом модели справляются с всё более объёмными задачами, и темп этого роста — экспоненциальный. С 2019 года способности LLM в решении задач улучшаются вдвое каждые 7 месяцев:

  • GPT-2, вышедший в 2019 году, мог справиться только с ответами на вопросы, что в среднем занимает у человека до минуты;

  • GPT-4, который появился в 2023, уже мог брать на себя задачу вроде «найти факт в интернете», которая занимает у человека от 8 до 15 минут;

  • более продвинутые модели вроде Claude 3.7 и OpenAI o1 могут бать на себя задачи, выполнение которых человеком выходит за пределы часа.

Если темпы роста сохранятся, то уже к 2030 году языковые модели смогут решать за часы задачи, которые потребовали бы 167 часов работы человека — это условный месяц работы в графике 5/2. Речь идёт о комплексной интеллектуальной работе: от оптимизации архитектуры кастомного чипа до запуска нового продукта или даже написания содержательной книги.

В исследовании, например, в 167 часов оценена задача открыть новую компанию. Авторы исследования считают, что к 2030 году ИИ сможет браться за такую задачу автономно, то есть не в виде ассистента, а как самостоятельный исполнитель.

Исследование не учитывает внешние ограничивающие факторы, и авторы сами об этом говорят. Даже если ИИ будет таким умным, как его описывают, его возможности могут упереться в вычислительные мощности или доступ к памяти.

Теги:
Рейтинг0
Комментарии1

GPT — мать. Отец — open-source. Хабраредактор локально пророс

Вначале представление о финальном продукте весьма расплывчато: нужен ИИ-помощник, который будет обладать полной информацией обо всех текстах в блоге YADRO и отвечать на вопросы по ним в формате чат-бота. Когда я начинал пост, в блоге было 223 статьи, что открывает большой простор для кросслинковки. Хочу, чтобы помощник подсказывал, на какие из предыдущих статей блога я могу сослаться в новой. Было бы здорово получать тематические подборки статей, что мы иногда добавляем в анонсы связанных митапов. Еще какие-нибудь сценарии я, наверно, придумаю на ходу.

Другая задача, как мне кажется, будет сложнее — аналитика в разрезе тем и других атрибутов статей, особенно качественных, а не количественных. Но не буду грустить заранее: это пет-проект, take it easy. К тому же в итоге получилось наоборот: именно в качественных, а не количественных вопросах прогресс чат-бота оказался заметнее.

Создаю новый диалог с GPT-4o и закладываю в нее требования. Нейросеть бодро предлагает несколько вариантов реализации.

GPT-4 + LangChain (или ChatGPT API с RAG). «Минусы: платно (и затраты могут вырасти при больших объемах)». Тот же минус — и в варианте «решения под ключ (SaaS-инструменты): writer.com, jasper.ai, copy.ai». А есть что-нибудь на open source?

Да, причем это был первый вариант в списке: open-source LLM + векторная база (например, LLaMA 3 + FAISS / Weaviate / Qdrant). При сравнении трех опций GPT даже подчеркнул преимущества этой: «максимальная точность, контроль, гибкость». Честно говоря, ожидал от OpenAI больше саморекламы, приятно удивлен. Давай остановимся на open source, но смогу ли я осилить это в одиночку?

«Да, ты вполне можешь создать такую систему сам, особенно если у тебя есть базовые навыки Python и немного понимания в работе с API или веб-разработке». Два года назад я прошел базовый месячный курс по Python. С веб-разработкой все точно не лучше, а с API… в общем, здесь уже только вера в себя осталась.

Редактор блога YADRO Николай Землянский создал локального ИИ-помощника, который анализирует статьи на Хабре, выделяет темы и делает подборки со ссылками. Что получилось в MVP и как будет развиваться проект — читайте в статье.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии1

Как Новосибирский государственный университет использует ресурсы облака Cloud.ru Evolution для размещения умного чат-бота в Telegram 🎓

Что за компания

Новосибирский государственный университет — пример эффективной интеграции образовательного процесса и научной деятельности. На базе механико-математического факультета НГУ работает лаборатория прикладных цифровых технологий, в которой проводят разработки на базе искусственного интеллекта.

Какая была задача

Один из проектов лаборатории — умный чат-бот в Telegram на базе больших языковых моделей. На сайте университета есть интеллектуальная база знаний, с помощью которой можно найти информацию или ответ на вопрос. Задача бота — упростить и сократить поиск до нескольких секунд. 

Команда НГУ искала мощное и выгодное решение для размещения бота, а также тестирования других гипотез.

Как ее решили

Сотрудники НГУ самостоятельно перенесли и развернули проект. Для размещения выбрали виртуальную машину с GPU 4 vCPU/64 ГБ RAM/1 GPU V100 на облачной платформе Cloud.ru Evolution, которая идеально подходит для задач машинного обучения, искусственного интеллекта и обработки трехмерной графики. А еще она позволяет масштабироваться по мере необходимости и использовать ресурсы по модели pay-as-you-go.

Что в результате

Чат-бот помогает решить сразу несколько задач университета:

  • привлечь абитуриентов,

  • разгрузить службу поддержки,

  • упростить поиск изображений по внутренней базе знаний.

Среднее время ответа чат-бота — до 10 секунд.

Читать кейс полностью 💼

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии2

Исследование показало, что некоторые учёные начали оставлять в своих научных статьях скрытые промты для ChatGPT, чтобы нейросеть хвалила их работу.

При проверке научного портала arXiv уже нашлись 17 работ от 14 ведущих вузов мира — в каждой статье были скрытые промпты, которые просили ИИ хвалить её и не подсвечивать минусы. Учёные в научных статьях прячут нужный промпт для ИИ в белом тексте минимального размера, а на выходе получают похвалы и восхищение их трудом от «прочитавших» статью ИИ-сервисов.

Теги:
Всего голосов 14: ↑14 и ↓0+20
Комментарии2

От слов к телу: путь к настоящему ИИ

Вы сидите на холодном складе в грязном квартале Мишен в Сан-Франциско. День за днем управляете роборуками через перчатки с трекингом движений. Медленно, с усилием складываете одежду и собираете коробки — все ради одной цели: научить нейросеть действовать в реальном мире.

Добро пожаловать в штаб-квартиру Physical Intelligence, стартапа, основанного выходцами из DeepMind. Их цель — не чат-бот, а универсальный робот, способный взаимодействовать с физическим миром, как человек.

Но в отличие от разработчиков ChatGPT, они не могут положиться на залежи интернет-текстов. Посты с Reddit и статьи из Википедии не научат машину держать чашку или гладить рубашку. Сенсорику, телеметрию и управляющие сигналы приходится собирать вручную. Человек, словно кукловод, ведет за собой робота, формируя эталонные движения и реакции. Это медленно, дорого и плохо масштабируется: один оператор не может "наработать" больше 24 часов данных в сутки.

Теперь переместимся на конференцию AI Ascent 2025, где выступает Джим Фан из NVIDIA. Он показывает, как в симуляции за два часа можно пройти путь, на который в реальном мире ушло бы десять лет: гуманоидные роботы учатся двигаться в виртуальной реальности.

Но главное — не это. Фан говорит о том, что он называет физическим Тестом Тьюринга:

Попросите убраться и приготовить обед. Если вы не сможете отличить, кто это сделал — человек или робот — тест пройден

Пока этот тест не прошел никто. Потому что нейросети по-прежнему не имеют телесного опыта этих действий. Это ключевая мысль, тем более что звучит она от директора по ИИ в NVIDIA.

Языковые модели вроде GPT, Claude или Gemini живут в пещере Платона. Они изучают мир по теням — по текстам, изображениям, аудио. Они видят описания, но не проживают реальность.

Настоящий интеллект не просто вычисляет. Он чувствует и действует. Он обретает тело, через которое познает: ошибки, сопротивление, вес, равновесие, трение, успех. Все это — то, что философы называют qualia — субъективные, необъяснимые переживания, формирующие "я". Вот почему так важно дать роботам, например, осязание.

Чтобы пройти физический Тест Тьюринга, машине нужно не больше слоев и токенов, а тело и среда, в которой она учится. Как у детей: игрушки, касания, падения, неожиданности. Ведь и наш мозг формируется не текстами, а опытом.

Но правда в том, что и мы сами смотрим на тени на стене пещеры. Они фактурные, цветные, пахнущие, — но физики напоминают: вселенная гораздо сложнее, чем подсказывают чувства.

А каким будет разум, способный чувствовать тоньше? Острее? Через десятки сенсоров, которых у нас нет, через сигналы, которые мы не в состоянии воспринять? Возможно, путь к сверхразуму — не в вычислительной мощности, а в сенсорной плотности. В телесности. В новых каналах восприятия и способах взаимодействия с миром, которые для нас недоступны.

Путь — в выходе из пещеры.

Хотите знать больше? Подписывайтесь на меня в Telegram.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Теперь за специалистов по искусственному интеллекту платят больше, чем за футболистов.

Теги:
Всего голосов 3: ↑2 и ↓1+2
Комментарии4

В открытый доступ вышла книга по машинному обучению Machine Learning Q and AI. Ранее целый год фундаментальный труд Себастьяна Рашки можно было купить только на Амазоне, и вот автор открыл книгу для всех бесплатно.

Внутри огромный сборник тем по Deep Learning, 30 глав отборной, понятной и подробной информации по компьютерному зрению, LLM, эвалу и методам деплоя моделей, а также множество примеров и практических пояснений — автор все объясняет на схемах и картинках. Также есть упражнения после каждой главы.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Ближайшие события

Чем занимается команда Data Science в финтехе

Рассказывает Слава, инженер машинного обучения в ЮMoney.

У нас в компании много данных, которые можно обрабатывать, чтобы улучшать пользовательский опыт. Например, данные пользовательских обращений ЮKassa из разных каналов: чатов с техподдержкой, почты, звонков в колл-центр.

Мы передаём тексты из обращений модели, которую обучили относить их к определённому классу (подключение СБП, вопросы по возвратам, платёжным методам и т. д.). Постоянно появляются новые темы, поэтому приходится регулярно дополнительно обучать модель. Разбив все поступающие обращения по группам, можно оценить их количество и построить дашборд.  

Если по одной теме у нас пять тысяч обращений, по второй — десять тысяч, а по третьей — всего два, значит, нам нужно уделить особое внимание первым двум.

В классификаторе пользовательских обращений мы используем языковые модели типа BERT. Также развиваем использование больших языковых моделей (LLM). У них много знаний «из коробки», они не требуют дообучения и могут применяться для разных задач. Есть и недостатки (требовательность к вычислительным ресурсам или галлюцинации), но LLM способны выполнять задачи намного быстрее, чем человек.

Ещё одно интересное направление Data Science, которое мы тестируем, — распознавание изображений и классификация по категориям. Сейчас мы решаем эту задачу с помощью модели clip, но планируем проверить эффективность работы visual LLM, например Qwen-VL. Этот вид моделей анализирует изображение и даёт текстовое описание, которое можно использовать в продуктах, например при проверке сайтов, которые подключаются к ЮKassa.

Также LLM хорошо выполняет задачи написания саммари — например, по итогам проведённой встречи. Предварительно отдельная модель (у нас это Whisper) переводит аудио в текст, что сильно ускоряет работу коллег.

***

Делитесь в комментариях, есть ли команда Data Science в вашей компании и какие задачи она решает. 🙌 А также следите за нашими новыми материалами о том, как технологии меняют финтех изнутри. Впереди ещё много интересного!

Теги:
Рейтинг0
Комментарии0

АГЕНТЫ И АГЕНТНАЯ ЭКОНОМИКА. 30.06.25. ИЮНЬ ВСЁ.

Микро-дайджест недели. Интересные мысли и инсайты.

Дайджест по материалам зарубежных медиа. Минимум булшита, максимум инсайтов.

=>  «Агенты не всегда следуют правилам», — сказала Мэй Хабиб в прошлую среду на сцене VB Transform. «Они ориентированы на результат. Они интерпретируют. Они адаптируются. И их поведение действительно становится очевидным только в реальных условиях».

Это означает отказ от традиционного жизненного цикла разработки программного обеспечения при работе с адаптивными системами.

То есть, процесс рассуждения как бы выносит агентов из формата "это просто код", потому что они демонстрируют поведение «мыслящих сущностей», чья логика во многом формируется не в момент написания условий взаимодействия, а только в момент их реалтайм использования. И это выглядит похожим на разумное, а порой и на неразумное, поведение.

=>  В прошлом дайджесте я написал о концепте "Один мир, один язык", но забыл прикрепить подкаст, который я сгенерил для вас по этой теме. Исправляюсь.

=> Профессор-экономист Anton Korinek доносит мысли о вариативности сценариев на рынке труда. Процесс подготовки осознания и принятия населением больших изменений идет полным ходом. Пока все сходятся на том, что человек+ИИ это выгодно всем, поэтому людям надо поскорее брать новые навыки, ну и склонять свои правительства к управляемому и регуляторному подходу к внедрению ИИ-технологий.

Мне только одно не понятно, если половина мира находится в свободном рынке, то как они собираются это регулировать?

=> Alexandre Bobeda, айвентор из Бразилии, запустил свой мини-стартап Recipfy

"Моя коллекция рецептов была просто катастрофой. У меня были скриншоты, наброски, PDF-файлы, случайные ссылки на блоги. Ничего не было доступно для поиска или использования, когда я действительно хотел что-то приготовить.

Поэтому я создал то, что мне было нужно: менеджер рецептов, который позволяет вам загружать фото, скан или текст, и он автоматически извлекает, организует и помечает ваши рецепты. Он поддерживает как английский, так и португальский языки, и все синхронизируется в браузере."

Стэк, на котором он это запустил: Lovable, Windsurf (как замена VS Code), Supabase  (база данных и бэкэнд), Vercel (хостинг приложений для быстрого развертывания и глобальной производительности), Klaviyo (рассылка + отзывы пользователей), LLM (Mistral как основной движок, Gemini 3.5 Pro и Claude Sonnet 4 для UX и функционала).

Я бы хотел, чтобы в России появилось больше айвенторов (предпринимателей нового поколения, которые запускают министартапы и дизраптят действующий бизнес).

=> Большая Игра. Кто будет владеть каналами дистрибуции и что делать уже сегодня?

Идет невидимая борьба не за технологии, а за владение новыми платформами дистрибуцией. Дистрибуции всего: контента, трафика, и самое главное - за владение пользователем, его контекстом.

Грядет следующий большой сдвиг в этой дистрибуции, и он изменит то, как продукты находят пользователей, так же радикально, как это сделали поисковые системы, социальные платформы и магазины приложений до него.

Ты не выбираешь, играть или нет. Ты выбираешь, когда и насколько умно играть. Это рынок. Но теперь игра идет быстрее.
И поскольку чат это диалог, то весь маркетинг и продажи сместятся в формат диалогов туда, где проводит свое время пользователь. Это ключевой инсайт, но как всегда рекомендую смотреть, чтобы слышать нюансы, которые важны именно для вас.

=> Deep Research Agents это новый этап в развитии интеллектуальных систем: они планируют, исследуют, анализируют и создают отчёты автономно. Их сила в комбинации гибкого поиска, инструментальной экосистемы и продвинутого обучения. Однако вызовы остаются: масштабируемость, оценка, мультимодальность, сотрудничество.

=> Гайд по тестированию ИИ-приложений OWASP

=> Мануал, как подготовить ваше API для ИИ (LLMs и ИИ-агентов)

Предыдущие материалы и выпуски дайджеста за июнь, там до сих пор много интересных инсайтов!

Альфред Лао. Айвентор и Фред

Теги:
Всего голосов 6: ↑5 и ↓1+4
Комментарии0

🔺Пример MCP для Gemini CLI

Ковыряюсь с Gemini CLI, консольным кодовым агентом, который на днях вышел. Накидал пример, как расширить его функционал при помощи MCP сервера.

my_mcp.py

from openai import OpenAI
from mcp.server.fastmcp import FastMCP
import base64
import os


client = OpenAI(api_key=os.environ["OPENAI_API_KEY"])
mcp = FastMCP("openai-image-generator")

@mcp.tool(description="Generate an image with OpenAI Images API")
def generate_image(
    prompt: str,
    size: str = "1024x1024",   # "1024x1536", "1536x1024", "1024x1024"
    quality: str = "high",     # 'low', 'medium', 'high'
    background: str = "transparent"
) -> str:
    """Return a file path to the generated image."""
    response = client.images.generate(
            model="gpt-image-1",
            prompt=prompt,
            size=size,
            quality=quality,
            output_format="png",
            user="test_user",
            moderation="low",
            background=background,
            n=1)
        
    image_base64 = response.data[0].b64_json
    image_bytes = base64.b64decode(image_base64)

    file_name = f"gen_image.png"
    file_path = os.path.join(os.getcwd(), file_name)

    with open(file_path, "wb") as f:
        f.write(image_bytes)
        
    return file_path

if __name__ == "__main__":
    mcp.run()

Тут вызывается API для генерации изображения, ключ берется из переменных окружения, картинка сохраняется на диск. И прописываем путь до файлика в settings.json Gemini:

{
  "mcpServers": {
    "openai-image-generator": {
      "command": "python",
      "args": [
        "/path/to/my_mcp.py"
      ],
      "env": 
        "OPENAI_API_KEY": "${OPENAI_API_KEY}"
      }
    }
  }
}

Если теперь просить сгенерить лого для своего репозитория, то Gemini составит релевантный промпт по репе, вызовает этот метод и по желанию обновит Readme проекта, добавив в него картинку.

Смысл тут в том, что так можно подключить любой вызов вашего внешнего инструмента.

В целом же есть куча готовых серверов, можно легко подключить GitHub для создания агентом пулл-реквеста или RAG на своих файлах. Хороший список есть в официальной репе разработчиков MCP протокола.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии5

🔺HFDay.ru

Сделал для сообщества сайт с обзорами статей с HF Daily Papers на русском.

hfday.ru
hfday.ru

Синхронизируется каждый час, можно отсортировать по рейтингу или вывести вверх недавно добавленные статьи, чего, кстати, на оригинальной страничке не сделать.

Обзоры, теги по темам и прочие данные генерируются через claude-3.7 и gpt-4o на основе спаршенных с сайта абстрактов. Аффилиации, имена авторов и скриншоты также вытаскиваются из статей и отображаются.

Код. Развернуто все полностью на GitHub — через Workflow джобы и Pages, что само по себе очень прикольно. Скрипты обновляют файлы с данными, пишут логи и генерируют страничку, которая коммитится обратно в репозиторий. Такую автоматизацию удобно использовать для своих проектов. Код открыт.

Данные. Предыдущие выпуски, включая json с классифицированными обзорами, откладываются в папку /d, можно брать их для своих нужд. Кушает это где-то по 20-30 рублей в день.

Языки. Кроме русского, обзоры переводятся на английский и китайский (вдруг вы его подучиваете).

Фильтры. Можно фильтровать по тематике статей, классификация на 42 класса (#agents, #data, #healthcare, #machine_translation, #science, #long_context, #reasoning и другие). Можно делать перекрестные и объединяющие фильтры.

Рейтинг. Кроме топа по дням есть топ по месяцам — например, за июнь было уже 600+ статей. Можно посмотреть какие из них лучшие по каким темам. Опять же, на оригинальной страничке такого нет.

В общем, добавляйте в закладки и шарьте с коллегами. Идеи приветствуются.

hfday.ru x градиент обреченный

//Upd. Забыл добавить — код тут.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии2

Улучшаем качество ответов ChatGPT в раз за один промпт.

Прежде чем отвечать, оцени уровень неопределённости своего ответа. Если он превышает 0.1, задай мне уточняющие вопросы до тех пор, пока неопределённость не снизится до 0.1 или ниже.

Этот запрос убивает «угадайку» внутри нейронки и заставляем ее жёстко чекать каждый ответ и не выдумывать инфу. Ответы становятся точными и осмысленными.

Теги:
Всего голосов 7: ↑7 и ↓0+7
Комментарии2

Попробуйте готовые AI-сервисы в среде Cloud.ru Evolution AI Factory для обучения ML-моделей и разработки AI-агентов

Вчера на конференции GigaConf рассказали про запуск Cloud.ru Evolution AI Factory — облачной среды с готовыми AI- и ML-инструментами, которые позволяют легко работать с LLM, создавать AI-агентов, запускать мультиагентные системы и решать полный цикл ML-задач.

Cloud.ru Evolution AI Factory рассчитана не только на опытных разработчиков — работать с сервисами можно даже без глубоких знаний в машинном обучении и навыков программирования.

Сервисы в общем доступе:

  1. Evolution ML Inference — для запуска ML-моделей из Hugging Face. Платите только за нужное количество видеопамяти благодаря нашей технологии Shared GPU.

  2. Evolution Foundation Models — сервис с популярными open source моделями, доступными по API. Вам не придется развертывать инференс и писать код.

Сервисы в стадии тестирования, которые можно попробовать бесплатно:

  1. Evolution Managed RAG — для реализации RAG-подхода, который уменьшит галлюцинации и повысит фактологическую точность ответов моделей.

  2. Evolution ML Finetuning — для тонкой настройки LLM конкретно под ваши задачи с помощью технологии LoRA, без дорогого переобучения.

  3. Evolution Notebooks — для работы и тестирования ML-гипотез на мощных GPU с использованием пользовательских или базовых Docker-образов на базе JupyterLab. 

  4. Evolution AI Agents — для создания автономных AI-агентов, которые могут анализировать информацию, обучаться на данных, планировать действия и адаптироваться к изменяющимся условиям среды, в которой работают. Можно объединить до пяти агентов в мультиагентную систему.

Выбирайте подходящие инструменты и реализуйте ваши проекты!

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Минцифры предлагает записаться на бесплатные курсы «Код будущего. Искусственный интеллект». Основы ИИ, машинного обучения и Python теперь доступны даже новичкам на Госуслугах.

Изучение технологий ИИ — новое направление проекта для тех, кто хочет поступать на ИТ-специальности в вузы. В 2025 году на нём сможет обучиться не менее 75 тыс. студентов.

Кто может подать заявку:

  • ученики 8-11 классов;

  • студенты колледжей и техникумов.

Участники не должны быть выпускниками проекта «Код будущего».

Что ждёт учеников

  • 6 топовых курсов от МФТИ, Яндекса, 1Т, Цифриума и Школы программистов;

  • 54 часа обучения в онлайн-формате;

  • 4 месяца на прохождение программы.

Набор на основные курсы «Код будущего», на которых подростки изучают популярные языки программирования, начнётся в августе этого года. Выпускники «Кода будущего. Искусственный интеллект» смогут подать заявку в основной набор проекта, выбрав только курсы программирования профессионального уровня.

Теги:
Рейтинг0
Комментарии0

Вклад авторов