Машинное обучение *

Основа искусственного интеллекта

Машинное обучение * Управление разработкой * Управление продуктом * Искусственный интеллект

Сэм Альтман сообщил, что GPT-5 будет бесплатной, а следующей нейросетью OpenAI станет GPT-4.5.

Альтман признал, что сам устал от десятков моделей с разными названиями и неясными функциями — с GPT-4.5 в компании начнут возвращение к понятному неймингу. С GPT-5 номерные модели будут объединять сразу все функции и сами определять, когда им дать короткий, но быстрый ответ, а когда уйти в длительное размышление.

Также GPT-5 запланирована быть бесплатной с неограниченным доступом к чат‑боту и всем функциям, но с базовым уровнем мощности. У нейросети будет несколько ступеней: основная для обычных пользователей, продвинутая для Plus‑подписчиков и мегамощная за $200. Ждать GPT-4.5 осталось несколько недель.

-1

denis-19

11 фев в 15:457.6K

Машинное обучение * Учебный процесс в ITИскусственный интеллектМозгБудущее здесь

Пользователи в некотором смысле тупеют после использования нейросетей. Этот факт доказали исследователи из Microsoft и Университета Карнеги‑Меллона.

В чём проблема: чем чаще мы используем ИИ, тем меньше используем критическое мышление — вместе с ним «драматически ухудшаются когнитивные способности». Учёные пришли к ироничному заключению: мы автоматизируем рутинные задачи и вместе с этим перестаём тренировать мозг. А без постоянной тренировки даже самые крутые спецы теряют базовые навыки. Начинаем снова считать в уме.

dmitrifriend

10 фев в 15:058.8K

Блог компании BotHubМатематика * Машинное обучение * Искусственный интеллект

Итак, группа исследователей создала платформу MathArena, где планируют делиться отчётами о сравнении нейросетей в различных математических проблемах. Для начала множество моделей уже протестировали на AIME 2025 I, олимпиаде, прошедшей в четверг.

Что такое AIME? American Invitational Mathematics Examination — элитное математическое состязание, проводимое с 1983 года. Существует две версии теста — AIME I и AIME II, но каждый участник может пройти только одну (хотя ИИ-моделям повезло, и вскоре появятся результаты для второй части). Олимпиада состоит из 15 задач, сложность которых возрастает.

Каждую модель тестировали по четыре раза на каждой задаче, вычисляя средний балл (столбец Acc — accuracy) и финансовую стоимость вычислений (столбец Cost). Для удобства использовалась цветовая кодировка: 🟩зелёный — задача решена в более чем 75% случаев; 🟨жёлтый — успех в 25–75% случаев; 🟥красный — модель справилась менее чем в 25% попыток. Щелчком по клетке можно открыть условие задачи, ход рассуждений модели в каждом из четырёх подходов и финальные ответы.

🏆o3-mini-high от OpenAI показала впечатляющий результат — 80% решённых задач при очень низкой стоимости вычислений.
🔹DeepSeek-r1, лидер среди опенсорс-моделей, набрал 65%, а его дистиллированные версии тоже продемонстрировали достойные результаты. (Кстати, уже пробовали запустить его в нашем агрегаторе нейросетей?)

Можно заметить, что дистилляты хоть и уступают своим полным аналогам, но не так уж сильно: сжатие DeepSeek-r1 с 671 млрд параметров до 70 или даже 14 млрд привело к падению эффективности в обоих случаях всего на 15%. То есть урезанная модель становится заметно легче, но при этом сохраняет бóльшую часть своих возможностей.

К сожалению, Claude 3.5 Sonnet, модель июня 2024-го, оказалась на дне рейтинга. Однако её сильная сторона явно не в этом — огромное контекстное окно (200 000 токенов) делает модель отличным инструментом для программирования. Кодеры подтверждают, что она хорошо генерирует длинные и сложные фрагменты кода.

Пока что в тестах не замечено семейства Phi. Phi-4 набирает 80%+ на сложнейших бенчмарках, таких как MATH, уверенно обходя Gemini Pro и GPT-4o-mini. Посмотрим, добавят ли авторы сайта её в дальнейшем🤔

Тем временем пользователи X забили тревогу и решили проверить честность олимпиады, задействовав свежачок от OpenAI — Deep Research. Цель? Выяснить, не мелькали ли эти задачки где-то в Сети раньше и, соответственно, не могли ли их решения заранее попасть в обучающие данные моделей. Ведь если так, то модели получали преимущество.

Нашлось ли что-то подозрительное? Как оказалось, похожие задачи действительно уже обсуждались на форумах.

Задача № 1: найти сумму всех целых оснований b > 9, для которых одно число делится на другое в системе счисления b. Аналогичное задание всплыло на Quora. Однако и различия существенны: на форуме просто рассматривались все возможные значения b, удовлетворяющие делимости, а в олимпиадном варианте — только те, которые больше 9. Это заметно сужает поиск и усложняет задачу.

Задача № 3: найти остаток от деления количества возможных распределений мороженого между игроками с заданными ограничениями. Deep Research нашёл похожую концепцию: обе задачи связаны с разбиением числа на несколько частей с учётом ограничений. Но здесь тоже есть нюансы: в олимпиадной версии обязательно, чтобы каждый из трёх вкусов достался хотя бы одному игроку, причём количество игроков, выбравших каждый вкус, подчиняется неравенству c > v > s. Более того, порядок распределения важен, что добавляет ещё один уровень сложности.

Итог. Похожие? Да. Идентичные? Нет. Найти аналоги почти любой задачи в интернете реально, если искать достаточно хорошо. Так что сказать, что модели видели точно такие же задачи, нельзя.

yadro_team

10 фев в 12:038.4K

Блог компании YADROC++ * Машинное обучение * Конференции

«Плюсовое» чтиво: ежемесячная рассылка о разработке на С++

Инженеры YADRO пишут не только статьи, но и письма о «плюсах». Подписчики рассылки раз в месяц получают короткую заметку о том, что важно или интересно разработчикам на С++. Какие письма уже выходили:

— Подборка лучших выступлений с Zero Cost Conf с комментариями Константина Владимирова.
— Презентация новой книги Кирилла Колодяжного о машинном обучении на С++.
— Совет, как избежать проблемы с лямбда-корутинами от ведущего инженера Елены Степановой.

Обычно контент из рассылки не найти на других платформах, поэтому оставайтесь на связи, чтобы не пропустить уникальные материалы.

Подписаться на рассылку →

rajce

9 фев в 06:327.8K

Блог компании BotHubМашинное обучение * Искусственный интеллект

Пост может показаться для некоторых очевидным, но я решил всё-таки его написать, т.к. я обратил внимание, что многие, даже умные люди, сейчас ошибочно считают что современные нейросети - не умеют думать, к примеру, нейросети не могут посчитать сколько будет 2х2, они просто это помнят. Да это было так для LLM вроде gpt4 и claude-sonnet-3.5, но с приходом reasoning нейросетей (LRM) всё поменялось, они научились рассуждать. Они строят вероятностные гипотизы, далее проверяют их, в случае ошибки, переходят к проверке следующей гипотезы и так до бесконечности. Почти как человек.

В начале 2025 вышли новые олимпиадные задачи по математике, которых не существовало во время обучения всех существующих моделей включая Deepseek r1 и o1/o3. Ребята провели тесты, прикладываю результаты, см картинку, как видно, рассуждающие нейросети щёлкают олимпиадные задачки как орехи, в отличие от LLM.

Сэм Альтман заявил что их непубличная топовая LRM модель уже входит в ТОП-50 по рейтингу всех программистов мира, тогда как публичная о3 которая вышла всего два месяца тому назад находится лишь на 175-ом месте, а первая LRM o1 -- была лишь на миллионом месте. До конца года они обещают обойти человека в сфере программирования.

Oksenija

7 фев в 16:2511K

Python * Алгоритмы * Математика * Машинное обучение * Звук

Увеличиваем точность БПФ. Изобретаем алгоритм для Гитарного Тюнера и оценки точности пения нот вокалистами. Это анонс статьи в разработке. Подписывайтесь на мой профиль на Хабре, чтобы не пропустить статью. Или присоединяйтесь к моей "телеге". Кратко: точности и быстродействия классического БПФ не хватает для точной и быстрой оценки частоты сигнала. Ищем и изучаем другие алгоритмы. Да, я знаю много китайских маленьких приборчиков и прищепок на гитару с весьма точной настройкой, но интересно разобраться как это достигается. Напишите в комментариях какие более точные алгоритмы определения частоты сигнала вы знаете? (я уже нашел несколько, сейчас тестирую, смотрите изображение ниже) На графиках амплитудный спектр суммы 7 синусоид с близкими частотами, интервал наблюдения 0.1 секунды, частота дискретизации 22050 Гц, как видите классический БПФ ошибается и даже не все синусы видит, а альтернатива дает меньшую ошибку и все синусы увидела. Вертикальные красные линии это реально находящиеся в тестовом сигнале синусоиды. Их частоты написаны над верхней границей графиков.

denis-19

6 фев в 17:1811K

Машинное обучение * Учебный процесс в ITОблачные сервисы * Искусственный интеллект

Подробная шпаргалка по промптам для DeepSeek с универсальной схемой, по которой китайский ИИ выдаст наилучшие ответы.

Маркетинг, кодинг, тексты, коучинг, психология — просто впишите в нейронку нужную вам роль и выбирайте любую задачу.

Например: copy Act as [Marketer] and create a [detailed plan for the brand improvement and promotion]. Show it as a [list]

SvetaDT

6 фев в 13:176.1K

Блог компании DoubletappМашинное обучение * Natural Language Processing *

7 главных трендов технологий искусственного интеллекта в 2025 году

Многие в интернете начали заявлять, что искусственный интеллект достиг AGI то есть стал искусственным интеллектом общего назначения. Понятие искусственный интеллект появилось в 1956, но только в последние несколько лет обычные люди смогли познакомиться с ним лично, применяя его в работе и развлечениях, благодаря интеграции ИИ в сервисы бизнеса. Сегодня я, Федор Горбунов, руководитель направления машинного обучения в Doubletapp, расскажу какие значимые нововведения появились за 2024 год, чем они полезны и спрогнозируем вектор развития отрасли в будущем.

❓ИИ уже получил возможности человеческого мышления?

❓Когда сгенерированные видео заполонят мир?

❓Есть ли российские аналоги LLM, которые смогут конкурировать с нынешними лидерами?

❓Какие ИИ-инструменты полезно внедрить в бизнес уже сегодня?

Обо всем рассказал Федор Горбунов, руководитель направления машинного обучения Doubletapp.

Для тех, кто предпочитает читать, а не смотреть, опубликовали новость на эту тему, где перечислили ключевые достижения ИИ в 2024 году и тренды, ожидаемые в 2025.

denis-19

6 фев в 02:079.2K

Машинное обучение * Учебный процесс в ITКарьера в IT-индустрииИскусственный интеллект

Сооснователь компании OpenAI, экс-директор по ИИ и бывший глава отдела разработки автопилота Tesla Андрей Карпаты в новом обучающем трёхчасовом видео рассказал всю базу про нейросети, включая:

претрейнинг: как работает архитектура трансформер, из чего состоит и что такое токены;
файнтюнинг: психология LLM, галлюцинации, исправление ошибок в орфографии и прочие детали;
обучение с подкреплением: как нейросеть учится на обратной связи и улучшает ответы;
последние 10 минут видео — краткая выжимка лекции.

В рамках своей деятельности Карпаты активно занимается записью обучающих видеороликов на YouTube по созданию нейросетей, с пошаговыми инструкциями и выкладывает исходные коды на GitHub по различным проектам, связанным с машинным обучением и развитием нейросетей, включая проект nanoGPT для обучения/настройки GPT среднего размера.

В феврале 2024 года Карпаты выпустил лекцию на Youtube под названием Let's build the GPT Tokenizer. Это двухчасовая понятная и доступная лекция о токенах и токенизации в ChatGPT и других нейросетях. В видео Карпаты буквально на пальцах показывает, как именно нейросеть GPT читает текст, как дробит его на единицы и что в нём выделяет. Учебный материал поможет начинающим пользователям углубиться в изучение нейросетей, а также лучше понимать их устройство. Сопроводительный материал к этой лекции с подробными комментариями к используемому коду Карпаты выложил на GitHub.

denis-19

5 фев в 13:348.2K

Машинное обучение * Искусственный интеллектСтарое железоБудущее здесь

В Германии доступен способ общения с ChatGPT по факсу. Пользователю нужно отправить запрос на бумаге на специальный номер, а ИИ пришлёт факс в ответ.

Номер для связи:0531-490590019.

denis-19

2 фев в 04:481.9K

Open source * Машинное обучение * Облачные сервисы * Искусственный интеллект

Представлен открытый проект, который помогает создавать нейросети с нуля.

В Oumi вшиты все необходимые инструменты от препроцессинга данных и бенчмарков до различных видов обучения нейронок.

Решение содержит информацию как сделать ИИ‑спеца для различных задач, включая:

полную базу данных о популярных ИИ-моделях;
пошаговые инструкции для каждого этапа разработки своего ИИ;
гайд по файнтюнингу нейросетей, включая LoRA, подготовку данных и оценку производительности по бенчамаркам;
дистилляция моделей для снижения их размеров и повышения эффективности;
метрики работоспособности ИИ и необходимые фреймворки для тестов;
данные для удаленной тренировки моделей — AWS, Azure, GCP, Lambda с подробной документацией к каждой платформе;
инструменты для фильтрации данных для нейросетей и их цензурирования;
примеры готовых конфигураций.

denis-19

2 фев в 04:477.2K

Open source * Машинное обучение * Облачные сервисы * Искусственный интеллект

Представлен открытый проект, который помогает создавать нейросети с нуля.

Решение содержит информацию как сделать ИИ‑спеца для различных задач, включая:

полную базу данных о популярных ИИ-моделях;
пошаговые инструкции для каждого этапа разработки своего ИИ;
гайд по файнтюнингу нейросетей, включая LoRA, подготовку данных и оценку производительности по бенчамаркам;
дистилляция моделей для снижения их размеров и повышения эффективности;
метрики работоспособности ИИ и необходимые фреймворки для тестов;
данные для удаленной тренировки моделей — AWS, Azure, GCP, Lambda с подробной документацией к каждой платформе;
инструменты для фильтрации данных для нейросетей и их цензурирования;
примеры готовых конфигураций.

denis-19

1 фев в 04:277.3K

Машинное обучение * Учебный процесс в ITОблачные сервисы * Искусственный интеллект

Учимся писать промты для о3-mini с помощью мини-гайда, который научит правильно пользоваться новой моделью. У «думающих» нейросетей отличается логика построения промтов — привычные подсказки к ChatGPT тут не работают.

Ранее OpenAI выпустила o3-mini для всех. Она чуть качественнее и заметно быстрее o1.

yadro_team

30 янв в 11:115.8K

Блог компании YADROВысоконагруженные системы * Алгоритмы * Математика * Машинное обучение *

Для точности ваших математических библиотек принимайте «Ульп». «Ульп» — и тесты не страшны!

Числа с плавающей точкой расположены неравномерно. У нас есть результат вычисления математической функции, число с плавающей точкой, и есть «эталон» — это ожидаемый результат в квазибесконечной точности. Но как понять, насколько велика погрешность вычисления, расстояние между ними?

Для этого достаточно договориться о единице измерения. Расстояние между соседними числами обозначается как 1 ульп (ulp — unit in the last place). Относительно него и будем оценивать погрешность вычисления математической функции. Поделим расстояние от результата до эталона на то, что является одним ульпом — то есть на расстояние от эталона до соседнего числа той же точности. Стандарт libm требует, чтобы ошибка не превышала 0,5 ульпа с учетом округления.

Мы договорились о единицах измерения. Но остался еще один вопрос: с чем же мы сравниваем результаты? Откуда брать эталон в квазибесконечной точности? Здесь помогут системы компьютерной алгебры — прикладные программы для символьных вычислений и числовых операций произвольной точности.

Из таких систем ученые особенно любят Maple или Scilab, инженеры — Mathcad или Matlab, а разработчики — Sollya, поскольку эта библиотека имеет удобный C-интерфейс и ее можно вызывать прямо из тестов libm.

Низкая точность математических библиотек libm может навредить везде, где используются эти библиотеки, — в искусственном интеллекте, машинном обучении, дополненной и виртуальной реальности, компьютерном зрении.
В своей статье эксперт YADRO по разработке ПО Валерия Пузикова раскрывает, как устроено большинство тестов стандартных математических библиотеках и почему они не всегда работают. А главное: как одним тестом и без громоздких формул полностью покрыть код математической функции.
Читать статью →

denis-19

29 янв в 04:388.8K

Машинное обучение * Учебный процесс в ITКарьера в IT-индустрииИскусственный интеллект

Географическое происхождение и места обучения профильных специалистов в сфере искусственного интеллекта практически исключают возможности развития крупных ИИ-проектов в большинстве стран, помимо США и Китая.

уч

denis-19

28 янв в 15:5412K

Машинное обучение * Управление e-commerce * Управление продажами * Искусственный интеллектФинансы в IT

«Это не убытки, это инвестиции в опыт», — нейросеть DeepSeek дала советы для начинающих российских инвесторов в акции.

-5

varanio

28 янв в 13:258.1K

Веб-разработка * Программирование * Машинное обучение * Natural Language Processing *

Как вы знаете, китайская LLM deepseek-R1 работает не хуже chatGPT-o1, но стоит в 20 раз дешевле. А знаете ли вы, что сама модель вообще бесплатная, её можно скачать себе и запустить на своём железе?

Мне стало интересно, как это делать, можно ли как-то запустить прямо на макбуке, и оказалось, что это делается буквально в два клика (конечно, полная модель на ноут не влезет, но дистиллированная - вполне).

Возможно, все уже это умеют, но расскажу для тех, кто, как и я, был в танке, так что держите инструкцию.

Для этого надо установить ollama, например так:

brew install ollama

и запустить

ollama serve

Запустить можно в отдельном окошке, чтобы смотреть логи, или в бекграунд убрать, пофиг. В общем, это некий сервис.

Дальше скачать и запустить модель. Это делается тупо одной командой.

ollama run deepseek-r1:8b

8b - это количество параметров (8 миллиардов). Другие варианты:
1.5b
7b
8b
14b
32b
70b
671b

Но понятно, что 671b на макбук не влезет, понадобилось бы больше 400 гигов видеопамяти. Зато 1.5b можно и на мобилу запихнуть.

При запуске этой команды скачивается модель (примерно 5 гигов), и собственно вы уже можете общаться с ней прямо в олламе.

Но это не очень юзер-френдли, поэтому дополнительно можно запусть web-интерфейс, например в докере одной командой

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

После чего на http://localhost:3000/ видна веб-морда, похожая на chatgpt.

Прикол китайской модели еще в том, что там показан процесс думания. Его можно посмотреть прямо в этом веб-интерфейсе.

Понятно, что это скорее побаловаться - на ноуте влезает только дистиллированная модель и то нещадно тормозит (макбук M1 pro). Для полноценной работы нужно нормальное железо или облако.

По-моему, это очень круто: если вложиться в железо, можно очень быстро и просто поднять у себя самый топовый чат и не посылать больше свои секреты ни в OpenAI, ни в Китай.

Приглашаю вас подписаться на мой канал в telegram

daniilshat

28 янв в 12:526.3K

Машинное обучение * Искусственный интеллект

Китайская языковая модель DeepSeek иногда путается и называется себя нейросетью «Яндекс GPT». Заметил это, когда отправил запрос «Какие у тебя преимущества перед ChatGPT».

Вводные:

Чат был новый, поэтому контекст из прошлых запросов не мог помешать.
Работал режим «Глубокое мышление» на базе DeepSeek R1.
Запрос отправлял в официальном приложении DeepSeek для iOS.

Фрагмент из рассуждения языковой модели:

Хорошо, пользователь спрашивает о моих преимуществах перед ChatGPT. Сначала мне нужно вспомнить, в чем разница между нами. Я знаю, что я — Яндекс GРТ, разработанный компанией Яндекс. ChatGPT же создан OpenAl. Надо подумать, какие особенности Яндекса могут быть преимуществами.
Первое, что приходит в голову — интеграция с сервисами Яндекса. Например, Поиск, Карты, Переводчик, Маркет и другие. Возможно, я могу предоставлять более актуальную информацию по этим сервисам, особенно в контексте России и СНГ. Это важно, потому что ChatGPT может быть менее ориентирован на регион.

Итог, который подвела языковая модель:

Выбор зависит от задач. Если важна интеграция с Яндексом, русифицированный контекст и локальные данные — я удобнее. Для международных задач или работы с англоязычным контентом — лучше ChatGPT.

Dataist

28 янв в 09:077.2K

Машинное обучение * Искусственный интеллект

Китай врывается в ИИ-гонку и рушит акции самой дорогой компании в мире. Что происходит?

Недавно США объявили об инвестициях в размере $500 млрд. в ИИ. Китай ответил на это своим «Планом развития новых ИИ-отраслей», в рамках которого планируется выделить не менее 1 триллиона юаней (около $140 млрд) за пять лет, чтобы вывести страну в лидеры глобального рынка ИИ.

На первый взгляд кажется, что при формуле «чем больше вычислений, тем умнее модели» Китай рискует отстать в гонке. Однако внезапно компания DeepSeek представила в открытом доступе модель R1, обучение которой, по словам разработчиков, обошлось всего в $6 млн при использовании кластера из 2000 видеокарт. Для сравнения, у западных флагманов вроде o1 бюджет оценивается в миллиарды долларов, а количество требуемых видеокарт выше в стократ.

R1 не только не уступает o1 от OpenAI, но и обходит ее по ряду математических и инженерных бенчмарков, при этом требуя гораздо меньше вычислительных ресурсов для инференса. Секрет в архитектуре Mixture-of-Experts с 671 миллиардом параметров и дообучении с учителем (Supervised Fine-Tuning, SFT), за которыми последовало обучение с подкреплением (RL) с использованием метода GRPO и синтетических данных.

В отличие от закрытых моделей OpenAI и других крупных корпораций, DeepSeek доступна открыто на GitHub и HuggingFace. Чтобы любой мог запустить ее локально даже на менее мощном железе, разработчики выпустили дистиллированные версии — от 1,5 до 70 млрд параметров. Кроме того, DeepSeek можно использовать на официальном сайте или через API. Одновременно с релизом R1 компания представила виртуального ассистента, который уже возглавил рейтинг бесплатных приложений в App Store, опередив ChatGPT. А вчера DeepSeek выпустила новую мультимодальную модель Janus.

Тот факт, что обучение большой языковой модели обошлось китайскому стартапу всего в несколько миллионов долларов, вызвал шок на рынке. Инвесторы задались вопросом: зачем вкладывать сотни миллиардов долларов в инфраструктуру, если можно достичь результата с существенно меньшими затратами?

Nvidia, один из столпов рынка видеокарт и самая дорогая компания мира, пострадала от новостей о DeepSeek: ее акции упали на 17% за сутки, капитализация сократилась на $593 млрд — антирекорд для фондового рынка.

DeepSeek демонстрирует возможность добиваться больших результатов без колоссальных вычислительных мощностей. США пытались сдерживать китайский ИИ-сектор экспортными ограничениями на поставку видеокарт, но, судя по всему, Китай нашел способы обойти эти барьеры. Многие инвесторы считают, что необходимость бесконечного наращивания видеокарт переоценена, ведь методы обучения становятся все более оптимальными.

Тем не менее без крупных вычислительных мощностей не обойтись: спрос на обработку данных быстро растет, и ИИ проникает во все сферы. Но очевидно, что одним «железом» задачу не решить — нужны новые архитектуры, методы обучения и правильная подготовка синтетических данных. Все это позволяет добиваться впечатляющих результатов при меньших затратах, что подтверждает пример DeepSeek.

Абсолютного преимущества в нынешней ИИ-гонке нет ни у одной стороны. Рекордные инвестиции и высокие темпы развития технологий могут внезапно изменить расстановку сил. Однако для индустрии это позитивный сигнал: конкурентная среда рождает новые идеи и делает решения лучше и дешевле.

Мы живем в удивительное время. Технологический прогресс идет с невиданной скоростью. В ближайшие годы появятся новые типы архитектур и методы обучения, делающие ИИ еще более умным, дешевым и эффективным. А в долгосрочной перспективе с надеждой ожидаем квантовые вычисления, способные совершить следующую революцию в обучении ИИ.

В то время как методы обучения и типы вычислений со временем будут меняться, наличие качественных данных всегда будет фундаментом для обучения любого ИИ.

Если вам интересна тема ИИ, подписывайтесь на мой телеграм-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес и запуску ИИ-стартапов, объясняю как работают все эти ИИ-чудеса.

denis-19

27 янв в 09:576.5K

Машинное обучение * Управление разработкой * Искусственный интеллектБудущее здесь

Китайский ИИ-проект DeepSeek возглавил топ по скачиванию в США.

OpenAI с проектом ChatGPT была основана 10 лет назад, имеет 4500 сотрудников и привлекла $6,6 млрд капитала. Китайская DeepSeek была основана менее 2 лет назад, имеет 200 сотрудников и была разработана менее чем за $10 млн. Но они начали конкурировать.

DeepSeek выпустила версию DeepSeek‑V3, LLM с открытым кодом, который соответствует производительности ведущих американских моделей, но требует гораздо меньше затрат на обучение. Модель имеет 685 млрд параметров, а в основе её архитектуры лежит подход Mixture of Experts (MoE) с 256 «экспертами», из которых восемь активируются для каждого токена.

В тестах производительности DeepSeek‑V3 превосходит Llama 3.1 и другие модели с открытым кодом. DeepSeek‑V3 соответствует или даже превосходит Chat GPT-4o, уступая лишь Claude 3.5 Sonnet от Anthropic.

В DeepSeek сообщили о расходах в размере $5,6 млн на обучение своей нейросети по сравнению с предполагаемыми $500 млн, потраченными на обучение Llama-3.1.

Бенчмарки подтверждают, что Deepseek недалека от решений OpenAI, но всего за 3% от стоимости разработки. Стоимость собственного API DeepSeek составляет всего $0,55/$2,19 за вход/выход — значительно дешевле.

1 2 ...

19 20

22 23 ...

34 35

Машинное обучение *

Ближайшие события

Вклад авторов