Pull to refresh
1
0.1
Send message

А модель-то какая? Даже между разными версиями GPT-5.2 разница в способностях - огромная.

Полный статус по задачам Эрдеша на 18 января:

Полные решения еще не решенных до этого полностью задач:
205, 652 - впервые решены ИИ полностью, до этого не было даже частичных решений
728 - впервые решена ИИ полностью, после этого найдено частичное решение человеком
729 - впервые решена ИИ полностью, на основе частичного решения ИИ (от 728 задачи)
871 - впервые решена ИИ полностью на основе частичного решения человеком

Итого: 5 задач


281, 333, 397, 897, 1026 - решены ИИ, после этого найдено полное решение от человека

198, 224, 379, 493 - ИИ нашел другое решение для задачи, полностью решенной до этого человеком

401, 659, 848, 1026 - впервые решены полностью ИИ в коллаборации с человеком (не автономно)

https://github.com/teorth/erdosproblems/wiki/AI-contributions-to-Erdős-problems

демонстрационного реактора SPARC

Не гарантия скорого результата, Tri Alpha Energy уже седьмой экспериментальный реактор строят, например. (Но каждый новый — больше и лучше, конечно)

ставка на цифровых двойников и ИИ

Интересно, что тут ИИ работает на этапе разработки реактора. Но в целом не новая идея, тот же Deepmind уже не один год сотрудничает с разными термоядерными стартапами.

Но задача #728 стала первым случаем, когда тщательная проверка литературы не выявила предшественников.

Разве, а проблемы 333 и 897? В последнее время достаточно кучно пошло

Выбор модели важен... Gemini склонна к такому, GPT-5.2 поменьше, Claude Opus почти адекватный.

А ещё мне помогает просить критический взгляд. "Проверь на прочность" и всё такое.

Ещё пробовал интересный прием, не признаваться, что это твоя работа. Условное "Друг предложил идею, но я что-то сомневаюсь. Оцени, пожалуйста."

видеокарты в 10-ки тысяч долларов с видеопамятью под 100гб.

Причем их нужно десятки, просто чтобы запустить модель. Опенсорсный Deepseek — 700b параметров, Kimi — триллион. Сколько у закрытых Gemini/Claude/GPT неизвестно, но точно в разы больше.

Для меня нормальным стало пачками создавать одноразовые скрипты на несколько десятков / сотен строк кода, которые выполнили свою задачу, и больше не будут использоваться никогда.

Удали строки с небуквенными символами, сшей pdf'ы из фотографий, попутно перевернув их вертикально, сделай загрузчик субтитров с ютуба, сделай прочитыватель pdf с удалением лишних переносов итд.

Бывает такая рутина, которую руками пришлось бы делать часы.

Гугл тоже в некотором роде изобретатель технологии, трансформер они придумали

В некоторых сферах только. Эрудиция, математика, языковые способности.

На lmarena.ai у него не очень хороший рейтинг в Coding, хуже sonnet 4.5 и gpt 5.1. Я пробовал немного, такое же чувство.

А вот с креативными способностями лучше, тексты интересно пишет.

Представляю, какие древности можно найти в ледниках Гренландии и Антарктиды

"Проблему", серьезно? LLM используют длинные тире, потому что это грамматически правильно.

То, что человекам обычно лень их писать, это уже другой вопрос.

А говорят, данные закончились. Игры это отличные RL среды, в любой из них можно совершенствоваться бесконечно. Да и игр человечество успело наклепать много.

Ожидают

— Anthropic планирует выйти на положительный денежный поток к 2027 году (OpenAI — не раньше 2030 года).

— В этом году прогноз выручки OpenAI ($13 млрд) почти втрое выше, чем у Anthropic ($4,7 млрд).

— В 2028 году Anthropic планирует получить до $17 млрд свободных денежных средств, тогда как OpenAI прогнозирует убыток почти в $47 млрд.

— Реалистичный сценарий Anthropic на 2028 год: $3,6 млрд свободного денежного потока при выручке $32,5 млрд.

— Более 80% доходов Anthropic до 2028 года будет приходиться на продажи бизнес-клиентам через API и приложения.

— Годовая выручка (последний месяц 12) от Claude Code приближается к $1 млрд (в июле было $400 млн). Текущая годовая выручка Anthropic (на основе последнего месяца) — около $7 млрд.

— Валовая маржа с учётом бесплатных пользователей у Anthropic:  прошлый год: −109%, текущий год: 47%

https://www.theinformation.com/articles/anthropic-projects-70-billion-revenue-17-billion-cash-flow-2028?utm_source=ti_app (оригинал за пейволлом)

https://t.me/seeallochnaya/3049?single (текст отсюда)

LLM конечно стали меньше галлюцинировать, но чем тема более редкая, тем хуже они справляются.

Посмотрел статью про Interslavic/межславянский язык, там многое просто выдумано Гроком. Примеры слов — полный рандом, во фразах есть ошибки, описание алфавита неправильное.

Может допилят ещё, не знаю. Сделать комментарии/репорты об ошибках, кросспроверку разными нейросетками, явное отделение ИИ-комментариев от оригинального контента... Альфа-версия в конце концов.

Но в таком виде сайту сложно доверять, боюсь представить как они на этом собрались обучать Grok 5

После появления Figure и Unitree скорее

По мнению Кришны, через полгода ИИ будет писать только 20-30% кода, а не 90%.

Такие цифры были ещё в октябре https://habr.com/ru/companies/bothub/news/854782/. Статистика по Гуглу, но другой нет

Жалко что в исследовании нет Deep Research от гугла и от OpenAI.

Gemini и o3 в топах по способности удерживаться от галлюцинаций.

Он же невесомый, 1.18 кг. Одной рукой поднял и переставил

1

Information

Rating
2,839-th
Registered
Activity

Specialization

Specialist
Python
Pandas