Как стать автором
Обновить

Моя лента

Тип публикации
Порог рейтинга
Уровень сложности
Предупреждение
Войдите или зарегистрируйтесь, чтобы настроить фильтры
Пост

Илон Маск: SpaceX немедленно выводит из эксплуатации корабль Dragon, который НАСА используют для доставки грузов на МКС. Фактически, это полный разрыв контрактов, которые принесли Маску больше $10 млрд.

Теги:
+4
Комментарии4

Новости

Пост

Представлен ультимативный бесплатный гайд по вайб-кодингу, в котором есть всё. Автор — ведущий инженер Google. Внутри проекта описаны лучшие техники промптинга, готовые шаблоны, фреймворки, сценарии — всё продумано до мелочей. Там нет устаревших советов, всё подогнано под новейшие модели и ИИ-сервисы.

Теги:
+1
Комментарии0
Статья

Топ нейросетей для пересказа и суммаризации текста

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров518

Представьте: вы стоите по горло в море текста — полезного и не очень, от души разбавленного водой, может быть написанного сложным языком, — а времени у вас в обрез. Да даже и представлять не надо — знакомая ведь ситуация? Кто из нас ни разу не тонул в этом текстовом океане, ну? Но вместо того, чтобы тонуть, можно научиться ходить по воде — а надёжными проводниками станут нейросети‑суммаризаторы.

Стили и задачи текста бывают разные, и их соотнесением с наиболее сильными сторонами нейросетей мы и займёмся.

Читать далее
Новость

Яндекс Директ обновил стратегию «Максимум конверсий» в ЕПК: теперь можно выбрать несколько целей

Время на прочтение1 мин
Количество просмотров143

В Единой перфоманс-кампании (ЕПК) Яндекс Директа появилась новая функция для стратегии «Максимум конверсий» с оптимизацией по стоимости конверсии. Теперь рекламодатели могут указывать сразу несколько целей, по которым система будет проводить оптимизацию. Это позволит алгоритмам собирать больше данных и эффективнее обучаться, а бизнесу — быстрее добиваться нужных результатов.

Новая возможность доступна в двух вариантах стратегии:

Читать далее
Статья

Создаём свой Telegram-клон с помощью Next.js и TailwindCSS — Часть 1

Уровень сложностиПростой
Время на прочтение51 мин
Количество просмотров773

Разработка чат-приложения с нуля может показаться довольно сложной задачей. Но при наличии правильных инструментов все становится намного проще, чем вы думаете.

В этой серии из трех частей мы подробно рассмотрим процесс создания клона веб-версии Telegram с использованием Next.js, TailwindCSS и Stream SDK. В первой части мы настроим все необходимые инструменты для нашего проекта, добавим аутентификацию и создадим макет приложения с помощью TailwindCSS.

Читать далее
Новость

В США одобрили первое устройство для домашнего скрининга рака шейки матки

Время на прочтение2 мин
Количество просмотров497

Фантастическая новость для тех, кто не успевает регулярно проходить скрининг рака шейки матки или плохо переносит осмотры при помощи гинекологического зеркала! 
А также для врачей, которые ведут таких пациенток. Осталось дождаться более широкого распространения

Читать далее
Новость

Представлена обновленная Gemini 2.5 Pro — новый топ среди языковых моделей

Время на прочтение2 мин
Количество просмотров4.2K

Google выпустила Gemini 2.5 Pro Preview 06-05 - обновленную версию своей самой мощной LLM, которая по-совместительству является одной из самых мощных нейросетей на рынке. В компании утверждают о лидерстве в большинстве известных рейтингов, причем в некоторых модель соревновалась с прошлой версией самой себя.

Модель набирает 1443 очка в WebDev Arena - рейтинге, который показывает успешность нейросетей в веб-разработке.

Читать далее
Пост

В начале был датасет, и был он в уме дата-инженера, и имя ему было Хаос...

В мире машинного обучения термин «датасет» звучит примерно из каждого утюга, и даже если ваша сфера не ML, вы наверняка догадываетесь: это какой-то набор данных. Вот только какой именно — сильно зависит от задачи. Порой один датасет похож на другой примерно как кактус на ёлку: что-то зелёное и колется.

Часто в начале данных нет вовсе, и их приходится создавать вручную, искать в открытых источниках или генерировать синтетически, а иногда комбинировать подходы. Упорядочить хаос — задача не из лёгких, особенно если вы создаёте кастомный датасет под конкретную модель.

От чего зависит структура датасета? Если коротко: буквально от всего.

Поставленная задача, тип данных, структура, формат аннотаций, объём, качество, наличие разметчиков или доступа к "умным" моделям и даже количество «мусора» — всё это влияет на итоговую структуру. Например, даже для такой относительно несложной задачи, как обучение чатбота для покупок товаров, мы иногда работаем с:

  • Парами «вопрос–ответ». Такой вариант был хорош на раннем этапе разработки.

  • Триплетами (вопрос + хороший и плохой ответ, чтобы модель точно знала, что НЕ нужно отвечать) - такой формат хорошо заходит reasoning-моделям, когда мы ожидаем от модели более сложного поведения и умения задать вопрос, быстро "отсекающий" нерелевантный товар или неважные признаки.

Пользователь: хочу морковь

Ответ A: вам мытую или обычную?
Ответ B: скока вешать в граммах?

Предпочтение: ответ A

Примеры разных типов датасетов

📸 Computer Vision

Датасеты для задач компьютерного зрения. Картинки котиков, людей и машин (ImageNet) и (MS COCO). Учим ИИ отличать милую чихуахуа от маффина. Например, ImageNet содержит более 14 млн размеченных фотографий, а MS COCO — изображения с детальными аннотациями сцен.

🎵 Музыка и рекомендательные системы

Million Song Dataset — метаданные и фичи 1 млн треков.

Новый релиз от Яндекса — YAMBDA на Hugging Face, анонсирован в посте на Хабре. Это 500 млн взаимодействий с музыкальным контентом, включая признаки и флаги «рекомендовано/нет».

Чем он интересен:

  • Использует эмбеддинги вместо аудио

  • Подходит для обучения RecSys моделей в «индустриальных» условиях

  • Поддерживает архитектуры с input context (история прослушиваний)

🩺 Медицина

MIMIC-CXR — крупный публичный датасет рентгеновских снимков грудной клетки с диагнозами и метками. Один из главных бенчмарков в медицинском CV.

Проблемы: сложная лексика, разнообразие патологий, неполные аннотации. Такие датасеты часто требуют пост-обработки, аннотации врачами и серьёзного контроля качества.

📊 Табличные данные для задач логистической регрессии

UCI Adult — классика для бинарной классификации (доход >50K или нет). Здесь встречаются числовые и категориальные признаки. Часто используется для обучения простых моделей и feature engineering.

Именно такие данные лежат в основе скоринговых систем банков. Да-да, когда вы подаёте заявку на ипотеку, зачастую не человек, а модель принимает первичное решение на основе ваших параметров. ИИ тихо решает судьбу вашего жилья и кошелька.

🤖 Робототехника и сенсоры

KITTI Dataset — реальная дорожная обстановка с камеры, лидара и GPS. Используется в задачах:

  • Детекции объектов

  • 3D реконструкции

  • SLAM и навигации

Датасеты для роботов — одни из самых тяжёлых по объёму, синхронизации и сложности синтеза сигналов.

По мере развития технологий модели обретают мультивозможности, и датасеты тоже усложняются…А как же понять, какой датасет подойдёт именно для вашей задачи?

Готовясь к обучению модели, важно помнить: 80% успеха — это грамотный датасет, причём не только по составу данных, но и по их комбинации и оформлению, подходящий под задачу. Гонка за модными тенденциями или применение готовых шаблонов тут вряд ли помогут.

В следующих постах разберу:

  • Можно ли полностью нагенерировать диалоговые датасеты синтетически - умными моделями типа О3 без проверки человеком.

  • Остальные 20% успеха в обучении модели;) Это будет не совсем про ML.

Теги:
0
Комментарии0
Новость

Не просто автодополнение: как Mistral Code хочет автономно закрывать тикеты и что это значит для разработчиков

Время на прочтение3 мин
Количество просмотров1.4K

Пока гиганты вроде GitHub Copilot и его аналоги пытаются угодить всем и сразу, французский вундеркинд Mistral AI решил сыграть на поле корпораций. Их новый продукт — Mistral Code — это не просто ещё один ассистент с автодополнением. Это целый арсенал для контролируемой разработки, заточенный под нужды больших компаний, где безопасность и интеграция стоят во главе угла.

Представьте: инструмент, который не просто подсказывает следующую строку, а способен взять тикет в Jira и довести его до коммита почти автономно — открыть файлы, создать модули, обновить тесты, даже выполнить команды в терминале! Звучит как фантастика? Пока это тестовые возможности в приватной бете (JetBrains и VS Code), но вектор задан амбициозный.

Читать далее
Новость

Минцифры поддержало предустановку российских ОС Alt Linux, Astra Linux и РЕД ОС на ноутбуки, доступные в продаже в РФ

Время на прочтение2 мин
Количество просмотров3K

Минцифры поддержало необходимость предустановки российских операционных систем Alt Linux, Astra Linux и РЕД ОС на новые ноутбуки, доступные в продаже в РФ. По словам представителей отрасли, это шанс показать, что отечественные ОС могут быть не просто формальностью, а реальной альтернативой.

Читать далее
Новость

Петербургские учёные разработали новую технологию для создания лёгких аккумуляторов

Время на прочтение2 мин
Количество просмотров665

Новую технологию, позволяющую создавать лёгкие аккумуляторы, не уступающие по техническим характеристикам литийионным батареям в смартфонах, создали учёные СПбГУ. Результаты исследования опубликованы в Journal of Materials Chemistry A, сообщили в пресс-службе РНФ.

Широко используемые в планшетах, смартфонах и другой электронике литийионные аккумуляторы ограничены по эксплуатационным характеристикам, достаточно долго заряжаются от бытовых электросетей и взрывоопасны, пояснили в Российском научном фонде (РНФ). К тому же, по прогнозам экспертов, к 2050 году мир ожидает кризис добычи лития.

Читать далее
Новость

Дистилляция по-китайски: как DeepSeek R1 оказался под прицелом из-за Google Gemini

Время на прочтение3 мин
Количество просмотров2.7K

Свежий технодетектив на горизонте, и в центре внимания снова наш старый знакомый — китайская AI‑лаборатория DeepSeek. На прошлой неделе они выпустили обновлённую версию своей reasoning‑модели R1 (R1-0528), которая впечатляет в математике и кодинге. Но вот вопрос: что именно её так хорошо натренировало? Ответа от DeepSeek пока нет, зато появились подозрительные совпадения, указывающие на Google Gemini.

Читать далее
Новость

Самооптимизация ИИ. Мечта Гёделя стала реальностью с Darwin-Gödel Machine?

Время на прочтение4 мин
Количество просмотров949

Помните, как мы часто говорим, что современные ИИ — умные, но… застывшие? Обучили на терабайтах данных, запустили — и всё, дальнейший рост без докрутки разработчиками почти маловероятен. Человек‑то учится всю жизнь, а ИИ как будто заперт в клетке.

Именно такую метафору использует Ричард Корнелиус Суванди (Китайский университет Гонконга) в своем блоге, разбирая свежую наработку от японской Sakana AI — Darwin‑Gödel Machine. Суть? ИИ, который сам переписывает свой код, чтобы становиться умнее.

Читать далее

Ближайшие события

Новость

На официальном маркетплейсе Nvidia появилась и пропала страница с фейковым GPU GeForce RTX 4040 8 GB Brick Edition за $0

Время на прочтение1 мин
Количество просмотров670

На официальном маркетплейсе Nvidia появилась на некоторое время страница с несуществующей видеокартой Acme GeForce RTX 4040 8 GB Brick Edition за $0,00 и картинкой кирпича с указанием, что устройство распродано.

Согласно описанию товара, подобный адаптер можно даже сравнить с RTX 5060 с точки зрения объёма памяти — 8 ГБ. Сейчас эта страница недоступна.

Читать далее
Новость

МТС вложила 1 млрд рублей в развитие своих языковых моделей

Время на прочтение2 мин
Количество просмотров480

Подразделение МТС MWS AI (ранее MTS AI) потратила 1 млрд рублей в 2024 году на дообучение больших языковых моделей (LLM). Об этом сообщил генеральный директор MWS AI Денис Филиппов на форуме ЦИПР-2025. Деньги направили на адаптацию моделей под бизнес-задачи и запуск в промышленную эксплуатацию.

MWS AI работает с открытыми LLM. В 2024 году компания выпустила первое поколение моделей Cotype на базе французской модели Mistral. В 2025 году появилось второе поколение — Cotype Pro 2 на основе Qwen 2.5 от Alibaba Cloud. У МТС также есть модели Kodify — помощник по написанию кода.

Читать далее
Статья

Топ новостей инфобеза за май 2025 года

Время на прочтение8 мин
Количество просмотров703

Всем привет! Подводим итоги ушедшего месяца дайджестом самых интересных ИБ-новостей. В мае прогремела история со взломом мессенджера, стоявшего на устройствах топовых чиновников США. Взломали также и инфраструктуру LockBit, добавив минусов в репутацию группировки.

Кроме того, в мае масштабная операция Endgame по перехвату киберпреступной инфраструктуры принесла неплохие результаты и всё ещё продолжается. Общедоступная ИИ-модель впервые нашла критический нулевой день. WhatsApp выиграла беспрецедентное дело против разработчика спайвари Pegasus. А исследователь публично раскрыл старую сетку сайтов для связи ЦРУ с агентурой, среди которых порталы про Star Wars и онлайн-игры в России нулевых. Об этом и других ключевых новостях последнего весеннего месяца читайте под катом!

Читать далее
Статья

Наш мир становится всё сложнее, и вот математика 19 века, которая это доказывает

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.9K

Идёт ли речь о глобальной торговле, новых технологиях или научных исследованиях, кажется, что наше окружение становится сложнее с течением времени. В прошлом существовали эрудиты, хорошо разбиравшиеся в нескольких дисциплинах и вносивших важный вклад в каждую из них. Но сегодня человеку гораздо сложнее преуспеть в нескольких областях, отчасти из-за большей специализации.

Это не разглагольствования на тему «раньше всё было лучше». Это просто трезвое наблюдение: раньше мир был проще. И это верно даже с математической точки зрения. Физик и философ Людвиг Больцман понял это ещё в 1872 году.

Больцман изучал, в частности, поведение газов и жидкостей. За несколько десятилетий до этого было выдвинуто предположение, что всё в мире состоит из крошечных строительных блоков — а именно, атомов и молекул.

Читать далее
Статья

RAG: Дообучение модели эмбеддингов для повышения точности поиска

Время на прочтение10 мин
Количество просмотров680

Привет, Хабр! Меня зовут Саприн Семён. Я занимаюсь анализом данных и машинным обучением в компании ПГК Диджитал. Сегодня мы продолжаем серию статей, в которой я рассказываю о том, как мы с командой разрабатывали ИИ-помощника. В прошлой статье мы обсудили, почему стандартные подходы к работе с документами не всегда работают, и какие шаги помогли нам повысить качество поиска без существенных затрат памяти на GPU.

Сегодня речь пойдёт о следующем этапе: дообучении (fine-tuning) модели эмбеддингов для улучшения качества поиска в RAG-системе. Это позволило нам получить более точные представления документов и пользовательских запросов, что напрямую сказалось на релевантности финальных ответов. Давайте перейдём к деталям.

Читать далее
Статья

Как принимать решения под давлением — и не терять фокус

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров761

В мире разработки принятие правильных решений требует взвешенного подхода и понимания — где можно идти на компромиссы, а где необходимо проявить максимальную осторожность. Как управлять проектами, когда данные неполные, приоритеты изменяются, а время ограничено? В этой статье мы рассмотрим шесть тактик, которые помогают сохранять фокус в условиях неопределенности и принимать обоснованные решения, не теряя контроля над процессом. Эти подходы могут стать важным инструментом для каждого технического лидера, который сталкивается с необходимостью принимать ключевые решения в масштабных проектах.

Читать далее
Статья

Мифы цифровой революции: почему гиперлупы не летают, а ИИ не правит миром (пока что)

Время на прочтение8 мин
Количество просмотров1.3K

Мы всё ещё строим поезда по принципам рельсы рельсы шпалы шпалы, которым сто лет, хотя нам обещали вакуум-трубопроводы под 1 200 км/ч. А ИИ? Он уже побеждает людей в шахматы, но до управления компанией ему ещё далеко.

Давайте развеем главные мифы «вау-волны» цифровой революции и выясним, что реально движет технологии вперёд и почему будущее не приходит по нажатию кнопки «Пуск», а рождается в пыли инженерных ночей и бумажных отчётов. Детали внутри.
Читать дальше →
1
23 ...