Машинное обучение *

Основа искусственного интеллекта

Статьи Посты Новости Авторы Компании

stalkermustang 28 фев в 07:55

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT

Средний

41 мин

90K

Машинное обучение*Научно-популярноеИскусственный интеллектБудущее здесь

Обзор

Ну что, уже успели прочитать восхищения небывалым качеством видео от нейросетки SORA у всех блогеров и новостных изданий? А теперь мы вам расскажем то, о чем не написал никто: чего на самом деле пытается добиться OpenAI с помощью этой модели, как связана генерация видео с самоездящими машинами и AGI, а также при чем здесь культовая «Матрица».

Войти в симуляцию →

+281

120

stalkermustang 28 фев в 07:55

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT

Средний

41 мин

90K

Машинное обучение*Научно-популярноеИскусственный интеллектБудущее здесь

Обзор

Войти в симуляцию →

+281

120

ivantipow 7 фев в 09:59

Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров

14 мин

21K

Блог компании Ozon TechData Mining*Алгоритмы*Big Data*Машинное обучение*

Кейс

✏️ Технотекст 2023

Привет, Хабр! Меня зовут Иван Антипов, я занимаюсь ML в команде матчинга Ozon. Наша команда разрабатывает алгоритмы поиска одинаковых товаров на сайте. Это позволяет покупателям находить более выгодные предложения, экономя время и деньги.

В этой статье мы обсудим кластеризацию на графах, задачу выделения сообществ, распад карате-клуба, self-supervised и unsupervised задачи — и как всё это связано с матчингом.

+127

Odin_Himself 22 янв в 16:15

Яндексу здесь не место…

Простой

4 мин

106K

Машинное обучение*Управление персоналом*

Аналитика

Recovery Mode

Здравствуйте, уважаемые читатели!

Тема сегодняшней статьи будет несколько нестандартная, однако, безусловно связанная с информационными технологиями, нейросетями и технологическим гигантом нашего времени – компанией Яндекс.

Сразу хочу отметить – я отлично осознаю факт того, что Хабр не является площадкой для сведения счетов, размещения жалоб или ломания копий. И идея о том, чтобы написать свой отзыв об опыте общения с компанией Яндекс так и осталась бы идеей, лежащей где-то чуть ли не на дальней полочке в моем мозге, если бы буквально на днях, 18.01.2024 г., спустя 5 месяцев после того, как поступили со мной, я не увидел полностью аналогичный случай, о котором написали в сети. См. ссылку ниже:

https://journal.tinkoff.ru/kak-ia-pytalas-ustroitsia-na-rabotu-v-iandeks/

Прочитав пост, я понял, что эпопея “Яндекс-швырялово” длится уже около полугода и при этом все её организаторы чувствуют себя предельно комфортно, поэтому я был просто вынужден расчехлить перо.

+267

381

Sivchenko_translate 14 янв в 14:31

С новым годом: GPT в 500 строках на SQL

42 мин

37K

Занимательные задачкиПрограммирование*SQL*Машинное обучение*Искусственный интеллект

Перевод

В минувшем году все только и говорили об ИИ и о том, как он может всё за вас сделать.

Мне нравится, когда кто-то или что-то работает за меня. Поэтому решил: попрошу-ка ChatGPT написать за меня новогодний пост:

«Эй, ChatGPT. А ты можешь реализовать большую языковую модель на SQL?»
«Нет, SQL не подходит для реализации больших языковых моделей. Язык SQL предназначен для выполнения запросов к данным, хранящимся в РСУБД и для управления этими запросами. Для реализации большой языковой модели требуются сложные алгоритмы, обширные датасеты, а зачастую — и фреймворки для глубокого обучения. SQL всеми этими возможностями не обладает.»

Что ж, лишний раз убеждаешься, что, если хочешь что‑то сделать хорошо – сделай это сам.

Давайте же воодушевимся этим оптимистическим планом и реализуем большую языковую модель на языке SQL.

+207

Realife 5 янв в 00:04

Как я сделал ремастер всех серий Том и Джерри в 2к всего за пару месяцев

Простой

8 мин

75K

Работа с видео*Машинное обучение*Искусственный интеллектЗвук

Из песочницы

Улучшение Том и Джерри из 480p в 1440p

С чего всё началось? Как-то я решил в третий раз с детства пересмотреть всю оригинальную коллекцию "Том и Джерри", но я, в отличие от маленького ребёнка, не потребляю любой контент вне зависимости от его качества. И вот я собрался посмотреть самую доступную версию, а там вот это цветошоу с постоянными царапинами на всём экране.

Мур-мур-мур

+387

193

Shannon 28 ноя 2023 в 12:14

Локальные нейросети. Аналог ChatGPT-3.5 на домашнем ПК: OpenChat 7B превосходящая 70B, DeepSeek для кода уровня ChatGPT

8 мин

78K

Машинное обучение*Искусственный интеллект

Есть много локальных аналогов ChatGPT, но им не хватает качества, даже 65B модели не могут конкурировать хотя бы с ChatGPT-3.5. И здесь я хочу рассказать про 2 открытые модели, которые всё-таки могут составить такую конкуренцию.

Речь пойдет о OpenChat 7B и DeepSeek Coder. Обе модели за счет размера быстры, можно запускать на CPU, можно запускать локально, можно частично ускорять на GPU (перенося часть слоев на GPU, на сколько хватит видеопамяти) и для такого типа моделей есть графический удобный интерфейс.

И бонусом затронем новую модель для качественного подробного описания фото.

UPD: Добавлена информация для запуска на Windows с ускорением на AMD.

+103

tech_priestess 18 ноя 2023 в 18:06

Вкатываемся в Machine Learning с нуля за ноль рублей: что, где, в какой последовательности изучить

Простой

26 мин

163K

Машинное обучение*Учебный процесс в ITКарьера в IT-индустрииИскусственный интеллект

Туториал

Всем доброго времени суток. Я давно обещала выложить сюда подробный гайд на тему того, как можно изучать Machine Learning самостоятельно, не тратя деньги на платные курсы, и, наконец, выполняю свое обещание. Надеюсь, этот гайд станет подсказкой, которая поможет найти правильное направление новичкам, которые хотят погрузиться в нашу область.

+155

snakers4 20 окт 2023 в 08:55

Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом?

Простой

7 мин

24K

Открытые данные*Машинное обучение*IT-компанииNatural Language Processing*

Где-то неделю назад на Хабре увидел тезис другого автора о том, что мол НКРЯ поддерживается на бюджетные средства, но де-факто контролируется компанией Яндекс, которая ведёт себя как собака на сене и де-факто приватизировала корпус и никому его не даёт. Такое же примерно мнение слышал от людей, обозревающих интернет-тематику, мол национализация убытков, приватизация прибылей.

Статья не очень резонансная (и немного на другую тему) и по сути про неё все бы забыли на следующий день, но есть один нюанс. Почему-то разработчики корпуса даже появились в комментариях этой статьи. Я ответил на комментарий. И потом они появились уже в нашем уютном чатике в Телеграме, но уже с критикой моего комментария. Хм, с чего бы это? Два юзера на Хабре согласились с чем-то в комментариях (эка невидаль!), небожители обычно на такое не реагируют.

У меня сейчас довольно мало понимания, что там вообще происходит, но думаю довольно яркая позиция менеджмента и менеджеров высшего звена Яндекса всем вам известна, не будем ее дублировать, чтобы не нарушать правила Хабра (и прошу быть сдержанным в комментариях). Интерес представляют 3 вопроса. Кто там реально на сене? Кто всё-таки может получить доступ к НКРЯ? И последний, дискуссионный вопрос, а как правильно?

Давайте разберемся!

+140

TyVik 2 июн 2023 в 10:15

Что делает ChatGPT… и почему это работает?

Средний

75 мин

145K

Алгоритмы*Машинное обучение*Искусственный интеллектNatural Language Processing*

Перевод

То, что ChatGPT может автоматически генерировать что-то, что хотя бы на первый взгляд похоже на написанный человеком текст, удивительно и неожиданно. Но как он это делает? И почему это работает? Цель этой статьи - дать приблизительное описание того, что происходит внутри ChatGPT, а затем исследовать, почему он может так хорошо справляться с созданием более-менее осмысленного текста. С самого начала я должен сказать, что собираюсь сосредоточиться на общей картине происходящего, и хотя я упомяну некоторые инженерные детали, но не буду глубоко в них вникать. (Примеры в статье применимы как к другим современным "большим языковым моделям" (LLM), так и к ChatGPT).

+248

121

ITMan82 28 мая 2023 в 15:59

Почему поиск по фото у Google и Apple не способен найти обезьян

Простой

7 мин

43K

Блог компании ГК ITGLOBAL.COMТестирование IT-систем*Машинное обучение*История ITИскусственный интеллект

В мае 2015 года Google выпустила отдельное приложение «Фотографии». Люди были поражены тем, что оно способно анализировать изображения, разбирать их на детали, а потом маркировать людей, места и вещи. Даже переводить текст!

Была только одна проблема. Google внедрил «категоризацию фотографий» — все фотографии автоматически размечались и организовывались в папках на основании того, что на них было. И через пару месяцев 22-летний программист-фрилансер Джеки Альсине обнаружил, что все фотографии, на которых был изображен он и его девушка, оба чернокожие, были помечены как «гориллы». Причем если на фотографиях был виден белый человек или человек со светлой кожей, Google маркировал их правильно — например, «выпускной» или «поход в бар». М-да.

История сразу разгорелась в Твиттере. После шквала негатива Google поклялась больше не позволять своему приложению классифицировать каких-либо людей как «горилл» и пообещала решить эту проблему. Восемь лет спустя — эта история, оказывается, всё еще не затухла, и влияет на развитие современных ИИ больше, чем можно было бы ожидать.

+146

301

ovchinkin 4 мая 2023 в 13:00

Откуда Карты знают, когда приедет автобус

7 мин

49K

Блог компании ЯндексГеоинформационные сервисы*Машинное обучение*ТранспортУрбанизм

✏️ Технотекст 2023

Раздел «Транспорт» — один из самых популярных в Яндекс Картах: там автобусы, троллейбусы и трамваи перемещаются прямо по карте в реальном времени, а для каждой остановки есть виртуальное табло. Можно посмотреть, сколько ещё ждать транспорт, или понять, когда лучше выходить из дома, чтобы его не пропустить. А если оказались в незнакомом районе — узнать, как быстрее добраться домой, и сразу найти ближайшую остановку или станцию метро.

Меня зовут Антон Овчинкин, я руководитель группы разработки пешеходной и транспортной навигации. Сегодня я расскажу, что у «Транспорта» под капотом, какие алгоритмы отвечают за то, чтобы автобусы появлялись на карте, двигались по ней плавно и реалистично, а прогноз был максимально точным.

+105

172

averkij 24 апр 2023 в 12:02

Это не чат, это GigaChat. Русскоязычная ChatGPT от Сбера

Средний

14 мин

111K

Блог компании СберБлог компании SberDevicesМашинное обучение*Искусственный интеллектNatural Language Processing*

Хайп вокруг нейросетей, выровненных при помощи инструкций и человеческой оценки (известных в народе под единым брендом «ChatGPT»), трудно не заметить. Люди разных профессий и возрастов дивятся примерами нейросетевых генераций, используют ChatGPT для создания контента и рассуждают на темы сознания, а также повсеместного отнимания нейросетями рабочих мест. Отдадим должное качеству продукта от OpenAI — так и подмывает использовать эту технологию по любому поводу — «напиши статью», «исправь код», «дай совет по общению с девушками».

Но как достичь или хотя бы приблизиться к подобному качеству? Что играет ключевую роль при обучении — данные, архитектура, ёмкость модели или что-то ещё? Создатели ChatGPT, к сожалению, не раскрывают деталей своих экспериментов, поэтому многочисленные исследователи нащупывают свой путь и опираются на результаты друг друга.

Мы с радостью хотим поделиться с сообществом своим опытом по созданию подобной модели, включая технические детали, а также дать возможность попробовать её, в том числе через API. Итак, «Салют, GigaChat! Как приручить дракона?»

+221

233

arturyakovlev 17 апр 2023 в 10:01

Китайский язык очень сложный. Мы сделали для него перевод видео

6 мин

23K

Блог компании ЯндексБраузерыМашинное обучение*Искусственный интеллектИзучение языков

✏️ Технотекст 2023

Привет, меня зовут Артур Яковлев, я делаю голосовой перевод видео в Яндекс Браузере. Примерно с лета я работаю над тем, чтобы научить Браузер переводить с китайского на русский. Почему мы посчитали это важной и интересной задачей? Дело в том, что китайская часть интернета содержит значительное количество видеоконтента, который за пределами страны почти не смотрят.

Множество диалектов, влияющие на смысл тоны и грамматические нюансы — ряд особенностей китайского усложняют разработку распознавания речи. Сейчас я коротко расскажу читателям Хабра о трудностях языка и объясню, как мы их преодолели.

Читать дальше →

+100

ligofff 11 апр 2023 в 12:29

Запуск аналогов ChatGPT на домашнем ПК в пару кликов и с интерфейсом

Простой

6 мин

189K

Машинное обучение*Искусственный интеллект

Туториал

Из песочницы

--- Обновление статьи 9 Августа 2023 ---

В течении последнего полугода в сфере текстовых нейронок всё кипит - после слитой в сеть модели Llama, aka "ChatGPT у себя на пекарне" люди ощутили, что никакой зацензуренный OpenAI по сути им и не нужен, а хорошие по мощности нейронки можно запускать локально.

Основная проблема в том, что всё это требует глубоких технических знаний.

Но в этой статье я расскажу, как запустить добротную нейросеть на домашнем ПК с 16ГБ ОЗУ в несколько кликов. Буквально в несколько кликов - копаться в консоли не придётся.

+142

180

RationalAnswer 6 апр 2023 в 07:25

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе

Простой

21 мин

54K

Блог компании Open Data ScienceМашинное обучение*Искусственный интеллектБудущее здесь

Обзор

История про «восстание машин» давно знакома всем любителям научной фантастики, но после взрывного роста возможностей нейросетевых языковых моделей (вроде ChatGPT) об этом риске заговорили и вполне серьезные исследователи. В этой статье мы попробуем разобраться – есть ли основания у таких опасений, или это всего лишь бред воспаленной кукухи?

+105

174

man_of_letters 4 апр 2023 в 14:07

После GPT-4

Простой

24 мин

104K

Машинное обучение*Искусственный интеллект

Мнение

✏️ Технотекст 2023

Если одной метафорой, то произошли первые испытания термоядерной бомбы. Специалисты с благоговейным ужасом и радостью смотрят на поднимающийся над планетою гриб. Остальное человечество живёт обычной жизнью, пока не зная, современниками какого события они являются. Мне нравилось изучение цифровых технологий, сильнее интересовала только работа человеческой психики и междисциплинарное знание, которое можно объединить под условным названием «общая теория информации». Эти увлечения позволили увидеть в смене цифр смену эпох. Постараюсь объяснить суть случившегося максимально доступно.

+216

346

kuznetsoff87 4 апр 2023 в 12:03

Kandinsky 2.1, или Когда +0,1 значит очень много

Средний

8 мин

77K

Блог компании СберОбработка изображений*Машинное обучение*Научно-популярноеИскусственный интеллект

✏️ Технотекст 2023

В ноябре 2022 года мы выпустили свою первую диффузионную модель для синтеза изображений по текстовым описаниям Kandinsky 2.0, которая собрала как позитивные, так и отрицательные отклики. Её ключевой особенностью была мультиязычность и использование двойного текстового энкодера на входе сети: XLMR-clip и mT5-small. Рефлексия после релиза подтолкнула нас к перестройке планов по развитию архитектуры и к сильному стремлению получить буст в качестве генераций, чтобы выйти на уровень аналогичных решений, названия которых слишком хорошо известны, чтобы их называть. В то же время мы могли наблюдать за появлением новых генеративных моделей и их файнтюнов, таких как ControlNet, GigaGAN, GLIGEN, Instruct Pix2Pix и др. В этих работах представлены и новые взгляды на генерацию, и новые возможности использования латентного пространства для внесения контролируемых изменений через текстовые промты, а также для смешивания изображений — возможности использования генеративных моделей расширяются постоянно. Бурное развитие прикладных кейсов привело к интенсивно нарастающему числу различных привлекательных для пользователей реализаций этих функций — визуализация городов, изображения известных личностей в нетипичных ситуациях и многие другие.

+100

183

aGGre55or 24 мар 2023 в 08:01

ChatGPT провалил тест на ручник

Простой

3 мин

101K

Машинное обучение*Искусственный интеллектМозг

Из песочницы

Сегодня мы повсеместно читаем оды т.н. «искусственному интеллекту» под которым почти неизменно и безальтернативно предлагается понимать ChatGPT. Сам ChatGPT называет себя «искусственным интеллектом» (если спросить его об этом).

+261

780

stalkermustang 18 мар 2023 в 10:43

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато

Простой

23 мин

242K

Блог компании Open Data ScienceМашинное обучение*Искусственный интеллектБудущее здесьNatural Language Processing*

Обзор

В этой статье мы разберем новые удивительные способности последней языковой модели из семейства GPT (от понимания мемов до программирования), немного покопаемся у нее под капотом, а также попробуем понять – насколько близко искусственный интеллект подошел к черте его безопасного применения?

Поехали →

+192

338

2 3 4 5

Машинное обучение *

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT

Новости

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT

Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров

Яндексу здесь не место…

Истории

С новым годом: GPT в 500 строках на SQL

Как я сделал ремастер всех серий Том и Джерри в 2к всего за пару месяцев

Локальные нейросети. Аналог ChatGPT-3.5 на домашнем ПК: OpenChat 7B превосходящая 70B, DeepSeek для кода уровня ChatGPT

Вкатываемся в Machine Learning с нуля за ноль рублей: что, где, в какой последовательности изучить

Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом?

Что делает ChatGPT… и почему это работает?

Почему поиск по фото у Google и Apple не способен найти обезьян

Откуда Карты знают, когда приедет автобус

Это не чат, это GigaChat. Русскоязычная ChatGPT от Сбера

Ближайшие события

Китайский язык очень сложный. Мы сделали для него перевод видео

Запуск аналогов ChatGPT на домашнем ПК в пару кликов и с интерфейсом

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе

После GPT-4

Kandinsky 2.1, или Когда +0,1 значит очень много

ChatGPT провалил тест на ручник

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато

Вклад авторов

Работа