Pull to refresh
7
Karma
0
Rating

Ai, Data-science

  • Followers 6
  • Following

Всё, что нам нужно — это генерация

Круть.
А какие минимальные требования к инференсу моделей 1,3 и 13млрд по мощности GPU, объему видеопамяти, оперативной памяти?
Также интересует вопрос нагрузочного тестирования: сколько одновременных генераций могут делать модели на одной ГПУ так, чтобы генерация не замедлялась и с какого момента будет падение процесса (где будет узкое место).

Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

Для диалогов нужен другой encoder — polyencoder, тут архитектура не подходит

Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

Погуглите — есть уже задача распознавания фейков и даже у нас в РФ выделено финансирование на этот проект.
Верно автор говорит — это война Всепробивающего ядра и Непробиваемой брони.
То же самое касается и adversarial attacs на нейросети, хотя мое мнение, что скоро эта проблема будет решена.

Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

Да, проблема с копированием кусков текста и заменой там характеристических слов она есть — («единорог» в примерах со скринов это и есть такое слово, подставленное во вполне логичный новостной сюжет-обзор, который во многом копирует типовые обороты).

Мы тоже выпускали своего чатбота Ньютона на трансформере кастомной архитектуры с 3млрд параметров(правда не хайповали пока тк там много еще задач) — он затюнен именно на диалогах из интернета и знаниях из википедии, миллионы диалогов. Генерация в нем очень хорошая, логичная, эмпатичная и бот проактивный, одна из фишек это помимо генерации делать refine полученного куска текста, а еще мы используем другой encoder, который внимание чуть иначе, более эффективно применяет.
Так вот такая модель может хоститься на обычной 1080ti в облаке и ведет очень разнообразный разговор и стоит это все намного дешевле, чем gpt-3. Правда и артефакты есть — тк модель на английском, стиль разговора у нее более западный и жаргонизмы плохо понимает.
Так что огроменный датасет ruGPT3 это круто — но если кто статью читал, там видно, что меньший размер моделей начинает уступать текущим решениям по качеству решения задач NLU. И лучше брать архитектуру под задачу

Путин подписал указ о развитии искусственного интеллекта в РФ. Денег будет много, но не понятно, кто их получит

Я так понял, что пока не ясны:
1) критерии отбора конкретных компаний и проектов, которые получат финансирование,
2) и, как следствие, пока эти критерии разработает комиссия пройдет еще 1 год?
Ну короче можно пока не думать об этом или как, у кого какие идеи?

GPT-2 нейросеть от OpenAI. Быстрый старт

Согласен с karay по проблеме интепретируемости. Кстати, уже есть работы, в которых объяснено, как нейросеть принимает решение, там разрезка по слоям сетки и даже вытягиваются фичи, что вот ухо такой формы значит это кот — это опять же классификация, статья Deepmind.
Так что ребят, забываем, что нейросети черный ящик, уже нет. А пока и Семихатов в программе Наука на федеральном канале все еще продолжает транслировать устаревшую инфу.
Что касается объяснения самой сетью: тут нужна другая сеть, обученная понимать причину следствие. Пока что все эти фишки с якобы ответами на вопросы что Земля это 3я планета не более чем статистически самый частый ответ. И никакого осознания это информации у нейросети нет.
По безопасности мира: недавно выступал на конфе Datastart с докладом о прозрачном и безопасном ИИ, рассказывал, как важно его контролировать с помощью блокчейна в том числе, чтобы он не вырвался, показывал кейсы и тп. Пока общественный дискурс болоболит о философских моментах, а не о том, как технически решать проблему, тк полная модель GPT-2 появится кустарно все равно и это вопрос времени

Исследование: 80% ICO 2017 года признаны мошенническими

В связи с этим, небольшой кастдев: готовы вы юзать крипто-мониторинг (codename Crypto Sherlock), чтобы из Твиттера в промышленных масштабах получать инсайты о надежности токенов и айсио, для сокращения времени на анализ сразу десятков монет и проектов?

Отчет выдаст примерно такой: «проект Х в течение месяца заключил 3 партнерства, 2 обновления на Гитхабе и 0 обвинений в скаме».

Где тут Искусственный интеллект: вы сможете задать любые смысловые параметры анализа, наша нейросеть обучится понимать о чем речь в тексте и выдавать аналитику на основе множества параметров.

Если нужен продукт такой, как будете использовать?
Если нет, то почему?

Похоже, с помощью нейронных сетей появился шанс слабый ИИ сделать сильным

Нет алгоритма, способного после обучения по книгам, отличить на фотографии кошку от собаки. Хотя их отличия и внешность прекрасно описаны в книгах (в биологических и ветеринарных справочниках, например).
Отсюда и вывод, что раз до сих пор не было ничего создано на таком благодатном материале, то вряд ли будет создано и в будущем. Возможно, дело в каких-то фундаментальных причинах.


Я занимаюсь обработкой языка, классификацией, извлечением фактов, юзаю Питон. Абсолютно точно могу вам сказать, что задача по тексту классифицировать на сложные классы решаема в наше время. Я лично написал код, которые классифицирует противоправную деятельность в инете, там используются разные конструкции и связи между ними + NER. И кошку от собаки легко по тексту отличать: задаете признаки вроде шерсть, рост и прочее, то же самое как на картинках фичи. И нейросеть сможет их отличить. Тут проблема в том, что тоже надо много образцов, чтобы сеть смогла понять, что слова шерсть и ушки это слова-атрибуты, а «длинная» и «пушистая» это их параметры.

Похоже, с помощью нейронных сетей появился шанс слабый ИИ сделать сильным

Вставлю свои 5 копеек: с классификацией изображений, прохождением игр или автопилотом Теслы проще, чем с анализом языка — потому, что критерий неправильности легко задается в условии. Например, почему ИИ проходит легко платформеры: потому, что если персонаж теряет здоровье или умер это ошибка, и такие ошибки быстро и АВТОМАТИЧЕСКИ накапливаются в сети. Также и с автопилотом: если съехал с дороги это ошибка, если крен камеры — это съехал, если рывок — столкновение, это ошибка.
Теперь берем анализ текста: у нас 2 текста, один это агитация (предвыборная) другой это просто новость СМИ про политику. Составить базы данных классов текстов для обучения нейросети может ТОЛЬКО человек, т.к. не существует способов легко и автоматически получать ошибку. Только физически прочитав текст человек определяет, что это агитация. Вот почему много сложных задач еще не решено: фейковые новости, сарказм и многие другие вещи ИИ не может понять.

Для внесения в реестр отечественного ПО его исходники придется сдавать на оценку в Минкомсвязи

Идея бред полный. А может кто-то прояснить чем она обосновывается? Почему раньше было достаточно копии программы, а теперь им нужен код? Может был какой-то прецедент заимствования чужого кода.

И что означает «Теперь же Минкомсвязи хочет получать полный исходный код ПО для его анализа» — на анализ чего, чужого кода под другими лицензиями? Это супер трудоемко, т.к. это по типу системы антиплагиат: чтобы сделать такой анализ нужно иметь в доступе весь проприетарный код других программ зарубежных, чего у них конечно же нет.

Синтаксический анализ текстов с помощью SyntaxNet

В syntaxnet на Гитхабе (https://github.com/tensorflow/models/tree/master/syntaxnet) сказано, что поддерживается только Питон 2.7 python 2.7: python 3 support is not available yet
Не пробовали с Питон 3.4 устанавливать?

И еще: в НКРЯ есть семантический корпус http://www.ruscorpora.ru/corpora-sem.html — было бы полезно для глаголов знать, что это глаголы служебные, а для наречий, что они указывают на направление, для качеств вроде «умный» — что это качества человека и т.п. — то есть пометы, которые делают разметку уже смысла для каждого слова.
Существуют ли аналоги этого корпуса для того, чтобы обучить нейросеть (сам не встречал)?

Postgres NoSQL лучше, чем MongoDB?

В своем проекте-стартапе я решил перейти на Постгрес с Монго, и это при том, что у меня специфика такая, что данные поступают в большом количестве из внешних источников в JSON виде. Что послужило причиной? Я использую Django и начали мы с Монго, т.к. легко потоки данных в него сохранять. Для этого Монго абсолютно устраивала.
НО появились проблемы: Монго достаточно новая, и мало доков по ней и ответов на Stackoverflow, долго разработка идет. Но главное, что решив локально задачу быстрого сохранения данных в json без создания структуры данных в бд, я лишился возможности использовать почти все модули Джанго, т.к. они все предполагают наличие реляционной базы: нет join и тп. А разработка этих модулей или адаптация их под Монго это долгий и сложный процесс, и не факт что получится.
Вот поэтому перешел на Постгре, хотя это может казаться нелогичным: ведь потом данные разрастутся. Конечно, пришлось пожертвовать некоторой частью собираемых данных, т.к. трудно повторить структуру json в базе, но что делать, берем только то, что нужно. Но с 9.5 есть поддержка Nosql и в случае, если это понадобится, легко можно будет переходить постепенно на нее, не меняя при этом базу на другую.

Поиск похожих групп и пабликов Вконтакте

Ваш способ сбора групп, а потом проверки на вхождение в нее юзера должен быть лучше, чем users.getSubscriptions — я замечал, что он выдает не все группы, в которые юзер входит, почему не знаю.

Скачивание музыкальной коллекции vk.com

Подскажите, как обработать в коде Питона ошибку 201. Access denied: Access to users audio is denied
Она возникает, когда доступ к списку аудио юзера ограничен.

Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ

И все-таки я настаиваю, что нет данных сомневаться в достоверности указанных книг — или дайте ссылку на анализ, что люди врут Вконтакте, и причем сколько процентов и кто именно. Пока такого анализа я не встречал.
Ниже в комменте писал, что у вранья есть и обратная сторона: друзья и знакомые высмеют, если увидят книги, которые вы не читали, но указали. Я, например, долго вообще никаких книг не указывал, т.к. не хотел, чтобы все это видели.
Что касается упоминаний — это вообще другая задача, т.к. нужно проводить анализ контекста упоминания, факт упоминания тоже не означает факт чтения. В этом случае лучше анализ делать онлайн библиотек тогда уж.

В статье я решил остановиться на результатах анализа, а не на том, как его делать, т.к. это уже другая тема. Проблемы были с выделением авторов и книг из той каши, которую юзеры пишут в этом поле. Не решена проблема снятия неоднозначности с фамилиями типа Толстой (их 3).

Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ

Я знаю об этом феномене, из моего окружения никто на такое не попадался, все о своих знакомых, как правило, знают правду. Даже обратное наблюдал: успешные не постят мусор и хвастовство, у них нет времени.

Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ

Все верно, на самом деле есть и ляпы, которые вы не перечислили. Все учтем. По слитному написанию: я для простоты так представлял данные из рейтинга, т.к. бывают длинные фамилии и названия, да так и оставил. Это просто аспект реализации.
Еще стоит проблема снятия неоднозначности: если пишут Толстой, то понять, кого из трех Толстых имеют ввиду очень сложно.

Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ

Понимаю ваши сомнения, но у нас культурные сообщества, а не вообще все люди в городе. Во-вторых, перечисленные вами авторы есть в списках, но они не в топе, а может быть они не являются любимыми. Еще мы обрезали результаты до топ 30, чисто чтобы не загромождать. А что вы понимаете под выкладками?

Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ

Ниже есть ответ, уточню лишь, что мы использовали только API Вконтакте официальным способом, он дает все открытые поля, ограничения там вполне нормальные.

Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ

Это возможно, но приведу и контраргумент: в случае обнаружения лжи друзья могут высмеять, коллеги разочароваться и пр. А пускать пыль в глаза незнакомым людям — зачем?

Information

Rating
Does not participate
Location
Россия
Registered
Activity