Как стать автором
Обновить
9
0

Ai, Data-science

Отправить сообщение
В связи с этим, небольшой кастдев: готовы вы юзать крипто-мониторинг (codename Crypto Sherlock), чтобы из Твиттера в промышленных масштабах получать инсайты о надежности токенов и айсио, для сокращения времени на анализ сразу десятков монет и проектов?

Отчет выдаст примерно такой: «проект Х в течение месяца заключил 3 партнерства, 2 обновления на Гитхабе и 0 обвинений в скаме».

Где тут Искусственный интеллект: вы сможете задать любые смысловые параметры анализа, наша нейросеть обучится понимать о чем речь в тексте и выдавать аналитику на основе множества параметров.

Если нужен продукт такой, как будете использовать?
Если нет, то почему?
Нет алгоритма, способного после обучения по книгам, отличить на фотографии кошку от собаки. Хотя их отличия и внешность прекрасно описаны в книгах (в биологических и ветеринарных справочниках, например).
Отсюда и вывод, что раз до сих пор не было ничего создано на таком благодатном материале, то вряд ли будет создано и в будущем. Возможно, дело в каких-то фундаментальных причинах.


Я занимаюсь обработкой языка, классификацией, извлечением фактов, юзаю Питон. Абсолютно точно могу вам сказать, что задача по тексту классифицировать на сложные классы решаема в наше время. Я лично написал код, которые классифицирует противоправную деятельность в инете, там используются разные конструкции и связи между ними + NER. И кошку от собаки легко по тексту отличать: задаете признаки вроде шерсть, рост и прочее, то же самое как на картинках фичи. И нейросеть сможет их отличить. Тут проблема в том, что тоже надо много образцов, чтобы сеть смогла понять, что слова шерсть и ушки это слова-атрибуты, а «длинная» и «пушистая» это их параметры.
Вставлю свои 5 копеек: с классификацией изображений, прохождением игр или автопилотом Теслы проще, чем с анализом языка — потому, что критерий неправильности легко задается в условии. Например, почему ИИ проходит легко платформеры: потому, что если персонаж теряет здоровье или умер это ошибка, и такие ошибки быстро и АВТОМАТИЧЕСКИ накапливаются в сети. Также и с автопилотом: если съехал с дороги это ошибка, если крен камеры — это съехал, если рывок — столкновение, это ошибка.
Теперь берем анализ текста: у нас 2 текста, один это агитация (предвыборная) другой это просто новость СМИ про политику. Составить базы данных классов текстов для обучения нейросети может ТОЛЬКО человек, т.к. не существует способов легко и автоматически получать ошибку. Только физически прочитав текст человек определяет, что это агитация. Вот почему много сложных задач еще не решено: фейковые новости, сарказм и многие другие вещи ИИ не может понять.
Идея бред полный. А может кто-то прояснить чем она обосновывается? Почему раньше было достаточно копии программы, а теперь им нужен код? Может был какой-то прецедент заимствования чужого кода.

И что означает «Теперь же Минкомсвязи хочет получать полный исходный код ПО для его анализа» — на анализ чего, чужого кода под другими лицензиями? Это супер трудоемко, т.к. это по типу системы антиплагиат: чтобы сделать такой анализ нужно иметь в доступе весь проприетарный код других программ зарубежных, чего у них конечно же нет.
В syntaxnet на Гитхабе (https://github.com/tensorflow/models/tree/master/syntaxnet) сказано, что поддерживается только Питон 2.7 python 2.7: python 3 support is not available yet
Не пробовали с Питон 3.4 устанавливать?

И еще: в НКРЯ есть семантический корпус http://www.ruscorpora.ru/corpora-sem.html — было бы полезно для глаголов знать, что это глаголы служебные, а для наречий, что они указывают на направление, для качеств вроде «умный» — что это качества человека и т.п. — то есть пометы, которые делают разметку уже смысла для каждого слова.
Существуют ли аналоги этого корпуса для того, чтобы обучить нейросеть (сам не встречал)?
В своем проекте-стартапе я решил перейти на Постгрес с Монго, и это при том, что у меня специфика такая, что данные поступают в большом количестве из внешних источников в JSON виде. Что послужило причиной? Я использую Django и начали мы с Монго, т.к. легко потоки данных в него сохранять. Для этого Монго абсолютно устраивала.
НО появились проблемы: Монго достаточно новая, и мало доков по ней и ответов на Stackoverflow, долго разработка идет. Но главное, что решив локально задачу быстрого сохранения данных в json без создания структуры данных в бд, я лишился возможности использовать почти все модули Джанго, т.к. они все предполагают наличие реляционной базы: нет join и тп. А разработка этих модулей или адаптация их под Монго это долгий и сложный процесс, и не факт что получится.
Вот поэтому перешел на Постгре, хотя это может казаться нелогичным: ведь потом данные разрастутся. Конечно, пришлось пожертвовать некоторой частью собираемых данных, т.к. трудно повторить структуру json в базе, но что делать, берем только то, что нужно. Но с 9.5 есть поддержка Nosql и в случае, если это понадобится, легко можно будет переходить постепенно на нее, не меняя при этом базу на другую.
Ваш способ сбора групп, а потом проверки на вхождение в нее юзера должен быть лучше, чем users.getSubscriptions — я замечал, что он выдает не все группы, в которые юзер входит, почему не знаю.
Подскажите, как обработать в коде Питона ошибку 201. Access denied: Access to users audio is denied
Она возникает, когда доступ к списку аудио юзера ограничен.
И все-таки я настаиваю, что нет данных сомневаться в достоверности указанных книг — или дайте ссылку на анализ, что люди врут Вконтакте, и причем сколько процентов и кто именно. Пока такого анализа я не встречал.
Ниже в комменте писал, что у вранья есть и обратная сторона: друзья и знакомые высмеют, если увидят книги, которые вы не читали, но указали. Я, например, долго вообще никаких книг не указывал, т.к. не хотел, чтобы все это видели.
Что касается упоминаний — это вообще другая задача, т.к. нужно проводить анализ контекста упоминания, факт упоминания тоже не означает факт чтения. В этом случае лучше анализ делать онлайн библиотек тогда уж.

В статье я решил остановиться на результатах анализа, а не на том, как его делать, т.к. это уже другая тема. Проблемы были с выделением авторов и книг из той каши, которую юзеры пишут в этом поле. Не решена проблема снятия неоднозначности с фамилиями типа Толстой (их 3).
Я знаю об этом феномене, из моего окружения никто на такое не попадался, все о своих знакомых, как правило, знают правду. Даже обратное наблюдал: успешные не постят мусор и хвастовство, у них нет времени.
Все верно, на самом деле есть и ляпы, которые вы не перечислили. Все учтем. По слитному написанию: я для простоты так представлял данные из рейтинга, т.к. бывают длинные фамилии и названия, да так и оставил. Это просто аспект реализации.
Еще стоит проблема снятия неоднозначности: если пишут Толстой, то понять, кого из трех Толстых имеют ввиду очень сложно.
Понимаю ваши сомнения, но у нас культурные сообщества, а не вообще все люди в городе. Во-вторых, перечисленные вами авторы есть в списках, но они не в топе, а может быть они не являются любимыми. Еще мы обрезали результаты до топ 30, чисто чтобы не загромождать. А что вы понимаете под выкладками?
Ниже есть ответ, уточню лишь, что мы использовали только API Вконтакте официальным способом, он дает все открытые поля, ограничения там вполне нормальные.
Это возможно, но приведу и контраргумент: в случае обнаружения лжи друзья могут высмеять, коллеги разочароваться и пр. А пускать пыль в глаза незнакомым людям — зачем?
Одно из объяснений — люди смотрели фильм Война и мир, но это предположение, нужно проверять. К тому же это культурные сообщества, однозначно, что в бизнес или иных сообществах Толстой не будет в топе.
Лекция хорошая, но она больше прикольная, чем математическая.
Вопрос: когда докладчик говорит, что аукцион эффективен, и приносит максимум денег, как Я.Директ, например, учитывает ли он конкуренцию в целом по отрасли рекламы?
Заметил, что нет. Думаю, что эту конкуренцию нужно учитывать, иначе может сформироваться ядро крупных клиентов, которые уйдут из контекстной рекламы из-за сверхдорогих ставок и по сути выкачивания денег из рекламодателей. А это выкачивание напрямую затем сказывается на цене конечного продукта. В целом же на длинном отрезке могут быть потери в деньгах из-за жадности.
Этот процесс уже идет: мы все знаем, что происходит массовый исход из ТВ рекламы в рекламу в социальных сетях. Люди и охват более таргетный, а денег тратится гораздо меньше при той же конверсии.
Очень хорошо на примерах расписана агрегация. Раньше ее не юзал, писал просто в коде операции над массивами.
А в чем причина закрытия блога?
Вы у меня хотели взять интервью про мой проект, а теперь выходит, что статьи о нас не будет на Хабре? А где она будет опубликована (помимо вашего сайта, может Geektimes)?
Это хорошо, т.к. меня на Хабре как-то раз забанили, причина: инициирует политические дискуссии. Хотя статья была про Украину и про то, как американская компания анализировала социальные медиа и как она врала, используя неверные корреляции.
Никакого своего мнения я не выражал, а лишь указывал на ошибки в выводах в чужом.
На Гиктаймс можно будет публиковать статьи, связанные с аналитикой политических событий в плоскости больших данных и активности соц. сетей?

Информация

В рейтинге
Не участвует
Откуда
Россия
Зарегистрирован
Активность