Как стать автором
Обновить
4
0.1

Пользователь

Отправить сообщение

Почему новая модель GPT-3,5 Turbo говорит, что ее создали в российской компании Just AI?

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров12K

И можно ли верить, что данные клиентов OpenAI отправленные через API, не используются для обучения моделей?

На днях наши знакомые ребята спросили бота на GPT-3,5 Turbo о том, кто его создал. Ответ был: «Я был создан командой Just AI». То есть нами. Хотелось ответить, что команда Just AI тайно правит миром и стоит за большими языковыми моделями. На самом деле мы очень удивились и решили разобраться, как так получилось. В этой статье расскажем о нашем мини‑расследовании и гипотезах, попутно рассказав и об инструментах, которые мы для этого использовали.

Читать далее

Компьютерное зрение в 2024 году: Главные задачи и направления

Время на прочтение12 мин
Количество просмотров21K

Компьютерное зрение (Computer Vision) — это область искусственного интеллекта, которая занимается созданием программ и систем, позволяющих компьютерам анализировать и понимать визуальную информацию, такую как изображения и видео. Этот процесс выходит за рамки простого наблюдения, обучая компьютеры принимать решения на основе увиденного.

Рынок компьютерного зрения сейчас переживает бурный рост с прогнозируемым увеличением с 22 миллиардов долларов в 2023 году до 50 миллиардов к 2030 году при 21.4% совокупного годового прироста с 2024 по 2030 год.

Читать далее

Препарируем t-SNE

Время на прочтение10 мин
Количество просмотров87K
Работая над статьей «Глубокое обучение на R...», я несколько раз встречал упоминание t-SNE — загадочной техники нелинейного снижения размерности и визуализации многомерных переменных (например, здесь), был заинтригован и решил разобраться во всем в деталях. t-SNE это t-distributed stochastic neighbor embedding. Русский вариант с «внедрением соседей» в некоторой мере звучит нелепо, поэтому дальше буду использовать английский акроним.

Читать дальше →

Нужна ли айтишнику вышка? Инфоцыганство от государства

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров74K

Куда отдать абитуриента, чтобы вырос программистом? Можно ли совмещать ли работу с учебой и когда начинать? Получать ли второе высшее, если недавно устроился в IT и хочешь выучить недостающую базу? Как невообразимо благодарен за эту информацию в начале моего обучения… К сожалению, их никто не дал, поэтому мне опытным путем пришлось получить ответы.

Читать далее

Llama 3.1-70b в своем Телеграм боте — бесплатно, безлимитно и всего 20 строк кода

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров44K

Да, всего 20 строк кода и бот:

1) по качеству ответов будет соизмерим с ChatGPT-4o;
2) будет отвечать очень быстро т.к. подключим мы его через Groq который в среднем в 10 раз быстрее других аналогичных сервисов;
3) будет поддерживать диалог и запоминать последние сообщения.

Читать далее

Используем Gemini для просмотра лекции

Время на прочтение9 мин
Количество просмотров15K

В феврале Google мы познакомились с Gemini 1.5 Pro с контекстным окном в 1 миллион токенов. Больший размер контекста означает, что Gemini 1.5 Pro может обрабатывать огромные объемы информации за один раз — 1 час видео, 11 часов аудио, 30 000 строк кода или более 700 000 слов. Это делает его на голову выше других моделей.

Сегодня я бы хотела рассмотреть вопрос обработки видео, а именно просмотра часового видео и оценить, как хорошо модель будет извлекать информацию.

Приятного прочтения!

Читать далее

Деградация Яндекс РСЯ: уже на ДНЕ

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров46K

С каждым годом трафик в РСЯ (Рекламная Сеть Яндекса) ухудшается все больше и больше. Это происходит по двум причинам:

1. Увеличение случайных кликов в неудачных местах размещения рекламы (включая клики при попытке закрыть рекламу);

2. Рост рынка ботов до промышленных масштабов;
В этой статье я напомню, как эффективно работала РСЯ в далеком 2017 году, и на каком дне она сейчас.

Читать далее

ANOVA, или кто комментирует?

Время на прочтение8 мин
Количество просмотров25K

В комментариях проскальзывала мысль, что люди мало комментируют статьи на Habrahabr, т.к. боятся потерять карму. Получается, что в основном пишут те, у кого карма побольше. Попробуем исследовать эту гипотезу подробнее и получить результаты, подкрепленные не только интуитивно, но и статистически.
Читать дальше →

Дисперсионный анализ (ANOVA)

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров78K

Дисперсионный анализ (ANOVA) — это статистический метод, который используется для сравнения средних значений двух или более выборок. Он позволяет определить, различаются ли средние значения между группами, или же различия случайны. ANOVA используется в различных областях, включая науку, инженерию, медицину, социологию и многие другие, где необходимо доказать связь между переменными.

ANOVA является мощным инструментом, который может использоваться в статистическом анализе для оценки влияния исследуемого фактора на зависимую переменную. Это помогает установить, является ли фактор значимым, и позволяет идентифицировать взаимодействие между переменными. ANOVA также позволяет определить, насколько сильно различия между группами, что может быть полезно при выборе стратегий манипулирования факторами.

Правильное применение ANOVA может доставить большую пользу и сделать исследование намного более информативным.

Читать далее

Как работает метод главных компонент (PCA) на простом примере

Время на прочтение10 мин
Количество просмотров301K


В этой статье я бы хотел рассказать о том, как именно работает метод анализа главных компонент (PCA – principal component analysis) с точки зрения интуиции, стоящей за ее математическим аппаратом. Максимально просто, но подробно.
Читать дальше →

Быть жестким, но не жестоким: как разойтись с сотрудником по хорошему?

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров27K

Спустя года наблюдений за hr’ами и руководителями в стартапах и корпорациях я нашел достаточный путь к тому, чтобы расставаться с сотрудниками и в большей степени сохранять их лояльность ко мне как к руководителю и не оставлять плохие отзывы о компании.

Читать далее

Как я закрыл свой бизнес по выращиванию клубники, или что бывает, если закопать 5 млн в землю

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров80K

В 2018-м я собрал 1 тонну клубники, и заработал на этом 150 000 ₽, это неприятно за 5 мес. тяжелого труда агробизнесмена. Поэтому в 2019-м я решил, что если заниматься сельским хозяйством, то заниматься по-взрослому. По моим расчетам, с 18 000 саженцев клубники можно заработать 11 млн ₽ за 3 года. В статье я расскажу, что из этого вышло.

Читать далее

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов

Время на прочтение16 мин
Количество просмотров48K
Часть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)

Пока другие специалисты по машинному обучению и анализу данных выясняют, как прикрутить побольше слоёв к нейронной сети, чтобы она ещё лучше играла в Марио, давайте обратимся к чему-нибудь более приземлённому и применимому на практике.

Кластеризация временных рядов — неблагодарное дело. Даже при группировке статических данных часто получаются сомнительные результаты, что уж говорить про информацию, рассеянную во времени. Однако нельзя игнорировать задачу, только потому что она сложна. Попробуем разобраться, как выжать из рядов без меток немного смысла. В этой статье рассматриваются подтипы кластеризации временных рядов, общие приёмы и популярные меры расстояния между рядами. Статья рассчитана на читателя, уже имевшего дело с последовательностями в data science: о базовых вещах (тренд, ARMA/ARIMA, спектральный анализ) рассказываться не будет.

Читать дальше →

Забытая война с пейджерами

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров29K

До появления смартфонов под пристальным вниманием наших родителей, школ и законодателей были пейджеры.

Сегодня мы наблюдаем, как заботливые родители и законодатели начали стремиться оградить молодёжь от вредного влияния смартфонов с помощью возрастных ограничений и запретов на использование в школе. Но интересно то, что 30 лет назад аналогичный сюжет разворачивался вокруг предков сотовых телефонов — пейджеров.

В течение 1980-х эти устройства активно набирали популярность среди подростков, а также… драг-дилеров. В те годы США переживали общественную панику, связанную с активным употреблением наркотиков молодёжью, и этот факт значительно её усилил, поскольку пейджеры начали считать одним из главных подспорьев наркобизнеса.
Читать дальше →

Нестандартная кластеризация 4: Self-Organizing Maps, тонкости, улучшения, сравнение с t-SNE

Время на прочтение13 мин
Количество просмотров26K
Часть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)

Self-organizing maps (SOM, самоорганизующиеся карты Кохонена) — знакомая многим классическая конструкция. Их часто поминают на курсах машинного обучения под соусом «а ещё нейронные сети умеют вот так». SOM успели пережить взлёт в 1990-2000 годах: тогда им пророчили большое будущее и создавали новые и новые модификации. Однако, в XXI веке SOM понемногу уходят на задний план. Хоть новые разработки в сфере самоорганизующихся карт всё ещё ведутся (большей частью в Финляндии, родине Кохонена), даже на родном поле визуализации и кластеризации данных карты Кохонена всё чаще уступает t-SNE.

Давайте попробуем разобраться в тонкостях SOM'ов, и выяснить, заслуженно ли они были забыты.


Читать дальше →

Нестандартная кластеризация 5: Growing Neural Gas

Время на прочтение13 мин
Количество просмотров19K
Часть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)

Доброго времени суток, Хабр! Сегодня я бы хотел рассказать об одном интересном, но крайне малоизвестном алгоритме для выделения кластеров нетипичной формы — расширяющемся нейронном газе (Growing Neural Gas, GNG). Особенно мало информации об этом инструменте анализа данных в рунете: статья в википедии, рассказ на Хабре о сильно изменённой версии GNG и пара статей с одним лишь перечислением шагов алгоритма — вот, пожалуй, и всё. Весьма странно, ведь мало какие анализаторы способны работать с меняющимися во времени распределениями и нормально воспринимают кластеры экзотической формы — а это как раз сильные стороны GNG. Под катом я попробую объяснить этот алгоритм сначала человеческим языком на простом примере, а затем более строго, в подробностях. Прошу под кат, если заинтриговал.

(На картинке: нейронный газ осторожно трогает кактус)
Читать дальше →

Как нейронные сети экономят бизнесу время и деньги

Время на прочтение11 мин
Количество просмотров9.4K

Нейронные сети занимают все больше и больше бизнес-ниш: они считают посетителей, контролируют качество и соблюдение техники безопасности, считывают автомобильные номера и проверяют, не забыли ли вы надеть маску. Даже этот текст мог бы быть написан нейронной сетью.

Искусственная нейронная сеть (ИНС) — математическая модель, имеющая программное или аппаратное воплощение. Название пришло от сравнения с принципом работы биологических нейронных сетей. Нейронные сети не программируются в привычном смысле этого слова, они обучаются. Возможность обучения — одно из главных преимуществ нейронных сетей перед традиционными алгоритмами,так как  нейросети позволяют прогнозировать сразу несколько величин (и даже одновременно решать задачи классификации и прогнозирования) одной моделью. При этом нейросети требуют значительно большего количества ресурсов — как аппаратных, так и подготовленных данных, необходимых для обучения.

Развитие нейронных сетей связано как с развитием технологий, так и с вкладом глобального IT-сообщества в обучение различных моделей на большом количестве различных наборов данных.

Пожалуй, самая популярная область применения нейросетей сегодня — распознавание визуальных образов, аудио и видео. Они используются везде — от робота-автоответчика в банке и спецэффектов в TikTok до анализа состояния нефтепроводов и подсчета брака на заводе. Нейросети существенно облегчают труд человека и экономят бизнесу миллионы человеко-часов в год.

В этой статье мы расскажем о нейросетях, которые использовали при разработке программной платформы Digital Sense — собственного продукта Цифроматики, который позволяет строить бизнес-процессы на обработке искусственным интеллектом графических и аудиоканалов в режиме реального времени, обрабатывать данные, представлять результаты анализа в графической форме и запускать программные сценарии.

Читать далее

Предельно дешёвая видеоаналитика для детских футбольных школ

Время на прочтение9 мин
Количество просмотров21K


Привет, Хабр! Ещё до продажи Мосигры мы полезли в образование. Там оказалось чуть интереснее, чем могло показаться сначала, и на сегодня мы успели открыть 124 футбольных школы, киберспортивные секции, танцы, шахматы и всё такое. Карантин слегка подрезал нам работу до 70 активных точек. Тут надо сказать, что с учётом опыта розницы, в ДНК проекта сразу закладывали очень быструю масштабируемость, чтобы по возможности построить межгалактическую сеть дополнительного образования. А один из самых больших вопросов в такой ситуации — как контролировать качество этого самого образования.

Вот футбольные тренировки. С одной стороны, конечно, у нас есть методология, которая частично на базе испанской, а потом нам её очень сильно доработали умные дядьки в РГУФК. По идее, она даёт некий стандарт, как и чему тренеры будут учить детей, но этого мало. Каждый тренер — яркая индивидуальность. Это круто, но опасно: нужно как-то следить за прогрессом. Более того, это не только наша хотелка как организации, но и прямая хотелка родителей.

Родители в образовании обычно не чувствуют прогресса ребёнка. Есть, конечно, всякие турниры, отчётные концерты и годовые экзамены, но обратная связь длиной в полгода — плохой план. Мы решили, что нужно автоматически генерировать отчёты с каждой тренировки. И вот тут мы подходим к тому, что обычно делается руками для профессиональной футбольной команды — видеоаналитике действий игроков на поле. Садится человек и примерно за 50-100 долларов за час расшифровывает происходящее. Схема не масштабируемая: вот у нас в январе 2020 занималось 165 групп в среднем по 9 раз в месяц – это будет от 75 до 150 тысяч долларов в месяц.

Но, поскольку мы живём в веке свёрточных нейросеток, можно сделать всё с дешманской камерой (но всё же fullHD 30 FPS) прямо на школьной тренировке. И, более того, мы это уже сделали до стадии беты.
Читать дальше →

Венгерский алгоритм, или о том, как математика помогает в распределении назначений

Время на прочтение6 мин
Количество просмотров72K
Привет, друзья! В этой статье хотел бы рассказать про интересный алгоритм из дисциплины «Исследование операций» а именно про Венгерский метод и как с его помощью решать задачи о назначениях. Немного затрону теории про то, в каких случаях и для каких задач применим данный алгоритм, поэтапно разберу его на мною выдуманном примере, и поделюсь своим скромным наброском кода его реализации на языке R. Приступим!

image
Читать дальше →

Самое бессмысленное обучение: почему благодаря школе и вузу вы «застряли» в болоте

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров51K

Я просыпался. Открывал глаза и с тоской думал, что опять надо ехать на работу. Она казалось мне бессмысленной, выматывающей, но, увы, безальтернативной. Как сменить ее на что-то еще — я не знал. Чем хочу заниматься — не знал. Я жил с чувством, что влип в нелюбимую работу навсегда. Чувствовал, что застрял, но не подозревал, что выход из болота находится совсем не там, где я предполагал.

Читать далее

Информация

В рейтинге
5 511-й
Зарегистрирован
Активность