Как стать автором
Обновить
10
0
Антон Костин @visualcomments

Пользователь

Отправить сообщение

Делаем обучающие датасеты для больших языковых моделей

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров6.4K

Дообучение больших языковых моделей на кастомных датасетах делает модели гораздо сообразительнее. Есть история успеха датасета alpaca. Он творит чудеса с моделями, которые сначала если и умели что-то делать, то делали это очень плохо. Мы решили понять, как это делается, а главное - какие проблемы есть на этом пути и могут ли новички вроде нас разобраться в этом. История взлетов и падений - под катом.

Читать далее
Всего голосов 13: ↑13 и ↓0+13
Комментарии0

Время, деньги и фасттекст (и при чем здесь бытие)

Время на прочтение2 мин
Количество просмотров1.3K

Пятиминутка философии на Хабре.

Все знают изречение «время — деньги». Но если обратиться к корпусу философских текстов, то такое сочетание для философии не самое привычное. Гораздо чаще время у философов ассоциируется, например, с бытием. Есть даже такая книга, «Бытие и время». Но вдруг нас заинтересует, как же всё-таки время и деньги связаны в философии? Самое время обратиться к глубокому обучению.

У нас есть модель фасттекста, которую обучили на корпусе из 346 философских книг на русском языке. Самые любопытные читатели прямо сейчас могут поработать с ней в колабе.

Попробуем задать ей вопрос о сходстве денег и времени в философии. Но заодно захватим и связку «бытие - время».

Читать далее
Всего голосов 7: ↑5 и ↓2+3
Комментарии0

Коронавирус в роликах и комментариях на ютубе

Время на прочтение9 мин
Количество просмотров3.8K
Всего несколько месяцев назад ютуб заливало всемирное возмущение концовкой “Игры престолов” и проблемой расового разнообразия в играх про средневековую Европу. Эта великолепная эпоха уже позади, сейчас внимание всего мира сфокусировано на вопросах реальной жизни и смерти. И мы исследуем распространение COVID-19 на ютубе.
Всего голосов 16: ↑7 и ↓9-2
Комментарии9

Как находить ботов на ютубе: внешние паттерны взаимодействия комментаторов

Время на прочтение4 мин
Количество просмотров16K
Всем привет! Это небольшой пост (с большим количеством картинок) о визуализации и анализе комментариев на ютубе. Предыдущие посты: 1, 2.

В этот раз мы поговорим о комментариях, которые отличаются от большинства других комментариев и представлены в виде отдельных регионов. Обычно они ассоциируются с поведением ботов, но это может быть и другое автономное сообщество комментаторов. Что они из себя представляют и как их находить на ютубе? Давайте выясним.
Читать дальше →
Всего голосов 15: ↑12 и ↓3+9
Комментарии2

Визуализация комментариев ютуб-каналов международных и локальных touhou-сообществ

Время на прочтение5 мин
Количество просмотров4.8K
Всем привет! Мы развиваем идеи первого поста и продолжаем визуализировать и изучать комментарии на ютубе. На этот раз мы поработаем с глобальными и локальными ютуб-сообществами. Как взаимодействуют комментаторы, которые пишут на разных языках? Собирается ли из множества локальных групп единое глобальное сообщество, или дело сложнее, чем кажется? И причем здесь Touhou Project? Давайте выясним.


Читать дальше →
Всего голосов 25: ↑25 и ↓0+25
Комментарии11

Визуализация комментариев на ютубе: ролики, каналы, жанры, кросс-жанры

Время на прочтение5 мин
Количество просмотров4.9K
Всем привет! Таннер Стоукс в свое время написал адд-он, переделывающий текст комментариев на ютубе в “herp derp”. Кому-то это сделало жизнь намного лучше. Мы пошли по тому же пути, но немного изменили концепцию. Мы представляем комментарии с ютуба в виде картинок, а точнее графов с вершинами и ребрами. И визуализируем все типы объектов — от роликов и каналов до кросс-жанровых пересечений. Как мы это делаем? Давайте выясним.


Читать дальше →
Всего голосов 14: ↑13 и ↓1+12
Комментарии3

Информация

В рейтинге
Не участвует
Откуда
Россия
Зарегистрирован
Активность

Специализация

Data Analyst, Web Analyst
Middle
Python
Linux