Дообучение больших языковых моделей на кастомных датасетах делает модели гораздо сообразительнее. Есть история успеха датасета alpaca. Он творит чудеса с моделями, которые сначала если и умели что-то делать, то делали это очень плохо. Мы решили понять, как это делается, а главное - какие проблемы есть на этом пути и могут ли новички вроде нас разобраться в этом. История взлетов и падений - под катом.
Антон Костин @visualcomments
Пользователь
Время, деньги и фасттекст (и при чем здесь бытие)
2 мин
1.3KПятиминутка философии на Хабре.
Все знают изречение «время — деньги». Но если обратиться к корпусу философских текстов, то такое сочетание для философии не самое привычное. Гораздо чаще время у философов ассоциируется, например, с бытием. Есть даже такая книга, «Бытие и время». Но вдруг нас заинтересует, как же всё-таки время и деньги связаны в философии? Самое время обратиться к глубокому обучению.
У нас есть модель фасттекста, которую обучили на корпусе из 346 философских книг на русском языке. Самые любопытные читатели прямо сейчас могут поработать с ней в колабе.
Попробуем задать ей вопрос о сходстве денег и времени в философии. Но заодно захватим и связку «бытие - время».
+3
Коронавирус в роликах и комментариях на ютубе
9 мин
3.8KВсего несколько месяцев назад ютуб заливало всемирное возмущение концовкой “Игры престолов” и проблемой расового разнообразия в играх про средневековую Европу. Эта великолепная эпоха уже позади, сейчас внимание всего мира сфокусировано на вопросах реальной жизни и смерти. И мы исследуем распространение COVID-19 на ютубе.
-2
Как находить ботов на ютубе: внешние паттерны взаимодействия комментаторов
4 мин
16KВсем привет! Это небольшой пост (с большим количеством картинок) о визуализации и анализе комментариев на ютубе. Предыдущие посты: 1, 2.
В этот раз мы поговорим о комментариях, которые отличаются от большинства других комментариев и представлены в виде отдельных регионов. Обычно они ассоциируются с поведением ботов, но это может быть и другое автономное сообщество комментаторов. Что они из себя представляют и как их находить на ютубе? Давайте выясним.
В этот раз мы поговорим о комментариях, которые отличаются от большинства других комментариев и представлены в виде отдельных регионов. Обычно они ассоциируются с поведением ботов, но это может быть и другое автономное сообщество комментаторов. Что они из себя представляют и как их находить на ютубе? Давайте выясним.
+9
Визуализация комментариев ютуб-каналов международных и локальных touhou-сообществ
5 мин
4.8KВсем привет! Мы развиваем идеи первого поста и продолжаем визуализировать и изучать комментарии на ютубе. На этот раз мы поработаем с глобальными и локальными ютуб-сообществами. Как взаимодействуют комментаторы, которые пишут на разных языках? Собирается ли из множества локальных групп единое глобальное сообщество, или дело сложнее, чем кажется? И причем здесь Touhou Project? Давайте выясним.
+25
Визуализация комментариев на ютубе: ролики, каналы, жанры, кросс-жанры
5 мин
4.9KВсем привет! Таннер Стоукс в свое время написал адд-он, переделывающий текст комментариев на ютубе в “herp derp”. Кому-то это сделало жизнь намного лучше. Мы пошли по тому же пути, но немного изменили концепцию. Мы представляем комментарии с ютуба в виде картинок, а точнее графов с вершинами и ребрами. И визуализируем все типы объектов — от роликов и каналов до кросс-жанровых пересечений. Как мы это делаем? Давайте выясним.
+12
Информация
- В рейтинге
- Не участвует
- Откуда
- Россия
- Зарегистрирован
- Активность
Специализация
Data Analyst, Web Analyst
Middle
Python
Linux