Pull to refresh
49
0.6
Send message

Cross-Encoder для улучшения RAG на русском

Level of difficulty Medium
Reading time 15 min
Views 2.6K

Одно из самых прикладных применений языковых моделей (LLM) - это ответы на вопросы по документу/тексту/договорам. Языковая модель имеет сильную общую логику, а релевантные знания получаются из word, pdf, txt и других источников.

Обычно релевантные тексты раскиданы в разных местах, их много и они плохо структурированы. Одна из проблем на пути построения хорошего RAG - нахождение релевантных частей текста под заданный пользователем вопрос.

Еще В. Маяковский писал: "Изводишь единого слова ради, тысячи тонн словесной руды." Примерно это же самое делают би-энкодеры и кросс-энкодеры в рамках RAG, ищут самые важные и полезные слова в бесконечных тоннах текста.

В статье мы посмотрим на способы нахождения релевантных текстов, увидим проблемы, которые в связи с этим возникают. Попытаемся их решить.

Главное - мы натренируем свой кросс-энкодер на русском языке, что служит важным шагом на пути улучшения качества Retrieval Augmented Generation (RAG). Тренировка будет проходит новейшим передовым способом. Схематично он изображен на меме справа)

Читать далее
Total votes 13: ↑13 and ↓0 +13
Comments 9

Дети лезут в сети: как обезопасить самых маленьких

Level of difficulty Easy
Reading time 6 min
Views 18K

Мои школьные годы пришлись на времена, когда всяческие наказания детей были если не нормой, то «пустяками, делом житейским». Обычно влетало за оценки и хулиганство, реже — за курение. И вот, в один из дней мы устроили в классе бойкот учителю по черчению и подписали созданную против него петицию (на секунду, повод был весомым: он пнул кошку и вышвырнул её за дверь). Через пару дней учителя заменили, а одна девочка с очень строгими родителями пришла в школу только спустя три дня. Оказалось, все эти дни она была заперта дома и много стояла в углу. Повод был сумасбродным: за то что оставила на петиции ФИО и подпись. С тех пор прошло почти 25 лет, и сегодня повод не кажется сумасбродным, а прозорливость отца девочки, учинившего наказание, впечатляет. 

День защиты персональных данных — время не только обсудить взрослые темы, но и поговорить о детях. Как-никак, это наши личные бреши в безопасности (причём не только кибер).

Читать далее
Total votes 52: ↑45 and ↓7 +38
Comments 100

Как объяснить функции активации вашему коту: простое руководство

Level of difficulty Easy
Reading time 8 min
Views 11K

Итак, функции активации. Что мы знаем о них помимо загадочной тайны ужасных соглашений о наименованиях (о чем поговорим позже 🧐) и зачем они нам нужны (если вас это вообще интересно)?

Идея, собственно, настолько проста, что даже ваш кот может разобраться в этом. Прежде всего, что-то похожее есть в наших головах. Для этого давайте взглянем на упрощенный нейрон (органический и искусственный):

Читать далее
Total votes 34: ↑33 and ↓1 +32
Comments 11

GPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?

Level of difficulty Medium
Reading time 21 min
Views 94K

14го декабря в одном из самых авторитетных общенаучных журналов Nature была опубликована статья с, кажется, сенсационным заголовком: «ИИ-модели Google DeepMind превосходят математиков в решении нерешённых проблем». А в блогпосте дочки гугла и вовсе не постеснялся указать, что это — первые находки Больших Языковых Моделей (LLM) в открытых математических проблемах. Неужели правда? Или кликбейт — и это в Nature? А может мы и вправду достигли техносингулярности, где машины двигают прогресс? Что ж, давайте во всём разбираться!

Ну давай разберёмся →
Total votes 182: ↑178 and ↓4 +174
Comments 271

Симулятор электронных схем Qucs-S: обзор новшеств версии 2.1.0

Reading time 6 min
Views 12K

Qucs-S является программой с открытым исходным кодом для моделирования электронных схем. Qucs-S кроссплатформенный (поддерживаются Linux и Windows) и написан на С++ с использованием набора библиотек Qt. Для работы Qucs рекомендуется использовать также открытый движок моделирования Ngspice. Первый релиз Qucs, на котором основан Qucs-S, состоялся в 2003 году. В декабре этого года программе исполняется 20 лет. Актуальным релизом Qucs-S на текущий момент является версия 2.1.0. Далее будет рассказано о функциях, добавленных в релизах, вышедших в этом году.

Осторожно! Далее имеются анимированные GIF.

Читать далее
Total votes 42: ↑42 and ↓0 +42
Comments 20

Ультразвуковые излучатели

Level of difficulty Medium
Reading time 13 min
Views 10K
Картинка Kjpargeter, Lookstudio, Freepik

Ультразвуком называются различные волновые колебания, частота которых находится выше слышимости человеческого слуха (15/16 кГц, а по некоторым источникам — 20 кГц).

Природа всех звуковых колебаний одинакова, и, по большому счёту, звук и ультразвук отличаются только тем (с точки зрения человека), может ли он слышать такой диапазон звуков или нет.

В этой статье мы рассмотрим ряд довольно любопытных излучателей ультразвука, некоторые из которых могут быть незнакомы широкой публике.
Читать дальше →
Total votes 63: ↑60 and ↓3 +57
Comments 17

Локальные нейросети. Аналог ChatGPT-3.5 на домашнем ПК: OpenChat 7B превосходящая 70B, DeepSeek для кода уровня ChatGPT

Reading time 8 min
Views 75K

Есть много локальных аналогов ChatGPT, но им не хватает качества, даже 65B модели не могут конкурировать хотя бы с ChatGPT-3.5. И здесь я хочу рассказать про 2 открытые модели, которые всё-таки могут составить такую конкуренцию.

Речь пойдет о OpenChat 7B и DeepSeek Coder. Обе модели за счет размера быстры, можно запускать на CPU, можно запускать локально, можно частично ускорять на GPU (перенося часть слоев на GPU, на сколько хватит видеопамяти) и для такого типа моделей есть графический удобный интерфейс.

И бонусом затронем новую модель для качественного подробного описания фото.

UPD: Добавлена информация для запуска на Windows с ускорением на AMD.

Читать далее
Total votes 107: ↑105 and ↓2 +103
Comments 87

Моя любимая задача для собеседований по программированию

Level of difficulty Medium
Reading time 9 min
Views 96K

В сети есть уйма постов и видео, где разбираются ответы на вопросы LeetCode. Но обычно рассмотрение в них происходит с позиции соискателя, а не работодателя. В этой же статье я приведу разбор собственной задачи по программированию, которую использовал при приёме людей на работу в Amazon, Google и Microsoft.
Читать дальше →
Total votes 131: ↑126 and ↓5 +121
Comments 170

Клонирование голоса из музыки, удаление движимого текста из видео и новые фишки во второй части обновления Wunjo AI

Level of difficulty Easy
Reading time 5 min
Views 6.1K

Привет, Хабр! Наконец, после множества бессонных ночей, я завершил работу над второй частью обновления open-source проекта Wunjo AI и воплотил своё видение приложения. В этом обновлении основное внимание уделено звуку: улучшено клонирование голоса, извлечение вокала или мелодии из песен и повышение качества речи. Но это не все, также появились новые функции для работы с видео и создания дипфейков. Давайте рассмотрим все по порядку: начнем с звука и перейдем к видео и дипфейкам. В конце статьи вы найдете ролик, в котором объясняется работа с видео в приложении и функционирование нейронных сетей для создания дипфейков и не только.

Если вам интересно, вы можете прочитать предыдущие статьи на Хабре о создании дипфейков в Wunjo AI и функциях работы с дипфейками и изменениями видео с помощью текста.

Давайте начнем с звука. Одной из основных задач во второй части обновления была работа над звуком. Изначально в Wunjo AI использовалась адаптированная версия Real Time Voice Cloning, но подход был полностью переработан, что привело к улучшенной версии клонирования голоса. Теперь я использую кодировщик, обученный на аудиоматериале через Real Time Voice Cloning, в сочетании с HuBERT Soft. Этот метод позволяет точнее копировать скорость и тембр речи на этапе синтеза звука и перед работой вокодера. Кроме того, на основе исходного аудио, очищенного от шумов, определяется пол голоса (мужской или женский), а затем настройки вокодера подбираются в соответствии с типом голоса.

Однако эта статья сконцентрирована на более простых аспектах без технических деталей. Давайте взглянем на процесс клонирования голоса в Wunjo AI.

Посмотрим, что там внутри!
Total votes 14: ↑12 and ↓2 +10
Comments 10

Сокровища HTML: 7 тегов, которые упростят вам жизнь

Level of difficulty Easy
Reading time 7 min
Views 21K

Все мы знакомы с широко используемыми HTML тегами, такими как <div>, <p>, <a>, и <img>. Однако, существуют HTML - теги, которые могут упростить жизнь, и вместо написания дополнительного кода, выполнят всю работу :)

Читать далее
Total votes 70: ↑65 and ↓5 +60
Comments 28

Как собрать рентген-аппарат из мотка скотча

Reading time 13 min
Views 28K
Картинка kjpargeter, Gpointstudio, Freepik

Задумывались ли вы над тем, что прямо под руками, может, даже и сейчас, у вас находится весьма мощный потенциальный источник рентгеновского излучения, о котором мало кто знает, потому что «его надо правильно готовить»? А что, если я скажу вам, что это самый обыкновенный скотч? Да-да, та самая банальная клейкая лента, которой мы упаковываем всё подряд! Тем не менее, в определённых условиях она обладает поразительными свойствами, несмотря на кажущуюся странность такого утверждения…
Читать дальше →
Total votes 124: ↑122 and ↓2 +120
Comments 98

YOLO-NAS Pose: прорыв в технологии оценки позы

Level of difficulty Easy
Reading time 7 min
Views 2.2K

Модели YOLO-NAS Pose это последний вклад в область оценки позы. Ранее в этом году Deci получила широкое признание за свою новаторскую базовую модель обнаружения объектов YOLO-NAS. Основываясь на успехе YOLO-NAS, компания представила YOLO-NAS Pose в качестве своего аналога в оценке позы. Эта модель обеспечивает превосходный баланс между задержкой и точностью.

Оценка позы играет решающую роль в компьютерном зрении, охватывая широкий спектр важных задач таких как:

мониторинг движений пациентов в медицинских учреждениях,

анализ результатов спортсменов в спорте,

создание бесшовных интерфейсов человек-компьютер и совершенствование роботизированных систем.

Читать далее
Total votes 3: ↑3 and ↓0 +3
Comments 8

Новый китайский аналоговый процессор в 3000 раз быстрее GPU A100 от Nvidia. Что это за чип и для чего он нужен?

Reading time 3 min
Views 56K

Именно это преимущество нового чипа указывают в статье, описывающей новое изобретение, китайские разработчики. Команда ученых из университета Цинхуа создала аналоговый фотоэлектронный чип. По мнению самих разработчиков, этот чип способен вывести отрасль машинного зрения на новый уровень. Чип получил название ACCEL (All-analog Chip Combining Electronic and Light Computing).

В новой разработке используются технологии и достижения из отрасли фотонных вычислений, где свет использует для обработки данных. В частности, в чип применяются как дифракционные оптические аналоговые вычисления (OAC) и электронные аналоговые вычисления (EAC), что позволяет значительно увеличить энергоэффективность и производительность. Подробности о чипе — под катом.
Читать дальше →
Total votes 72: ↑69 and ↓3 +66
Comments 80

Создание анимированных видео в нейросети Stable Diffusion, пошаговое руководство

Level of difficulty Medium
Reading time 7 min
Views 36K

Друзья, всем привет, даже от меня вы уже не раз слышали, что в нейросетях сейчас можно делать буквально все: создавать тексты, генерировать музыку, делать дипфейки, создавать изображения и даже видео. Раньше генерировать видео можно было только в больших платных проектах типа Gen-2 от Runway или в пока еще бесплатном дискорд боте Pika Labs. Локальные решения были плохими или требовали топовых видеокарт.

Осторожно, много тяжелых гифок.

Читать далее
Total votes 39: ↑37 and ↓2 +35
Comments 27

Обзор Llemma: новая математическая open-source модель

Level of difficulty Medium
Reading time 6 min
Views 6.7K

Привет! Меня зовут Дарина, и я занимаюсь фундаментальными исследованиями в MTS AI. Основной фокус нашей работы сейчас — обучение больших языковых моделей, их тестирование и оптимизация.

Сегодня хочу сделать обзор на недавно вышедшую статью LLEMMA: an open language model for mathematics. Расскажу про обучение модели, новый датасет Proof-Pile-2 и в конце сравню ее с ChatGPT и GPT-4 на ЕГЭ заданиях по профильной математике.

Читать далее
Total votes 14: ↑13 and ↓1 +12
Comments 6

Как мы TLS Fingerprint обходили…

Reading time 6 min
Views 28K

В один день одна из крупных досок объявлений начала возвращать фейковые характеристики объявлений, когда понимала, что мы - бот.

Видимо сайт добавил наш прокси в blacklist, но в нашем пуле около 100к проксей, все прокси попали в blacklist?

Попробовав запустить парсер на другом сервере, HTTP запросы возвращали корректные данные. Спустя неделю, ситуация повторилась.

Мы также попробовали отправить запрос на локальной машине с "забанненым" прокси, на удивление, данные пришли корректные, но отправив запрос с этим же прокси на сервере, получили фейковые. Отсюда вытекает вопрос: как сайт определяет, что запросы посылаются с одной машины, если используются прокси?

Прошарив весь гугл, мы узнали об интересной технологии под названием TLS Fingerprint и теперь хотим поделиться что это такое и как обойти.

Читать далее
Total votes 40: ↑36 and ↓4 +32
Comments 37

Гирокарт «Тачанка» дешевле 1000р

Level of difficulty Easy
Reading time 3 min
Views 6.9K

Предлагается простейшая конструкция, превращающая гироскутер в некоторое подобие карта (гирокарт). А карт - это безопасно, так как ребенок сидит, центр тяжести низкий. В чем проблема гироскутера? Он травмоопасен. Падать со стоячего положения больно и опасно. Именно поэтому на avito, например, полно  исправных гироскутеров по низкой цене 2-3тр. Люди, купили, попробовали покататься, упали, вот и продают. 

Читать далее
Total votes 31: ↑30 and ↓1 +29
Comments 20

Helena.4.0 – новый алгоритм для подбора гиперпараметров

Level of difficulty Medium
Reading time 6 min
Views 9.1K

С целью автоматизации процесса подбора гиперпараметров автором данной статьи разработан алгоритм Helena.4.0. Конечной целью является создание автоматической системы построения моделей (auto-ML), которая бы подбирала гиперпараметры за минимальное время.

С помощью алгоритма Helena.4.0 можно подбирать гиперпараметры для моделей градиентного бустинга, нейросетей, и более того – для генетических алгоритмов. Автор считает, что алгоритмы Helena могут заменить в генетических алгоритмах генеративную часть – т.е. уйти от биологических аналогий, заменив псевдобиологическую генерацию признаков путем процедур «скрещивания» и «мутаций» на генерацию с помощью указанных алгоритмов.

Для поиска максимума функции алгоритм Helena.4.0 использует только ее значения, и  не используют первые и последующие производные. Таким образом, этот алгоритм не требуют ни дифференцируемости, ни непрерывности максимизируемой функции.

Сравнение алгоритма Helena.4.0 с наиболее популярными конкурентами (Optuna, HyperOpt, RandomSearch) показывает его высокую конкурентоспособность.

В отличие от других алгоритмов, не использующих градиент для максимизации функции, алгоритмов Helena.4.0 способен успешно противостоять комбинаторному взрыву. Т.е. алгоритм Helena.4.0 достаточно стабильно работает, несмотря на увеличение размерности пространства. Время, необходимое алгоритму Helena.4.0 для поиска максимума функции, оценивается как квадратичная функция от размерности пространства.

Ниже в статье приведено подробное описание алгоритма Helena.4.0 и результаты сравнительных тестов с алгоритмами-конкурентами.

Читать далее
Total votes 17: ↑14 and ↓3 +11
Comments 16

25 Гбит/с дома, часть 1

Level of difficulty Medium
Reading time 16 min
Views 45K

Я живу в маленьком сельском городке в Швейцарии и довольно давно являюсь клиентом init7 (местный провайдер). Этот провайдер хорошо известен тем, что в данный момент только они начали пару лет назад рекламировать доступное для частных лиц 25 Гбит/с подключение. Впрочем, им требуется время, чтобы обновить оборудование в точке присутствия, а, в моем случае, им нужно было открыть где-нибудь поблизости новую точку присутствия (до этого у них был договор с другим провайдером об аренде части оборудования и места в стойке, что по прежнему давало мне оптику в квартиру, она по прежнему была не GPON'ом, но скорость была ограничена гигабитом). Но в 2023 году они наконец анонсировали скорое открытие POPа и перевод всех пользователей на их основной продукт (fibre7). То что это новый POP для меня означает, что там сразу будет доступен 25 Гбит/с тариф.

Читать далее
Total votes 106: ↑106 and ↓0 +106
Comments 265

Почему мой любимый API — это файл zip на сайте Европейского центрального банка

Level of difficulty Easy
Reading time 7 min
Views 31K

Когда был максимальный курс доллара к евро?

Вот небольшая программа, вычисляющая это:

curl -s https://www.ecb.europa.eu/stats/eurofxref/eurofxref-hist.zip \ | gunzip \ | sqlite3 -csv ':memory:' '.import /dev/stdin stdin' \ "select Date from stdin order by USD asc limit 1;"

Результат: 2000-10-26. (Можете попробовать запустить её самостоятельно.)

Читать далее
Total votes 104: ↑90 and ↓14 +76
Comments 27

Information

Rating
1,514-th
Registered
Activity