Статьи / Закладки / Профиль ganqqwerty / Хабр

Кул Домов @ganqqwerty

Code monkey

Профиль Статьи 26Посты Новости Комментарии 2.6K

efreelancer 8 окт 2023 в 20:40

Дообучение ruGPT-3.5 13B с LoRA

Средний

10 мин

23K

Программирование*Машинное обучение*Искусственный интеллектNatural Language Processing*

Туториал

Добрый день, уважаемые читатели и авторы Хабра!

Сегодня я рад представить вам подробное руководство по обучению модели ruGPT-3.5 13B с использованием датасетов модели Saiga-2/GigaSaiga, технологии Peft/LoRA и технологии GGML. Эта статья призвана стать полезным и практичным ресурсом для всех, кто интересуется машинным обучением, искусственным интеллектом и глубоким обучением, а также для тех, кто стремится глубже понять и освоить процесс обучения одной из самых мощных и перспективных русскоязычных моделей.

В данной публикации мы разберем каждый этап обучения модели, начиная от подготовки данных и заканчивая конвертацией в формат GGML. Буду рад, если мой опыт и знания помогут вам в вашем исследовании и экспериментах в этой захватывающей области!

+30

ohmangod_damn 25 авг 2024 в 23:41

Hono.js: Легкий Путь к Эффективным API

Средний

5 мин

6.4K

Веб-разработка*

Туториал

Когда речь идет о разработке простого бэкенда, то в голову приходит Express.js. Однако в 2024 году он считается устаревшим, так как есть шустрые альтернативы. Приветствую вас, дорогие читатели и сегодня расскажу о Hono.js.

+16

DRoman0v 4 дек 2023 в 02:45

Одноплатники начала декабря 2023 года: почти что новогодние устройства

5 мин

30K

Блог компании SelectelГаджетыКомпьютерное железо

Несмотря на близость праздников, производители компьютерного «железа» продолжают выпускать устройства, хорошие и разные. Это актуально и для одноплатников, которые можно использовать для самых разных целей — от DIY-проектов до решения обычных офисных задач. Несколько гаджетов, которые, по нашему мнению, заслуживают внимания — под катом.

Читать дальше →

+40

DenisBerezutskiy 14 ноя 2023 в 03:37

Улучшаем пунктуатор на стенограммах

Средний

29 мин

2.4K

Data Mining*Машинное обучение*Искусственный интеллектNatural Language Processing*

Из песочницы

Привет, Хабр! Сегодня я расскажу о том, как натренировать качественный русскоязычный пунктуатор и капитализатор для стенограмм (то есть, модель, превращающую только что распознанный Speech-to-Text’ом “привет хабр” в литературный “Привет, Хабр!”). Задача эта давно известная и в последние годы кое-как решаемая с помощью нейросетей-трансформеров, например, BERT. Ключевое слово здесь – “кое-как”. Мы пробовали множество открытых доступных моделей (подробности ниже), но результат сильно не дотягивал до нужного нам уровня. Пришлось доделывать модель самим.

Некоторые энтузиасты LLM сразу спросят: а зачем отдельно тренировать пунктуатор в 2023-м, когда есть универсальный ChatGPT? Одна из проблем в том, что ChatGPT работает только на зарубежных серверах, и как они там собирают данные – никому не известно. И это не говоря ещё о риске перевирания текста и высокой стоимости.

Если к вам обращаются заказчики за автономной системой протоколирования митингов, то ни о каком ChatGPT не может идти и речи. Что касается других LLM (Llama 2, T5 и т.д.), то они постоянно страдают галлюцинациями, потребляют в разы больше памяти и работают в десятки, а то и сотни раз медленнее, чем стандартный пунктуатор на BERT. Подробнее об экспериментах с использованием генеративных LLM – в разделе ниже.

В отличие от генеративных сетей, архитектура BERT в принципе хорошо подходит для расстановки знаков и заглавных букв: гарантия от галлюцинаций и быстрая работа, даже на CPU. Однако результат очень сильно зависит от того, на каких данных их обучали. Например, как мы выяснили на собственном опыте, пунктуаторы, натренированные на типичных больших русскоязычных корпусах (новости, энциклопедии, литература, рандомный кроулинг) очень редко ставят точки. Причём, как показали дальнейшие эксперименты, та же по строению модель справлялась намного лучше, если учить её на правильно подобранном датасете.

+13

evhandel 5 июл 2019 в 16:03

Под капотом у React. Пишем свою реализацию с нуля

8 мин

31K

JavaScript*ReactJS*

Из песочницы

   В этом цикле статей мы создадим свою реализацию React с нуля. По окончании у вас будет понимание, как работает React, какие методы жизненного цикла компонента он вызывает и для чего. Статья рассчитана на тех, кто уже использовал React и хочет узнать о его устройстве, или на очень любопытных.

Читать дальше →

+20

shaltaev 31 мар 2021 в 23:54

FrontEnd разработка в Docker

5 мин

30K

Веб-разработка*

Туториал

Когда приходит новый разработчик, то перед ним встает задача запустить окружение для разработки. И до недавнего времени - это часто становилось похожим на танцы с бубном. Поставь 10 разных пакетов определенных версий, а еще окажется что твой собственный pet-проект требует другие версии или это даже может быть другой проект в рамках той же работы. Каждый раз из этой ситуации специалист выходил по своему, но основной проблемой помимо временных затрат на эту конфигурацию - оставалось, то что работоспособность от разработчика к разработчику или runner не гарантировалась.

К счастью - эта проблема решена в современном мире разработки, если не полностью, то в большей мере. Нам на выручку пришел Docker.

respectpick 2 мар 2021 в 21:40

Читаем EXPLAIN на максималках

19 мин

78K

Блог компании СитимобилMySQL*Серверная оптимизация*Администрирование баз данных*

Технотекст 2021

Многим, кто работает с MySQL, известно, что команда EXPLAIN используется для оптимизации запросов, получения информации об использованных и возможных индексах. Большинство разработчиков и администраторов СУБД этой информацией и ограничивается. Я же предлагаю изучить команду EXPLAIN максимально подробно.

+17

hisbvdis 21 июл 2020 в 18:53

Современные решения старых CSS-задач (1 часть): Удержание футера внизу страницы

3 мин

17K

CSS*HTML*Веб-разработка*

Перевод

Приветствую. Представляю вашему вниманию перевод статьи «Keep the Footer at the Bottom: Flexbox vs. Grid», опубликованной 8 апреля 2020 года автором Stephanie Eckles

Это первая статья из серии, посвящённой ознакомлению с современными способами решения CSS-проблем, с которыми я сталкивалась на протяжении более 13 лет в роли фронтенд-разработчика.

В течение многих лет я регулярно возвращалась к этой статье Matthew James Taylor за способом удержания футера страницы в нижней её части, даже если высота основного содержимого меньше высоты окна. Данный метод основывался на явном задании высоты футера, что являлось не масштабируемым, но очень хорошим решением (до появления Flexbox).

host_m 29 июн 2020 в 13:51

5 современных альтернатив старым инструментам командной строки Linux

6 мин

52K

Блог компании VDSina.ru*nix*Настройка Linux*Системное администрирование*

Перевод

Используя более современные альтернативы наряду со старыми инструментами командной строки, можно получить больше удовольствия и даже повысить производительность труда.

В повседневной работе в Linux / Unix мы используем множество инструментов командной строки — например, du для мониторинга использования диска и системных ресурсов. Некоторые из этих инструментов существуют уже давно. Например, top появился в 1984 году, а первый релиз du датируется 1971 годом.

За прошедшие годы эти инструменты были модернизированы и портированы на разные системы, но в целом далеко не ушли от своих первых версий, их внешний вид и usability также сильно не изменились.

Это отличные инструменты, которые необходимы многим системным администраторам. Однако сообщество разработало альтернативные инструменты, которые предлагают дополнительные преимущества. Некоторые из них просто имеют современный красивый интерфейс, а другие значительно улучшают удобство использования. В этом переводе расскажем о пяти альтернативах стандартным инструментам командной строки Linux.

Читать дальше →

+67

106

Kolosoff 30 июн 2020 в 16:32

О личной эффективности. Глава 1

3 мин

3.6K

Читальный зал

Личная эффективность — очень модная тема. Много умных людей о ней пишут, еще больше неумных цитируют умных и тоже пишут. Возможно и мне стоит присоединится к этому празднику жизни.

Читать дальше →

Stantin 1 июн 2020 в 15:29

Детектор приседаний на OpenCV и Tensorflow

5 мин

11K

Разработка на Raspberry Pi*Обработка изображений*Машинное обучение*TensorFlow*Python*

В эпоху заточения хорошо заниматься физкультурой, но вот беда — не все домашние с этим согласны, так что приходилось прикладывать некоторые усилия. Работать надзирателем однако хотелось не очень, потому как надо было собственно работать, а пущеный на самотек спортивный процесс, наблюдаемый в лучшем случае одним глазом, заимел тенденцию скатываться в халяву.

Профессионально деформированный мозг беспокоился, что надо эти процессы как-то мониторить, собирать метрики, и делать это конечно не вручную, а чтобы оно все само себя посчитало.

Начать было решено с приседаний. Фундаментальное движение, с явными состояниями, большой амплитудой, в общем, идеальный выбор.

Читать дальше →

+23

VitaliSergey 19 мая 2020 в 16:01

10 отличных Github репозиториев для разработчиков (часть 2)

4 мин

17K

GitHub*Программирование*Учебный процесс в ITЧитальный зал

Перевод

Привет, хабровчане. Недавно у меня был пост, где я перевел статью со списком крутых репозиториев на Github. Читателям зашло, поэтому решил сделать продолжение, тем более, что автор оригинала предложил еще один интересный список. Кому интересно, добро пожаловать под кат.

Как и в прошлом случае, перевод будет довольно вольным: я опустил предисловие и эмоциональные похвалы автора оригинала, чтобы оставить только суть. Еще, обновил цифры, чтобы информация была более актуальной к моменту публикации этого перевода. Итак, поехали.

Читать дальше →

VitaliSergey 12 мар 2020 в 13:43

10 отличных Github репозиториев, которые должен знать каждый веб-разработчик

3 мин

99K

GitHub*JavaScript*Веб-разработка*Учебный процесс в IT

Перевод

Кроме огромных репозиториев с источниками для подготовки к интервью, здесь много чего интересного

Я собрал список из десяти отличных репозиториев на Github, которые помогут вам существенно расширить свои знания.

А я его перевел, т.к. показалось, что пост многим будет интересен. Перевод очень вольный: я опустил нерелевантные промо-ссылки и гипер эмоциональные похвалы автора оригинала, чтобы оставить только суть. Еще, обновил цифры, чтобы информация была более актуальной к моменту публикации этого перевода. Итак, перейдем к списку.

Читать дальше →

+62

VitaliSergey 28 мая 2020 в 14:34

Топ-10 книг для разработчика

6 мин

139K

Программирование*Профессиональная литература*Учебный процесс в ITЧитальный зал

Перевод

Совершенствоваться в сфере разработки — это не только писать хороший код, но и читать о том, как его писать.

Привет, хабр! Продолжаю делиться полезными подборками. Совсем недавно я опубликовал 2 поста с перечнем Github репозиториев: Часть1 и Часть2. На этот раз предлагаю вашему вниманию подборку полезных книг для разработчиков. Кому интересно — добро пожаловать под кат.

Читать дальше →

+22

Wimbo 26 мая 2020 в 09:27

Больше разработчиков должны знать это о базах данных

19 мин

44K

Блог компании ФлантАдминистрирование баз данных*Программирование*

Перевод

Прим. перев.: Jaana Dogan — опытный инженер из Google, которая в данный момент занимается вопросами наблюдаемости production-сервисов компании, написанных на Go. В этой статье, снискавшей большую популярность у англоязычной аудитории, она в 17 пунктах собрала важные технические детали, касающиеся СУБД (а иногда — распределённых систем в целом), которые полезно учитывать разработчикам крупных/требовательных приложений.

Подавляющее большинство компьютерных систем отслеживают свое состояние и, соответственно, нуждаются в некой системе хранения данных. Я накапливала знания о базах данных в течение длительного времени, попутно совершая ошибки при проектировании, приводившие к потере данных и перебоям в работе. В системах, обрабатывающих большие объемы информации, базы данных лежат в сердце системной архитектуры и выступают ключевым элементом при выборе оптимального решения. Несмотря на то, что работе БД уделяется пристальное внимание, проблемы, которые пытаются предусмотреть разработчики приложений, часто оказываются лишь верхушкой айсберга. В этой серии статей я делюсь некоторыми идеями, которые будут полезны для разработчиков, не специализирующихся в этой области.

Читать дальше →

+66

robofreak 25 мая 2020 в 19:15

Книгообзор: Голден Кришна. «Хороший интерфейс — невидимый интерфейс»

8 мин

6.7K

Блог компании SamsungДизайнДизайн мобильных приложений*Интернет вещейЧитальный зал

Сегодня предлагаем обзор книги автора с чудесным именем Голден Кришна, одно время работавшего на должности ведущего дизайнера Samsung. Эта небольшая, на 250 страниц книга, вышедшая в 2016 году, стала бестселлером и рекомендуется не только дизайнерам, но и вообще инженерам, программистам и менеджерам. Я считаю ее особенно актуальной для разработчиков устройств Интернета вещей.

Основная идея книги в том, что в последнее время в компьютерной индустрии стало преобладать когнитивное искажение: под интерфейсом понимают исключительно графический интерфейс (GUI). Все дизайнеры мира настолько застряли в парадигме «нужен экран, а на экране нужно приложение», что это стало вредить индустрии, в особенности в разработке устройств Интернета вещей — их тоже стремятся снабжать экранами, тогда как физические устройства обладают гораздо более богатым спектром возможностей взаимодействия.

Какое же решение? Оно состоит в том, чтобы вернуться к истокам, к изначально правильным идеям, о которых задумывались еще в 80-е годы. Концепция Голден Кришны носит название NoUI, но это, конечно, скорее броский лозунг. Он не призывает отказаться от интерфейса вообще, но переосмыслить его в пользу более естественных, более минималистичных, более чистых и более осязаемых интерфейсов. После выхода книги многие компании начали принимать этот метод на вооружение, и таких устройств стало больше — я расскажу про это с картинками и примерами.

Источник: Как развиваться Junior дизайнеру

Читать дальше →

Abrashkina 14 мая 2020 в 15:02

Стоимость денег, типы процентов, дисконтирование и форвардные ставки. Ликбез для гика, ч.1

9 мин

65K

Блог компании Технологический Центр Дойче БанкаПлатежные системы*Финансы в IT

Представьте себе ситуацию – вы покупаете машину, и вам предлагают два варианта: заплатить с рассрочкой в несколько месяцев или погасить всю сумму сразу и с небольшой скидкой. Какой окажется выгоднее?

Или, например, вы хотите разместить вклад на год. Можно положить на весь срок под высокий процент или на отдельные короткие сроки под более низкий. Что лучше и насколько?

Все ответы под катом. И добро пожаловать в мир, где время — всегда деньги. До этого вы знали об этом, но теперь — в деталях и с примерами.

Читать дальше →

+39

olegbunin 12 мая 2020 в 14:18

Путь от мидла до сеньора

3 мин

13K

Блог компании Конференции Олега Бунина (Онтико)Карьера в IT-индустрииКонференцииПрограммирование*Веб-разработка*

Обсуждение каждого доклада на каждой нашей конференции начинается с простого вопроса: «Какую пользу получат слушатели от этого выступления?» Чему научатся, где сэкономят время, где деньги, что на следующий день они сделают по другому?

Какую же задачу решают доклады и мастер-классы профессионального фестиваля Российские интернет-технологии? Отвечу вам вопросом на вопрос — а чем отличается специалист мидл-уровня от сеньора?

Читать дальше →

+12

abbey 12 мая 2020 в 15:15

Как создать сайт? Структура и контент

19 мин

60K

Usability*Веб-дизайн*КопирайтПоисковая оптимизация*Веб-разработка*

Туториал

Перевод

Итак, вы решили быть последовательными и начать разработку сайта с самого важного и фундаментального этапа — со структуры (visual sitemap) и контента. Ок, значит, вы попали в правильное место, где мы собрали для вас инструкции и эффективные советы как это лучше всего сделать и с чего начать. Да пребудет с вами сила, так как такой фундаментальный гид за один присед вряд ли удастся осилить.

Пример структуры веб-сайта (Блоки кликабельны)

Какие разделы включить? Что по поводу контента? Мы серьезно все продумали, потратили более месяца на исследования и собрали в этом гиде весь наш 18-летний опыт по созданию сайтов. Дочитав эту статью, вы обретете исчерпывающее представление о том, почему именно так должен быть структурирован сайт компании или продукта, мы также немного коснемся фундаментальных принципов SEO и планирования контента.

Читать дальше →

ru_vds 4 мая 2020 в 13:45

Выделение и CSS

8 мин

37K

Блог компании RUVDS.comCSS*Веб-разработка*

Перевод

Навык выделения текста и других объектов сформировался у пользователей компьютеров много лет назад. Мы выделяем содержимое веб-страниц по разным причинам. Возможно, нужно скопировать текст и где-то его процитировать, возможно — кому-то просто легче читать текст, выделяя его фрагменты. На мобильных устройствах, правда, выделять что-либо сложнее. Меня, например, это раздражает. Мне не нравится выделять содержимое веб-страниц на телефоне. Эта операция кажется какой-то «неправильной».

В этом материале я расскажу обо всём, что нужно знать о стилизации выделений средствами CSS. В частности, речь пойдёт о псевдоэлементе ::selection и о свойстве user-select. Эта статья направлена на то, чтобы показать всем желающим возможности CSS по работе с выделениями, и на то, чтобы рассказать о том, когда и как использовать разные методы работы с выделениями.

Читать дальше →

+31

2 3 ...

11 12

Дообучение ruGPT-3.5 13B с LoRA

Hono.js: Легкий Путь к Эффективным API

Одноплатники начала декабря 2023 года: почти что новогодние устройства

Улучшаем пунктуатор на стенограммах

Под капотом у React. Пишем свою реализацию с нуля

FrontEnd разработка в Docker

Читаем EXPLAIN на максималках

Современные решения старых CSS-задач (1 часть): Удержание футера внизу страницы

5 современных альтернатив старым инструментам командной строки Linux

О личной эффективности. Глава 1

Детектор приседаний на OpenCV и Tensorflow

10 отличных Github репозиториев для разработчиков (часть 2)

10 отличных Github репозиториев, которые должен знать каждый веб-разработчик

Кроме огромных репозиториев с источниками для подготовки к интервью, здесь много чего интересного

Топ-10 книг для разработчика

Совершенствоваться в сфере разработки — это не только писать хороший код, но и читать о том, как его писать.

Больше разработчиков должны знать это о базах данных

Книгообзор: Голден Кришна. «Хороший интерфейс — невидимый интерфейс»

Стоимость денег, типы процентов, дисконтирование и форвардные ставки. Ликбез для гика, ч.1

Путь от мидла до сеньора

Как создать сайт? Структура и контент

Выделение и CSS

Информация

Специализация