Search
Write a publication
Pull to refresh
-28
0.2

Интересуюсь природой вещей

Send message

Пишем чат-бот для работы с PDF

Reading time7 min
Views9.9K

Популярность языковых моделей, в частности ChatGPT, растет в геометрической прогрессии, но многие из нас все еще сталкивается с определенными ограничениями, такими как устаревшая информация, которые OpenAI пока что не смогла преодолеть.

Но задумывались вы над тем, чтобы задавать вопросы непосредственно из своих документов, хранящихся в облаке? Сохраните своё время, которое уходило бы на поиски и ручной мониторинг сайтов, и задействуйте автоматизацию при работе с PDF-документами. Если вас занимает такая перспектива, эта статья окажется для вас ценным ресурсом.

Мы можем избежать риска недостоверных данных в ChatGPT, внедрив работу модели через RAG. В нашем материале мы подробно объясним, как создать чат-бота для взаимодействия с документами из вашего хранилища с помощью LangChain.

Приступим (:

Читать далее

Первое пришествие айтишниц: почему в 50-х годах в программировании женщин было больше, чем в нулевые?

Level of difficultyEasy
Reading time12 min
Views12K

В наши дни середины 2020-х женщинами в IT трудного кого-то удивить. Шутки насчёт девушек-программисток рубежа нулевых и десятых годов уже стали анахронизмом — но ещё не так давно компьютерная среда считалась делом суровых бородатых мужиков-гиков, а любая тян глубоко в компьютерной теме воспринималась в качестве удивительной аномалии. Казалось бы, в ещё более старые времена всё в сфере IT было ещё более однозначно. Ан нет: на заре компьютерной эпохи, в США 60-х годов, многие вакансии в сфере цифровых технологий считались едва ли не типично женскими, на уровне машинисток или телеграфисток. Как это случилось, и почему затем компьютеры на несколько десятилетий превратились в мужское царство?
Читать дальше →

Как концентрация на результате мешает вам жить

Level of difficultyEasy
Reading time5 min
Views8.4K

Для многих не является открытием то, что процесс куда важнее, чем окончательный результат, хотя бы потому, что результат может не совпадать с вашими ожиданиями. Однако концентрироваться на процессе сложно в связи с заложенными в нас предустановками. В данной статье рассказывается о том, как можно бороться с данной проблемой, сводя к минимуму негативные последствия.

Читать далее

Почему художники не любят нейросети и как это решить

Level of difficultyEasy
Reading time10 min
Views6.5K

Взрыв популярности нейросетей вызвал встречную волну хейта со стороны художников. И, вроде, уж прошло некоторое время, и теперь мы видим, что нейросети - это вовсе не волшебство, и вовсе не заменяют художников, а дополняют, и художники по прежнему востребованы. Мы видим, что эта волшебная кнопка не совсем волшебна - она рисует что-то необычное, иногда красивое, но создать при помощи нее образ из своей головы ох как не просто.

Однако неприязнь художников остается значительной, и неверно думать, что это всего лишь боязнь конкуренции, неолуддизм и нежелание развиваться.

В чем причина этой проблемы, надо ли ее решать и как решить. Об этом настоящая статья.

Читать далее

Страшный сон астматиков и экоактивистов: что происходит с бездымным бытовым топливом на основе угля

Level of difficultyMedium
Reading time10 min
Views2.8K

Экологическая повестка все больше и больше давит на компании и различные организации по всему мира. Тем не менее, об отказе от угля пока что и речи не идет. В этом материале мы подробно рассмотрим бытовой уголь, которые частные домохозяйства по всему миру используют для обогрева. И не только они, вспомним те же вокзалы и обогреваемые пассажирские железнодорожные вагоны, оборудованные титанами. 

Читать далее

Теория химического строения. Ликбез. Часть 1

Level of difficultyEasy
Reading time6 min
Views7.6K

Приветствую всех айтишников и технарей. Не беспокойтесь, серию про ЯМР я не бросил, и обязательно её закончу. Однако пися пиша готовя очередную статью, посвященную возможностям метода, я столкнулся с тем, что описать и объяснить эти самые возможности можно только человеку, который понимает как устроена молекула. Таких людей на Хабре (да и в целом по жизни) не так много, а мне хотелось бы адресовать свои посты относительно широкой аудитории. Ничего подобного, как ни странно, я на Хабре не нашел, поэтому деваться некуда, придется наваять про это отдельный пост.

Читать далее

Ansible + Grafana Loki: Настраиваем отправку уведомлений в чат после логина на сервер по SSH

Level of difficultyMedium
Reading time19 min
Views15K

Не задумывались ли вы когда-нибудь над тем, чтобы знать о каждом входе на ваши сервера? Меня охватила такая же паранойя: а вдруг, когда я сплю, на мой сервер заходит домовой и творит там ужасы? Хотя логин на наши сервера и запрещен по паролю, а SSH-ключи есть только у меня, в любом случае это вызывает большие опасения.

В этой статье мы развёрнем через Terraform несколько серверов в Yandex.Cloud, а затем при помощи Ansible настроим необходимый софт на каждом сервере. У нас будет основной сервер c Loki (система агрегирования логов) и Grafana (инструмент для визуализации данных), на серверах, которые мы хотим отслеживать, будет установлен Promtail (агент для сбора и отправки логов). Мы разберёмся с тем, как отслеживать входы на сервер, а затем в удобном формате отправлять об этом уведомления в чат с помощью вышеуказанных сервисов.

Читать далее

Как я опираюсь на инженерный подход в вопросе своего долголетия

Level of difficultyEasy
Reading time6 min
Views24K

Если вы не курите, не занимаетесь экстремальными видами спорта и не переписываетесь за рулём, то с 80% вероятностью вы умрёте от развития и последствий следующих четырёх (в порядке смертоносности) проблем. Или, как Питер Аттия в своей книге Outlive, красочно и устрашающе назвал их «Четырьмя всадниками смерти» (The Four Horsemen).

Читать далее

Использование теории игр для повышения прозрачности моделей машинного обучения

Level of difficultyMedium
Reading time7 min
Views6.1K

Интерпретация современных моделей машинного обучения может быть чрезвычайно сложным делом учитывая, что количество параметров и весовых коэффициентов может идти на тысячи и даже миллионы. Тем не менее это совершенно необходимо, для повышения качества, обеспечения стабильности и предсказуемости работы модели. В этом нам может помочь теория игр, математическая дисциплина позволяющая выделить из сложного взаимодействия факторов модели отдельный вклад каждого в конечное предсказание.

Читать далее

Как языковая модель предсказывает следующий токен (часть 1)

Reading time27 min
Views8.4K

Я обучил небольшой (порядка 10 миллионов параметров) трансформер по превосходному туториалу Let’s build GPT: from scratch, in code, spelled out Андрея Карпати. После того, как он заработал, я захотел максимально глубоко понять, как он устроен внутри и как создаёт свои результаты.

В исходной научной статье, как и во всех туториалах по трансформерам упор в основном делается на многоголовом самовнимании, — механизме, при помощи которого трансформеры обучаются множественным взаимосвязям между токенами, не используя рекурретности или свёртку. Ни в одной из этих статей или туториалов я не нашёл удовлетворительного объяснения того, что происходит после внимания: как конкретно результаты вычисления внимания превращаются в точные прогнозы следующего токена?

Я подумал, что могу пропустить несколько примеров промтов через обученный мной небольшой, но работающий трансформер, изучить внутренние состояния и разобраться в них. То, что казалось мне быстрым исследованием, оказалось полугодовым погружением, но дало результаты, которыми стоит поделиться. В частности, у меня появилась рабочая теория, объясняющая, как трансформер создаёт свои прогнозы, и эмпирические свидетельства того, что это объяснение, по крайней мере, правдоподобно.

Если вы знакомы с трансформерами и хотите сразу узнать вывод, то он таков: каждый блок трансформера (содержащий слой многоголового внимания и сеть с прямой связью) изучает веса, связывающие конкретный промт с классом строк, найденных в обучающем корпусе. Распределение токенов, соответствующее этим строкам в обучающем корпусе, и есть приблизительно то, что блок выводит как прогноз для следующего токена. Каждый блок может ассоциировать один и тот же промт со своим классом строк обучающего корпуса, что приводит к другому распределению следующих токенов, а значит, и к другим прогнозам. Окончательный результат работы трансформера — это линейное сочетание прогнозов каждого блока.

Читать далее

Когнитивные искажения, о которых стоит помнить

Reading time15 min
Views97K

Из-за когнитивных искажений мы иногда принимаем иррациональные решения, а также выносим суждения на основе информации, которую мы обрабатываем. Фактически, когнитивные искажения — это запрограммированная ошибка в нашем мозге.

Также их можно представить как простые правила, которым следует мозг, чтобы обрабатывать поступающую информацию с минимальными затратами.

Когнитивных искажений существует большое множество, и о них полезно знать. В этой статье мы сделаем обзор 151 искажения, которые часто встречаются в повседневной жизни: как в личной, так и в профессиональной.

Читать далее

Минималистическая модель живой клетки в браузере

Reading time8 min
Views3.9K

Вы когда-нибудь задумывались, как действуют клетки — элементарные единицы живой материи? Я программист, но одновременно увлекаюсь клеточной биологией. Поэтому я решил смоделировать работу простейшей клетки на TypeScript. Вообще, клетки невероятно сложны; по оценкам учёных, человеческая клетка в среднем содержит 100 триллионов атомов. По-прежнему очень мало известно о том, как все эти биомолекулы взаимодействуют в клетке, поэтому в точности смоделировать работу клетки невозможно.

Размышляя на эту тему, я нашёл статью Fundamental behaviors emerge from simulations of a living minimal cell (Фундаментальные виды поведения возникают на основе моделирования простейшей живой клетки). Опираясь на кинетические параметры, авторы статьи создали модель взаимодействия молекул и химических реакций между ними в простейшей известной клетке. Затем эта симуляция запускается, и на её  основе можно наблюдать такие процессы как репликация ДНК, метаболизм и синтез белков.

Читать далее

Просто о Stable Diffusion: никакой магии

Level of difficultyEasy
Reading time15 min
Views14K

Если вы не провели последние два года на ферме в Сибири, вы, вероятно, слышали о Stable Diffusion или пробовали генерировать изображения с помощью моделей, вроде Dall-e или Midjourney. Они становятся все лучше каждый день, и по качеству уже сравнимы с людьми, а во многих аспектах даже лучше (например, им не нужно платить).

Исследования в области создания видео уже идут полным ходом во многих лабораториях и компаниях, так что это лишь вопрос времени, когда генеративные модели сместят людей с очередного столпа на котором держится наше общества — порно. Я не вижу чтобы кто то поднимал тревогу об огромном количестве людей, которые потеряют работу из-за этого. Я не такой бессердечный, поэтому, прежде чем наступил этот печальный момент, я решил принять меры и создать базовое руководство, которое даже работник индустрии для взрослых сможет понять и использовать, чтобы оставаться в игре. Давайте посмотрим, что к чему.

Читать далее

Перплексия в языковых моделях

Reading time10 min
Views24K

В этом материале я хочу сделать подробный обзор такого понятия, как «перплексия» («коэффициент неопределённости»), так как оно применяется в обработке текстов на естественном языке (Natural Language Processing, NLP). Я расскажу о двух подходах, которые обычно используются для определения этого понятия, и о тех идеях, которые лежат в основе этих подходов.

Читать далее

InstantID: Создание персонализированных изображений по одному фото. И лучший бесплатный генератор нейро-аватарок

Level of difficultyEasy
Reading time8 min
Views27K

Друзья, всем привет, вышла в свет новая удивительная технология, на гите она подписана как InstantID : Zero-shot Identity-Preserving Generation in SecondsНо по факту это самый крутой генератор аватарок в мире, который по одной лишь вашей фотографии может создать персонализированное изображение с вашим лицом в любом стиле по текстовому запросу используя SDXL модели Stable Diffusion. Так что к концу этой статьи, у вас так же как и у меня будет десяток новых аватарок и совершенно бесплатно.

В статье много красивых и тяжелых картинок.

Читать далее

Работа с семантикой, ссылками и парсинг веб-страниц: 16 полезных формул Google Sheets для SEO-специалистов

Reading time9 min
Views25K
Работа с семантикой, ссылками и парсинг веб-страниц: 16 полезных формул Google Sheets для SEO-специалистов


SEO — это рутина. Иногда приходится делать совсем тоскливые операции вроде удаления «плюсиков» в ключевых словах. Иногда — что-то более продвинутое вроде парсинга мета-тегов или консолидации данных из разных таблиц. В любом случае все это съедает тонны времени.


Но мы не любим рутину. Предлагаем 16 полезных функций Google Sheets, которые упростят работу с данными и помогут вам высвободить несколько рабочих часов или даже дней. (Уверены, о существовании некоторых функций вы не догадывались).

Читать дальше

Многорукие бандиты в задаче ритейла

Reading time9 min
Views5K

В настоящее время набирают популярность модели Reinforcement Learning для решения прикладных задач бизнеса. В этой статье мы рассмотрим подмножество этих моделей, а именно многоруких бандитов (multi-armed bandits). Также мы:

- обсудим, какие задачи теоретически могут быть решены с помощью этих моделей;
- рассмотрим некоторые популярные реализации моделей многоруких бандитов;
- опишем симулятор ценообразования, применим эти алгоритмы в нём и сравним их эффективность.

Читать далее

Маг молний

Level of difficultyEasy
Reading time4 min
Views5.3K

Когда-нибудь задумывались над тем, чем, в сущности, является программирование?

Случилось так, что я показывал коллегам дуговую зажигалку и удивлялся что про них в принципе мало кто знает (с другой стороны я и сам о них не знал, пока не подарили). Ну и обронил при этом фразу "Вроде бы это даже моя сфера, но не знал", на что мне резонно заметили что как бы физика электричества от программирования далека. И в целом это так, но с другой стороны...

Читать далее

Как я сделал табличку, которая является готовой инвестиционной стратегией

Level of difficultyEasy
Reading time8 min
Views26K

В этом посте я расскажу, как я придумал себе инвестиционную стратегию, которая очень эффективно работает вот уже шестой год. Я также попытаюсь разобраться, с чем связан "феномен таблички": почему сделанный на коленке инструмент вдруг начали использовать тысячи человек, а я (как автор) вдруг стал популярным в узких кругах. Начнём по порядку...

Читать далее

ЕГАИС 3.0 или как не ответить за чужие ошибки

Reading time6 min
Views19K
Внедрение в нашей стране различных систем маркировки и учета делит всех участников рынка на две большие группы – тех, кто внедряет эти системы и старается жить по-честному, и тех, кто окончательно уходит в тень. Жить по-честному и так-то не очень легко, а если за тобой постоянно наблюдают и ловят тебя на ошибках, то и совсем сложно. Такие системы работают по принципу сети, размер ячейки в которой постоянно уменьшается. Вначале они ловят только «крупную рыбу» с серьезными нарушениями. Потом, когда крупная рыба заканчивается, переходят на среднюю, а затем уже и на мелкую, компенсируя ее размер огромным количеством.

Давайте на примере внедрения единой государственной автоматизированной информационной системы (ЕГАИС) учета алкоголя рассмотрим постепенное ужесточение правил ее работы и те возможности, которые она дает контролирующим органам. Потому что именно по такой схеме пойдет внедрение маркировки табака, лекарств, обуви и одежды. К чему готовиться?
Читать дальше →

Information

Rating
4,255-th
Location
Москва, Москва и Московская обл., Россия
Registered
Activity