В предыдущей статье я рассказал про вакуумную установку, в этот раз будем делать сами лампы. Ведь для этого уже всё есть? Как бы не так.
Интересуюсь природой вещей
Как я учился писать промпты для RAG пайплайна. Разбор 3-го места на AI Journey 24 E-com AI assistant
Я занимаюсь классическим ML, как это теперь принято называть. Делаю продвижение в поиске и рекомендациях Авито (и еще пишу в канал Big Ledovsky). Работа, признаюсь, интересная, и очень мне нравится. Однако этот хайп вокруг LLM.. Да даже не хайп, а просто бытовой опыт использования LLM говорит: нужно разобраться в этой технологии, это серьезный прорыв в отрасли.
И вот в преддверии AI Journey выложили соревнование, где нужно было построить ассистента для рекомендации товаров Мегамаркета, а в качестве модели использовать Gigachat через API. Я решил, что время поделать что-то руками настало. В итоге получилось нарешать на 3-е место.
Как человек, который первый раз делал RAG пайплайн, я получил много инсайтов и интуиции, которыми хочу поделиться. Всем заинтересованным добро пожаловать под кат.
Словарь программистского жаргона без англицизмов
Часто можно встретить словари «программистского жаргона», однако они как правило на 90% состоят из англицизмов. Это не так интересно, поскольку англицизмов можно создать бесконечное количество и они появляются новые каждый день пачками.
Мне интересно было составить «чисто русский словарь», состоящий в основном из омонимов, то есть слов, использующихся в ином значении.
Дополнения и правки приветствуются :-)
Краткий обзор техник векторизации в NLP
Как переводчик-редактор, я интересуюсь темой NLP и автоматизации рутины бюро переводов. Изучая вопрос того, как смысл слов превращается в векторы, наткнулся на эту обзорную статью. Статья мне показалась изложенной доступно, поэтому я перевел ее для удобства других коллег. Работоспособность большей части кода проверял, вроде работает (см. Jupiter Notebook). Надеюсь, будет полезно.
===
Технологии NLP — Natural Language Processing, обработки естественного языка — позволяют компьютерам обрабатывать человеческий язык, понимать его значение и контекст, а также связанные с ним эмоциональную окраску и намерения, и далее, использовать эти данные для создания чего-то нового.
Как сделать слова понятными для компьютеров? Используется векторизация. Рассмотрим несколько техник такой векторизации.
Понимают ли большие языковые модели данные из таблиц?
Всем привет! С вами команда IDP. Сегодня расскажем о том, как мы оцениваем языковые модели для ответов на вопросы по таблицам.
Наша команда занимается интеллектуальной обработкой документов, и мы нередко сталкиваемся с документами, содержащими таблицы. Человек обычно анализирует их, опираясь на геометрию и визуал (границы ячеек, выделение заголовков, выравнивание текстов в ячейках). Таблицы — это двумерные объекты, языковые модели же работают с одномерными последовательностями токенов. Это наталкивает на вопрос: а насколько хорошо LLM справляются с анализом таблиц в документах?
Мы заинтересовались этой темой неслучайно — в одном из проектов мы работали над вопросно‑ответной системой для технической документации. Большинство вопросов относилось именно к таблицам, причем таблицы были достаточно сложными, с длинными названиями столбцов, формулами и многоуровневыми заголовками. В один момент мы уперлись в потолок по метрикам и тогда решили провести более тщательное исследование.
История одного изобретения и личный опыт патентования. Просто о сложном
Немного научно-познавательная, немного практическая статья об одном из изобретений в сфере новых способов получения мононитей из полимерных материалов и моих попытках его реализации и патентования.
Учимся делать игры без pygame: Введение в графический интерфейс на Python
Привет, Хабр! Сегодня мы научимся делать графический интерфейс на python, используя Tkinter. Эта статья очень короткая, так как мы только начинаем.
Tkinter — это стандартная библиотека для создания графических интерфейсов в Python. Она предоставляет простой и удобный способ создания оконных приложений с использованием виджетов, таких как кнопки, метки, поля ввода и многое другое. В этой статье мы рассмотрим основные концепции Tkinter и создадим простое приложение.
Устройство для получения нити (филамента) без экструдера. Новости подпольной лаборатории
Итак, приступим. Прежде всего, считаю необходимым заметить, что устройство выполняет функцию лабораторной установки.
Идет расследование беспрецедентного по масштабам подлога в исследованиях нейродегенерации
Падение на дно профессиональной этики титана исследований шокировало научное сообщество. Невропатолог Элиезер Маслия, автор более чем 800 научных статей, специалист с мировым именем в изучении α -синуклеина (белка, играющего важную роль в патогенезе болезней Альцгеймера и Паркинсона), обвинен в фальсификации изображений в публикациях на протяжении 26 лет.
26 сентября 2024 Национальный институт старения (NIA) объявил о снятии Маслия с должности научного директора Отдела нейронаук после девятимесячного внутреннего расследования, заключившего: «в двух публикациях обнаружены фальсификация и/или фабрикация данных, выражающаяся в повторном использовании одних изображений для иллюстрации результатов различных экспериментов».
В тот же день журнал «Science» опубликовал расследование репортера Чарльза Пиллера и команды аналитиков изображений, которые подготовили 286-страничный отчет по 132 статьям с дублированными или подделанными изображениями. Все результаты авторы выложили для peer-review по ссылке.
Обучение GigaChat с контекстом в сотни тысяч токенов
Помните фразу «640 килобайт памяти хватит всем»? Запросы человечества вечно растут, а индустрии надо поспевать.
Вот и с языковыми моделями так. Ещё недавно мы все удивлялись тому, на что они стали способны. А теперь нам этого мало: «ну хорошо, а может модель в диалоге учитывать то, что я сказал сотни реплик назад?»
Весной на нашей конференции I'ML Евгений Косарев (SberDevices) рассказал о том, как к увеличению контекста подошли при работе над GigaChat. А сейчас мы публикуем текстовую расшифровку его доклада. Ссылки на его видеозапись тоже прилагаем: YouTube, VK Видео.
Кратко про протоколы взаимодействия в микроконтроллерах: SPI, IDC, UART, CAN
Привет, Хабр!
Утренний будильник, кофеварка, микроволновка, телевизор, кондиционер – все они оборудованы микроконтроллерами. Микроконтроллеры управляют функциями устройства, обеспечивая пользовательский интерфейс и взаимодействие с другими устройствами. Микрокотроллеры также используются в автомобилях, к примеру для контроля работы двигателя или системы ABS. А в медицине практически все оборудование работает на микроконтроллерах.
Протоколы в микроконтроллерах позволяют устройствам «понимать» друг друга и работать вместе, создавая общую систему. Протоколы определяют, как устройства подключаются, обмениваются данными, синхронизируют действия, управляют форматированием, временем и последовательностью сообщений между микроконтроллерами и другими компонентами в системах.
В этой статье рассмотрим такие протоколы взаимодействия как SPI, IDC, UART, CAN
5 альтернатив TCP и UDP после блокировки Discord
Дискорд отлетел вслед за ютубом. В этом материале я предлагаю вам 5 бесплатных альтернатив дискорду, на случай если заблокируют VPN, а затем террористический UDP и экстремистский TCP. Не ждем, а готовимся.
Я предлагаю вам 5 асинхронных способов общения. Синхронные способы общения как «повеселиться с друзьями», «сходить в церковь» и «посидеть на лавочке» мы не рассматриваем.
Как дедуля Сунь-Цзы помогает в переговорах
Мой папа всегда был увлечён Китаем и китайской культурой. Например, когда мне было 16 лет, он ненавязчиво заменял журналы «Cool Girl» (Журнал для настоящих девчонок!) и «Все звёзды» (12 постеров и 2 суперпостера внутри!) на классические произведения китайской литературы.
Одной из подложенных папой книг был древнекитайский трактат Сунь-Цзы под названием «Искусство войны». Это небольшое по объёму, но плотное по панчам произведение, в котором мысли и рекомендации автора изложены в афористичной манере. Как будто на обложке Esquire Сунь-Цзы в бежевом кашемировом свитере и твидовых брюках-чинос, а внутри — «25 правил жизни китайского полководца».
Когда мне было 18 лет, бормоча про себя цитату «Война — это путь обмана», мне удалось: уговорить маму отпустить ночевать на дачу к одногруппникам, убедить, что чёрный оверсайз балахон — это модно и нарядно, и доказать родителям, что ещё одна собака дома — это не псарня, а гармоничный комплект.
А теперь перейдём от моего папы и его псарни к рассказу о том, зачем мудрость Сунь-Цзы нужна именно вам.
Как математик насушил листьев и продал на маркетплейсах на 20 млн в год
Меня зовут Денис. В 2010-м я закончил Удмуртский государственный по специальности прикладная математика.
Рецептуры мы половину своровали (воспроизвели популярные составы), а половину придумали сами.
Раньше сорта придумывала моя жена, сейчас этим занимается технолог. На фото я и жена
Выгодоприобретатели блокировки Youtube
Недавно возникшая тема с блокировкой (замедлением) Youtube коснулась практически каждого жителя РФ. При этом до сих пор нет ни одного прямого официального заявления о причастности к этой блокировке. Ни одно государственное ведомство не созналось в блокировке, открестился Google, открестились провайдеры интернета. На этом фоне мне показалось важным не только выявить и указать всех причастных, прямых и косвенных, но и установить, кто и в каком отношении является выгодоприобретателем от этой блокировки. Выявить, о каких денежных потоках идет речь и куда они в конечном итоге идут.
Чтобы это установить, я попытался по крупицам собрать открытую информацию, добавил анализ используемых технических решений и технологических возможностей и на этой базе выявил те компании, которые являются прямыми и косвенными выгодоприобретатели от блокировки. Список оказался не такой уж и маленький, и в нем представлен как российский, так и зарубежный монополистический капитал. Как мы любим, в конце я приведу общую схему, визуализирующую всех основных актеров этой пьесы и все основные отношения между ними.
Проверка содержимого PDF-файлов средствами Python и pdfminer. Часть 2
В предыдущей части статьи мы рассмотрели общие подходы к тестированию PDF и познакомились с тем, как библиотеки pdfminer и PDFQuery помогают нам получать детальную информацию об объектах. Достаточно ли нам этой информации? Далеко не всегда. В этой статье мы расскажем о решении некоторых интересных технических проблем.
Матстат в одной схеме
Данная статья посвящена описанию базы математической статистики.
Описывается суть матстатистики от постановки задачи до рассмотрения инструментов её решения.
5 одноплатников для самых разных задач: новинки сентября
В этом месяце появилось несколько интересных одноплатников, о которых стоит рассказать на Хабре. Среди них как универсальные девайсы, так и устройства, которые предназначены для определенного круга задач. Если вдруг мы что-то упустили — рассказывайте в комментариях о тех девайсах, которые понравились именно вам. А если вы с чем-то работаете давно и плотно — делитесь своим опытом! Подробности под катом.
Искусственный интеллект — сознание или алгоритм? Проблемы цифровой философии
Привет, Хабр! Проблема сознания у AI волнует философов, нейробиологов, когнитивистов, ML-специалистов и других. Обычно они делятся на два лагеря: одни поддерживают эту гипотезу, а другие — категорически против. Но ни одни, ни другие так и не нашли консенсуса в данном вопросе. В тексте постараемся сузить поток абстрактности вокруг темы и разобраться, почему и как начали изучать сознание у AI.
Автор: Александра Танюшина, преподаватель МГУ, кандидат философских наук, культурный тренд-аналитик и специалист по цифровой философии.
Невероятная история Эда Торпа: как один математик смог обыграть сначала казино, а потом и весь Уолл-стрит
Если среди физиков настоящей легендой безумных жизненных историй был Ричард Фейнман, то среди математиков и инвесторов этот титул должен по праву принадлежать Эдварду Торпу. Чувак смог не только обуть казино сразу в двух считавшихся ранее «непобедимыми» играх, но и заработать $800 млн на фондовом рынке благодаря идее, достойной Нобелевки.
Information
- Rating
- 3,106-th
- Location
- Москва, Москва и Московская обл., Россия
- Registered
- Activity