Как стать автором
Поиск
Написать публикацию
Обновить
13.55

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Нейросети как консультант: как я нашел и заказал ПК без подсветки для локальной работы с ИИ

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров7.8K

Внимание, знатоки! Если вы профессионально разбираетесь в компьютерном железе, тонкостях сборки или уже давно и активно используете локальные LLM (Large Language Models) эта статья может показаться вам слишком базовой. Мой путь - это взгляд обычного пользователя, который с помощью нейросетей решил для себя задачу найти и договориться о сборке ПК под конкретные нужды в условиях ограниченного бюджета и локации. Прошу не судить строго :)

Предыстория: зачем мне новый компьютер

Мой домашний компьютер - Microsoft Surface Pro 2020 года. Когда-то я даже писал о нём статью, но времена меняются: задачи усложнились, интерес к нейросетям растёт и мощности планшета больше не хватает.

Захотелось попробовать локально работать с нейросетями и у меня были требования к внешнему виду системного блока, чтобы вписать его в интерьер: белый корпус без RGB-подсветки.

Мои основные сценарии - офис, графика, CAD и попробовать локальные ИИ. Бюджет определил для себя 80 тыс. рублей или тысячу долларов. Монитор с 2K и 100 Гц уже был. Оставалась главная задача - найти сборщика в Перми и уложится в бюджет.

Собираем ПК с ИИ

Новости

200 000+ снимков мусора: что мы узнали о датасетах

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров1.4K

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко.

Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки.

В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю.

Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

Читать далее

Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров3.7K

В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

Читать далее

Доморощенный OSINT для соискателя. Краткая инструкция

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров11K

Это всё о том, сколько чудесного и неожиданного можно узнать о потенциальном работодателе из открытых данных, и что делать, чтобы не проработать месяц-два бесплатно и не обмануться с другими ожиданиями. Спойлер: увидеть можно многое — от потенциального банкротства компании до дела о мошенничестве. 

Никто из работодателей не напишет на сайте или в описании вакансии: «Ну да, так-то у нас иногда кассовые разрывы бывают, но мы тут держимся». Вместо этого будет: «Мы — признанные лидеры там-то и сям-то, нам доверяют, мы меняем мир, мы —  динамично развивающаяся компания с сильным корпоративным духом (да, такие описания и кислотой не вытравить) и прочие «выше нас только горы». 

Самое замечательное может начаться, если найти 10-15 минут времени и всмотреться в эту бездну успеха. 

Где и что искать

Продолжение археологии трейдинга: 2016–2020 годы по материалам S&C

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.2K

Это четвёртая часть цикла об идеях из Technical Analysis of STOCKS & COMMODITIES. Мы уже прошлись по 2001-2005, 2006-2010, 2011–2015. Теперь период 2016-2020 годы, когда трейдеры постепенно адаптируются к новым реалиям рынка. Появляются роботы, но и индикаторы никуда не деваются - они обновляются и перерабатываются.

Читать далее

Генератор синтетических документов для обучения моделей ИИ

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.2K

Где взять пару миллионов документов с разметкой для обучения модели ИИ? Сгенерировать синтетически! Меня зовут Никита, я работаю в ИСП РАН и веду блог по ИИ. Выложил в открытый доступ проект, который поможет дата-саентистам самостоятельно создавать датасеты сканированных документов с разметкой, используя только CPU. Подойдет для предобучения мультимодальных трансформеров, OCR и проч.

Читать далее

Археология трейдинга: какие системы предлагали в STOCKS & COMMODITIES (2011–2015)

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.6K

В период 2011-2015 годов трейдинг переживал революцию. После мирового кризиса рынки восстанавливались при поддержке программ количественного смягчения, но трейдеры уже не довольствовались классическими инструментами. Алгоритмы и высокочастотная торговля меняли правила игры, а журнал Technical Analysis of STOCKS & COMMODITIES фиксировал эту трансформацию.

Читать полный текст

Как мы строили систему для проверки людей и компаний

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.6K

Это моя первая статья на Хабре. Формат нащупываю. Хотелось бы сразу с кейсами и диаграммами, но решил начать с простого — краткий разбор архитектуры нашего сервиса и того, как мы пришли к текущему состоянию.

Сервис — это проверка физических и юридических лиц по открытым источникам. Пользователь вводит ИНН или ФИО и получает отчёт: есть ли долги, исполнительные производства, признаки банкротства, участие в сомнительных организациях и так далее. Отчёт собирается на лету по 10+ источникам.

Система существует давно. Код — не идеален. Архитектура — не микросервисная. Docker и Kubernetes у нас не прижились, зато есть реальный боевой опыт. Ниже — краткий разбор, как оно устроено, какие ошибки мы прошли и как всё это выживает под нагрузкой.

Читать далее

Почему синтетические данные редко используются в реальных задачах

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров537

Синтетические данные – это искусственно сгенерированные наборы, имитирующие структуру и статистические закономерности реальных данных. В последние годы вокруг этой технологии возник значительный ажиотаж. Еще недавно аналитики прогнозировали, что уже к 2024 году до 60% данных, используемых для разработки ИИ, будут синтетическими. Однако на практике полностью перейти на «искусственные» данные пока не удалось. Экспертные отчеты отмечают, что возможности синтетических данных сейчас несколько переоценены и что они вряд ли смогут в ближайшем будущем полностью заменить реальные данные. В разных отраслях синтетические данные используются скорее точечно, а не повсеместно. Ниже мы рассмотрим ключевые причины, почему применение таких данных остается редким – от технических ограничений и бизнес-факторов до правовых барьеров.

Читать далее

Каталог данных: что за зверь и с чем его едят

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.3K

Всем привет! Меня зовут Роман Грибов, я директор по развитию данных и аналитики в «Спортмастере». Вместе с моей коллегой Татьяной Шишкиной, руководителем направления «Каталог данных», мы расскажем о том, что это за инструмент, как он работает и как позволяет сделать проще жизнь аналитиков, архитекторов и многих других (включая даже тех из нас, кто просто когда-либо смотрел на аббревиатуру «GMV» с немым вопросом «Что ты такое?»), а еще объясним главные цели его внедрения.

Читать далее

От данных к интерфейсу: как спарсить вакансии с HH и SuperJob на C#

Уровень сложностиСредний
Время на прочтение23 мин
Количество просмотров3.3K

В современном мире анализ рынка труда становится критически важным как для соискателей, ищущих актуальные возможности, так и для компаний, изучающих конкурентную среду. Для решения этой задачи были выбраны два ключевых ресурса — HH.ru и SuperJob.

В этой статье мы разберем, как объединить мощь C# для бэкенда и элегантность WPF для фронтенда, чтобы создать инструмент, который не только собирает данные, но и превращает их в ценную информацию.

Парсим данные

Мой адрес — не дом и не улица: как создать нужную бизнесу адресную модель

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров977

Приходит заказчик и говорит: «Мы новую систему строим, проконсультируйте нас, пожалуйста. Вы же адресами занимаетесь. Нам нужно сделать универсальную адресную модель. Вот у вас «Единый адрес» есть, какая там модель? Мы примем ее за эталонную и будем в своих системах использовать».

Ребята, я вас сейчас разочарую. В «Едином адресе» не одна адресная модель, а несколько. И ни одну из них копировать просто так не нужно. 

Эта статья для архитекторов, аналитиков и разработчиков. В ней я расскажу, в чем подводные камни в работе с адресами и что нужно учитывать при проектировании адресных моделей. 

Читать далее

OLAP-системы: многомерная модель данных и её применение. Правила Кодда: библия для разработчиков реляционных баз данных

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2.9K

Для анализа и обработки больших объёмов данных применяются специальные системы — OLAP (Online Analytical Processing). Мы разберём основные принципы их работы, преимущества и примеры использования.

Определение OLAP-систем

OLAP-системы — это инструменты для анализа данных, которые позволяют быстро и эффективно находить ответы на сложные вопросы. 

Они находят применение в разных сферах, таких как финансы, производство, розничная торговля и другие.

Пример использования OLAP-технологии

«В компании, занимающейся продажей цифровых товаров и программного обеспечения, многомерный куб помогает анализировать данные».

Читать далее

Ближайшие события

BookStack: мой опыт настройки и использования open-source базы знаний

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров5.3K

Как я поднял базу знаний за 15 минут — без бюджета и опыта

Почему я выбрал именно BookStack

Мы в команде давно искали удобный инструмент для хранения технической документации и инструкций. Пробовали всё подряд — от Wiki.js до Confluence. Но то санкции, то интерфейс перегружен, то кастомизация страдает. В какой-то момент я наткнулся на BookStack — лёгкую, симпатичную open-source платформу на Laravel. Решил попробовать. В итоге — развернул, настроил, и теперь она у нас в проде.

Читать далее

Подборка систем и индикаторов за 2006-2010 одного старейшего журнала по техническому анализу

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.8K

Это вторая часть погружения в идеи из журнала Technical Analysis of STOCKS & COMMODITIES. В первой части мы разобрали публикации за 2001–2005 годы - если вы её ещё не читали, рекомендую начать с неё: первая часть здесь.

Теперь мы переносимся во времена перемен — 2006–2010 годы. Это период перед мировым финансовым кризисом, в его разгар и в первые годы восстановления. Рынки лихорадит, волатильность зашкаливает, а авторы Traders' Tips ищут устойчивые подходы, предлагают свежие индикаторы и экспериментируют с управлением рисками.

Мы продолжаем исследовать эти идеи и смотреть можно ли их адаптировать к современным условиям. Все ссылки — только на оригинальные материалы на официальном сайте журналаникакого пиратства, только уважение к источнику.

Читать далее

Data Science в рекрутинге: как структурировать хаос резюме и находить лучших кандидатов. (часть 1)

Время на прочтение3 мин
Количество просмотров415

Подбор персонала — это поиск иголки в стоге сена, с одной оговоркой: иголка должна хотеть работать именно у вас. Когда на входе — сотни резюме с hh.ru, а на выходе нужно выбрать топ-5 кандидатов, без автоматизации не обойтись. Но как научить алгоритм отличать будущего топ-менеджера от человека, который в графе «Опыт работы» указал «10 лет в Minecraft»?

Читать далее

Подборка систем и индикаторов за 2001-2005 одного старейшего журнала по техническому анализу

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров1.7K

Понимаю, что тема технического анализа не соответствует привычному формату Хабра, но считаю, что этот архив представляет собой действительно ценный и полезный ресурс.

В статье собрана коллекция торговых систем и индикаторов, опубликованных в журнале Technical Analysis of STOCKS & COMMODITIES за период с 2001 по 2005 год. Это издание считается одним из наиболее авторитетных в мире в области технического анализа.

Материалы могут быть интересны трейдерам, разработчикам торговых стратегий, программистам и инвесторам, стремящимся расширить свои знания и набор инструментов. Все представленные идеи сопровождаются официальными ссылками на сайт журнала, что обеспечивает соблюдение авторских прав и делает подборку легальной и надежной.

TACS с 2001 по 2005 год

Книга: «OSINT. Руководство по сбору и анализу открытой информации в интернете»

Время на прочтение4 мин
Количество просмотров13K
Привет, Хаброжители!

В современном цифровом мире сбор информации — залог безопасности. Книга Дейла Мередита «OSINT. Руководство по сбору и анализу открытой информации в интернете» знакомит читателей с миром профессиональной работы с открытыми источниками данных. Погрузитесь в мир цифровых расследований с книгой, которая станет вашим ключом к пониманию современных угроз и методов защиты от них. Шаг за шагом читатель последовательно проходит все этапы работы с открытыми источниками: от основ кибербезопасности до тонкостей разведки по открытым источникам (OSINT). Новинка от издательства Sprint book.
Читать дальше →

Как я за год написал шесть больших научных статей и несколько маленьких

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров3.4K

Без «литературных негров» и чатГПТ — личный рассказ об инструментах, технологиях и приёмах, которые помогли мне не вылететь из аспирантуры и догнать коллег. Открытые данные, Python, R, RMarkdown, Quarto, git и немного ИИ в помощь исследователю.

Читать далее

«Надо учить не знанию, а пониманию»

Время на прочтение12 мин
Количество просмотров2.6K

14 февраля в Российском новом университете – сдвоенный праздник: день рождения гениального физика и популяризатора науки Сергея Петровича Капицы и День всех влюблённых. По инициативе Студенческого научного общества он синтезировался в День влюблённых в науку.

Читать далее
1
23 ...