Как стать автором
Обновить
16
0.1
Евгений Блохин @ebt

инженер-предприниматель

Отправить сообщение

Извлечение текста из файлов PDF при помощи Python

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров38K

▍ Введение


В эпоху больших языковых моделей (Large Language Model, LLM) и постоянно расширяющейся сферы их применений непрерывно растёт и важность текстовых данных.

Существует множество типов документов, содержащих подобные виды неструктурированной информации, от веб-статей и постов в блогах до рукописных писем и стихов. Однако существенная часть этих данных хранится и передаётся в формате PDF. В частности, выяснилось, что за каждый год в Outlook открывают более двух миллиардов PDF, а в Google Drive и электронной почте ежедневно сохраняют 73 миллионов новых файлов PDF (2).

Поэтому разработка более систематического способа обработки этих документов и извлечения из них информации позволит нам автоматизировать процесс и лучше понять этот обширный объём текстовых данных. И в выполнении этой задачи, разумеется, нашим лучшим другом будет Python.
Читать дальше →
Всего голосов 38: ↑37 и ↓1+53
Комментарии10

Топ 10 deepnude нейросетей 2023 года

Время на прочтение5 мин
Количество просмотров566K

DeepNude — это технология, использующая нейросети для создания изображений обнаженных тел на основе одетых фотографий или видео. Суть этой технологии заключается в том, чтобы "снять" одежду с изображения человека с помощью искусственного интеллекта и показать, как, предположительно, выглядит тело человека под одеждой.

Итак, в данной статье поговорим о пикантных и для некоторых людей непристойных темах, которые больше всего интересуют наше общество - обнаженное тело. Сделаем обзор таких сервисов как: Deepnude.ai, Deepfake.com, DeepSwap.ai, SoulGen и прочих.

Читать далее
Всего голосов 87: ↑73 и ↓14+85
Комментарии68

Как подружить Алису с ChatGPT

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров63K

О ChatGPT сейчас не говорит только ленивый. Давайте попробуем соединить голосовой помощник Алиса и ChatGPT. Таким образом мы сможем взаимодействовать с ChatGPT с помощью голоса. А он с помощью голоса может нам отвечать. Конечно тут будут ограничения о которых я подробно опишу далее. Данная статья не столько о ChatGPT а о том как писать навыки для Алисы.

Читать далее
Всего голосов 34: ↑34 и ↓0+34
Комментарии17

Мы сами себя обманули с Биткоином

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров88K

Вы идете в продуктовый магазин, хотите купить бутылку молока. Бутылка стоит 601$, транзакция идет 5 часов, и стоимость бутылки за эти 5 часов прыгает от 500 до 700.

Как вам такое будущее? А ведь именно это и продвигают бешеные криптоманы.

Сразу хочу сказать, я за криптовалюту, я сам работаю в этом секторе.

Я хочу написать о наболевшем:

в мире крипты люди несут какой-то тотальный бред, инвестируют во все попало, блогеры/инфлюенсеры являются большим авторитетом чем технологические гики.

На вершине этого стоит Биткоин, который вообще там, не потому что он самый удобный или правильный, а потому что он просто первый. И ничего более.

Статья будет в более спокойном и сухом формате. Числа и факты.

Читать далее
Всего голосов 215: ↑159 и ↓56+146
Комментарии751

Доказана омнипериодичность игры «Жизнь» Конвея

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров17K

Сообщество игры "Жизнь", клеточного автомата, изобретённого Джоном Конвеем, с давних пор стремилось найти осцилляторы — стабильные конфигурации, которые повторяются с определённой периодичностью во времени — для каждого натурального числа. И вот, наконец, 21 июля 2023 года был найден осциллятор для последнего недостающего периода — 41, завершая таким образом доказательство омнипериодичности.

В этой статье я расскажу историю открытия осцилляторов для всех периодов до 42 включительно, а также про семейство осцилляторов, включающее любой период от 43 и выше.

Читать далее
Всего голосов 113: ↑113 и ↓0+113
Комментарии13

Вероятностные структуры данных и где они обитают

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров10K

Под этим термином понимаются такие структуры данных или алгоритмы, результатом которых является не детерминированное «да» или «нет», а вероятностные ответы, например, «точно нет» и «возможно». Как правило, такие структуры позволяют существенно сэкономить вычислительные ресурсы в задачах, где допустимо получить примерный ответ.

В этой статье я сделаю обзор таких структур данных и расскажу, какую пользу они могут принести на практике. К базовым вероятностным структурам данных можно отнести фильтр Блума, HyperLogLog и Count-Min Sketch.

Читать далее
Всего голосов 33: ↑33 и ↓0+33
Комментарии8

Большое сравнение нейросетей

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров24K

Привет, меня зовут Юля, 85GB и я веду свой канал по нейронкам

В этой статье я рассмотрю по различным параметрам графические нейронки: DALL-E 2, Midjourney, Stable Diffusion, Кандинский и Шедеврум. Постараюсь разложить всё максимально чётко и ёмко, дать оценку по каждому блоку от 0 до 5. А потом всё сведу в одну таблицу. Штош, поехали. Содержание (кликабельно):

Читать далее
Всего голосов 43: ↑38 и ↓5+46
Комментарии48

Mojo может стать крупнейшим достижением в области разработки языков программирования за последние десятилетия

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров123K

Mojo — это новый язык программирования, основанный на Python, который устраняет имеющиеся у него проблемы производительности и развёртывания.

Об авторе: Джереми Говард (Jeremy Howard) — Data Scientist, исследователь, разработчик, преподаватель и предприниматель. Джереми является одним из основателей исследовательского института fast.ai, занимающегося тем, чтобы сделать глубокое обучение более доступным, а также он является почётным профессором Университета Квинсленда. Ранее Джереми был выдающимся научным сотрудником в Университете Сан‑Франциско, где он был основателем Инициативы Уиклоу «Искусственный интеллект в медицинских исследованиях».

Mojo – это Python++
Всего голосов 64: ↑45 и ↓19+43
Комментарии272

Что нас ждёт после появления сильного ИИ или неотвратимая логика социально-технологического развития

Время на прочтение13 мин
Количество просмотров15K

Я материалист, и поэтому мне радостно видеть впечатляющие успехи больших языковых моделей как то GPT или PaLM. Тут и осмысленный диалог, и программирование, и сочинение сказок, и написание дипломов, и постановка диагнозов, и попытка jailbreak-а. Bing так вообще угрожает и может демонстрировать влюбленность. Эта радость - она от подтверждения правоты, что мы являемся пусть сложными, но всё таким биологическими машинами, и следовательно мы полностью познаваемы, что трансцендентной души у нас нет, что после смерти ничего не будет, а самосознание является феноменом развитой нервной системы. 

Примечательно то, что публичный прорыв с большими языковыми моделями случился внезапно. Не было какой-то долгой разбежки на протяжении десятков лет (сама GPT модель разрабатывалась с середины 2018, что по меркам истории просто  мгновение). ChatGPT выпрыгнул как чёрт из табакерки в конце 2022 и явил собой качественно новое явление. Явление, которое подтверждает второй закон диалектики: количество переходит в качество. Просто возьми много-много текстов, заставь нейросеть на трансформер-архитектуре предсказывать очередное слово и вуа-ля - получи на выходе почти мыслящую сущность. Если угодно, то душа, сознание и характер распределятся у неё где-то на миллиардах весов, как и у каждого из нас в мозгу.

Интересный вопрос - а что такого выучила та же GPT, что позволяет ей вести разумный диалог? За счёт чего магия? При этом помним, что модель не является просто сборищем ответов на заранее известные вопросы. То есть она не похожа на Граммофон из “Сумма технологии” С. Лема, на который записано 100 триллионов ответов. Модель умеет генерировать новое, умеет понимать контекст. По мне, так модель выявила внутреннюю логику и закономерности повествования, следуя которым можно получить любой текст. Эта логика представлена в виде внутренней системы понятий и смыслов, которые активируются в зависимости от текущего диалога. И когда мы что-то спрашиваем у модели, то для неё это может выглядеть так: сюжетная линия №3429643, ситуация №93752, роли №122997 и №88223, действующее лицо №33554, стилистика №7622 и т.д. Соединив и перемножив всё это вместе, получаем небольшой репертуар слов, из которого можно выбрать очередное. Так как всевозможных комбинаций этих сущностей просто космическое, то модель в состоянии генерировать новое и постоянно удивлять нас. 

Читать далее
Всего голосов 32: ↑16 и ↓16+2
Комментарии126

Превращаем квартиру от застройщика в умную

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров24K

Мы много рассказываем об умных домах, но как насчет умной квартиры?

Сказано – сделано! Мы посетили типичную квартиру от известного застройщика, которую интегратор превратил в умную.

Чем такая квартира отличается от обычной? Какие умные функции выбрал хозяин? Все это вы узнаете в нашей новой статье. Ныряйте под кат

Читать далее
Всего голосов 39: ↑23 и ↓16+13
Комментарии79

Синдром информационной усталости: болезнь, которой (пока) нет в МКБ

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров26K
Недуг, которого причину
Давно бы отыскать пора…

/А.С.Пушкин/


Помните шутки вроде: «Ну откуда столько вирусологов, хорошие же биржевые аналитики были»? В каждой шутке есть доля правды: многие из нас не просто потребляют новости, но и пытаются разобраться в проблеме. Никого не удивляет, когда в кафе сидят филолог, кредитный специалист, капитан полиции и все они вместе спорят до хрипоты, цитируя PubMed, Lancet и обсуждая рекомбинантные вакцины. С другими темами происходит примерно то же самое с поправкой на эмоциональный компонент или личный опыт (как, например, в биржевом деле). Однако за такой осведомлённостью, включённостью и эрудированностью скрывается коварная штука, которую некоторые эксперты называют синдромом информационной усталости. Всё линейно: мы живём в сверхмощном информационном потоке, потребляем колоссальное количество контента и постепенно перегружаем свой центральный процессор. Который, как известно, любит отдыхать и готов буквально принудить нас к передышке. Конечно, не чума XXI века, но та ещё пандемия. 


Читать дальше →
Всего голосов 40: ↑37 и ↓3+51
Комментарии29

Уходим с «Яндекс.Почты» на свой почтовый сервер

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров61K

17 апреля 2023 года «Яндекс» отключает бесплатную почту для бизнеса и предлагает платить от 249 до 1399₽ за юзера в месяц. Если не оплатить услуги, все аккаунты «Яндекс 360» будут принудительно переведены в режим чтения, то есть читать письма будет можно, а отвечать на них — нет.

Переход на платные тарифы обязателен для всех доменов (включая семейные аккаунты) с количеством пользователей больше трёх.

Конечно, легче всего согласиться на условия и оплатить требуемую сумму. На это и рассчитывает провайдер, что 99% клиентов молча заплатят деньги, ведь у них нет другого выхода… Но на самом деле выход есть.

Если в двух словах, можно взять недорогой VPS, поставить туда один из свободных почтовых серверов и сэкономить пару тысяч рублей. Или сотен тысяч, смотря сколько у вас сотрудников. Финансовая раскладка под катом.
Читать дальше →
Всего голосов 58: ↑53 и ↓5+63
Комментарии187

Мечтали про интерактивные книги, когда читали фантастику? Я знаю человека, который делает их прямо сейчас

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров12K
Когда я был юн, то завороженно читал об интерактивных книгах. Нет, не тех, что упомянуты в Гарри Поттере, а о настоящих — описанных десятками фантастов. Таких, где иллюстрации можно покрутить, запустить в динамике, поставить на паузу и рассматривать в разных сочетания. Я думаю, вы понимаете о чем я говорю.

Каково же было мое удивление, когда в прошлом году я наткнулся именно на такие пусть и не книги, но довольно подробные статьи. Делает их калифорнийский iOS-разработчик польского происхождения Бартош Цехановский (Bartosz Ciechanowski). И каждая его статья — штучный товар.


Читать дальше →
Всего голосов 45: ↑45 и ↓0+45
Комментарии24

Патч от Intel для ускорения алгоритмов библиотеки scikit-learn

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров3.5K

Уведомление о возможности ускорить работу появляется при установке scikit-learn, поэтому пишу для тех, кто давно не переустанавливал эту библиотеку.

Подробное описание ускорителя – по ссылке https://intel.github.io/scikit-learn-intelex/

Ниже перечислил важные моменты и результаты испытаний по повышению производительности.

Установка

Устанавливать можно с помощью pip или conda. Важный момент: ускоритель пока не работает с версиями python 3.10 и новее, поэтому лучше ставить в окружение с версией 3.9. Например, так:

conda create -n env python=3.9 scikit-learn-intelex

Сама библиотека scikit-learn при этом устанавливается автоматически.

Работа с GPU поддерживается.

Использование

Предусмотрено несколько вариантов применения «заплатки». Например, при запуске своего приложения без изменения его кода:

python -m sklearnex my_application.py

Второй вариант – подключать ускоритель внутри приложения. В этом случае можно применять и отменять заплатку.

Важно загружать запускать ускоритель до загрузки самой библиотеки:

from sklearnex import patch_sklearn

patch_sklearn()

from sklearn import…

Если нужно отменить, то после отмены снова загружаем sklearn:

sklearnex.unpatch_sklearn()

from sklearn import …

Ограничения

У некоторых алгоритмов есть ограничения на используемые гиперпараметры, но, по-моему, это больших проблем создать не должно. например, у RandomForestClassifier в качестве критерия можно использовать только gini.

Полный список ограничений: https://intel.github.io/scikit-learn-intelex/algorithms.html

Тест на скорость

Читать далее
Всего голосов 10: ↑10 и ↓0+10
Комментарии7

Руны и лёд: техническое собеседование по TypeScript

Время на прочтение6 мин
Количество просмотров14K

Крисс проводит тебя в комнату для совещаний.

Он облачён в худи, не похож ни на какого конкретного зверя, но выглядит знакомо. Однако ты уверен, что вы раньше не встречались. Комната тоже знакома, хотя ты в ней впервые.

«Как дела?», — спрашивает он.

Сложный вопрос для начала беседы, придётся объяснять внутренний механизм, приводящий в движение твои действия. Возможно, он риторический?

«Действительно, как?», — улыбаешься ты.

«… хм, отлично. Ну, приступим?»

Ты утвердительно киваешь.

«Хорошо. Мы займёмся небольшой программной головоломкой, чтобы я понял, как ты умеешь решать задачи. Не волнуйся, если не получится сделать это упражнение, мне главное понять, как ты мыслишь и общаешься».

Волноваться? Ты с трудом вспоминаешь это ощущение. Возможно, оно осталось в твоей юности, когда ты зимовал на Свальбарде* с медведями. Ещё до того, как ты понял сейд.
Читать дальше →
Всего голосов 40: ↑39 и ↓1+47
Комментарии14

Может ли chatGPT забронировать столик в ресторане через WhatsApp?

Время на прочтение8 мин
Количество просмотров5.4K

А почему бы не использовать возможности chatGPT и попросить его делать что-то за нас?

Например, давайте попробуем настроить его так, чтобы он мог забронировать нам столик в наш любимый ресторан.

Читать далее
Всего голосов 11: ↑9 и ↓2+11
Комментарии22

Как красиво писать формулы c LaTeX?

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров31K

Привет, Хабр!

Меня зовут Шайдурова Арина, я Data Scientist  и участник профессионального сообщества NTA. Сегодня я поделюсь с вами своим опытом использования LaTeX для написания математических формул. Всё просто и с примерами, идеально подойдет для новичков синтаксиса LaTeX.

LaTeX является очень популярным инструментом для написания различных материалов: в нём можно написать и книгу, и резюме, и дипломную работу, создать постер и даже календарь. Среди его пользователей он ценится за многие качества, но основную ценность для технических задач представляет его удобное, гибкое и легкое написание всевозможных математических формул!

Читать далее
Всего голосов 18: ↑18 и ↓0+18
Комментарии41

Как я сделал синтез своего голоса

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров30K

Всем привет! Меня зовут Гриша Стерлинг, я занимаюсь синтезом речи в SberDevices. Недавно прошла конференция AI Journey, где я рассказал, как сделал синтез своего голоса. За 15 минут выступления я не успел рассказать все, поэтому решил написать большой пост с деталями. Он будет интересен датасаентистам, людям из бизнеса и ai‑энтузиастам. Приглашаю всех под кат.

Читать дальше
Всего голосов 24: ↑22 и ↓2+25
Комментарии8

Создание модуля WebAssembly с помощью Emscripten, AssemblyScript и Rust

Уровень сложностиСредний
Время на прочтение57 мин
Количество просмотров5.5K

В этой небольшой заметке предлагается рассмотреть несколько способов компиляции модуля для WebAssembly, используя три разных подхода. Мы реализуем решение одной и той же задачки на трёх языках и скомпилируем полученный код в модуль WebAssembly. Будем использовать:

Emscripten для компиляции кода, написанного на С++

AssemblyScript для компиляции кода, написанного на, собственно, AssemblyScript

wasm-pack для компиляции кода, написанного на Rust

План такой:

Во введении мы обсудим постановку задачи и немножко поговорим о технологии WebAssembly

В программной части мы реализуем функциональность модуля на трёх языках: c++, AssemblyScript и Rust. Поговорим о том, какие при этом возникают сложности и как их можно обойти

Подведём небольшой итог. Станет видно, какая технология хорошая, а какая не очень

В конце планируется два бонуса. Первый бонус - это пример простого web-приложения, использующего один из скомпилированных нами модулей. Второй бонус - демонстрация того, как этот модуль можно использовать в программе на Python.

Читать далее
Всего голосов 36: ↑36 и ↓0+36
Комментарии10

Информация

В рейтинге
2 953-й
Откуда
München, Bayern, Германия
Зарегистрирован
Активность