Pull to refresh
87
0
Send message
IT сферы это не касается.

Ни разу не видел, чтобы в IT-компанию брали «брата свата». Вообще нигде не видел.
И так, и так.

Какие-то квартиры неудачно расположены и действительно холодные.

А где-то люди одну и ту же температуру ощущают по-разному. Наши родители, которые каждый год на несколько месяцев приезжают к нам в гости, у нас в квартире мёрзнут и пытаются одеть детей и внуков.
Воспринимайте арендное жильё в Иннополисе, как возможность дёшево попробовать демо-версию города. Понравится — задумайтесь о покупке собственного жилья в Зионе. Не понравится — что ж, бывает, нужно искать другое место.

Слышимость хорошая, вы правы.

Моя жена пока в декрете. Поиском работы для неё мы ещё не занимались, но в держим руку на пульсе и наблюдаем за вакансиями — периодически появляются по её профилю. При худшем сценарии будет работать удаленно или в Казани — это не так проблемно, на самом деле.

Я имел ввиду, что в некоторых зарубежных странах в первые годы у жены вообще даже права работать не будет без определённой визы. Тут оно есть.
В Иннополисе достаточно чисто зимой на дорогах. Иногда даже в чате просят не соскребать снег до асфальта, потому что санки и ватрушки перестают скользить.

В те дни, когда почистить не успевают, автопилоты вполне себе ездят, как будто бы снега и нет.
Я живу 3 года в Иннополисе.

Уж слишком обидно за то, что тут в комментариях только поливанием грязью занимаются, как будто в Иннополисе ничего хорошего нет. Почитаешь и прямо самый ужасный город в мире себе воображаешь. Я не говорю, что написанное неправда, но на каждый минус можно 10 плюсов привести.

У меня в черновиках на Хабре даже статья про него есть. Пожалуй, настало время её освежить и опубликовать тут. Там рассказано про город, как он есть, без маркетинга и без обгаживания — люди выводы уже сами сделают. Под ней же отвечу на любые вопросы про город.
Да, я про H2 уже думал, у меня это даже записано в TODO. Она действительно должен быть быстрее.
Универсальных обучающих данных не существует. Они для каждой отдельной задачи подбираются индивидуально, поэтому заранее включить что-то в проект нельзя.

Файл test_db/test.xlsx используется в JUnit-тестах и служит для тестирования модуля считывания Excel-файла. Его использовать в качестве обучающих данных не нужно.

При моей попытке «набить хотя бы 100-200 текстов» прога тупо зависает на пару часов

Она, скорее всего, не тупо повисла, а начался процесс обучения сети. Каждую эпоху выводится результат в окно с логом. На слабой машине это вполне может длиться часами.

Посему хотелось бы посмотреть сначала на уже работающий вариант, чем самому топтаться по всем Вами уже пройденнным граблям.

Чтобы увидеть работающий вариант, его нужно обучить именно на ваших данных.
У вас слишком маленький объем обучающих данных. Настолько маленький, что не выполняется требование, что униграмма должна встречаться хотя бы в 4 разных текстах — только в этом случае она добавится в словарь. В вашем случае словарь пустой. Вам нужно хотя бы 100-200 обучающих текстов даже для «попробовать».

А зачем вам винда? Скомпилироваться и запуститься должно в любой системе. Если проблема в подготовке XLSX-файла, то тут Google Docs в помощь.
Результат классификации зависит не от количества, а от наличия в анализируемом тексте слова (точнее сказать, фрагмента) из словаря. Если использовать биграммы (или триграммы) вместо униграмм, то частично будет учитываться и порядок следования («Я люблю вкусное мороженное» --> [«я люблю», «люблю вкусное», «вкусное мороженное»]). Для использования биграмм в конфигурационном файле программы нужно сменить параметр ngram_strategy с filtered_unigram на bigram или filtered_bigram.
Иногда используют комбинацию нескольких классификаторов. Правда, не такую сложную, как вы описали. Но это дает несущественный прирост производительности по сравнение с затраченными усилиями на разработку. Есть смысл с этим заморачиваться, если твоя программа будет соревноваться с другими и 1-2% к точности могут обеспечить победу.

Лучше выбрать какой-то один классификатор и направить силы на увеличение его точности. В многослойной модели, скорее всего, все упрется в бутылочное горлышко — самый неточный слой будет портить общую картину.
Я добавил поддержку Maven в свой проект, поэтому теперь можно взять за основу его, а не форк. На каком конкретно этапе у вас возникли проблемы и какого они рода?
Добавил поддержку Maven. Файл pom.xml доступен на Github.
Принято. Проведу детальный анализ и внесу правки.
Вы сказали что не будете искать готовых решений(к слову, почему?), но тем не менее уже взяли некоторые существующие подходы.

В том же предложении, где я сказал, что не буду искать готовых решений, объясняется почему я этого не делаю: было время и интерес сделать своими руками — это во-первых. Во-вторых, хотел смахнуть пыль со знаний JAVA, решив конкретную задачу. Реализацию сети взял готовую, потому что хотел сосредоточиться на решении задачи формирования словаря и преобразования текста в вектор.

Ну и к тому же, есть уже много хорошо описанных решений на питоне, не пробовали сравнивать качество со своей моделью?

Под качеством вы понимаете точность классификации? Конкретных сравнений с другими решениями я не проводил, но точность в районе 80% считается очень хорошим показателем в задачах классификации текста. На самом деле, тут от инструмента зависит только скорость и объем используемых ресурсов, но никак не точность.
Я изначально взял в качестве реализации нейронной сети именно deeplearning4j, но только создание сети с несколькими тысячами нейронов во входном и скрытом слоях длилось более получаса на очень неслабой машине. конечно, может быть стоило глубже поковыряться в параметрах, но я решил сменить фреймворк на Encog, у которого из коробки не было проблем со производительностью — на нем и остановился.
Я не использовал Maven для этого проекта, но вот тут уже есть форк с необходимым вам файлом pom.xml.

P.S.: надо бы и к своему проекту прикрутить Maven. Займусь.

Information

Rating
Does not participate
Location
Россия
Registered
Activity