Pull to refresh
33
0
Аня @Bienne

Пользователь

Send message
Что у вас используется в качестве баз данных?
Используете ли хранимые процедуры или обходитесь без них?
Если есть хранимки то как происходит (и сколько длится по времени) накат обновлений?
Очень интересна тема шардирования. Можно ли кратко, по каким параметрам шардируетесь, какие алгоритмы используете, возможно какие-то opensource golang проекты применяете.
И еще, где всем любопытным можно еще вопросы позадавать помимо как здесь?
Как организована «песочница»? Это docker контейнеры, и у каждого разработчика свой собственный неперсекающийся набор контейнеров?
Я собирала jom-ом, но правда версию Qt 4. Подтверждаю, действительно очень быстро собирается
Тогда надо будет попробовать. Вообще, я раньше как-то не обращала внимания на эти утилиты, пользовалась только Activity monitor.
Примечание: Это руководство предполагает, что вы компетентны в Objective-C и iOS программировании.

Эти инструменты можно использовать для проекта на с++?
Спасибо, я читала статью. Вы там собирали без qtactiveqt, qtdeclarative, qtwebkit и прочих. А мне как раз нужен был полный набор. Где- то посередине сборки выдалась ошибка про отсутствие Ruby, пришлось и его поставить, зато все собралось:)
На самом деле даже сама сборка Qt5 значительно усложнилась. Собрать Qt4 было легко. Когда я недавно собирала Qt5, меня удивило море того, что нужно дополнительно установить, только из дополнительных языков нужно поставить Python (он у меня правда был установлен), Perl и Ruby. Это я к тому что и для тех, кому SDK не нужен, тоже не так просто собрать как раньше
Спасибо за совет про кодировку, теперь в следующий раз точно про это не забуду.
Есть. Я подебажила немного, при нормализации слова «in» оно найдется в индексном словаре ворднета index.adj
Поняли не совсем верно. Составное слово, в котором есть тире, тоже нормализуется. Если в слове есть тире, слово делится на части, нормализуется каждое слово по отдельности, а потом опять соединяется через тире. То есть в слове commander-in-chief будут нормализованы по отдельности три слова (commander, in, chief )
Посмотрите файл Lemmatizer.py, там есть метод, в котором все это и происходит:
def GetLemma(self, word)
Да! Спасибо. Я знала что этому должно быть красивое название, спасибо что подсказали
SublimeText я использую, но в качестве просто текстового редактора. Visual Studio как IDE как-то ближе, а под линуксом Qt Creator
Это оно конечно да, но тогда при переименовании или перемещении файлов придется изменять все дефайны внутри файлов. Поэтому мне больше близка идея GUID
Еще быстрее макрос в самой студии написать на VB и вызывать по комбинации клавиш. И поначалу я именно таким способом и пользовалась, но потом сделала себе это расширение и как то привыкла уже им пользоваться. Про "#pragma once" перед дефайнами — это есть в моем исходном расширении, но сюда я не стала его добавлять, нужно будет дописать.
Я посмотрела этот файл — там идут три параметра на каждой строке. Первый параметр — количество повторений в семантически связанных текстах, второй параметр — смысловой ключ и третий параметр — смысловое число. Нам, получается первый и последний параметры неинтересны, остается только второй, он содержит лемму + часть речи, закодированную в число+другие ключи. Как все это можно применить именно к кэшу?
Спасибо за замечания. по правде сказать, я думала, что aot использует свои базы, а он оказывается перегоняет в свой формат WordNet. Понятно, будем знать, что все пути ведут к WordNet. Про метод most_common я знала, но мне хотелось сортировать и по ключу и по значению, и поэтому я и использовала двойную сортировку. Про nltk если честно, я не стала разбираться, как я в статье написала, я просто посмотрела исходники самого WordNet, там простой и алгоритм и правила.
Топ 1000 не будет одинаковым, он существенно будет зависеть от распарсенного материала. На самом деле RetroGuy написал постом ниже, слова это просто слова, и их действительно сложно учить без контекста. Я создавала свои скрипты не для поиска наиболее часто встречающихся слов. Мне нужно было получить значение все слов из конкретных текстов, которые мне задавал читать мой преподаватель английского. Но если бы я задалась целью учить слова по частоте, я бы взяла базы отсюда, там есть корпус из 5,000 лемм. Вот, пожалуй их бы перевела с помощью StarDict. Но задач таких я никогда не ставила. Когда я писала статью, я хотела рассказать прежде всего о WordNet и StarDict, а частотный словарь это так, поиграться…
1

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity