hiddenman Nov 2 2008 at 02:47

Задача о минутах

4 min

1.2K

Lumber room

Comments 42

A2K Nov 2 2008 at 02:59

если бы еще структуру csv описали…

hiddenman Nov 2 2008 at 03:01

Так название comma separated values говорит само за себя, это простой текстовый файл, где значения разделены запятой (comma), а в данном случае точкой с запятой. Причем порядок полей не регламентирован, поэтому только глазами можно определить, где и что. Вот пример:
XXX.XXX.XXX.11;COMPANY1;992927233890;2008-06-01 19:31:35;;9;780a890bddce4248b839040046464636;16;
Вот пятое по счету поле — длительность звонка в секундах. Шестое — тот самый CallID

hiddenman Nov 2 2008 at 03:04

Пардон, шестое и седьмое, там одно поле пустое, но все равно считается.

A2K Nov 2 2008 at 03:24

да всё просто, в COMPANY2.csv больше записей (строк).

простой скрипт:

file1 = open("COMPANY1.csv")
file2 = open("COMPANY2.csv")
seconds1 = 0
seconds2 = 0
n1 = 0
n2 = 0
rows1 = []
rows2 = []
for row in file1.read().split("\n")[:-1]:
    rows1.append(row.split(';'))
for row in file2.read().split("\n")[:-1]:
    rows2.append(row.split(';'))
for i in range(10):
    print rows1[i][5], rows2[i][4]

выдаёт:
$ python script.py
9 10
10 10
4 5
5 5
10 11
13 14
2 3
2 3
12 13
3 5
т.е. почти в каждой записи в COMPANY2.csv больше продолжительность.
к тому же самих записей в COMPANY2 больше.

A2K Nov 2 2008 at 03:42

в чуть более понятном виде:

for key in rows2.keys():
    try:
        s1 += int(rows1[key])
        s2 += int(rows2[key])
     except:
        pass

получаем:
s1: 1277515
s2: 1323482
т.е. у одинаковых ключей разные значения.

A2K Nov 2 2008 at 03:45

ну и соответственно ключи, в которых есть разница:

for key in rows2.keys():
    try:
        if rows1[key] != rows2[key]:
            print key, rows1[key], rows2[key]
    except:
        pass

получаем:
780a0220997f43484eba250046464636 9 10
780ae213949c434816ef250046464636 33 34
780a0606a65343482c50050046464636 25 26
780a071f721c4448b85b230046464636 3 4
780a70345e8c434887aa210046464636 3 4
780a060886d0424883c8070046464636 4 5
…
могу предоставить полный список, если надо :)

hiddenman Nov 2 2008 at 03:46

Вот так взяли и всё испортили :-) Действительно, ларчик просто открывался, длительности одних и тех же звонков не совпадали, это в сумме и дало ту разницу. Я изначально даже и не подумал в эту сторону, настолько очевидным всё казалось, думал, ошибка в реализации подсчёта. А ошибка оказалась более фундаментальная.
А то, что количество записей разное и так было ясно из услових задачи, мы же их и искали :-)

A2K Nov 2 2008 at 03:48

все-равно спасибо за задачку :)
теперь можно идти спать…

hiddenman Nov 2 2008 at 03:49

И, кстати, получается, что к консенсусу нам не придти никогда с оператором, придётся использовать или наши данные или его для расчётов, т.к. такие погрешности присутствуют в каждом звонке. Жаль, что в протоколе не предусмотрена однозначная фиксация длительности сессии и только потом уже завершение звонка. Хотя опять же, её нужно реализовывать на всем участке, между каждой парой узлов и, соответственно, в каждом протоколе этого участка. Интересно, что в GSM на эту тему предусмотрено. Надо будет почитать.

sunnybear Nov 2 2008 at 17:31

ну, об этом нужно было догадаться сразу после разговора о миллионах долларов :)

dna Nov 2 2008 at 03:30

а приз какой? :)

hiddenman Nov 2 2008 at 03:53

Поздно, задачка простая, первый же дядя в комментариях и решил. А я что-то совсем старый стал, соображаю туго, решал долго. Придется к врачу идти, непорядок.

tenshi Nov 2 2008 at 09:45

решать такие здачи на баше… мисье знает тольк в извращениях =)

hiddenman Nov 2 2008 at 16:46

Ну как раз на bash-е такое и решают на коленке, очень быстро и просто. Весь набор необходимых утилит существует. А если уже нужно долгосрочное, гибкое решение, да еще и с интерфейсом, то начинают расчехлять perl и т.п.

FloppyFormator Nov 2 2008 at 22:14

Ну я расчехлял Perl для сверки месячной статистики. Очень удобно, весь парсинг формата CDR выполняется одним регулярным выражением )

tenshi Nov 3 2008 at 07:40

ага, как же. у тебя кода в три раза больше, чем на питоне — это о простоте. могу поспорить код на питоне ещё и сильно быстрее был написан ввиду его объектной, а не файловой ориентации.
при этом, обрати внимание, человек не остановился на достигнутом и простыми модификациями переделывал скрипт, чтобы получить какие угодно данные. а сколько подобные переделки заняли бы на баше?

hiddenman Nov 3 2008 at 10:14

Не надо мне про питон рассказывать, это мой основной язык программирования в последнее время. А в баше именно наколенная ерунда пишется на раз, когда не знаешь, что точно нужно и как это лучше получить, на ходу меняются инструменты (изначально там две другие утилиты было внутри) и т.п. Конвейеры (pipes) «решают». А вот после этого я себе уже допишу модуль в местную утилиту на Питоне для анализа таких CDR, уже зная подводные камни и алгоритм.
Работает скрипт достаточно быстро, в основном из-за join, если городить цикл, то часами будет работать :-) Кому-то удобнее такое вот «системное» программирование делать на Питоне, реально же для этого лучше подходит shell. Некоторые еще perl любят для этих целей использовать. И оно даже работает :-)

SCode Nov 2 2008 at 16:43

пойду заклеивать моск, ато треснул!)

EaE Nov 2 2008 at 17:21

excel понимает csv, кстати. со всеми вытекающими. хотя свои скрипты это конечно увлекательнее, и есть повод для поста :)

hiddenman Nov 2 2008 at 17:23

Excel понимает CSV гораздо хуже OpenOffice Calc, если уж на то пошло. Но там есть ограничение по количеству строк, например, ну и медленно считать что-то. Ни я, ни другие не могли сходу вьехать, почему разница получается, вроде бы считаем на основе второго файла, а данные не совпадают с ним же.

EaE Nov 2 2008 at 17:29

по сравнению с башем выбор между опенофисом и экселем кажется мне несущественным. и, судя по данным, приведенным в посте, в ограничение по количеству строк вы влезали. и единоразовый расчет может позволить себе занять несколько секунд против миллисекунд в случае потоковой башовой обработки, если на этом он сэкономит минуты, требующиеся на написание скрипта, и десятки минут, требующиеся на недоуменное почесывание головы над результатами и отладкой тех скриптов.

но в общем это конечно дело каждого, использовать готовые инструменты или расти как специалисту на подручных задачах.

hiddenman Nov 2 2008 at 17:37

Очень мне интересно, как в Excel-е проделать эту задачу быстрее, расскажите. Проделать-то нужно ровно те же операции. Использовать встроенные функции? Писать на VB?

EaE Nov 2 2008 at 17:40

да, использовать встроенные функции. та же сумма минут там вообще считается парой кликов мыши. все остальное — не сильно сложнее. писать на VB — не стоит, потому что опять придется отлаживать и почесывать, чего мы стремимся избежать.

hiddenman Nov 2 2008 at 17:41

Сумма минут парой кликов и считается, никто не спорит. Изначально мне нужно было найти отсутствующие в первом файле звонки. И как это сделать?

EaE Nov 2 2008 at 17:48

функция MATCH

hiddenman Nov 2 2008 at 17:54

Возможно. Покажите пример, я попробую на будущее. Мне проще вот так вот выдрать и сравнить, чем искать в документации правильное использование функции на массивах, вывод этого и т.п. Суть-то в том, что сравнивая и так и так и используя данные второго файла для недостающих звонков у вас все равно получится расхождение. Сейчас это кажется очевидным мне и другим, но когда я пытался найти причину, почти никто не сообразил из тех, кто обычно соображает :-)

zooom Nov 2 2008 at 22:27

— сводная таблица
— vlookup
— countif
— простая сортировка
вообщем вариантов мильен :)

и это, хочу заметить, вам еще повезло — увас есть уникальные id звонков — это большая удача;)

мне же приходится по тому же направлению и с теми же целями сравнивать сдры ориентируясь на время звонка, номер а, номер б и продолжительность, по причине нефиксации терминатором id звонка… и минут там на два порядка больше :)

hiddenman Nov 2 2008 at 22:49

Как мне кажется, уровень «вхождения» в электронные таблицы значительно выше для администратора, чем для пользователя. Я там ну очень редко что-то делаю, поэтому проще и привычнее это сделать в shell. Не говоря уж о гибкости.
А так да, согласен, вариантов масса, хоть на asm ;-)
Вообще странный терминатор. На самом этот и этот оригинатор очень долго отнекивался, мол, нет у него никакого CallID. Но я его убедил, что есть :-)
А вот искать по номеру А и Б уже значительно сложнее, особенно на большом количестве звонков, там уже закон больших чисел работает, на один и тот же номер идут звонки с примерной одинаковой длительностью и черта с два там определишь.
Собственно, это не весь наш диспут был, осовная задача — убедиться, что ошибаемся мы или они и в ту сторону уже отработать диспут :-)

garex Nov 2 2008 at 20:52

1. По одинаковым gid`ам у нас с ними разница в 766 минут

[minutes on identical gids]
we they delta = we — they
22058 21292 766

2. А именно: разница в секундах, число раз и сумма разниц в секундах
[delta sec on identical gids]
delta count result
1 44012 44012
2 855 1710
3 16 48
4 7 28
169 1 169

3. Т.е. получаем: сумма сумм разниц в секундах и дает в итоге те самые 766 минут.
А также мы выясняем, что в среднем чье-то оборудование стабильно обманывает
другое на 1,02 секунды
[total delta in seconds and minutes]
seconds minutes averageDeltaInSeconds
45967 766 1,02396916976677

Время: 3 часа
Инструмент: SQL (access)

hiddenman Nov 2 2008 at 22:50

Все правильно. А я изначально неправильную аксиому взял за основу и, соответственно, искал ошибку не там.
А вот про обманывание тут вопрос неоднозначный. Это, скорее, погрешность округления и задержка передачи в сети.

garex Nov 3 2008 at 01:59

Именно обман, ибо стабильное значение более менее и примерно около секунды.

Скорее это настройки, которые каждый выставил, как ему выгоднее (или на заводе так выставляют?).

Вам выгоднее, чтобы больше, а им меньше. Поэтому ваш трафик считается методом ceil, а ихний — floor.

Но точно не round`ом.

Сеть здесь точно не виновата — я чувствую, правда докуазать пока не могу, вернее не знаю как.

maximwirt Nov 3 2008 at 04:08

Вам еще повезло: на самом деле в csv файлах значение в одной колонке может содержать переводы строк.
Парсить csv файлы с переводами строк — вот это задача для умных.

ssve Nov 3 2008 at 06:37

"… что он отправили на нас меньше минут.." 0_o

cololoster Nov 3 2008 at 07:54

идея для следующего поста — написать как работают операторы IP телефонии, чем живут, как гоняют трафик, какое ПО используют и пр.

fork Nov 3 2008 at 09:55

Посмотрите доклад Кирилла Сюзева: Архитектурные особенности высоконагруженных систем в телекоме, на последнем HighLoad++

UFO landed and left these words here

hiddenman Nov 3 2008 at 10:23

Получается, что друг друга. Собственно, в протоколе это не предусмотрено, насколько я знаю (H.323 и SIP как минимум), поэтому они спокойно записывают 5 секунд, а мы 6, т.к. у нас уже 6 насчиталось. А потом финансисты это как-то разруливают, честно говоря, технически мы ничего не делаем.

LDEV Nov 3 2008 at 16:23

А чем собственно они регулирут такие споры? Как там можно решить спор на пару миллионов?

UFO landed and left these words here

rudin Nov 3 2008 at 19:48

вспомнилась другая загадка:
Три солдата пришли на рынок покупать гуся. Бабуля объявила цену — 30 рублей. Солдаты скинулись по 10 рублей, взяли гуся и пошли довольные. У бабули вдруг проснулась совесть, она вспомнила, что её внучок сейчас тоже служит в армии и решила вернуть солдатам 5 рублей. Подозвала мальчёнку-помощника, дала ему 5 рублей и сказала, чтобы он догнал солдат и вернул им эти 5 рублей. Мальчёнка побежал, а сам думает: «Их трое, рублей пять. Дам ка я им по рублю, а два себе оставлю». Догнал, отдал им по рублю. В итого для солдат гусь обошелся по 9 рублей, то есть 9*3=27. Два рубля у мальченка. 27+2=29. Куда подевался 1 рубль?

seaji Nov 3 2008 at 21:28

Ха, прикольно. Я на пару минут впал в ступор пока не понял, что солдаты отдали 27 рублей, а мальчик получил 2 рубля.

seaji Nov 3 2008 at 21:29

примерно так 25 + 2 = 27