Очистка xml-ек, которые выдаёт Мегафон при заказе детализации в формате Excel.
Исходная xml-ка зачем-то разбита на страницы. Разделитель такой же, как шапка: несколько полупустых строк, в которых указан владелец, номер телефона, период детализации, номер страницы.
Понятное дело, что такую xml-ку не отфильтруешь нормально и не проанализируешь. Вручную эти строки тоже удалять не вариант, когда детализация за полгода.
В CleanupMegafonXml.config задаются шаблоны:
- Пустых строк, которые надо удалять.
- Строк с данными (их прога пока просто считает, и выводит кол-во лишних).
Прога проходит по xml-ке и плохие строки удаляет, строки с данными считает. Всё.
Файл создаёт новый, имя src_file.cleaned.xml.
- дочистить.
- поправить xml-ку для более удобной ручной обработки в Excel:
- Разбить построчно инфу из шапки;
- Удалить лишние merged-колонки;
- Удалить последние строки (Итого и т.п.), чтобы осталась только инфа о детализации в шапке, заголовочная строка таблицы и строки данных.
- Объединить колонки Дата-Время.
- Типизировать данные, чтобы хотя бы Excel понимал, что 02:23 это 2 минуты 23 секунды, и числа и т.п.
- Чистить МТС тоже (похожая байда).
- ? перегнать в sqlite какой-нибудь?
- GUI-прога анализа, шаблоны тарифов, оценка стоимости и подбор оптимального (то, что сейчас можно сделать вручную в Excel).