Выпущена первая минорная версия платформы. Существенно расширены возможности как в части алгоритмов, так и в части интеграции с новыми источниками данных.
Чуть менее четырех месяцев назад состоялся релиз платформы. Всё это время мы непрерывно работали над совершенствованием платформы. Было выпущено три патч-версии, основное внимание уделялось повышению стабильности, совершенствованию существующих и появлению новых обработчиков и визуализаторов, а также интеграции с новыми источниками данных. Помимо этого, на всем протяжении разработки платформы большое внимание уделялось и будет уделяться удобству работы пользователей.
Сценарии в Loginom представляют собой набор узлов, связанных между собой потоками данных. В связи с этим возникает вопрос с синхронизацией этих наборов данных между узлами. По мере выполнения сценария список полей передается от узла к узлу. В большинстве случаев от пользователя не требуется выполнять синхронизацию и настройку списка полей.
Мастер настройки полей будет продемонстрирован пользователю только в том случае, если обработчик требует определить назначения входных полей, либо в процессе выполнения автоматической синхронизации остались вопросы, требующие вмешательства пользователя.
При выборе назначения полей в мастере настройки стали учитываться ограничения на типы и виды данных. Для выбора доступны только те варианты, которые соответствуют ограничениям узла. После того, как пользователь настроит поле, оно становится обязательным и выделяется в мастере настройки жирным шрифтом.
Много внимания было уделено развитию и улучшению алгоритмов продвинутого анализа. В новой версии появились механизмы нормализации и денормализации данных, которые требуются для работы многих алгоритмов Data mining.
В ряде обработчиков без этого функционала было невозможно обрабатывать дискретные наборы данных. С выходом новой версии появилась возможность обработки дискретных полей в обработчиках «Нейросеть(классификация)», «Нейросеть(регрессия)» и «Кластеризация».
Доступные методы нормализации непрерывных данных:
Доступные методы нормализации дискретных данных:
Помимо отдельного обработчика Разбиение на множества, позволяющего производить разделение набора данных на различные выборки, этот механизм был встроен во все обработчики, использующие механизмы обучения и тестирования, а также появилась возможность задавать размеры множеств (и размеры групп множеств) при помощи переменных.
Многие модели машинного обучения склонны к переобучению, в связи с чем может существенно снижаться качество готовой модели. Одним из способов борьбы с этим является использование механизмов кросс-валидации. В новой версии добавлены наиболее распространенные методы кросс-валидации: k-fold (с последовательным и случайным выбором) и Монте-карло.
Кросс-валидация позволяет существенно повысить качество моделей без усложнения работы пользователя
Одним из самых популярных алгоритмов, применяемых при решении задачи бинарной классификации (предполагающей ответ вида «Да» — «Нет»), является Логистическая регрессия. При добавлении этого алгоритма мы постарались в первую очередь упростить его использование, в том числе проработав автоматизацию настройки. Предлагается три возможных варианта использования: с автоматической, ручной и детальной настройкой параметров работы алгоритма.
Получить приемлемый результат можно даже с автоматическими настройками
Недостаточно просто внедрить алгоритм обработки. Для практического использования не менее важна возможность удобного просмотра результатов обработки и интерпретации результата. Все показатели, необходимые для принятия решений и оценки построенной модели, доступны на одном экране в Отчете по регрессии. Помимо этого, при использовании механизма отбора факторов доступна информация о причинах выбора того или иного варианта.
Очень часто на вход моделей подаются не сами данные, а признаки принадлежности данных к какому-либо классу. Например не сумму кредита, а принадлежность суммы к какому-то диапазону сумм. При этом приходится находить компромисс между информативностью показателей и их интерпретируемостью. Для упрощения задачи разбиения данных на классы реализован специализированный обработчик — Конечные классы. При этом для пользователя использование обработчика максимально упрощено, по-умолчанию формируется оптимальное с точки зрения математики разбиение, при этом доступна возможность ручной корректировки.
Настройка разбиения производится интерактивно, и все показатели доступны на одном экране
Существенно доработан наиболее популярный способ представления результатов обработки — OLAP куб. Добавлена возможность приостановки автообновления, позволяющая в некоторых случаях существенно повысить как удобство, так и скорость работы с отчетом.
Оптимизирован механизм drag&drop, реализована возможность сворачивания и разворачивания измерений до заданного уровня детализации, стало возможным множественное редактирование формата представления фактов куба.
Продукты 1С являются самыми популярными учетными системами на территории России и СНГ, поэтому многие наши клиенты ждали появления интеграции с ними. В новой версии появилась возможность получения данных из 1С.Предприятие 8.x. Подключение к 1С.Предприятие 8.x производится через механизмы сервера 1С, поэтому не зависит от варианта развертывания (информационная база, файловое хранилище, кластер серверов). Поддерживается написание запросов на языке 1С с использованием умных подсказок, а также доступно использование переменных в тексте запроса.
Несмотря на широкие возможности платформы Loginom, в некоторых случаях может потребоваться запуск внешних приложений или скриптов. Для решения таких задач в новой версии появилась возможность запуска внешних программ. Например, данный механизм позволяет запускать ранее разработанные сценарии на платформе Deductor. В связи с потенциальной опасностью вызова внешних приложений, данная возможность по-умолчанию отключена в серверных версиях платформы и требует принудительной активации из интерфейса администрирования.
Быстродействие
Оптимизирована скорость загрузки пакетов с большим количеством подмоделей. В ходе тестирования удалось сократить время загрузки тестового пакета с 2000 подмоделей более чем в 35 раз (с 430 сек до 12 сек).
Desktop
В настольной версии пользователям стал доступен раздел администрирования, в частности, возможна настройка параметров логирования.
Подмодель
В производной Подмодели разрешено удаление узлов и связей, полученных из базовой Подмодели.
Сценарий
Реализована возможность открытие подмодели в соседней вкладке как в браузерах (при помощи нажатия на ссылку с зажатой клавишей Ctrl, нажатием на среднюю кнопку или колесико мышки).
Замена
При ручном вводе таблицы замен в обработчике Замена для колонки добавлена возможность выбирать заменяемые значения из списка уникальных значений этой колонки.
Факторный анализ
Добавлена возможность применять модель в Факторном Анализе при изменении настроек без переобучения модели.
15 мая Алексей Арустамов провел вебинар, посвященный выходу данного релиза. Можете ознакомиться с видеозаписью и скачать слайды с прошедшего мероприятия. Бесплатная версия Loginom 6.1 Academic уже доступна для загрузки.