Статьи

Статьи
20 сентября 2021
Сэмплинг в условиях несбалансированности классов
При классификации в условиях несбалансированности классов могут быть использованы два подхода: балансировка классов и оптимизация модели (например, выбор дискриминационного порога при...
Репрезентативность выборочных данных
Репрезентативность — важнейшее свойство данных, используемых для построения аналитических моделей. Независимо от того, в какой предметной области и какими методами производятся выборочные исследования,...
Методы и алгоритмы сэмплинга в анализе данных
Сэмплинг представляет собой процесс отбора единиц наблюдения из генеральной совокупности с целью формирования выборки, изучение структурных и статистических свойств которой позволит с определённой...
Сбор данных для анализа
В статье рассказываем про основные этапы сбора информации, следуя которым, можно подготовить качественные данные в нужном для анализа объеме. Данная методика — не жесткий набор инструкций, а...
Метод касательных в ABC-анализе
Особенностью метода касательных в ABC-анализе является отсутствие фиксированных границ групп, благодаря чему отпадает необходимость в регулярном пересмотре пороговых значений групп A, B и C. Расскажем...
Классификация данных методом k-ближайших соседей
Преимуществом статистических методов является их хорошая математическая обоснованность, недостатком — низкая объясняющая способность. Использование вероятностных оценок позволяет с высокой точностью...
Классификация данных при помощи нейронных сетей
Определённым компромиссом между параметрическим и метрическими методами является использование для решении задач классификации нейронных сетей. Нейронные сети являются непараметрическими моделями, не...
Поиск последовательных шаблонов. Часть 2
В первой части статьи мы рассмотрели базовые понятия: частая последовательность, последовательный шаблон, длина последовательности и обсудили общую процедуру поиска последовательных шаблонов....
Поиск последовательных шаблонов. Часть 1
Для расширения возможностей анализа транзакционных данных с учетом временного аспекта, последовательности появления предметов и ориентированности на конкретного клиента существует задача Data...
Генетические алгоритмы — математический аппарат
Генетические алгоритмы предназначены для решения задач оптимизации и моделирования путём последовательного подбора, комбинирования и вариации искомых параметров с использованием механизмов, напоминающих...
EМ — масштабируемый алгоритм кластеризации
В основе EM кластеризации лежит масштабируемый алгоритм EM, который опирается на предположение, что исследуемое множество данных может быть смоделировано с помощью линейной комбинации...
Сегментация клиентов и автоматизация рассылок в Loginom
RFM-анализ и сегментация клиентов в Loginom. Настраиваем интеграцию с SendPulse для эффективной рассылки напрямую из сценария.
Нечеткая логика — математические основы
Математическая теория нечетких множеств и нечеткая логика являются обобщениями классической теории множеств и классической формальной логики. Изначально это была только теория, а в настоящее время она...