Материалы по теме: статья

Сэмплинг в условиях несбалансированности классов

При классификации в условиях несбалансированности классов могут быть использованы два подхода: балансировка классов и оптимизация модели (например, выбор дискриминационного порога при определении класса). Данная статья посвящена рассмотрению алгоритмов и методов балансировки классов.

20 сентября 2021

Репрезентативность выборочных данных

Репрезентативность — важнейшее свойство данных, используемых для построения аналитических моделей. Независимо от того, в какой предметной области и какими методами производятся выборочные исследования, отсутствие репрезентативности выборки приводит к некорректным результатам. В статье рассказываем подробнее об этом важном свойстве.

6 сентября 2021

Методы и алгоритмы сэмплинга в анализе данных

Сэмплинг представляет собой процесс отбора единиц наблюдения из генеральной совокупности с целью формирования выборки, изучение структурных и статистических свойств которой позволит с определённой достоверностью сделать вывод о характеристиках всей совокупности. В статье разбираем подробнее методы и алгоритмы сэмплинга.

9 августа 2021

Сбор данных для анализа

В статье рассказываем про основные этапы сбора информации, следуя которым, можно подготовить качественные данные в нужном для анализа объеме. Данная методика — не жесткий набор инструкций, а список рекомендаций, которых желательно придерживаться.

19 июля 2021

Метод касательных в ABC-анализе

Особенностью метода касательных в ABC-анализе является отсутствие фиксированных границ групп, благодаря чему отпадает необходимость в регулярном пересмотре пороговых значений групп A, B и C. Расскажем подробнее о реализации этого метода.

29 июня 2021

Классификация данных методом k-ближайших соседей

Преимуществом статистических методов является их хорошая математическая обоснованность, недостатком — низкая объясняющая способность. Использование вероятностных оценок позволяет с высокой точностью предсказать к какому классу относится объект, но не позволяет сказать почему. Поэтому результаты статистических методов классификации могут оказаться с...

31 мая 2021

Классификация данных при помощи нейронных сетей

Определённым компромиссом между параметрическим и метрическими методами является использование для решении задач классификации нейронных сетей. Нейронные сети являются непараметрическими моделями, не требующими предположений о вероятностном распределении данных, но при этом и не используют меры расстояний. Это делает их универсальными классификатор...

17 мая 2021

Поиск последовательных шаблонов. Часть 2

В первой части статьи мы рассмотрели базовые понятия: частая последовательность, последовательный шаблон, длина последовательности и обсудили общую процедуру поиска последовательных шаблонов. В данной статье подробно описываются алгоритмы поиска.

12 апреля 2021

Генетические алгоритмы — математический аппарат

Генетические алгоритмы предназначены для решения задач оптимизации и моделирования путём последовательного подбора, комбинирования и вариации искомых параметров с использованием механизмов, напоминающих биологическую эволюцию.

18 февраля 2021

Нечеткая логика — математические основы

Математическая теория нечетких множеств и нечеткая логика являются обобщениями классической теории множеств и классической формальной логики. Изначально это была только теория, а в настоящее время она превратилась в полноценную методику управления. В статье даем вводный экскурс в теорию нечетких множеств.

25 января 2021