Методы и алгоритмы сэмплинга в анализе данных

9 августа 2021

Сэмплинг представляет собой процесс отбора единиц наблюдения из генеральной совокупности с целью формирования выборки, изучение структурных и статистических свойств которой позволит с определённой достоверностью сделать вывод о характеристиках всей совокупности. В статье разбираем подробнее методы и алгоритмы сэмплинга.

Сэмплинг (или семплинг) является важнейшим этапом процесса анализа данных, и от того насколько эффективно и правильно он будет выполнен, зависит значимость и корректность полученных результатов анализа. Изначально методология сэмплинга зародилась и развивалась в рамках математической и прикладной статистики. Однако с появлением машинного обучения сэмплинг стал механизмом формирования обучающих, тестовых и валидационных выборок, используемых при построении обучаемых моделей.

Замечание. Русскоязычным аналогом слова сэмплинг, как известно, является понятие «выборка». Однако здесь возникает неоднозначность: в русском языке выборка может пониматься как выбранное подмножество данных (sample), так и сам процесс его формирования (sampling). Поэтому в дальнейшем для обозначения собственно процесса отбора данных мы будем использовать транслит «сэмплинг», а для обозначения полученного подмножества данных будем использовать слово «выборка».

Следует отметить, что для статистики и анализа данных вообще определение сэмплинга может несколько различаться. Для статистики оно выглядит следующим образом: сэмплинг представляет собой процесс отбора единиц наблюдения из генеральной совокупности с целью формирования выборки, изучение структурных и статистических свойств которой позволит с определённой достоверностью сделать вывод о характеристиках всей совокупности.

Данное определение вытекает из метода статистического выборочного анализа, задачей которого является оценивание на основе выборочных данных закона распределения всей генеральной совокупности, а также его параметров (например, математического ожидания, стандартного отклонения и т.д.), что необходимо для корректного применения к данным различных статистических методов исследования.

Фундаментальной проблемой выборочных методов исследования является то, что выборки в большинстве случаев являются смещёнными. Смещение выборки — это нарушение пропорции представленных в ней групп объектов относительно генеральной совокупности. Оно приводит к ошибке выборки — разности между значениями статистических характеристик, оцененных по выборке и по генеральной совокупности. Величина ошибки выборки определяет её точность.

Поэтому, при выборочном анализе используются специальные статистические критерии для проверки гипотез о значимости различий оценок, на основе которых делается вывод о том, можно ли применять выборочные оценки ко всей генеральной совокупности.

Закономерным является вопрос: почему вместо генеральной совокупности приходится исследовать выборку? Дело в том, что генеральная совокупность — это множество всех объектов (единиц наблюдения) предметной области, относительно которых предполагается обнаруживать закономерности и делать выводы при решении конкретной задачи. Элементами генеральной совокупности являются все объекты, свойства и характеристики которых могут интересовать аналитика. Поэтому использование в анализе выборок обусловлено следующими причинами:

число объектов генеральной совокупности может быть очень велико и полное их использование приводит к неприемлемому росту временных, материальных и вычислительных затрат;
сбор данных обо всех элементах совокупности слишком затратен или вообще невозможен (например, опрос всех жителей мегаполиса);
использовать всю совокупность не имеет смысла, поскольку хорошая модель может быть построена и на выборке;
целью анализа является не вся совокупность, а её некоторое подмножество, удовлетворяющее определённым требованиям (например, клиенты старше 40 лет).

Тем не менее, бывают ситуации, когда возможно и даже необходимо использовать всю генеральную совокупность, если количество её элементов ограничено и все они доступны для исследования (например, сотрудники или клиенты небольшой компании).

В машинном обучении большинство моделей является непараметрическими, т.е. не используют гипотезы относительно статистического распределения исходных данных и не требуют оценки их параметров. Но в них тоже используется сэмплинг, а сам процесс обучения в большинстве случаев тоже производится на основе обучающих выборок. В этом случае выборка должна отражать зависимости в исходных данных, а обученная с её помощью модель — обобщать на всю совокупность.

Несмотря на несколько разную трактовку выборочного исследования для статистики и машинного обучения, в обоих случаях процедура сэмплинга должна обеспечить два фундаментальных свойства выборки — репрезентативность и полноту. Репрезентативность — это способность выборки отражать зависимости и закономерности совокупности, из которой она была извлечена. Полнота — означает, что выборка должна содержать достаточное количество наблюдений (примеров) для построения аналитической модели, обладающей обобщающей способностью.

Следует отметить, что полнота и репрезентативность, вообще говоря, не связаны друг с другом. Действительно, выборка может содержать очень большое количество наблюдений и при этом быть нерепрезентативной. Напротив, выборка может быть репрезентативной и отражать все возможные ситуации предметной области, но при этом её объем окажется недостаточным для построения модели. Поэтому в настоящее время разработано много различных алгоритмов и методов сэмплинга, правильный выбор и использование которых позволит сформировать репрезентативные и полные выборки при решении конкретных задач.

Рисунок 1. Генеральная совокупность и выборка

Основные этапы построения выборки

Какой-либо универсальной, подходящей для всех задач анализа, последовательности действий при реализации процесса сэмплинга, вообще говоря, указать нельзя. Но наиболее типичной является следующая последовательность шагов.

Определение генеральной совокупности. На данном этапе аналитик должен определить, из каких объектов будет состоять совокупность (людей, домохозяйств, предприятий, товаров и т.д.), какими признаками они характеризуются, а также произвести географическую и временную привязку. В некоторых случаях может возникнуть ситуация, когда совокупность может содержать наблюдения, которые будут являться следствием наблюдения другой совокупности (суперсовокупности). При этом совокупность и суперсовокупность могут частично перекрываться.
Определение основы выборки (sampling frame). В простейшем случае, в выборку может быть включен любой элемент совокупности — это называется прямым отбором. Однако на практике может оказаться полезным сформировать так называемую основу выборки — часть генеральной совокупности, элементы которой удовлетворяют требованиям решаемой задачи. Например, это могут быть люди старше 18 лет, клиенты с доходом выше среднего по региону и т.д. Возможно требование, чтобы каждый элемент совокупности попадал в основу выборки только один раз. Применяется показатель инцидентности (охвата) выборки, равный процентной доле генеральной совокупности, которая будет использоваться для отбора.
Выбор метода и алгоритма сэмплинга (план выборки). Этот выбор не всегда очевиден и однозначен. На практике приходится использовать опыт решения аналогичных задач, либо выбирать лучший метод экспериментально. Кроме этого выбранный метод зависит от типа данных и количества объектов.
Определение объёма выборки. Зависит от многих факторов. Например, в статистических методах исследования объём выборки должен обеспечивать возможность оценки законов распределения данных и их параметров. В машинном обучении объём обучающей выборки должен обеспечивать её полноту и репрезентативность, а также может зависеть от особенностей модели. Например, число примеров обучающей выборки для обучения нейронной сети должно превышать число межнейронных связей, которые настраиваются в процессе обучения. В противном случает сеть не приобретёт обобщающей способности.
Реализация процесса сэмплинга. Также имеет свои особенности. Например, отбор наблюдений может производится из локальных или удалённых источников. Во втором случае процесс извлечения выборок больших объёмов может сопровождаться повышением нагрузки на сеть компании. Поэтому его лучше реализовывать в соответствии с наиболее безопасным временным регламентом. Кроме этого в процессе сэмплинга может произойти разрыв соединения, поэтому важно, чтобы после его восстановления процесс можно было продолжить, а не начинать сначала.
Сбор данных по отобранным объектам (если это необходимо). В некоторых случаях в процессе сэмплинга отбираются только идентификаторы объектов. Например, клиенты для опроса могут сначала отбираться по номерам клиентских карт, а потом в ходе опроса определяются их пол, возраст, доход и т.д.

Классификация методов сэмплинга

Общепринятая классификация методов сэмплинга представлена на рис. 2.

Рисунок 2. Классификация методов сэмплинга

Все методы сэмплинга делятся на две группы — детерминированные и вероятностные (probability sampling) или случайные (random sampling). В детерминированных методах процесс формирования выборки производится в соответствии с формально заданными правилами и ограничениями. Например «выбрать всех мужчин в возрасте от 30 до 40 лет». Тогда все объекты, удовлетворяющие правилу, будут помещены в выборку обязательно. В вероятностных методах для каждого объекта определяется вероятность, с которой он может быть взят в выборку.

Вероятностный (случайный) сэмплинг

Результатом случайного сэмплинга являются так называемые вероятностные выборки, в которые каждый элемент совокупности может быть извлечён с некоторой ненулевой вероятностью, которая для каждого элемента определяется алгоритмом сэмплинга. Преимущество случайного сэмплинга в том, что при правильной его организации он обеспечивает репрезентативность выборки.

Случайный сэмплинг имеет три разновидности: простой, стратифицированный и групповой.

Простой случайный сэмплинг (Simple Random Sampling — SRS). В этом методе каждый объект генеральной совокупности имеет равную вероятность быть отобранным в выборку. При этом объекты выбираются из основы выборки произвольным образом и независимо друг от дуга. SRS является самым простым из методов случайного сэмплинга. При этом он может являться частью некоторой более сложной процедуры формирования выборки.

Простейшим способом реализации SRS является следующая последовательность действий:

всем объектам основы выборки присваиваются уникальные номера;
с помощью генератора случайных чисел формируется последовательность случайных значений, длина которой равна размеру выборки;
в выборку извлекаются элементы, номера которых соответствуют значениям случайной последовательности.

SRS может производится с возвратом или без возврата. В первом случае каждый объект основы выборки может быть извлечён один раз, а во втором может извлекаться повторно. Выборка с возвратом используется, например, для небольшой основы выборки, если количество объектов в ней недостаточно для формирования обучающего множества достаточного объема.

В выборке при этом может произойти клонирование примеров, т.е. появление дубликатов. Однако если исходная совокупность большая, то выборка с возвратом практически не приводит к повторному выбору объектов, поскольку вероятность извлечения двух одинаковых объектов очень мала.

Преимуществами SRS являются:

минимальные знания о генеральной совокупности;
простота интерпретации результатов.

В настоящее время существует несколько алгоритмов реализации SRS.

Наивный алгоритм. Каждому элементу совокупности устанавливается вероятность быть выбранным $1/N$ . Затем, выполняется $N$ операций извлечения из совокупности в выборку.

Алгоритм случайной сортировки. Генерируется последовательность чисел из равномерного распределения (0..1) и последовательно присваиваются элементам совокупности в качестве ключа. Затем объекты упорядочиваются по порядку возрастания ключа и из полученного списка выбирается $N$ первых объектов.

Резервуарный алгоритм (reservoir sampling, R-sampling). Используется для формирования простой случайной выборки без замены из $k$ элементов совокупности неизвестного размера $N$ за один проход. Размер совокупности неизвестен алгоритму и обычно слишком велик, чтобы все $N$ элементов поместились в оперативную память.

Алгоритм формирует подмножество из $k$ элементов совокупности, называемое резервуаром. Изначально в него помещаются $k$ первых элементов. Затем элементы перебираются последовательно до тех пор пока не будет достигнут конец ввода. При этом для каждого элемента задаётся индекс $i>k$ . Затем алгоритм генерирует случайное число $j$ , такое, что $1<j<i$ .

Если $j <=k$ , то элемент выбирается и заменяет собой элемент, который в данный момент занимает $j$ -ю позицию в резервуаре. В противном случае, элемент отбрасывается. Иными словами $i$ -й элемент выбирается в резервуар с вероятностью $k/i$ . Преимущество алгоритма в том, что не требуется знать размер совокупности и он всегда использует один и тот же объём памяти. Недостаток — алгоритм работает достаточно медленно.

Стратифицированный сэмплинг (Stratified sampling). Стратификация — это процесс разделения исходной совокупности на несколько однородных групп (страт) перед процедурой сэмплинга. Тогда стратифицированным называется метод сэмплинга, при котором объекты из каждой страты извлекаются независимо.

Страты должны быть исчерпывающими (т.е. любой объект принадлежит какой-либо страте) и взаимоисключающими (каждый объект может принадлежат к одной и только одной страте). К каждой страте применяется процедура простого случайного сэмплинга.

Рисунок 3. Стратифицированный сэмплинг

Использование стратифицированного сэмплинга позволяет снизить ошибку выборки. Т.е. ошибку, которая возникает из-за того, что анализ производится не на основе всей совокупности, а только на основе выборки. Можно выделить две основные стратегии стратификации:

Пропорциональная. Формирует страты пропорционально доле соответствующих типов объектов в совокупности. Например, если совокупность состоит из $n$ людей, из которых $m$ мужчины и $f$ женщины, то можно сформировать две страты, одна из которых содержит $m/n$ мужчин и $f/n$ женщин.
Непропорциональная. Размер каждой страты пропорционален как доле в исходной совокупности, так и стандартному отклонению значений распределения признака. Большие выборки берутся в стратах с наибольшей изменчивостью, чтобы получить наименьшую возможную общую дисперсию выборки.

Стратифицированный сэмплинг является наиболее эффективным, если выполняются следующие условия:

дисперсия признаков внутри страт минимальна;
дисперсия признаков между стратами максимальна;
признаки, по которым производится стратификация, сильно коррелируют с выходным признаком (независимой переменной).

Преимущества стратифицированного сэмплинга:

позволяет сосредоточиться на наиболее важных группах объектов и игнорировать малозначимые;
позволяет применять к разным стратам различные алгоритмы сэмплинга;
позволяет снизить ошибку выборки;
при разбиении по стратам процесс сэмплинга становится более управляемым.

Недостатки стратифицированного сэмплинга:

выбор признаков, по которым следует проводить стратификацию, неоднозначен;
стратификация бесполезна, если в исходной совокупности нет однородных групп или она не может быть разделена на исчерпывающие подгруппы;
возможность проявления парадокса Юла-Симпсона: тенденции и закономерности, имеющие место в отдельных группах (стратах) могут исчезать или менять свою направленность при объединении групп;
необходимо иметь априорные сведения о групповом составе совокупности (по полу, по уровню дохода, по возрасту и т.д.).

Выборка с вероятностью, пропорциональной размеру (Sampling with Probability Proportional to Size — PSS). Иногда в исходной совокупности присутствует переменная, которая связана с признаком, по которому производится группировка. Такую переменную (её называют переменной размера) можно использовать для повышения точности выборки. Она определяет значимость объекта, от которой зависит вероятность его попадания в выборку.

Например, пусть требуется сформировать выборку клиентов для маркетингового опроса. При этом ожидается, что результаты опроса могут коррелировать с возрастом респондента. Тогда можно выбрать возраст в качестве переменной размера. Для этого разобьём всех клиентов на возрастные категории, скажем, 21-30 лет, 31-40, 41-50 и 51-60. Пусть в первую возрастную категорию попали 500 клиентов, во вторую 700, в третью 1000, а в последнюю 300 (всего 2500 клиентов). Тогда вероятность для клиента из соответствующей категории быть выбранным для опроса составит:

P_{i}=\frac{N_{i}}{N}

где $N$ — общее число клиентов, $N_i$ — число клиентов $i$ -й категории. Т.е. для клиента второй возрастной категории эта вероятность составит $P_i=700/2500=0,28$ .

Применение PSS-сэмплинга позволяет сделать выборку более целенаправленной, повысить в ней содержание объектов, которые в наибольшей степени влияют на результаты анализа.

Групповой (кластерный) случайный сэмплинг. Кластерным (групповым) называется разновидность случайного сэмплинга, который используется если в исходной совокупности можно выделить некоторые группы, например, по географическому признаку (страна, регион, город, район) или по категориям товаров, сотрудников и т.д. Следует отметить, что в отличие от задачи кластеризации, кластеры, используемые в сэмплинге могут содержать объекты, значительно различающиеся по значениям признаков. Например в одном городе могут быть клиенты с самым различным возрастом и доходом.

Затем из кластеров производится простая случайная выборка. При этом должны выполняться следующие условия:

вероятность извлечения объекта одинакова для всех кластеров;
кластеры являются взаимоисключающими (каждый объект может принадлежать только одному кластеру);
кластеры являются исчерпывающими, т.е. должны покрывать весь набор исходных данных (все объекты должны быть распределены в кластеры).

На первый взгляд кластерная выборка похожа на стратифицированную: и в том, и в другом случае извлечение объектов производится из независимых частей исходной совокупности. Но страты (слои) представляют собой подмножества совокупности, сформированные по диапазонам значений некоторого признака, например, возраста клиента. Т.е. клиенты с близким возрастом (например от 30 до 40) окажутся в одной страте.

Кластеры же представляют собой однотипные группы, внутри которых содержатся разнородные объекты. Например, подразделения внутри одного большого предприятия. А в подразделениях могут работать сотрудники самых разных возрастных категорий, стажа и т.д.

При этом, если стратификация направлена на повышение точности выборки, то кластеризация, в основном, на снижение связанных с ней издержек. Что касается точности кластерной выборки, то для её достижения требуется больший объём данных, чем для простой случайной выборки.

Проблемой использования кластерный выборки является наличие кластеров разного размера. Чем больше дисбаланс размеров кластеров, тем выше ожидаемое смещение параметров совокупности, оцениваемых по выборке. Для компенсации данного эффекта используются различные подходы. Как вариант, можно зафиксировать долю выборки, которую составляют объекты, извлечённые из определённого кластера (например, 20%), что позволит сбалансировать представительность кластеров.

Другой способ — отойти от принципа равновероятности кластеров, когда вероятность обращения алгоритма сэмплинга к большим кластерам будет меньше, чем к малым.

Кластерный сэмплинг делят на три вида: одноэтапный, двухэтапный и многоэтапный.

Одноэтапный или простой кластерный сэмплинг формирует кластеры и извлекает из них случайным образом требуемое количество объектов (фиксированное, или пропорциональное размеру кластера).

Рисунок 4. Одноэтапный кластерный сэмплинг

В двухэтапном методе кластеры сами становятся единицей выборки: сначала производится случайный сэмплинг кластеров (например, регионов, городов, отраслей), а затем уже сэмплинг из самих кластеров.

Рисунок 5. Двухэтапный кластерный сэмплинг

И, наконец, в многоэтапном кластерном сэмплинге создаются сложные, иерархические кластерные структуры с многоэтапной последовательностью извлечения объектов из них. Цель многоэтапной выборки — снижение издержек формирования выборки за счёт создания системы отсеивания лишних наблюдений.

Основное приложение кластерного сэмплинга — снижение издержек социальных или маркетинговых исследований в территориально распределённых структурах (поэтому кластерный сэмплинг иногда называют географическим, территориальным или районированным).

Систематический сэмплинг — вид случайного сэмплинга, в котором объекты совокупности выбираются последовательно через случайно определяемый интервал h.

Случайным образом выбирается число h, на которое алгоритм смещается по списку элементов (начиная от 1-го) совокупности и выбирается элемент, определяемый смещением. Затем снова случайно выбирается смещение (отсчитывается от выбранного элемента) и снова выбирается элемент.

Рисунок 6. Систематический сэмплинг

Процедура продолжается до тех пор, пока не будет отобрано заданное количество элементов, или достигнут конец совокупности. При этом для всех элементов выборки вероятность отбора устанавливается одинаковой.

Этот метод даёт хороший результат только если исходная совокупность однородная. Если же в ней содержатся какие-либо циклические зависимости, которые могут синхронизироваться с интервалом $h$ , то выборка может получиться нерепрезентативной. Чтобы снизить вероятность такого исхода, возможно случайное перемешивание набора данных, из которого производится выборка.

Серийный (гнездовой) сэмплинг. Серийной (гнездовой) называется выборка, в процессе формирования которой производится случайный отбор однородных, по отношению к изучаемым признакам, серий или групп объектов, с последующим сплошным наблюдением всех единиц, составляющих отобранные серии (группы, гнезда).

Серийный сэмплинг широко применяется в статистике населения, где гнездами (сериями) являются региональные образования, извлекаемые на случайной основе из всех совокупностей регионов. При этом если обследуются близкие гнезда (или серии), то материальные и финансовые затраты, как правило, значительно сокращаются.

Детерминированный сэмплинг

Квотный сэмплинг. Квотный сэмплинг представляет собой детерминированную версию группового, где исходная совокупность также разделяется на непересекающиеся подмножества. Затем выбор объектов производится из каждого подмножества в соответствии с определённой пропорцией (квотой), например 100 мужчин и 200 женщин в возрасте от 30 до 40 лет. Отсутствие вероятностной основы делает выборку ненадёжной.

Квотный сэмплинг рекомендуется использовать, когда время и бюджет исследования ограничены, основа выборки недоступна, а точность не критична.

Удобный сэмплинг. Удобный сэмплинг — это разновидность детерминированного, где производится отбор наблюдений, которые являются наиболее доступными, даже если при этом страдает репрезентативность выборки. Подход соответствует известной шутке о поиске пропажи не там, где она была потеряна, а под фонарём, где светло.

Примером удобного сэмплинга в маркетинге может быть ситуация, когда организуется опрос не тех клиентов, мнение которых наиболее интересно, а тех, которые подвернулись под руку. Выборки, полученные таким способом, не могу быть использованы для научно обоснованных выводов и обобщения свойств выборки на свойства всей совокупности. Основной мотивацией к использованию удобных выборок является экономия времени и средств.

Тем не менее удобные выборки могут использоваться на первоначальных этапах анализа в условиях неопределённости, когда какие-либо правила и критерии отбора ещё неизвестны. Кроме этого репрезентативность удобной выборки может быть повышена за счёт специальной организации исследования. Например, опрос клиентов супермаркета может производится в различное время и в разные дни недели, что позволит охватит несколько категорий клиентов.

Преимущество удобной выборки:

высокая скорость получения данных;
простота реализации;
доступность данных;
низкие затраты.

Основным недостатком является отсутствие репрезентативности выборки.

Панельный сэмплинг. Разновидность случайного сэмплинга, в процессе которого выборка формируется несколько раз с определённым временным интервалом. Каждый период формирования панельной выборки называется «волна». Целью является отслеживание изменения бизнес-процессов во времени.

Сэмплинг снежного кома. Сэмплинг снежного кома — вариант детерминированного сэмплинга, в котором сначала формируется небольшое начальное множество объектов. Затем к нему добавляются новые объекты, каким-либо образом связанные с начальными. Затем включаются объекты, связанные с добавленными, и процесс разрастания выборки происходит подобно снежному кому.

Например, в процессе опроса клиентов сначала формируется небольшая группа опрашиваемых, которые распространяют анкеты своим знакомым через социальные сети и иные коммуникации. Те, в свою очередь, передают своим знакомым и т.д. Поэтому сэмплинг снежного кома часто называют выборкой, управляемой респондентами.

Рисунок 7. Сэмплинг снежного кома

Данная технология хорошо себя зарекомендовала в условиях когда значительная часть объектов исходной совокупности скрыта, и доступ к ним можно получить только через наблюдаемые объекты.

Основная область применения выборки снежного кома — социальные и маркетинговые исследования. Преимущества технологии заключается в следующем:

экономичность — сбор данных в основном производится клиентами;
репрезентативность — на контакт с родственниками и знакомыми идут люди, которые не пошли бы на контакт с профессиональным интервьюером или не откликнулись бы на рассылку анкет;
метод прост в планировании и реализации.

Недостатками метода являются:

неустойчивость — одна и та же процедура формирования выборки может дать разные результаты;
объем выборки заранее неизвестен;
отсутствие контроля за процессом сэмлинга.

Последовательный сэмплинг. Главной особенностью данного метода является то, что объекты в выборке содержатся в той же последовательности (прямой или обратной), что и в исходной совокупности. Для этого задаётся число объектов, подлежащих отбору, и положение объекта с которого следует начать отбор.

Рисунок 8. Последовательный сэмплинг

Последовательный сэмплинг применяется в случаях, когда последовательность объектов имеет значение для решаемой задачи анализа, поскольку сохраняет её в выборке. Например, при анализе временных рядов, когда в выборку нужно отобрать заданное количество последовательных элементов ряда.

Преимуществом метода является простота реализации, а недостатком — отсутствие репрезентативности выборки.

Сэмплинг со смещением. Известен также как ресэмплинг или передискретизация. Позволяет увеличивать или уменьшать в выборке долю наблюдений с заданным значением одного из признаков, осуществляя тем самым смещение распределения значений признака.

Параметром алгоритма является коэффициент $N$ , который определяет во сколько раз нужно увеличить в выборке число наблюдений с заданным значением признака. Например, если изначально число клиентов со значением признака «Возраст» равным 30 в выборке составляло 10, то после применения алгоритма сэмплинга со смещением оно составит 50.

Преимуществом алгоритма является возможность изменения распределения значений признаков в выборке, в частности для борьбы с её несбалансированностью. Недостаток — не обеспечивает репрезентативность выборки.

Особенности применения сэмплинга

Кроме выбора собственно метода сэмплинга, который наилучшим образом подходит к решаемой задаче и используемым данным, аналитику требуется принять решение о некоторых особенностях его применения. Обычно это связано с выбором, будет ли реализован сэмплинг с возвратом или без, а также определить размер полученной выборки.

Сэмплинг с возвратом (заменой) — это методика построения выборок, при которой каждый объект исходной совокупности может быть выбран более, чем один раз. Т.е. предполагается что отбираемый объект не перемещается, а копируется в выборку, оставаясь в исходной совокупности.

Сэмплинг без возврата (замены) предполагает, что каждый объект совокупности может быть выбран только один раз. Т.е. объект перемещается из исходной совокупности в выборку.

Сэмплинг с возвратом используется в том случае, если количество уникальных объектов совокупности недостаточно для формирования выборки требуемого объема, что компенсируется возможностью многократного выбора объектов. Недостатком подхода является появление в выборке дубликатов. Таким образом, сэмплинг с заменой позволяет увеличить объем выборки, но не её репрезентативность.

Определение объёма выборки. Определение числа объектов, из которого будет состоять выборка, является важным элементом любого эмпирического исследования в статистике или анализе данных, по результатам которого должны быть сделаны вывод о свойствах совокупности на основе свойств выборки.

На практике объём выборки обычно определяется на основе затрат, времени или удобства сбора данных, а также необходимости достижения необходимой репрезентативности и полноты.

В заключении следует отметить, что несмотря на общепринятую схему классификации, которая наиболее часто приводится в литературе, методология сэмплинга не имеет чётких границ. Вообще говоря, к сэмплингу можно отнести любой метод отбора данных, который формирует выборки, с помощью которых пользователь может решать свои задачи. Например, в сэмплинге могут использоваться алгоритмы фильтрации строк.

При этом достижение репрезентативности, полноты и точности выборки не является приоритетным. Главное, чтобы она была полезной для решения практической задачи. Вопрос только в корректности построенных с её помощью моделей, сделанных выводах и обобщениях.

Другие материалы по теме:

Алгоритмы кластеризации на службе Data Mining

Loginom Community Edition - аналитика, доступная каждому

Орешков Вячеслав

Рязанский государственный радиотехнический университет, Доцент кафедры САПР ВС

Профиль