Сэмплинг представляет собой процесс отбора единиц наблюдения из генеральной совокупности с целью формирования выборки, изучение структурных и статистических свойств которой позволит с определённой достоверностью сделать вывод о характеристиках всей совокупности. В статье разбираем подробнее методы и алгоритмы сэмплинга.
Сэмплинг (или семплинг) является важнейшим этапом процесса анализа данных, и от того насколько эффективно и правильно он будет выполнен, зависит значимость и корректность полученных результатов анализа. Изначально методология сэмплинга зародилась и развивалась в рамках математической и прикладной статистики. Однако с появлением машинного обучения сэмплинг стал механизмом формирования обучающих, тестовых и валидационных выборок, используемых при построении обучаемых моделей.
Замечание. Русскоязычным аналогом слова сэмплинг, как известно, является понятие «выборка». Однако здесь возникает неоднозначность: в русском языке выборка может пониматься как выбранное подмножество данных (sample), так и сам процесс его формирования (sampling). Поэтому в дальнейшем для обозначения собственно процесса отбора данных мы будем использовать транслит «сэмплинг», а для обозначения полученного подмножества данных будем использовать слово «выборка».
Следует отметить, что для статистики и анализа данных вообще, определение сэмплинга может несколько различаться. Для статистики оно выглядит следующим образом: сэмплинг представляет собой процесс отбора единиц наблюдения из генеральной совокупности с целью формирования выборки, изучение структурных и статистических свойств которой позволит с определённой достоверностью сделать вывод о характеристиках всей совокупности.
Данное определение вытекает из метода статистического выборочного анализа, задачей которого является оценивание на основе выборочных данных закона распределения всей генеральной совокупности, а также его параметров (например, математического ожидания, стандартного отклонения и т.д.), что необходимо для корректного применения к данным различных статистических методов исследования.
Фундаментальной проблемой выборочных методов исследования является то, что выборки в большинстве случаев являются смещёнными. Смещение выборки — это нарушение пропорции представленных в ней групп объектов относительно генеральной совокупности. Оно приводит к ошибке выборки — разности между значениями статистических характеристик, оцененных по выборке и по генеральной совокупности. Величина ошибки выборки определяет её точность.
Поэтому, при выборочном анализе используются специальные статистические критерии для проверки гипотез о значимости различий оценок, на основе которых делается вывод о том, можно ли применять выборочные оценки ко всей генеральной совокупности.
Закономерным является вопрос: почему вместо генеральной совокупности приходится исследовать выборку? Дело в том, что генеральная совокупность — это множество всех объектов (единиц наблюдения) предметной области, относительно которых предполагается обнаруживать закономерности и делать выводы при решении конкретной задачи. Элементами генеральной совокупности являются все объекты, свойства и характеристики которых могут интересовать аналитика. Поэтому использование в анализе выборок обусловлено следующими причинами:
Тем не менее, бывают ситуации, когда возможно и даже необходимо использовать всю генеральную совокупность, если количество её элементов ограничено и все они доступны для исследования (например, сотрудники или клиенты небольшой компании).
В машинном обучении большинство моделей является непараметрическими, т.е. не используют гипотезы относительно статистического распределения исходных данных и не требуют оценки их параметров. Но в них тоже используется сэмплинг, а сам процесс обучения в большинстве случаев тоже производится на основе обучающих выборок. В этом случае выборка должна отражать зависимости в исходных данных, а обученная с её помощью модель — обобщать на всю совокупность.
Несмотря на несколько разную трактовку выборочного исследования для статистики и машинного обучения, в обоих случаях процедура сэмплинга должна обеспечить два фундаментальных свойства выборки — репрезентативность и полноту. Репрезентативность — это способность выборки отражать зависимости и закономерности совокупности из которой она была излечена. Полнота — означает, что выборка должна содержать достаточное количество наблюдений (примеров) для построения аналитической модели, обладающей обобщающей способностью.
Следует отметить, что полнота и репрезентативность, вообще говоря не связаны друг с другом. Действительно, выборка может содержать очень большое количество наблюдений, и при этом быть нерепрезентативной. Напротив, выборка может быть репрезентативной и отражать все возможные ситуации предметной области, но при этом её объем окажется недостаточным для построения модели. Поэтому в настоящее время разработано много различных алгоритмов и методов сэмплинга, правильный выбор и использование которых позволит сформировать репрезентативные и полные выборки при решении конкретных задач.
Какой-либо универсальной, подходящей для всех задач анализа, последовательности действий при реализации процесса сэмплинга, вообще говоря, указать нельзя. Но наиболее типичной является следующая последовательность шагов.
Общепринятая классификация методов сэмплинга представлена на рис. 2.
Все методы сэмплинга делятся на две группы — детерминированные и вероятностные (probability sampling) или случайные (random sampling). В детерминированных методах процесс формирования выборки производится в соответствии с формально заданными правилами и ограничениями. Например «выбрать всех мужчин в возрасте от 30 до 40 лет». Тогда все объекты, удовлетворяющие правилу будут помещены в выборку обязательно. В вероятностных методах для каждого объекта определяется вероятность, с которой он может быть взят в выборку.
Результатом случайного сэмплинга являются так называемые вероятностные выборки, в которые каждый элемент совокупности может быть извлечён с некоторой ненулевой вероятностью, которая для каждого элемента определяется алгоритмом сэмплинга. Преимущество случайного сэмплинга в том, что при правильной его организации он обеспечивает репрезентативность выборки.
Случайный сэмплинг имеет три разновидности: простой, стратифицированный и групповой.
Простой случайный сэмплинг (Simple Random Sampling — SRS). В этом методе каждый объект генеральной совокупности имеет равную вероятность быть отобранным в выборку. При этом объекты выбираются из основы выборки произвольным образом и независимо друг от дуга. SRS является самым простым из методов случайного сэмплинга. При этом он может являться частью некоторой более сложной процедуры формирования выборки.
Простейшим способом реализации SRS является следующая последовательность действий:
SRS может производится с возвратом или без возврата. В первом случае каждый объект основы выборки может быть извлечён один раз, а во втором может извлекаться повторно. Выборка с возвратом используется, например, для небольшой основы выборки, если количество объектов в ней недостаточно для формирования обучающего множества достаточного объема.
В выборке при этом может произойти клонирование примеров, т.е. появление дубликатов. Однако если исходная совокупность большая, то выборка с возвратом практически не приводит к повторному выбору объектов, поскольку вероятность извлечения двух одинаковых объектов очень мала.
Преимуществами SRS являются:
В настоящее время существует несколько алгоритмов реализации SRS.
Наивный алгоритм. Каждому элементу совокупности устанавливается вероятность быть выбранным 1/N. Затем, выполняется N операций извлечения из совокупности в выборку.
Алгоритм случайной сортировки. Генерируется последовательность чисел из равномерного распределения (0..1) и последовательно присваиваются элементам совокупности в качестве ключа. Затем объекты упорядочиваются по порядку возрастания ключа и из полученного списка выбирается N первых объектов.
Резервуарный алгоритм (reservoir sampling, R-sampling). Используется для формирования простой случайной выборки без замены из k элементов совокупности неизвестного размера N за один проход. Размер совокупности неизвестен алгоритму и обычно слишком велик, чтобы все N элементов поместились в оперативную память.
Алгоритм формирует подмножество из k элементов совокупности, называемое резервуаром. Изначально в него помещаются k первых элементов. Затем элементы перебираются последовательно до тех пор пока не будет достигнут конец ввода. При этом для каждого элемента задаётся индекс i>k. Затем алгоритм генерирует случайное число j, такое, что 1<j<i.
Если j <=k, то элемент выбирается и заменяет собой элемент, который в данный момент занимает j-ю позицию в резервуаре. В противном случае, элемент отбрасывается. Иными словами i-й элемент выбирается в резервуар с вероятностью k/i. Преимущество алгоритма в том, что не требуется знать размер совокупности и он всегда использует один и тот же объём памяти. Недостаток — алгоритм работает достаточно медленно.
Стратифицированный сэмплинг (Stratified sampling). Стратификация — это процесс разделения исходной совокупности на несколько однородных групп (страт) перед процедурой сэмплинга. Тогда стратифицированным называется метод сэмплинга, при котором объекты из каждой страты извлекаются независимо.
Страты должны быть исчерпывающими (т.е. любой объект принадлежит какой-либо страте) и взаимоисключающими (каждый объект может принадлежат к одной и только одной страте). К каждой страте применяется процедура простого случайного сэмплинга.
Использование стратифицированного сэмплинга позволяет снизить ошибку выборки. Т.е. ошибку, которая возникает из-за того, что анализ производится не на основе всей совокупности, а только на основе выборки. Можно выделить две основные стратегии стратификации:
Пропорциональная. Формирует страты пропорционально доле соответствующих типов объектов в совокупности. Например, если совокупность состоит из n людей, из которых m мужчины и f женщины, то можно сформировать две страты, одна из которых содержит m/n мужчин и f/n женщин.
Непропорциональная. Размер каждой страты пропорционален как доле в исходной совокупности, так и стандартному отклонению значений распределения признака. Большие выборки берутся в стратах с наибольшей изменчивостью, чтобы получить наименьшую возможную общую дисперсию выборки.
Стратифицированный сэмплинг является наиболее эффективным если выполняются следующие условия:
Преимущества стратифицированного сэмплинга:
Недостатки стратифицированного сэмплинга:
Выборка с вероятностью, пропорциональной размеру (Sampling with Probability Proportional to Size — PSS). Иногда в исходной совокупности присутствует переменная, которая связана с признаком, по которому производится группировка. Такую переменную (её называют переменной размера) можно использовать для повышения точности выборки. Она определяет значимость объекта, от которой зависит вероятность его попадания в выборку.
Например, пусть требуется сформировать выборку клиентов для маркетингового опроса. При этом ожидается, что результаты опроса могут коррелировать с возрастом респондента. Тогда можно выбрать возраст в качестве переменной размера. Для этого разобьём всех клиентов на возрастные категории, скажем, 21-30 лет, 31-40, 41-50 и 51-60. Пусть в первую возрастную категорию попали 500 клиентов, во вторую 700, в третью 1000, а в последнюю 300 (всего 2500 клиентов). Тогда вероятность для клиента из соответствующей категории быть выбранным для опроса составит:
P_{i}=\frac{N_{i}}{N}
где N — общее число клиентов, N_i — число клиентов i-й категории. Т.е. для клиента второй возрастной категории эта вероятность составит P_i=700/2500=0,28.
Применение PSS-сэмплинга позволяет сделать выборку более целенаправленной, повысить в ней содержание объектов, которые в наибольшей степени влияют на результаты анализа.
Групповой (кластерный) случайный сэмплинг. Кластерным (групповым) называется разновидность случайного сэмплинга, который используется если в исходной совокупности можно выделить некоторые группы, например, по географическому признаку (страна, регион, город, район) или по категориям товаров, сотрудников и т.д. Следует отметить, что в отличие от задачи кластеризации, кластеры, используемые в сэмплинге могут содержать объекты, значительно различающиеся по значениям признаков. Например в одном городе могут быть клиенты с самым различным возрастом и доходом.
Затем из кластеров производится простая случайная выборка. При этом должны выполняться следующие условия:
На первый взгляд кластерная выборка похожа на стратифицированную: и в том, и в другом случае извлечение объектов производится из независимых частей исходной совокупности. Но страты (слои) представляют собой подмножества совокупности, сформированные по диапазонам значений некоторого признака, например, возраста клиента. Т.е. клиенты с близким возрастом (например от 30 до 40) окажутся в одной страте.
Кластеры же представляют собой однотипные группы, внутри которых содержатся разнородные объекты. Например, подразделения внутри одного большого предприятия. А в подразделениях могут работать сотрудники самых разных возрастных категорий, стажа и т.д.
При этом, если стратификация направлена на повышение точности выборки, то кластеризация, в основном, на снижение связанных с ней издержек. Что касается точности кластерной выборки, то для её достижения требуется больший объём данных, чем для простой случайной выборки.
Проблемой использования кластерный выборки является наличие кластеров разного размера. Чем больше дисбаланс размеров кластеров, тем выше ожидаемое смещение параметров совокупности, оцениваемых по выборке. Для компенсации данного эффекта используются различные подходы. Как вариант, можно зафиксировать долю выборки, которую составляют объекты, извлечённые из определённого кластера (например, 20%), что позволит сбалансировать представительность кластеров.
Другой способ — отойти от принципа равновероятности кластеров, когда вероятность обращения алгоритма сэмплинга к большим кластерам будет меньше, чем к малым.
Кластерный сэмплинг делят на три вида: одноэтапный, двухэтапный и многоэтапный.
Одноэтапный или простой кластерный сэмплинг формирует кластеры и извлекает из них случайным образом требуемое количество объектов (фиксированное, или пропорциональное размеру кластера).
В двухэтапном методе кластеры сами становятся единицей выборки: сначала производится случайный сэмплинг кластеров (например, регионов, городов, отраслей), а затем уже сэмплинг из самих кластеров.
И, наконец, в многоэтапном кластерном сэмплинге создаются сложные, иерархические кластерные структуры с многоэтапной последовательностью извлечения объектов из них. Цель многоэтапной выборки — снижение издержек формирования выборки за счёт создания системы отсеивания лишних наблюдений.
Основное приложение кластерного сэмплинга — снижение издержек социальных или маркетинговых исследований в территориально распределённых структурах (поэтому кластерный сэмплинг иногда называют географическим, территориальным или районированным).
Систематический сэмплинг — вид случайного сэмплинга, в котором объекты совокупности выбираются последовательно через случайно определяемый интервал h.
Случайным образом выбирается число h, на которое алгоритм смещается по списку элементов (начиная от 1-го) совокупности и выбирается элемент, определяемый смещением. Затем снова случайно выбирается смещение (отсчитывается от выбранного элемента) и снова выбирается элемент.
Процедура продолжается до тех пор, пока не будет отобрано заданное количество элементов, или достигнут конец совокупности. При этом для всех элементов выборки вероятность отбора устанавливается одинаковой.
Этот метод даёт хороший результат только если исходная совокупность однородная. Если же в ней содержатся какие-либо циклические зависимости, которые могут синхронизироваться с интервалом h, то выборка может получиться нерепрезентативной. Чтобы снизить вероятность такого исхода, возможно случайное перемешивание набора данных, из которого производится выборка.
Серийный (гнездовой) сэмплинг. Серийной (гнездовой) называется выборка, в процессе формирования которой производится случайный отбор однородных, по отношению к изучаемым признакам, серий или групп объектов, с последующим сплошным наблюдением всех единиц, составляющих отобранные серии (группы, гнезда).
Серийный сэмплинг широко применяется в статистике населения, где гнездами (сериями) являются региональные образования, извлекаемые на случайной основе из всех совокупностей регионов. При этом если обследуются близкие гнезда (или серии), то материальные и финансовые затраты, как правило, значительно сокращаются.
Квотный сэмплинг. Квотный сэмплинг представляет собой детерминированную версию группового, где исходная совокупность также разделяется на непересекающиеся подмножества. Затем выбор объектов производится из каждого подмножества в соответствии с определённой пропорцией (квотой), например 100 мужчин и 200 женщин в возрасте от 30 до 40 лет. Отсутствие вероятностной основы делает выборку ненадёжной.
Квотный сэмплинг рекомендуется использовать, когда время и бюджет исследования ограничены, основа выборки недоступна, а точность не критична.
Удобный сэмплинг. Удобный сэмплинг — это разновидность детерминированного, где производится отбор наблюдений, которые являются наиболее доступными, даже если при этом страдает репрезентативность выборки. Подход соответствует известной шутке о поиске пропажи не там, где она была потеряна, а под фонарём, где светло.
Примером удобного сэмплинга в маркетинге может быть ситуация, когда организуется опрос не тех клиентов, мнение которых наиболее интересно, а тех, которые подвернулись под руку. Выборки, полученные таким способом, не могу быть использованы для научно обоснованных выводов и обобщения свойств выборки на свойства всей совокупности. Основной мотивацией к использованию удобных выборок является экономия времени и средств.
Тем не менее удобные выборки могут использоваться на первоначальных этапах анализа в условиях неопределённости, когда какие-либо правила и критерии отбора ещё неизвестны. Кроме этого репрезентативность удобной выборки может быть повышена за счёт специальной организации исследования. Например, опрос клиентов супермаркета может производится в различное время и в разные дни недели, что позволит охватит несколько категорий клиентов.
Преимущество удобной выборки:
Основным недостатком является отсутствие репрезентативности выборки.
Панельный сэмплинг. Разновидность случайного сэмплинга, в процессе которого выборка формируется несколько раз с определённым временным интервалом. Каждый период формирования панельной выборки называется «волна». Целью является отслеживание изменения бизнес-процессов во времени.
Сэмплинг снежного кома. Сэмплинг снежного кома — вариант детерминированного сэмплинга, в котором сначала формируется небольшое начальное множество объектов. Затем к нему добавляются новые объекты, каким-либо образом связанные с начальными. Затем включаются объекты, связанные с добавленными, и процесс разрастания выборки происходит подобно снежному кому.
Например, в процессе опроса клиентов сначала формируется небольшая группа опрашиваемых, которые распространяют анкеты своим знакомым через социальные сети и иные коммуникации. Те, в свою очередь, передают своим знакомым и т.д. Поэтому сэмплинг снежного кома часто называют выборкой, управляемой респондентами.
Данная технология хорошо себя зарекомендовала в условиях когда значительная часть объектов исходной совокупности скрыта, и доступ к ним можно получить только через наблюдаемые объекты.
Основная область применения выборки снежного кома — социальные и маркетинговые исследования. Преимущества технологии заключается в следующем:
Недостатками метода являются:
Последовательный сэмплинг. Главной особенностью данного метода является то, что объекты в выборке содержатся в той же последовательности (прямой или обратной), что и в исходной совокупности. Для этого задаётся число объектов, подлежащих отбору, и положение объекта с которого следует начать отбор.
Последовательный сэмплинг применяется в случаях, когда последовательность объектов имеет значение для решаемой задачи анализа, поскольку сохраняет её в выборке. Например, при анализе временных рядов, когда в выборку нужно отобрать заданное количество последовательных элементов ряда.
Преимуществом метода является простота реализации, а недостатком — отсутствие репрезентативности выборки.
Сэмплинг со смещением. Известен также как ресэмплинг или передескретизация. Позволяет увеличивать или уменьшать в выборке долю наблюдений с заданным значением одного из признаков, осуществляя тем самым смещение распределения значений признака.
Параметром алгоритма является коэффициент N, который определяет во сколько раз нужно увеличить в выборке число наблюдений с заданным значением признака. Например, если изначально число клиентов со значением признака «Возраст» равным 30 в выборке составляло 10, то после применения алгоритма сэмплинга со смещением оно составит 50.
Преимуществом алгоритма является возможность изменения распределения значений признаков в выборке, в частности для борьбы с её несбалансированностью. Недостаток — не обеспечивает репрезентативность выборки.
Кроме выбора собственно метода сэмплинга, который наилучшим образом подходит к решаемой задаче и используемым данным, аналитику требуется принять решение о некоторых особенностях его применения. Обычно это связано с выбором, будет ли реализован сэмплинг с возвратом или без, а также определить размер полученной выборки.
Сэмплинг с возвратом (заменой) — это методика построения выборок, при которой каждый объект исходной совокупности может быть выбран более, чем один раз. Т.е. предполагается что отбираемый объект не перемещается, а копируется в выборку, оставаясь в исходной совокупности.
Сэмплинг без возврата (замены) предполагает, что каждый объект совокупности может быть выбран только один раз. Т.е. объект перемещается из исходной совокупности в выборку.
Сэмплинг с возвратом используется в том случае, если количество уникальных объектов совокупности недостаточно для формирования выборки требуемого объема, что компенсируется возможностью многократного выбора объектов. Недостатком подхода является появление в выборке дубликатов. Таким образом, сэмплинг с заменой позволяет увеличить объем выборки, но не её репрезентативность.
Определение объёма выборки. Определение числа объектов, из которого будет состоять выборка, является важным элементом любого эмпирического исследования в статистике или анализе данных, по результатам которого должны быть сделаны вывод о свойствах совокупности на основе свойств выборки.
На практике объём выборки обычно определяется на основе затрат, времени или удобства сбора данных, а также необходимости достижения необходимой репрезентативности и полноты.
В заключении следует отметить, что несмотря на общепринятую схему классификации, которая наиболее часто приводится в литературе, методология сэмплинга не имеет чётких границ. Вообще говоря, к сэмплингу можно отнести любой метод отбора данных, который формирует выборки, с помощью которых пользователь может решать свои задачи. Например, в сэмплинге могут использоваться алгоритмы фильтрации строк.
При этом достижение репрезентативности, полноты и точности выборки не является приоритетным. Главное, чтобы она была полезной для решения практической задачи. Вопрос только в корректности построенных с её помощью моделей, сделанных выводах и обобщениях.
Другие материалы по теме: