Вы когда -нибудь смотрели или слушали новости во время выборов и слышали упоминание о выборке или размере выборки при ссылке на опросы? Эти образцы по сути являются небольшой подмножеством избирателей, используемых для представления всего населения страны.
Отбор проб является важным аспектом науки о данных и используется повсюду. А потом есть повторная выборка.
Что это за вещи и почему они так важны? Давайте погрузимся и узнаем.
Что такое выборка?
В замечательном мире Python выборка — это процесс выбора подмножества точек данных из исходного набора данных для представления всего набора данных. Конечная цель отбора проб — уменьшить размер набора данных, сохраняя при этом его основные характеристики. Отбор проб широко используется в науке о данных, машинном обучении (ML) и статистике. Python предоставляет несколько методов и библиотек для отбора проб, включая методы случайной выборки.
Выборка является важным аспектом использования наборов данных при программировании и может быть выполнена с помощью одного из следующих методов:
- Равномерная случайная выборка: Выбор точек данных с равномерными интервалами
- Стратифицированная выборка: Разделение данных на подмножества (слои) и случайным образом выбирать из каждого подмножества
- Систематическая выборка: Выбор точек данных на основе фиксированного интервала или шаблона
При работе с большими наборами данных выборка становится еще более важной, потому что она может:
- Уменьшить вычислительную сложность.
- Повысить эффективность хранения.
- Облегчить анализ меньших наборов данных.
Образец имеет несколько приложений, которые охватывают несколько вариантов использования. Эти приложения включают в себя:
- Сокращение данных: При работе с массовыми наборами данных выборка может помочь уменьшить размер при сохранении основных характеристик набора данных.
- Обучение модели: В сфере ML выборка используется для создания новых наборов учебных данных для разработки и оценки моделей.
- Перегрев: Reversampling используется в некоторых алгоритмах ML, где из недопредставленных классов генерируется больше образцов для повышения производительности.
- Увеличение данных: Отбор проб может использоваться для методов увеличения данных в обработке изображения и речи для вращения, масштабирования или переворачивания изображений, а также для добавления шума в аудиосигналы.
- Обследования и исследования: Отбор проб имеет важное значение для опросов и исследований, где из целевой популяции выбирается репрезентативное подмножество участников.
Что такое повторная выборка?
В отличие от выборки, повторная выборка включает изменение размера или плотности набора данных путем интерполяции или экстраполирования точек данных между существующими значениями. Повторная выборка часто используется для улучшения интерполяции, улучшения снижения шума, снижения высокочастотных компонентов в данных, изменения частоты и сдвига или изменения частоты распределения набора данных.
Существуют разные методы повторной выборки, такие как:
- Линейная интерполяция: Оценка пропущенных значений между существующими точками.
- Полиномиальная регрессия: Использование полиномиальных уравнений для оценки пропущенных значений.
- На основе сплайна повторная выборка: Интерполяция данных с плавными кривыми.
Что касается того, как можно применять повторную выборку, рассмотрите этот список:
- Изменение размера изображения (Используя библиотеку подушек)
- Аудио повторная выборка (Используя библиотеку Scipy)
- Интерполяция данных (Используя Numpy)
- Временные ряды повторная выборка (Используя панды)
- Увеличение данных (Используя библиотеку Torch)
- Обработка сигнала (Используя библиотеку Scipy)
Ключевые различия между выборкой и повторной выборкой
Выборка
Переосмысление
Используется для разведки, моделирования или инженерии функций. Используется для увеличения данных, снижения шума или обработки сигналов. Не изменяет существующие значения. Может ввести новые оценки на основе интерполяции/экстраполяции. Обычно сохраняет статистические свойства и распределение. Может изменить статистические свойства и распределение. Включает в себя случайным образом выбор подмножества элементов из более крупного набора данных. Включает в себя оценку пропущенных значений путем интерполяции или экстраполяции (например, с использованием полиномиального соответствия) между существующими точками данных. Образцы не содержат интерполированных значений между существующими точками данных. Повторная выборка изменяет количество элементов в наборе данных, что может повлиять на его статистические свойства и распределение. Отбор проб сохраняет базовые статистические свойства и распределение исходных данных. Пересмотрение фиксирует основные закономерности и отношения в исходных данных. Когда использовать выборку против повторной выборки
Используйте выборку для:
- Изучение или исследование основного распределения, чтобы помочь понять характеристики исходного набора данных без изменения его статистических свойств.
- Создание данных обучения, проверка производительности модели и изучение различных сценариев.
- Создание новых функций из существующих, таких как преобразование категориальных переменных в числовые представления.
Используйте повторную выборку для:
- Расширение набора обучения путем создания дополнительных образцов с различными характеристиками.
- Изменение скорости дискретизации сигнала при сохранении его основных функций, таких как содержание частоты.
- Корректировка интервала выборки и создание новых оценок на основе прошлых наблюдений.
Как выполнить выборку и повторную выборку в Python
Вот пример отбора проб с Python, используя Pandas и Numpy:
импортировать Numpy как NP
импортировать панды как PD
# Создать большой массив случайных значений (например, 10 000 строк)
np.random.seed (42) # для обеспечения воспроизводимости результатов.
data = np.random.rand (10000)
# Конвертировать данные в DataFrame Pandas для отбора проб и анализа.
df = pd.dataframe (data, columns =[‘Value’])
# Выборка из более крупного набора данных с использованием случайных индексов
sample_indices = np.random.choice (df.index, размер = 20)
SAMPLED_DF = DF.LOC[ sample_indices ]
print (sampled_df.head ()) # Печать порции образцов, нарисованных методом print ().
Вот разбивка приведенного выше кода:
- Создайте данные массива, содержащие 10000 случайных значений от 0 до 1.
- Преобразовать данные в DataFrame Pandas (DF) для более легких манипуляций и анализа с использованием возможностей выборки, предоставляемых DataFrames.
- Случайно выберите индексы до указанного количества образцов (в этом примере были выбраны двадцать образцов).
- Используйте .loc[] Метод на DATAFRAME DF и VAMER_INDICES переменной в качестве аргументов для получения нового DataFrame (SAMPLED_DF), содержащего только отобранные элементы из исходных данных.
Вот пример повторной выборки с Python, используя Sklearn и Numpy:
импортировать Numpy как NP
от Sklearn.preprocessing Import Reasmer
# Создать большой массив случайных значений (например, 1000 строк)
np.random.seed (42) # для обеспечения воспроизводимости результатов.
data = np.linspace (-10, 30, 1000)
# Преобразование данных в DataFrame Pandas для повторной выборки и анализа
df = pd.dataframe (data, columns =[‘Value’])
# Повторный выбор с использованием интерполяции (например, ближайшие соседи или полиномиальные)
resampler = resample (method = ‘ближайший’, соотношение = 2) #, чтобы получить вдвое больше количества образцов
resampled_data = resampler.fit_transform (df)
print (resampled_data.head ()) # Печать часть повторного воспроизведения с помощью метода print ().
Разбивка приведенного выше кода выглядит следующим образом:
- Создайте массив данных, содержащий 1000 равномерно распределенных значений от -10 до 30.
- Преобразовать данные в DataFrame Pandas (DF) для более легких манипуляций и анализа, используя возможности интерполяции, предоставленные классом Resampler из библиотеки Scikit-Learn.
- Создать объект повторной выборки с Метод = к ближайший с соотношением 2, чтобы получить вдвое больше количества образцов.
- А fit_transform () функция требуется для повторных данных и объектов Resampler для повторного выбора данных.
Общие проблемы и лучшие практики
Есть несколько общих проблем, которые вы должны рассмотреть при использовании выборки и повторной выборки в Python. Во -первых, давайте посмотрим на выборку:
- Отбор проб может иногда привести к недостаточной или перенаправлению, где размер выборки слишком мал или слишком большой по сравнению с исходным набором данных.
- Если коэффициент отбора проб установлен слишком высоким, некоторые точки данных могут быть потеряны в процессе отбора проб, что может привести к смещенным результатам.
- Отбор проб может ввести случайность в ваш анализ, если не сделать тщательно.
Далее, давайте рассмотрим эти проблемы повторной выборки:
- При использовании методов интерполяции, таких как линейный или кубический сплайн, повторная дискретизация может потерять некоторую информацию и детали в точках данных, вызывая артефакты в повторных значениях, которые далеко от исходных.
- Повторная выборка может иногда привести к переплате, что может быть нежелательно, если вы хотите получить некоторый уровень шума или изменчивости в наборе данных.
- Методы интерполяции могут бороться при рассмотрении краевых случаев, таких как точки данных вблизи границ.
Предвзятость обработки при отборах и повторной выборке
Существует несколько стратегий для обработки смещения как при отборе проб, так и в повторной выборке, например:
- Рандомизируйте процесс отбора проб.
- Используйте стратифицированную выборку.
- Используйте методы перенаправления.
- Увеличение данных.
- Используйте регуляризацию.
Обеспечение представительных данных
Вот способы, которыми вы можете обеспечить репрезентативные данные:
- Используйте стратифицированную выборку, чтобы убедиться, что каждый класс или категория в наборе данных представлен пропорционально.
- PRESHAPE Данные в соответствии с классами, затем обратите внимание на них.
- Образец без замены, когда это возможно.
- Используйте методы увеличения данных, такие как вращение, переворот и масштабирование.
Избегая переосмысления с помощью надлежащей повторной выборки
- Вместо уменьшения размера выборки используйте методы перенаправления, такие как Smote или Randomoversampling, чтобы искусственно увеличить количество образцов класса меньшинств.
- Используйте методы недостаточной абоненты, такие как Tomeklinks или Editednearestneighbors, чтобы уменьшить количество образцов большинства классов, не теряя каких -либо точек данных.
- Применяйте случайные преобразования, такие как вращение, переворот и масштабирование, чтобы создать новые примеры обучения из существующих.
Заключение
Отбор проб и перемещение являются решающими понятиями в науке о данных, которые могут значительно повлиять на точность и надежность нашего анализа. Отбор выборки включает в себя выбор подмножества точек данных из исходного набора данных для представления всего набора данных, в то время как повторная выборка включает в себя изменение размера или плотности набора данных путем интерполяции или экстраполяции точек данных между существующими значениями.
Понимая ключевые различия между выборкой и повторной выборкой, включая их приложения, преимущества и ограничения, мы можем принимать обоснованные решения о том, когда использовать каждую технику. Отбор проб часто используется для разведки, моделирования и инженерии функций, в то время как повторная выборка используется для увеличения данных, снижения шума или обработки сигналов.
Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Джек Уоллен-это то, что происходит, когда генеральный разум с умом с современным Snark. Джек — искатель истины и писатель слов с квантовым механическим карандашом и разрозненным ударом звука и души. Хотя он проживает … читайте больше от Джека Валлена