Рынок в цифрах • E-commerce как рынок данных

Рынок E-commerce

рынок данных и контента

Мы привыкли измерять e-commerce в заказах и выручке. Но за каждым заказом стоит инфраструктура: характеристики, описания, изображения, форматы, переводы и бесконечные согласования. Эта страница фиксирует масштаб рынка в цифрах и процессах.

Ключевые метрики
порядка
28 млн+
интернет-магазинов в мире
14 млн
из них в США
350–600 млн
SKU у лидеров рынка
15–25%
потерь из-за некорректных данных
Один SKU трансформируется в десятки версий данных: для разных каналов продаж, языков, форматов и требований конкретных площадок.
Навигация по странице
Цифры — это оценки порядка величин. Они могут варьироваться в зависимости от рынка, но общая картина остается неизменной.

Как пользоваться этим материалом

Эта статья намеренно сделана подробной. Мы не сводим материал к «нескольким тезисам», поскольку масштаб проблемы раскрывается только через комбинацию числовых данных, цепочек процессов и операционных эффектов.

Мы не будем рассказывать о том, как работают наши решения и технологии — для этого есть другие разделы. Здесь мы сосредоточимся на фундаментальных вещах: как устроен рынок данных сегодня и почему в текущем виде он перестает масштабироваться.

Подход
Цифры и процессы

Не «мнение», а объективная механика рынка.

Фокус
Контентная логистика

Где именно теряется время и где происходят утечки данных.

Итог
Оценка масштаба проблемы

Почему это системная, а не локальная задача.

В ближайшие годы стоимость вывода товара в онлайн сравняется, а затем и превысит стоимость его физической доставки. Логистика оптимизировалась десятилетиями, а логистика контента до сих пор остается ручной и фрагментированной.
Раздел 1

Масштаб рынка данных

Сколько участников вовлечено

В мире работает около 28 млн интернет-магазинов. Из них около 14 млн — в США, а в Европе — несколько миллионов (например, Великобритания ≈ 1,1 млн, Германия ≈ 0,7 млн, Франция ≈ 0,6 млн).

Помимо розничной торговли, в цепочки e-commerce вовлечены миллионы производителей и поставщиков. Только в Европе — около 2,3 млн производственных компаний, которые потенциально поставляют товарные данные.

Мир
≈ 28 млн
сайтов e-commerce
США
≈ 14 млн
около 50% мирового рынка
Европа
миллионы
UK 1,1 / DE 0,7 / FR 0,6
Инфографика: распределение магазинов по регионам (приблизительно)
масштаб условен
США
≈ 14 млн
Европа
≈ 5–7 млн
Остальной мир
≈ 7–9 млн
*Распределение по Европе и остальному миру — это приблизительная оценка, так как разные источники агрегируют данные о сайтах по-разному.
Ключевой эффект масштабирования
1 SKU → десятки версий данных

Даже если физически товар один и тот же, в цифровом виде он размножается: появляются разные версии для каналов продаж, разные требования витрин, языки и форматы.

Инфографика: формула
1 SKU × 5–10 каналов × 5–20 языков
= 25–200+ версий
Один и тот же товар в цифровом виде дублируется десятки раз. Один SKU переписывается и перекодируется на каждом этапе цепочки, вместо того чтобы один раз стать надёжным источником данных.
Количество SKU и карточек
Тип участника Стандартный каталог
Малый бизнес 100–1 000 SKU
Средний ритейлер 10 000–100 000 SKU
Крупные ритейлеры 100 000–500 000 SKU
Маркетплейсы сотни миллионов SKU
У крупнейших площадок масштабы иные: 350–600 млн SKU у лидеров рынка.

Сколько единиц информации существует

Если учитывать языки, форматы и каналы (сайт, маркетплейсы, реклама, фиды), то количество уникальных единиц товарной информации (SKU × язык × формат × канал) исчисляется сотнями миллиардов фрагментов данных.

Для ориентира: открытые каталоги вроде Icecat содержат 25+ млн даташитов на 77 языках — это иллюстрация масштаба многоязычных версий.

Инфографика: множители сложности
SKU база
Языки 5–20
Каналы сбыта 5–10
Форматы / Требования масштабно
Итог: 25–200+ версий данных на один SKU (порядок величин).
До 80% товарного контента в e-commerce до сих пор передается через Excel и аналогичные форматы. В эпоху API, облачных решений и ИИ рынок опирается на практики 1990-х: ручное копирование, ошибки и потери данных на каждом этапе.
Блок 2

Путь контента

Точки потери данных

Товарная информация редко поступает напрямую от производителя к конечному покупателю. Типичная цепочка: производитель → дистрибьютор → поставщик → магазин → CMS → отдел маркетинга.

На каждом этапе данные трансформируются, форматы меняются, часть информации отбрасывается, а часть переписывается вручную. Если производитель задал около 20 характеристик, до витрины часто доходит всего 10–15.

Инфографика: потери в цепочке поставок
Производитель
100%
Дистрибьютор
80–90%
Поставщик
70–80%
CMS
50–70%
Маркетинг
40–60%
Итог: один и тот же товар часто переписывается вручную 3–5 раз разными участниками цепочки.
Что происходит на каждом этапе
Производитель

Создает исходные данные: характеристики, артикулы, изображения. Часто — данные на одном языке и по внутренним стандартам.

Дистрибьютор / Поставщик

Конвертирует данные под свои шаблоны, добавляет поля (остатки/артикулы), теряет маркетинговые детали, искажает формат.

Магазин / CMS

Импортирует в свою структуру, добавляет SEO и категории. Ручная работа приводит к опечаткам, пропускам и расхождениям.

Каналы / Маркетплейсы

Требуют отдельных фидов и ограничений по формату. Любое расхождение ведет к отклонению товара или ошибкам в канале.

Рынок давно автоматизировал платежи и логистику, но до сих пор не автоматизировал управление данными. Платежи и складская логистика работают как отлаженная индустрия, а управление товарным контентом — как ручное ремесло.
Инфографика: где «теряется» смысл
Несовместимость форматов высоко
Ручная корректировка высоко
Потери при передаче на каналы Средний
Качественный аудит: выявление наиболее частых ошибок и пропусков.
Раздел 3

Стоимость контент-процесса

Ручная работа

В массовом e-commerce обработка одной карточки без автоматизации обычно занимает 5–20 минут, а прямая себестоимость находится в диапазоне $1–5. Существуют и более сложные категории, но этот диапазон типичен для основного потока данных.

Сценарий A
5 мин
$1 / SKU
Сценарий B
10 мин
$3 / SKU
Сценарий C
20 мин
$5 / SKU
Инфографика: что означают 1000 SKU
A: 5 мин
≈ 83 часа
≈ $1 000
B: 10 мин
≈ 167 часов
≈ $3 000
C: 20 мин
≈ 333 часа
≈ $5 000
И это только первичная обработка. Обновления повторяют эти затраты снова и снова.
Ещё один масштаб: ручная сверка данных
Для малого бизнеса типично 8–12 часов ручной работы в неделю на сверку и исправление данных. Это эквивалентно $10 000–18 000 прямых затрат времени в год.
Накладные расходы на публикацию товара становятся сопоставимы с расходами на логистику. Там, где логистика товарных поставок оптимизирована, логистика контента часто остаётся ручной и неконтролируемой.
Цена некачественных данных

Низкое качество данных приводит к измеримым потерям: до 15–25% выручки теряется из-за контента; до 25% возвратов связаны с несоответствием ожиданий покупателей.

Неэффективный поиск8–12%
Возвраты и расхождения5–8%
Ошибки в данных и наличии товара5–7%
Полосы — условная визуализация долей в общих потерях.
Что «съедает» время
Сбор данных
файлы / письма
Нормализация
форматы / единицы
Качество
проверки / правки
Каналы
фиды / правила
Каждый участник рынка сегодня сам себе и «электростанция», и «электросеть». В зрелых индустриях существуют отдельные провайдеры инфраструктуры. В сфере товарного контента для e-commerce такого слоя почти нет — поэтому каждый вынужден делать всё самостоятельно.
Раздел 4

Малый бизнес и крупные игроки

Одна проблема — разные возможности

Крупные компании могут диктовать форматы поставщикам и инвестировать в собственную инфраструктуру. Малый и средний бизнес чаще вынужден подстраиваться под входящие данные и ограничивать ассортимент из-за неспособности обработать контент.

Крупные игроки
  • диктуют требования поставщикам
  • инвестируют в PIM и интеграции
  • содержат команды по качеству данных
  • компенсируют ошибки за счет масштаба
Малый / средний бизнес
  • обрабатывает форматы поставщиков
  • не располагает бюджетом на инфраструктуру
  • сокращает ассортимент из-за проблем с контентом
  • публикует неполные карточки «как есть» (без обработки)
Контент становится невидимым барьером для роста: не хватает ресурсов — каталог не расширяется.
Инфографика: где доминирует формат
Крупный бизнес
требуют стандартизации
Малый бизнес
адаптируются под входящие данные
В цифровой экономике масштаб бизнеса всё чаще определяется масштабом данных. Если каталог нельзя быстро и качественно публиковать, рост ограничивается не спросом, а операционными возможностями.
Раздел 5

Поставщики как системное узкое место

Поставщик — исходная точка контента

Поставщики и производители — это первоисточник товарной информации: характеристики, артикулы, изображения, данные об упаковке, сертификаты и технические описания. Однако наличие данных не означает их готовность к использованию рынком: информация редко бывает изначально структурирована так, чтобы без потерь пройти весь путь до витрины.

В логистике существуют стандарты и четкие роли (перевозчик, склад, фулфилмент-оператор). В товарных данных часто отсутствуют как стандарты, так и роль «оператора сети»: поставщик вынужден одновременно выступать и производителем данных, и их интегратором — при отсутствии необходимой инфраструктуры.

Ключевая причина

Разнообразие форматов и точек достоверности

Для одного и того же ассортимента у поставщика часто существует несколько параллельных источников: часть данных находится в ERP, часть — в таблицах, часть — в PDF, а часть — в переписке и согласованиях. Для ритейла это оборачивается постоянным «дособиранием», валидацией и ручными правками.

Инфографика: Источники данных поставщика
Системы
ERP / Склад / Прайс-листы

Артикулы, остатки, информация об упаковке, часть атрибутов.

Файлы
Excel / CSV

Шаблоны для конкретных клиентов, ручные корректировки.

Документы
PDF / Каталоги

Маркетинговые описания и технические спецификации.

Коммуникации
Email / Мессенджеры

Уточнения, недостающие изображения, исключения.

Нестандартизированные атрибуты

Поставщики, как правило, не приводят свои данные к единому словарю характеристик рынка. Они предоставляют то, что имеют: собственные названия полей, разные единицы измерения, разную степень детализации. В результате «приведение к стандарту» фактически ложится на плечи ритейлера или маркетплейса.

Единое значение Как представлено в исходных данных Действия ритейлера
Цвет Color / Colour / Col / Цвет / Оттенок Сопоставляет, нормализует
Размер Размер / Габариты Приводит единицы измерения и формат
Материал Материал / Состав Создает справочники значений
Повторяемость: тысячи компаний параллельно выполняют одну и ту же нормализацию — и платят за это снова и снова.

Один поставщик — до 5–10 форматов

На практике поставщик, работающий с большим числом партнёров, вынужден поддерживать до 5–10 различных шаблонов и систем атрибутов. Вскоре стоимость поддержки начинает расти быстрее, чем выгода — и поставщик либо снижает качество, либо передает работу посредникам, теряя контроль.

≈ до 5
Ещё работает

Ручная поддержка и редкие обновления.

≈ 5–10
Зона перегруза

Риск ошибок и рассинхрона растёт.

≈ 10+
Срыв масштабирования

Появляются посредники и потери контроля.

Почему поставщик не может «адаптироваться под всех»

Причины обычно кроются не в «нежелании», а в экономике процесса: поддержка множества форматов превращается в отдельный продукт. Ниже приведены типовые ограничения.

Данные разбросаны по разным источникам

ERP, прайс-листы, файлы, каталоги и переписка редко сведены в единую структуру — «единый источник правды» отсутствует.

Избыточное количество исключений для разных категорий

Разные категории требуют разной детализации и набора атрибутов; универсального шаблона «для всего» не существует.

Ограниченность IT-ресурсов и смена приоритетов

Для многих поставщиков работа с контентом — второстепенный процесс по сравнению с производством и продажами, поэтому он не получает системных инвестиций.

Рост числа каналов сбыта увеличивает стоимость обновлений

Каждое обновление превращается в цепочку рассылок и ручных правок в разных форматах; рассинхронизация данных становится нормой.

Инфографика: деградация данных при передаче

От исходных данных к витрине — через потери и дублирование

Поставщик передает данные «как есть»
Уникальные поля, собственные единицы измерения, версии, не всегда полная структура данных.
Ритейлер выполняет ручную обработку
Сопоставление атрибутов, нормализация данных, контроль качества контента.
Каналы сбыта требуют специфические форматы
Ограничения фидов и каналов порождают дублирующиеся версии контента.
Итог: рынок тратит ресурсы на обработку одних и тех же данных многократно
Теряется консистентность, работа дублируется, а обновления запускают цикл обработки заново.

Резюме по проблеме

Контент от поставщиков — это «сырьё» для e-commerce. Рынок часто обращается с ним как с готовым продуктом, хотя между этим сырьём и витриной лежит целый слой трансформации: работа со словарями, нормализация, локализация, контроль качества и регулярные обновления.

Пока этот слой не выделен в отдельную инфраструктуру, каждый участник рынка вынужден создавать его самостоятельно, что не позволяет решить проблему системно.

Поставщик не «виноват» в этом хаосе. У него нет стимула становиться интегратором для всего рынка. Но рынок системно требует от него именно этого.
Кто контролирует формат
Крупные ритейлеры требуют единый стандарт
Небольшие магазины принимают то, что есть
Асимметрия форматов усугубляет разрыв в качестве данных между сегментами рынка.
В цифрах
Вариаций на SKU 25–200+
Копирования по цепочке 3–5
Потери из-за некорректных данных 15–25%
Требования рынка
  • нейтральный слой для трансформации данных
  • единые словари атрибутов и единиц измерения
  • автоматизация обновлений и контроля качества данных
Заключение

Что говорят эти цифры

1) Контент — это логистика, но без отраслевой стандартизации

В сфере e-commerce давно автоматизированы процессы работы с деньгами и доставкой. Однако товарные данные по-прежнему перемещаются вручную, фрагментарно и с потерями — в десятках версий и форматов.

2) Проблема носит системный характер, и ее невозможно решить «внутри одной компании»

Каждый участник вынужден выстраивать собственный слой трансформации данных: сопоставление атрибутов, нормализация, контроль качества, локализация, управление фидами. Но это не масштабируется на уровне рынка — работа дублируется у тысяч компаний одновременно.

3) Усиливается разрыв между крупными игроками и малым бизнесом

Крупные игроки могут диктовать формат поставщикам и инвестировать в собственную инфраструктуру. Малые же часто вынуждены публиковать данные «как есть», сокращать ассортимент и терять эффективность из-за невозможности обработать весь поток контента.

Предпосылки создания NotPIM Мы рассматриваем эту проблему как инфраструктурную: рынку необходим нейтральный слой, который минимизирует дублирование, снижает потери данных и автоматизирует контент-логистику без попытки «переломать рынок под себя». Это не «ещё одна витрина» и не «ещё один формат», а способ связывать участников рынка на уровне данных.
Ключевая идея
Рынку необходима инфраструктура данных — точно так же, как ему необходима логистическая инфраструктура.

Именно поэтому точечные решения не обеспечивают эффект масштаба, в отличие от подхода, основанного на экосистеме.

Прозрачность

Все представленные значения являются оценочными порядками величин и типовыми диапазонами для международного рынка. Они могут варьироваться в зависимости от страны и категории, однако общая механика рынка (дублирование данных, потери, ручной труд) остается неизменной.

Данные и оценки на этой странице актуальны по состоянию на декабрь 2025 года.