Ринок у цифрах • e-commerce як ринок даних

Ринок e‑commerce

ринок даних та контенту

Ми звикли вимірювати e-commerce у замовленнях та виручці. Але за кожним замовленням стоїть інфраструктура: характеристики, описи, зображення, формати, переклади та нескінченні погодження. Ця сторінка фіксує масштаб ринку в цифрах і процесах.

Ключові масштаби
порядки величин
28 млн+
інтернет-магазинів у світі
14 млн
з них у США
350–600 млн
SKU у лідерів ринку
15–25%
втрат через дані
Один SKU перетворюється на десятки версій даних: канали продажів, мови, формати, вимоги майданчиків.
Навігація сторінкою
Дані — це оцінки порядку величин. Вони можуть відрізнятися на різних ринках, але загальна картина залишається сталою.

Як читати цю сторінку

Ця стаття навмисно деталізована. Ми не скорочуємо матеріал до «кількох тез», оскільки масштаб проблеми розкривається лише через поєднання цифр, ланцюжків та операційних ефектів.

Ми не описуємо, як влаштовані рішення та технології. Для цього є інші сторінки. Тут — підстави: як ринок даних влаштований сьогодні і чому в поточному вигляді він перестає масштабуватися.

Підхід
Цифри + процеси

Не «думка», а спостережувана механіка ринку.

Фокус
Контент-логістика

Де витрачається час і де губляться дані.

Результат
Розуміння масштабу

Чому це системне завдання, а не локальне.

У найближчі роки вартість публікації товару в онлайні зрівняється, а потім перевищить вартість його фізичної доставки. Логістику оптимізують десятиліттями, а контент-логістика досі залишається ручною та фрагментованою.
Розділ 1

Масштаб ринку даних

Скільки учасників залучено

У світі працює близько 28 млн інтернет-магазинів. З них близько 14 млн — у США, а в Європі — кілька мільйонів (наприклад, Велика Британія ≈ 1,1 млн, Німеччина ≈ 0,7 млн, Франція ≈ 0,6 млн).

Окрім роздрібної торгівлі, у ланцюжки e-commerce залучені мільйони виробників та постачальників. Тільки в Європі — близько 2,3 млн виробничих компаній, які потенційно постачають товарні дані.

Світ
≈ 28 млн
e-commerce сайтів
США
≈ 14 млн
близько 50% світу
Європа
мільйони
UK 1,1 / DE 0,7 / FR 0,6
Інфографіка: магазини за регіонами (приблизно)
масштаб умовний
США
≈ 14 млн
Європа
≈ 5–7 млн
Решта світу
≈ 7–9 млн
*Європа та решта світу — груба оцінка розподілу, оскільки різні джерела агрегують сайти по-різному.
Ключовий ефект масштабу
1 SKU → десятки версій даних

Навіть якщо товар один і той самий фізично, у цифрі він розмножується: різні канали продажів, різні вимоги вітрин, різні мови та формати.

Інфографіка: формула
1 SKU × 5–10 каналів × 5–20 мов
= 25–200+ версій
Один і той самий товар у цифровому вигляді створюється десятки разів. Один SKU переписується та перекодується на кожному кроці ланцюжка замість того, щоб один раз стати надійним джерелом даних.
Скільки SKU та карток
Тип гравця Типовий каталог
Малий бізнес 100–1 000 SKU
Середній ритейлер 10 000–100 000 SKU
Великі ритейлери 100 000–500 000 SKU
Маркетплейси сотні мільйонів SKU
У найбільших майданчиків масштаби інші: 350–600 млн SKU у лідерів ринку.

Скільки одиниць інформації існує

Якщо враховувати мови, формати та канали (сайт, маркетплейси, реклама, фіди), то кількість унікальних одиниць товарної інформації (SKU × мова × формат × канал) обчислюється сотнями мільярдів фрагментів даних.

Для орієнтира: відкриті каталоги на кшталт Icecat містять 25+ млн даташитів на 77 мовах — це ілюстрація масштабу багатомовних версій.

Інфографіка: множники складності
SKU база
Мови 5–20
Канали збуту 5–10
Формати / вимоги багато
Підсумок: 25–200+ версій даних на один товар (порядки величин).
До 80% товарного контенту в e-commerce досі передається через Excel та схожі формати. В епоху API, хмарних технологій та штучного інтелекту ринок спирається на практики 1990-х: ручне копіювання, помилки та втрати даних на кожному кроці.
Розділ 2

Ланцюжок руху контенту

Де дані губляться

Товарна інформація рідко йде напряму від виробника до покупця. Типовий ланцюжок: виробник → дистриб'ютор → постачальник → магазин → CMS → маркетинг.

На кожному етапі дані трансформуються, формати змінюються, частина інформації відкидається, а частина переписується вручну. Якщо виробник задав близько 20 характеристик, до вітрини часто доходить 10–15.

Інфографіка: втрати по ланцюжку
Виробник
100%
Дистриб'ютор
80–90%
Постачальник
70–80%
CMS
50–70%
Маркетинг
40–60%
Підсумок: один і той самий товар часто переписується вручну 3–5 разів різними учасниками ланцюжка.
Що відбувається на етапах
Виробник

Створює вихідні дані: характеристики, артикули, зображення. Часто — одна версія мови та внутрішні стандарти.

Дистриб'ютор / постачальник

Перекладає дані у власні шаблони, додає поля (залишки/коди), втрачає маркетингові деталі, змінює формат.

Магазин / CMS

Імпортує у свою структуру, додає SEO та категорії. При ручній роботі з'являються друкарські помилки, пропуски та невідповідності.

Канали / маркетинг

Вимагають окремих фідів та обмежень за форматом. Будь-яка нестиковка призводить до невиходу товару в канал або помилок.

Ринок давно автоматизував гроші та доставку, але так і не автоматизував дані. Платежі та склади працюють як індустрія, а товарний контент — як ремесло.
Інфографіка: де «губиться» сенс
Несумісність форматів високо
Ручне редагування високо
Втрати на каналах середньо
Якісна оцінка: де найчастіше виникають помилки та пропуски.
Розділ 3

Вартість контенту як процесу

Ручна праця

У масовому e-commerce обробка однієї картки без автоматизації зазвичай займає 5–20 хвилин, а пряма собівартість коливається в межах $1–5. Існують і складні категорії, але саме цей діапазон є типовим для потокової роботи.

Сценарій A
5 хв
$1 / картка товару
Сценарій B
10 хв
$3 / картка
Сценарій C
20 хв
$5 / картка
Інфографіка: що означає 1 000 SKU
A: 5 мин
≈ 83 години
≈ $1 000
B: 10 мин
≈ 167 годин
≈ $3 000
C: 20 мин
≈ 333 години
≈ $5 000
І це лише первинна обробка. Оновлення повторюють ці витрати знову і знову.
Ще один масштаб: ручна звірка
Для малого бізнесу типово 8–12 годин ручної роботи на тиждень на звірку та правки. Це еквівалентно $10 000–18 000 на рік прямих витрат часу.
Накладні витрати на публікацію товару стають порівнянними з логістикою. Там, де товарна логістика оптимізована, контент-логістика часто залишається ручною та неконтрольованою.
Ціна помилок

Погана якість даних призводить до вимірних втрат: 15–25% виручки втрачається через контент; до 25% повернень пов'язані з невідповідністю очікуванням.

Поганий пошук8–12%
Повернення / невідповідності5–8%
Помилки даних та наявності5–7%
Смуги — візуалізація часток у межах сумарних втрат (умовно).
Що «з'їдає» час
Збір даних
файли / листи
Нормалізація
формати / одиниці
Якість
перевірки / правки
Канали
фіди / правила
Кожен учасник ринку сьогодні сам собі і «електростанція», і «електромережа». У зрілих індустріях є окремі провайдери інфраструктури. У контенті e-commerce такого шару майже немає — тому кожен робить усе сам.
Розділ 4

Малий бізнес та великі гравці

Одна проблема — різні можливості

Великі компанії можуть нав'язувати формати постачальникам та інвестувати в інфраструктуру. Малі та середні частіше змушені підлаштовуватися під вхідні дані та обмежувати асортимент через неможливість обробити контент.

Великі гравці
  • диктують вимоги постачальникам
  • інвестують у PIM та інтеграції
  • утримують команди з якості даних
  • витримують помилки завдяки масштабу
Малий / середній бізнес
  • працює у форматах постачальників
  • не має бюджету на інфраструктуру
  • скорочує асортимент через контент
  • публікує неповні картки «як є»
Контент стає прихованим бар'єром зростання: бракує ресурсу — не зростає каталог.
Інфографіка: де влада формату
Великі
вимагають формат
Малі
адаптуються під вхідне
У масштабу бізнесу в цифровій економіці все частіше визначає масштаб даних. Якщо каталог неможливо швидко та якісно публікувати, зростання обмежується не попитом, а операціями.
Розділ 5

Постачальники як системне вузьке місце

Постачальник — вихідна точка контенту

Постачальники та виробники — першоджерело товарної інформації: характеристики, артикули, зображення, пакування, сертифікати та технічні описи. Але наявність даних не означає їх готовність до використання ринком: дані рідко спочатку зібрані так, щоб без втрат пройти весь ланцюжок до вітрини.

У логістиці є стандарти та ролі (перевізник, склад, фулфілмент). У даних часто немає ані стандартів, ані «оператора мережі»: постачальник змушений бути і виробником даних, і їх інтегратором — без відповідної інфраструктури.

Ключова причина

Різноманітність форматів і точок істини

Для одного й того ж асортименту в постачальника часто існує кілька паралельних джерел: частина даних — в ERP, частина — у таблицях, частина — у PDF, частина — у листах та узгодженнях. Для ритейлу це перетворюється на постійні «добори», валідацію та ручні виправлення.

Інфографіка: де зберігаються дані постачальника
Системи
ERP / склад / прайс-листи

Коди, залишки, пакування, частина атрибутів.

Файли
Excel / CSV

Шаблони під клієнтів, ручні правки.

Документи
PDF / каталоги

Маркетингові описи та специфікації.

Комунікації
листи / месенджери

Уточнення, відсутні фото, виключення.

Нестандартизовані атрибути

Постачальники зазвичай не узгоджують дані під єдиний словник характеристик ринку. Вони надають те, що мають: власні назви полів, різні одиниці вимірювання, різні рівні деталізації. Тому «приведення до стандарту» фактично виконується на стороні ритейлу чи маркетплейсу.

Єдине значення Як зустрічається у даних Що робить рітейл
Колір Color / Colour / Col / Колір / відтінок Зіставляє, нормалізує
Розмір Розмір / Габарити Уніфікує одиниці виміру та формат
Матеріал Матеріал / Склад Створює довідники значень
Повторюваність: одну й ту саму нормалізацію тисячі компаній виконують паралельно — і платять за це знову і знову.

Один постачальник — до 5–10 форматів

На практиці постачальник, який працює з великою кількістю партнерів, змушений підтримувати до 5–10 різних шаблонів і систем атрибутів. Далі вартість підтримки починає зростати швидше, ніж вигода — і постачальник або знижує якість, або йде до посередників, втрачаючи контроль.

≈ до 5
Ще працює

Ручна підтримка та рідкісні оновлення.

≈ 5–10
Зона перевантаження

Ризик помилок та розсинхронізації зростає.

≈ 10+
Зрив масштабування

З'являються посередники та втрата контролю.

Чому постачальник не може «адаптуватися під усіх»

Причини зазвичай не в «небажанні», а в економіці процесу: підтримка багатьох форматів стає окремим продуктом. Нижче — типові обмеження.

Дані розподілені по різних джерелах

ERP, прайси, файли, каталоги та комунікації рідко зведені в єдину структуру — «джерело істини» відсутнє.

Занадто багато винятків за категоріями

Різні категорії вимагають різної глибини та різних атрибутів; універсального шаблону «на все» не існує.

Обмежені IT-ресурси та пріоритети

Для багатьох постачальників «контент» — побічний процес відносно виробництва та продажів, тому він не отримує системних інвестицій.

Зростання кількості клієнтів примножує вартість оновлень

Кожне оновлення перетворюється на ланцюжок розсилок і правок за багатьма шаблонами; розсинхрон стає нормою.

Інфографіка: деградація даних по дорозі

Від «сировини» до вітрини — через втрати та копіювання

Постачальник віддає «як є»
Власні поля, одиниці виміру, версії, не завжди повна структура.
Рітейл переробляє
Зіставлення атрибутів, нормалізація, контроль якості.
Канали вимагають власні формати
Фіди та обмеження створюють додаткові версії даних.
Підсумок: ринок платить за одне й те саме кілька разів
Зміст губиться, робота дублюється, оновлення повторюють цикл заново.

Висновки по розділу

Контент постачальників — це «сировина» e-commerce. Ринок поводиться з ним як із готовим продуктом, хоча між сировиною та вітриною лежить шар трансформації: словники, нормалізація, локалізація, контроль якості та оновлення.

Поки цей шар відсутній як інфраструктура, кожен учасник ринку будує його самостійно — і саме тому проблема не вирішується локально.

Постачальник — не «винний» у хаосі. Він не має стимулу ставати інтегратором усього ринку. Але ринок системно вимагає від нього саме цього.
Хто контролює формат
Великі мережі вимагають стандарт
Малі магазини приймають вхідні дані
Асиметрія формату посилює розрив якості даних між сегментами.
У сухих метриках
Версій на SKU 25–200+
Копіювання по ланцюжку 3–5
Втрати через дані 15–25%
Що вимагає ринок
  • нейтральний шар трансформації даних
  • єдині словники атрибутів та одиниць
  • автоматизація оновлень та контролю якості
Фінал

Що показують ці цифри

1) Контент — це логістика, але без індустрії

В e-commerce давно індустріалізовано гроші та доставку. А дані про товар досі переміщуються вручну, фрагментовано і з втратами — у десятках версій та форматів.

2) Проблема системна — і тому не вирішується «всередині однієї компанії»

Кожен гравець змушений вибудовувати власний шар трансформації даних: зіставлення атрибутів, нормалізація, контроль якості, локалізація, фіди. Але це не масштабується на рівні ринку — робота дублюється у тисяч компаній паралельно.

3) Розрив між великими та малими посилюється

Великі гравці можуть нав'язувати формат постачальникам та інвестувати в інфраструктуру. Малі частіше змушені публікувати «як є», скорочувати асортимент і втрачати ефективність через неможливість обробити потік контенту.

Чому з'явився NotPIM Ми бачимо цю проблему як інфраструктурну: ринку потрібен нейтральний шар, який зменшує дублювання, знижує втрати даних та автоматизує контент-логістику без спроби «переламати ринок під себе». Не «ще одна вітрина», не «ще один формат», а спосіб з'єднувати учасників ринку на рівні даних.
Ключове формулювання
Ринку потрібна інфраструктура даних — так само, як йому потрібна інфраструктура логістики.

Саме тому рішення «поодинці» не дають ефекту масштабу, а підхід рівня екосистеми — дає.

Прозорість

Усі значення на сторінці — це оцінки порядку величин і типові діапазони для міжнародного ринку. Вони можуть відрізнятися залежно від країни та категорії, але загальна механіка ринку (дублювання, втрати, ручна праця) залишається незмінною.

Дані та оцінки на цій сторінці актуальні станом на грудень 2025.