Визуализация данных

Как заработать на open data и не подставить источник

Автор: Василий Малашенков
«Открытые данные (open data)», — кому-то это словосочетание ни о чем не говорит. А на самом деле тема очень вкусная для айтишников и СМИ. На этих данных можно заработать. С другой стороны, это и социально значимый аспект. От него критически зависит развитие общества. Похоже, белорусское государство решило повернуться к этой теме лицом...

На правовом форуме Беларуси недавно закончилось обсуждение любопытного документа — проекта постановления о национальном портале открытых данных. Для начала давайте коротко уясним, что же это такое — открытые данные.

Open data — это определенная информация, которая должна быть доступна всем. Нечто вроде социального стандарта. Примерный аналог — обязательная информация от производителя на упаковке продуктов питания. Только с открытыми данными несколько сложнее. Во-первых, их нужно предоставлять общественности в интернете (стало быть, в цифровом формате). Во-вторых, обязательно в машиночитаемом виде. Отсканированный бумажный документ в формате pdf таковым не является.

То есть open data — это не просто информирование населения о чем-либо, но еще и предоставление возможности компьютерной обработки массивов данных абсолютно для всех, кто в состоянии это сделать. Зачем это нужно?

Как уже говорилось, есть два аспекта. Сначала о социально значимом. Допустим, у нас есть общественная организация экологов. Используя определенные общедоступные наборы данных мониторинга окружающей среды, она может проводить анализ того, как в том или ином городе обстоит дело с вредными выбросами. Причем, если есть возможность написать код на нужном языке программирования, часть работы будет делаться автоматически вслед за обновлением наборов данных на специальном портале.

Самый понятный и доступный для большинства из нас пример источника открытых данных, который можно пощупать руками, — это российский госпроект data.gov.ru. Попробуем на его примере рассмотреть более интересный аспект. Коммерческий.

Итак. На российском сайте есть раздел «Туризм». Здесь можно найти такие наборы данных, как «Реестр коллективных средств размещения Ставропольского края», «Сведения о гостиничном хозяйстве муниципального образования город Новый Уренгой» и т. п. Открываем один из комплектов. По каждой гостинице/отелю/кемпингу есть масса информации: название юрлица, вид собственности, Ф.И.О. директора (иногда он же и собственник), контактные данные...

Наиболее очевидный способ коммерческого использования такого набора, на мой взгляд, таков. Предположим, у нас есть некий навигационный онлайн-сервис или мобильное приложение. С помощью своего программного обеспечения мы можем автоматически наладить процесс обновления на карте данных о гостиницах того или иного города. Ведь на госпортале наборы данных, как принято говорить у чиновников, актуализируются. Обывателю, мягко говоря, неудобно рыться в «сырых» файлах в поисках нужной гостиницы. Ему необходим конечный продукт, который игроки и предоставляют. С open data они сделают это намного быстрее и качественнее. Данные о гостиницах собирать не надо. Их нужно только правильно обработать. То есть это коренным образом меняет ключевой набор компетенций.

Раньше в справочной индустрии побеждал именно тот, кто сумел лучше других наладить процесс сбора данных, сейчас — тот, кто наилучшим образом смог их обработать. Поэтому и важен равный доступ всех игроков рынка к исходникам.

Как упаковать смыслы в зрительные образы / 

Для СМИ open data тоже очень важна и открывает новую эру в инфографике, различных сервисах. Опять же наборы данных о гостиницах дают возможность команде — журналист/программист/дизайнер — сделать на сайте массмедиа инфографику, которая обновляется автоматически. Она может показывать, к примеру, сколько в городе частных гостиниц, сколько государственных. Какая компания доминирует на местном рынке. Сколько крупных гостиниц, сколько мелких «постоялых дворов» от ИП. Это только один из вариантов.

Вот пример инфографики, которую можно составить для СМИ на экологическую тему.

А вот проект, связанный больше с бизнесом. С помощью набора данных от сервиса Airbnb удалось красиво визуализировать: в каких районах Берлина снималось жилье, как ситуация менялась в разные годы и т. д.

Представьте, какое поле деятельности открывается здесь для пары маркетолог/программист. А сколько вариантов для автоматизированного пополнения потенциальной клиентской базы...

Конечно, часто возникает такой вопрос: если использование наборов данных может быть коммерческим, то надо вводить какой-то тариф на доступ? Однозначно на него не ответишь. Одни и те же исходники можно использовать по-разному. Один на них будет зарабатывать, другой создаст бесплатный сервис либо инфографику, руководствуясь какими-то альтруистическими побуждениями.

Вот, к примеру, есть в Беларуси бесплатный сервис «Долгоскоп». Он помогает увидеть, в каких регионах и отраслях экономики нашей страны наиболее неблагоприятная долговая динамика. Есть проект «Страновед», где можно в понятном виде узнать кредиторскую задолженность, рентабельность продаж и прочие показатели во всех регионах страны.

Страновед
Скриншот сайта stranoved.opendata.by

Но это пока только первые шаги. Нам еще далеко до таких проектов, как, например, индекс миллиардеров от Bloomberg.

Есть и еще одна важная сфера применения open data — научные исследования. Это вообще отдельная тема для разговора. Наборы открытых данных также полезны для развития образования и самообразования. В общем, это такой цифровой уголь для паровоза прогресса.

Но любое государство не сразу захочет развивать это направление. Обнародование данных — это предоставление всем возможности их интерпретировать. Вдруг эта интерпретация окажется в противоречии с интересами властей? Этот вопрос всегда будет тормозить развитие open data. Что-то могут оставить платным, на что-то ввести ограничения «не для коммерческого использования». К такому нужно быть готовыми. Это вполне предсказуемый и даже естественный ход событий. И все же. Хотелось бы, чтоб это было обоснованным, а не просто потому, что так решили.

Итак. Что же сейчас предлагает сделать наше правительство и как на это отреагировала общественность? Удивительно, но проект постановления можно было обсуждать в интернете 11 дней. Отзыв оставили только три человека.

Среди них — один из самых продвинутых специалистов — Алина Родачинская, которая уже давно двигает тему open data в Беларуси.

Во-первых, она предлагает ввести понятие «лицензии открытых данных». То есть нужно четко прописать статус каждого набора. По ее словам, в Беларуси уже есть специалисты по таким лицензиям. Неплохо, чтобы их привлекли к работе. Четкие и понятные правила обращения с тем, что доступно массам людей и компаний, просто необходимы. Хотя бы для предотвращения конфликтных ситуаций.

Во-вторых, Алина обратила внимание на пункт 16 предлагаемого положения о госпортале. Там, в частности, сказано:

Потребители открытых данных могут использовать открытые данные только с обязательной ссылкой на Портал как источник их получения и несут ответственность в соответствии с законодательством перед поставщиками открытых данных за их искажение, а также перед иными лицами, которым причинен ущерб по их вине.

Оказывается, требование о ссылке противоречит принятой мировой практике.

Еще интереснее положение об ответственности. Алина задает резонные вопросы. Что считать искажением набора? Предположим, у вас есть еще один законный источник данных и вы его совместили с набором — это искажение?

Конечно, нельзя тут не вспомнить о нашумевшем GDPR и готовящемся белорусском законе «О персональных данных». Алина Родачинская предлагает предусмотреть защиту личных данных в положении о госпортале.

Другое веское замечание. Если государство оставит за собой право удалить данные с портала, то это не просто будет противоречить мировой практике. Это просто будет нечестно. Да и потом, кто такому порталу станет доверять?

Если все же решат, что удалять можно, то хотя бы с публикацией решения компетентного органа, где обосновано исчезновение данных. Например, их открытость теперь угрожает нацбезопасности по такой-то причине.

Но это мы рассуждаем о будущем. Ненадолго вернемся в настоящее. Сейчас, в принципе, есть уже довольно много источников условно открытых данных. Почему условно? Не все они машиночитаемые. Сейчас, чтобы сделать какую-то инфографику о публичных компаниях той или иной отрасли, нужно «ручками перебрать» все эти ужасные отсканированные pdf. Не всегда качественно отсканированные.

А как себя ведут некоторые торговые сети и общепит? Зачем-то, скажем мягко, не очень афишируют часть своих юрлиц. Все равно журналисты узнают эту информацию. Законными методами. Да, это не будет в один клик. Иногда надо походить по городу. Но все равно же найдем и «пробьем» по Торговому реестру. Если бизнесу нечего скрывать, он должен такую информацию публиковать. Пускай даже не сам бизнес, а госструктура через набор данных.

В нынешнем сложном доступе к некоторым данным есть и свое благо для ряда журналистов или создателей справочных сервисов. Не каждая команда способна найти нужно «сырье» и сделать нормальный продукт. Отсюда низкий уровень конкуренции по определенным направлениям. Значит, пока «кормятся» избранные.

Но это же и минус. Болото, как известно, затягивает. А мы же хотим ИТ-страну, цифровизацию, качественные медиа.

Все это требует платформы, исходного сырья. Кто ж без топлива летает? Побыстрее бы это топливо получить. С некоторых соседних площадок ракеты давно стартовали и, наверное, подлетают к Марсу...

Фото: flickr.com / Cory M. Grenier


Поделиться:
Курс бел. рубля 03.06.2020
Нал. (банки Минска)
покупкапродажа
$12.39202.3980
12.67702.6830
p1003.47203.4880
Б/нал. (НБРБ)
$12.3981
12.6734
p1003.4795