From 6fc57c07d1539cdd42f8887acf4368c411c45402 Mon Sep 17 00:00:00 2001 From: tnn Date: Sat, 17 Aug 2019 23:32:43 +0300 Subject: [PATCH] introduction --- tex/12-intro.tex | 14 +- tex/50-implementation.tex | 324 ++++++++++++++++++++++++++++++++++++++ tex/80-conclusion.tex | 8 +- 3 files changed, 344 insertions(+), 2 deletions(-) diff --git a/tex/12-intro.tex b/tex/12-intro.tex index 79ac214..3bd5610 100644 --- a/tex/12-intro.tex +++ b/tex/12-intro.tex @@ -1,3 +1,15 @@ \Introduction -Реферат (Тесля, 1 стр) \ No newline at end of file +УМНЫЙ ГОРОД, ЦИФРОВАЯ ЛИЧНОСТЬ, КЛАСТЕРИЗАЦИЯ, КЛАССИФИКАЦИЯ, МОБИЛЬНОСТЬ, СЕРВИС-ОРИЕНТИРОВАННАЯ ИНФРАСТРУКТУРА, СЕМАНТИЧЕСКИЕ ПРИЛОЖЕНИЯ + +Объектом исследования являются семантические приложения в цифровом пространстве умного города. + +Цель работы – разработка обеспечения информационной поддержки мобильности населения в цифровом пространстве умного города с использованием семантических приложений. + +Методы исследования – методы системного анализа, технология управления контекстом, технология управления онтологиями, технология автоматизированного сбора и анализа данных, технология интеллектуальных пространств, технология искуственных нейронных сетей, технология кластеризации данных. + +В ходе исследований получены следующие результаты. Разработан метод анализа истории взаимодействия жителей с системой умного города и разработка семантического сервиса с использованием методов интеллектуального анализа данных и семантической обработки естественного языка. Разработана спецификация параметров цифровой личности, по которым осуществляется классификация жителей умного города. Разработан метод классификации жителей умного города с учетом специфицированных параметров цифровой личности, на основе методов классификации и нейронной сети с обучением с учителем. Разработан метод подбора семантических сервисов для обеспечения мобильности жителей умного города с учетом их предпочтений и семантической обработки запроса. Разработан метод подбора персонала в организацию и соответствующего семантического сервиса на основе цифровой личности жителя умного города и требований организации. + +Область применения. Полученные результаты могут быть использованы при разработке мобильных информационных систем для обеспечения мобильности жителей умного города с использованием семантических приложений. + +Значимость работы. Полученные результаты способствуют развитию новых интеллектуальных технологий, связанных с обеспечением информационной, транспортной и социальной мобильности жителей умного города. Результаты вносят вклад в развитие концепции ``умный город'' путем создания метода кластеризации и классификации жителей умного города на основе их предпочтений и истории взаимодействия с системой умного города. В качестве продолжения научных исследований по направлению «Разработка методов обеспечения информационной поддержки мобильности населения в цифровом пространстве умного города с использованием семантических приложений» предполагается расширить возможности семантического анализа запросов жителей умного города и реализовать основные сервисы для поддержи мобильности. diff --git a/tex/50-implementation.tex b/tex/50-implementation.tex index e2d8877..6f65b94 100644 --- a/tex/50-implementation.tex +++ b/tex/50-implementation.tex @@ -304,6 +304,330 @@ \subsubsection*{\textbf{Кластеризация}} \end{longtable} \end{center} +В дополнение к ранее описанному подходу к кластеризации методом +K-средних (K-Means clustering), также была произведена попытка +применения алгоритма DBSCAN\cite{Ester96}. + +Алгоритм DBSCAN (Density-based spatial clustering of applications with +noise) производит кластеризацию, основываясь на поиске ближайших +соседей. Входными данными для алгоритма являются: + +\begin{enumerate} +\def\labelenumi{\arabic{enumi}.} +\item + Набор точек, которые необходимо кластеризировать; +\item + Метрика расстояния между точками; +\item + Радиус, в рамках которого ищутся соседи каждой отдельной точки; +\item + Минимальное количество соседей, необходимое чтобы точка не была частью + шума(noise); +\end{enumerate} + +Выбор применения данного алгоритма исходит из ознакомления с его +применением к схожей задаче. В корпоративной системе поддержки принятия +решений для банков, именуемой Banksealer\cite{Carminati15}, данный алгоритм +применяется для кластеризации пользователей банка в соответствии с их +манерой трат. Другими словами, пользователи, чьё поведение схоже, более +вероятно оказываются в одном кластере. Если быть более точным, в рамках +решения Banksealer используется модификация исходного алгоритма, о +которой речь пойдет далее. + +Исходный набор точек был таким же, как и в случае K-Means. Метрикой +также послужило Евклидово расстояние. + +Была произведена попытка использования расстояния Махаланобиса\cite{Mahalanobis36}, +которое, как утверждается, более точно выражает статистическую +зависимость между признаками, но к сожалению, при использовании данной +метрики, все точки относились к одному кластеру. + +Получения приблизительных значений, которые должен принимать радиус +поиска, был вычислен граф соседства (neighbors graph), используя +встроенные средства scikit-learn. Результатов вычисления являлась +матрица кратчайших расстояний между соседями. + +\begin{figure}[htb] + \centering + \includegraphics[width=\textwidth, keepaspectratio]{inc/img/KNNhistogram.png} + \caption{Гистограмма, отражающая распределения минимального расстояния до ближайшего соседа для входных данных} + \label{fig:knn_histogram} +\end{figure} + +Анализируя получившиеся данные, в качестве радиуса поиска было выбрано +значение 0.8, а минимальное количество соседей равнялось десяти. + +Так как алгоритму требуется поиск соседей в определённом радиусе, для +ускорения его работы используются различные подходы к индексации. Одними +из самых популярных структур данных для этого являются k-d tree и ball +tree. В реализации алгоритма в scikit-learn, при использовании +расстояния Махаланобиса, невозможно использование k-d tree, поэтому был +выбран ball tree. Также, согласно исследованию от одного из авторов +алгоритма DBSCAN\cite{Kriegel17}, реализация в scikit-learn является одной из +самых производительных при использовании индексирования. + +\begin{figure}[htb] + \centering + \includegraphics[width=\textwidth, keepaspectratio]{inc/img/DBSCAN.png} + \caption{Результат кластеризации классической версией алгоритма} + \label{fig:dbscan_clustering} +\end{figure} + +В результате, при отсутствии шума, было получено семь кластеров. По +аналогии с кластерами K-Means, рассмотрим их возможное значение в +зависимости от доминирующих в использовании сервисов: + +\begin{center} + \begin{longtable}{|p{0.3\textwidth}|p{0.3\textwidth}|p{0.3\textwidth}|} + \hline + Сценарий & Используемый сервис & Оценка уверенности \\ + \hline \endfirsthead +\multirow{3}{0.3\textwidth}{\textbf{Транспорт}} + +& горнолыжных курортов города & 0.0004 \\ \cline{2-3} +& ближайших банкоматов & 0.0004 \\ \cline{2-3} +& оплаты такси & 0.0004 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Ночной досуг}} + +& вызова полиции & 0.0120 \\ \cline{2-3} +& круглосуточных заведений питания & 0.0033 \\ \cline{2-3} +& ближайших ночных общественных заведений & 0.0006 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Транспорт}} + +& бесплатных парковок в городе & 0.0130 \\ \cline{2-3} +& ближайших заправок & 0.0010 \\ \cline{2-3} +& маршрутов для велосипедистов в городе & 0.0002 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Туризм}} + +& ближайших гостиниц, отелей и хостелов & 0.0129 \\ \cline{2-3} +& поиска заведений с вегетарианской кухней & 0.0004 \\ \cline{2-3} +& расписаний кино (с возможностью покупки билетов) & 0.0002 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Общественное питание}} + +& поиска кафе и ресторанов с бизнес-ланчами & 0.0078 \\ \cline{2-3} +& ближайших кафе и ресторанов & 0.0075 \\ \cline{2-3} +& расписаний спектаклей в городе & 0.0055 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Транспорт}} + +& ближайших заправок & 0.0128 \\ \cline{2-3} +& маршрутов для велосипедистов в городе & 0.0021 \\ \cline{2-3} +& цен на топливо & 0.0007 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Городские развлечения}} + +& выставок в городе & 0.0126 \\ \cline{2-3} +& зоомагазинов города & 0.0011 \\ \cline{2-3} +& кинотеатров IMAX & 0.0008 \\ \cline{2-3} +\hline + +\caption{Сценарии использования сервисов при определенном контексте кластеров} +\label{tab:dbscan_scenarios} +\end{longtable} +\end{center} + +Нетрудно отметить уклон значения многих кластеров в сторону различных +способ передвижения по городу. Тем не менее, во многом подобную +кластеризацию было затруднительно интерпретировать. Также, ввиду малого +количества кластеров и доминирования одного большого, было решено +применить для решения задачи модифицированную версию алгоритма DBSCAN. + +Модификация алгоритма DBSCAN, для простоты именуемая далее итеративной, +была предложена как решение проблемы, когда в результате кластеризации +получается один большой кластер и несколько маленьких. Для более +равномерной кластеризации, предлагается итеративно, на каждом шаге, +брать самый большой кластер и применять к нему исходный алгоритм, а +затем объединять результат, сохраняя малые кластеры как есть, с каждым +шагом постепенно уменьшат радиус поиска соседей. Условием останова +является локальная максимизация качества кластеризации, что может быть +измерено множеством подходов. В нашей версии, был использован индекс +Дэвиса-Болдина (Davies-Bouldin index)\cite{Davies79}. Чем меньше значение +индекса, тем выше качество кластеризации. + +В результате, используя те же входные параметры и уменьшая на каждом +шаге радиус поиска вдвое, было получено 208 кластеров при отсутствии +шума. Кластеризация завершилась при достижении значения индекса в 0.12. +Для сравнения, значение индекса для предыдущего этапа равнялось 1.21. + +Для более точного сравнения с подходом K-Means, были проанализированы +двадцать наибольших кластеров. + +\begin{figure}[htb] + \centering + \includegraphics[width=\textwidth, keepaspectratio]{inc/img/IterativeDBSCAN.png} + \caption{Результат кластеризации итеративным алгоритмом DBSCAN} + \label{fig:dbscan_iterative_clustering} +\end{figure} + +Проанализированы были следующие кластеры: + +\begin{center} + \begin{longtable}{|p{0.3\textwidth}|p{0.3\textwidth}|p{0.3\textwidth}|} + \hline + Сценарий & Используемый сервис & Оценка уверенности \\ + \hline \endfirsthead + +\multirow{3}{0.3\textwidth}{\textbf{Общественное питание}} + +& поиска кафе и ресторанов с бизнес-ланчами & 0.0078 \\ \cline{2-3} +& ближайших кафе и ресторанов & 0.0075 \\ \cline{2-3} +& расписаний спектаклей в городе & 0.0055 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Культурные мероприятия}} + +& кинотеатров с самыми низкими ценами & 0.0095 \\ \cline{2-3} +& музеев города & 0.0070 \\ \cline{2-3} +& выставок в городе & 0.0052 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Лечение, медицинская помощь}} + +& вызова скорой помощи & 0.0068 \\ \cline{2-3} +& ближайших аптек города & 0.0063 \\ \cline{2-3} +& общественных бассейнов города & 0.0007 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Временное проживание}} + +& поиска дешевых гостиниц, отелей и хостелов & 0.0107 \\ \cline{2-3} +& ближайших гостиниц, отелей и хостелов & 0.0057 \\ \cline{2-3} +& каршеринга & 0.0023 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Автостоп}} + +& вызова ГАИ & 0.0109 \\ \cline{2-3} +& велопарковок города & 0.0066 \\ \cline{2-3} +& поиска попутчиков в городе & 0.0013 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Спорт}} + +& спортивных и тренажерных залов города & 0.0092 \\ \cline{2-3} +& поиска тренера по конкретному виду спорта & 0.0090 \\ \cline{2-3} +& поиска акций на абонементы в спортзал & 0.0003 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Вечерний досуг}} + +& концертов в городе & 0.0083 \\ \cline{2-3} +& поиска заведений по конкретной кухне & 0.0083 \\ \cline{2-3} +& театров города & 0.0046 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Общественное питание}} + +& поиска заведений с вегетарианской кухней & 0.0091 \\ \cline{2-3} +& расписаний кино (с возможностью покупки билетов) & 0.0052 \\ \cline{2-3} +& ресторанов и кафе с выгодными акциями & 0.0050 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Car-sharing}} + +& ближайших аварийных служб & 0.0125 \\ \cline{2-3} +& ближайших банкоматов & 0.0024 \\ \cline{2-3} +& каршеринга & 0.0011 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Концертные выступления}} + +& покупки билетов на концерт & 0.0125 \\ \cline{2-3} +& поиска заведений с живой музыкой & 0.0024 \\ \cline{2-3} +& поиска заведений с вегетарианской кухней & 0.0010 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Пляжный отдых}} + +& ближайших травмпунктов & 0.0111 \\ \cline{2-3} +& ближайших банкоматов & 0.0049 \\ \cline{2-3} +& городских пляжей & 0.0038 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Автотранспортные происшествия}} + +& оплаты парковки & 0.0090 \\ \cline{2-3} +& оплаты штрафов & 0.0090 \\ \cline{2-3} +& ближайших постов & полиции 0.0014 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Посещение пляжей лицами с ограниченными возможностями}} + +& ближайших банкоматов & 0.0084 \\ \cline{2-3} +& городских пляжей & 0.0065 \\ \cline{2-3} +& заказа такси для перевозки инвалида & 0.0053 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Досуг}} + +& ближайших парков и скверов в городе & 0.0124 \\ \cline{2-3} +& ближайших ночных общественных заведений & 0.0013 \\ \cline{2-3} +& ближайших мероприятий и фестивалей в городе & 0.0010 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Ночной досуг}} + +& вызова полиции & 0.0120 \\ \cline{2-3} +& круглосуточных заведений питания & 0.0033 \\ \cline{2-3} +& ближайших ночных общественных заведений & 0.0006 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Передвижение транспортом}} + +& построения маршрутов на общественном транспорте & 0.0125 \\ \cline{2-3} +& расписания авиарейсов & 0.0019 \\ \cline{2-3} +& ближайших станций метро & 0.0010 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Выезд на горнолыжный курорт}} + +& прогноза погоды & 0.0127 \\ \cline{2-3} +& построения маршрутов на общественном транспорте & 0.0014 \\ \cline{2-3} +& горнолыжных курортов города & 0.0005 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Поход в кинотеатр}} + +& ближайших остановок общественного транспорта & 0.0095 \\ \cline{2-3} +& ближайших станций метро & 0.0089 \\ \cline{2-3} +& ближайших кинотеатров & 0.0003 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Передвижение на автотранспорте}} + +& ближайших заправок & 0.0128 \\ \cline{2-3} +& маршрутов для велосипедистов в городе & 0.0021 \\ \cline{2-3} +& цен на топливо & 0.0007 \\ \cline{2-3} +\hline + +\multirow{3}{0.3\textwidth}{\textbf{Передвижение на автотранспорте}} + +& бесплатных парковок в городе & 0.0130 \\ \cline{2-3} +& ближайших заправок & 0.0010 \\ \cline{2-3} +& маршрутов для велосипедистов в городе & 0.0002 \\ \cline{2-3} +\hline + +\caption{Сценарии использования сервисов при определенном контексте кластеров} +\label{tab:iterativedbscan_scenarios} +\end{longtable} +\end{center} + +Учитывая, что количество кластеров было больше количества представленных +сервисов, возможно имеет смысл выбирать лишь наиболее используемый +сервис при помощи данного подхода, либо же использовать большее +количество при анализе. + + \subsection{Классификация} Классификация пользователей социальной сети VK.com была произведена на основе нейронных сетей. diff --git a/tex/80-conclusion.tex b/tex/80-conclusion.tex index dcdedae..eae4863 100644 --- a/tex/80-conclusion.tex +++ b/tex/80-conclusion.tex @@ -1,6 +1,12 @@ \Conclusion % заключение к отчёту -В результате проделанной работы стало ясно, что ... +В настоящем отчете представлены методы и модели обеспечения мобильности жителей умного города. Представлена модель цифровой личности, которая может быть использована в системах построения туристических маршрутов. Благодаря использованию транзакционной части, каждый сервис умного города может использовать работать с одним и тем же пользователем, благодаря чему уменьшается общее количество хранимой информации. Контекстная информация сервисов согласуется с представленной онтологией цифровой личности. +Использование разработанной модели цифровой личности, основанной на статической и динамической информации от пользователя, полученной в результате истории взаимодействия с источниками данных умного города, позволяет описать цифровой профиль жителя умного города (цифровую личность) и дает им возможность беспрепятственно взаимодействовать с различными сервисами в электронной форме, а различным организациям – обеспечивать хранение, накопление, передачу атрибутов между ними. +В отчетном периоде были 1) специфицированы требования к обеспечению поддержки мобильности населения в цифровом информационно-техническом пространстве умного города; 2) разработана концептуальная и онтологическая модели цифровой личности жителя умного города; 3) разработана концептуальная модель использования цифровой личности в сервисах умного города; 4) разработана онтологическая модель взаимодействия сервисов в цифровом информационно-техническом пространстве умного города; 5) разработана онтологическая модель типового сервиса умного города; 6) разработан метод использования цифровой личности для персонифицированной поддержки мобильности жителя умного города с использованием персональных вычислительных устройств и сервисов умного города; 7) разработан метод формирования и актуализации параметров онтологической модели сервисов умного города на основе интеллектуального анализа данных; 8) по ряду результатов были разработаны прототипы программных систем. +Задачи проекта, определенные на период 2017-2018 года решены полностью. +Полученные результаты могут быть использованы при разработке систем поддержки мобильности в умных городах, а также других сервисов, требующих для своей работы доступ к источникам данных умного города и параметрам цифровой личности. Результаты способствуют развитию новых интеллектуальных технологий, таких как поддержка принятия решений в интеллектуальном пространстве, рекомендующие системы, инфомобильность пользователей и др. +Научно-технический уровень выполненной научно-исследовательской работы соответствует международному уровню. + %%% Local Variables: %%% mode: latex -- GitLab