Содержание
Анализ данных — это процесс оценки данных с использованием аналитических и статистических инструментов для обнаружения полезной информации и помощи в принятии деловых решений. Существует несколько методов анализа данных, включая интеллектуальный анализ данных, анализ текста, бизнес-аналитику и визуализацию данных.
Как выполняется анализ данных?
Анализ данных является частью более широкого процесса получения бизнес-аналитики. Процесс включает в себя один или несколько из следующих шагов:
- Определение целей: Любое исследование должно начинаться с набора четко определенных бизнес-целей. Большая часть решений, принятых в остальной части процесса, зависит от того, насколько четко сформулированы цели исследования.
- Постановка вопросов: Предпринята попытка задать вопрос в проблемной области. Например, красные спортивные автомобили попадают в аварии чаще, чем другие?
- Сбор информации: Данные, относящиеся к данному вопросу, должны быть получены из соответствующих источников. В приведенном выше примере данные могут быть получены из различных источников, в том числе: отчеты DMV или происшествия в полиции, страховые претензии и сведения о госпитализации. Когда данные собираются с помощью опросов, необходимо представить вопросник для субъектов. Вопросы должны быть соответствующим образом смоделированы для используемого статистического метода.
- Обработка данных: Необработанные данные могут быть собраны в нескольких различных форматах. Собранные данные должны быть очищены и преобразованы, чтобы инструменты анализа данных могли их импортировать. В нашем примере мы можем получать отчеты об авариях DMV в виде текстовых файлов, страховые заявки из реляционной базы данных и сведения о госпитализации в виде API. Аналитик данных должен объединить эти различные формы данных и преобразовать их в форму, подходящую для инструментов анализа.
- Анализ данных: На этом этапе очищенные и агрегированные данные импортируются в инструменты анализа. Эти инструменты позволяют вам исследовать данные, находить в них шаблоны, а также задавать и отвечать на вопросы «что если». Это процесс, с помощью которого получают смысл данные, собранные в исследованиях путем правильного применения статистических методов.
- Делать выводы и делать прогнозы: Это шаг, на котором после достаточного анализа можно сделать выводы из данных и сделать соответствующие прогнозы. Эти выводы и прогнозы могут затем быть обобщены в отчете, предоставленном конечным пользователям.
Давайте теперь посмотрим более подробно на методы анализа данных, в частности.
Сбор данных
Изображение предоставлено Philippe Put / Flickr
Data Mining — это метод анализа данных для обнаружения закономерностей в больших наборах данных с использованием методов.
статистики, искусственного интеллекта, машинного обучения и баз данных. Цель состоит в том, чтобы преобразовать необработанные данные в понятную деловую информацию. Они могут включать в себя идентификацию групп записей данных (также называемых кластерным анализом) или выявление аномалий и зависимостей между группами данных.
Приложения интеллектуального анализа данных:
- Обнаружение аномалий может обрабатывать огромные объемы данных («большие данные») и автоматически выявлять случаи выбросов, возможно, для исключения из процесса принятия решений или выявления мошенничества (например, банковского мошенничества).
- Изучение покупательских привычек. Методы машинного обучения могут использоваться для моделирования покупательских привычек и определения часто покупаемых предметов.
- Кластеризация может идентифицировать ранее неизвестные группы в данных.
- Классификация используется для автоматической классификации записей данных в заранее заданные ячейки. Типичным примером является классификация сообщений электронной почты как «спам» или «не спам», и система учится у пользователя.
Текстовая аналитика
Изображение предоставлено: Marc_Smith / Flickr
Текстовая аналитика — это процесс извлечения полезной информации из текста. Это достигается путем обработки неструктурированной текстовой информации, извлечения значимых числовых
индексы из информации и делают информацию доступной для статистических и машинных алгоритмов обучения для дальнейшей обработки.
Процесс интеллектуального анализа текста включает в себя один или несколько из следующих шагов:
- Сбор информации из различных источников, включая Интернет, файловую систему, базу данных и т. Д.
- Лингвистический анализ, включая обработку естественного языка.
- Распознавание образов (например, распознавание телефонных номеров, адресов электронной почты и т. Д.)
- Извлечение сводной информации из текста, такой как относительная частота слов, определение сходства между документами и т. Д.
Примеры приложений для анализа текста:
- Анализ ответов открытого опроса. Эти опросы носят ознакомительный характер и включают открытые вопросы, связанные с рассматриваемой темой. Затем респонденты могут выразить свое мнение, не ограничиваясь конкретным форматом ответа.
- Анализ электронной почты, документов и т. Д., Чтобы отфильтровать «мусор». Это также включает автоматическую классификацию сообщений в заранее определенные ячейки для маршрутизации в разные отделы.
- Исследуйте конкурентов, сканируя их сайты. Это может быть использовано для получения информации о деятельности конкурентов.
- Приложения безопасности, которые могут обрабатывать файлы журналов для обнаружения вторжений.
Бизнес-аналитика
Изображение предоставлено: FutUndBeidl / Flickr
Бизнес-аналитика
преобразует данные в действенные интеллектуальные данные для деловых целей и может использоваться при принятии стратегических и тактических деловых решений организации. Он предлагает людям возможность изучать тенденции на основе собранных данных и получать из них информацию.
Некоторые примеры бизнес-аналитики используются сегодня:
- Операционные решения организации, такие как размещение продукта и цены.
- Выявление новых рынков, оценка спроса и пригодности продукции для разных сегментов рынка.
- Бюджетирование и скользящие прогнозы.
- Использование визуальных инструментов, таких как тепловые карты, сводные таблицы и географические карты.
Визуализация данных
Кредит изображения: pressmaster / Depositphotos
Визуализация данных
очень просто относится к визуальному представлению данных. В контексте анализа данных это означает использование инструментов статистики, вероятности, сводных таблиц и других артефактов для визуального представления данных. Это делает сложные данные более понятными и полезными.
Все большее количество данных генерируется рядом датчиков в окружающей среде (называемых «Интернет вещей» или «IOT»). Эти данные (называемые «большими данными») создают проблемы в понимании, которые можно облегчить с помощью инструментов визуализации данных. Визуализация данных используется в следующих приложениях.
- Извлечение сводных данных из необработанных данных IOT.
- Использование гистограммы для представления результатов продаж за несколько кварталов.
- Гистограмма показывает распределение переменной, такой как доход, путем деления диапазона на корзины.
Визуализация наборов данных Google
является отличным примером того, как большие данные могут визуально направлять принятие решений.
Анализ данных в обзоре
Анализ данных используется для оценки данных с помощью статистических инструментов для обнаружения полезной информации. Для этой цели используются различные методы, включая интеллектуальный анализ данных, анализ текста, бизнес-аналитику и визуализацию данных.
Использовали ли вы анализ данных в своей организации для моделирования чего-либо? Как прошел ваш опыт? Есть ли у вас какие-либо полезные идеи, чтобы предложить? Пожалуйста, дайте нам знать в комментариях ниже.