Методы исследования и проектирования модели анализа текстовой информации в больших массивах данных
- Направление: Анализ данных
- Тип работы: Магистерская диссертация
- Предмет: Информатика
- Количество страниц: 50
Краткое описание работы
Данная магистерская диссертация исследует методы анализа текстовой информации в контексте больших массивов данных. Работа рассматривает актуальность проблемы обработки огромных объемов информации, возникающих из-за популярности социальных сетей и электронного документооборота. В работе анализируются ключевые характеристики больших данных (объем, разнообразие, скорость, правдивость), особенности их обработки и методы исследования, включая многомерный анализ, регрессию, классификацию и кластеризацию. Особое внимание уделено алгоритму Apriori и его применению в Python и R для поиска закономерностей. Также описаны архитектура систем для работы с большими данными и программные платформы, такие как Hadoop и Spark, для высокопроизводительной обработки.
Содержание
Содержание TOC \o «1-3» \h \z \u Введение PAGEREF _Toc38406777 \h 3 1. Глава 1. Методы исследования информации в больших массивах данных PAGEREF _Toc38406778 \h 6 1.1. Большие массивы данных PAGEREF _Toc38406779 \h 6 1.2.Особенности обработки больших массивов данных PAGEREF _Toc38406780 \h 12 1.3. Методы исследования больших массивов данных PAGEREF _Toc38406781 \h 16 2. Глава 2. Проектирование модели анализа текстовой информации в больших массивах данных PAGEREF _Toc38406782 \h 28 2.1. Анализ больших объемов данных PAGEREF _Toc38406783 \h 28 2.2. Алгоритмы обработки больших данных PAGEREF _Toc38406784 \h 37 2.3. Математическая модель для обработки больших массивов данных PAGEREF _Toc38406785 \h 44 Список использованных источников PAGEREF _Toc38406786 \h 55
Введение
Введение Стремительная технологическая эволюция последних лет в сфере информационно-коммуникационных технологий позволила сформировать существенный задел в части развитой программно-аппаратной инфраструктуры, поддерживающей накопление и постоянное пополнение архивов данных различной природы и назначения. Актуальность исследования, методов проектирования модели анализа текстовой информации в больших массивах данных, заключается в том, что появились большие объемы информации, нуждающиеся в обработке данных. Это связанно популярностью социальных сетей, уход организаций от документооборота к электронному, появлению мобильных устройств с доступом к широкополосному интернету. Обмен данными в сети интернет увеличился многократно. И все эти данные требуют обработки, особенно обмен данными в социальных сетях и почтовых сервисах. Значение данной работы заключается том, что благодаря этому исследованию можно разработать методы обработки больших объемов данных с использованием аппаратных средств. Такие разработки позволят более эффективно обрабатывать большие массивы данных, ускорить обмен данными, экономить средства затрачиваемые на обработку больших массивов данных. Практическое применение разработанных методов обработки больших объемов данных, может быть использовано в самых различных областях, где приходится использовать большие объемы данных. Это могут быть социальные сети, почтовые серверы, крупные компании, использующие электронный документооборот. Проблемой исследования является то, что информацию для эффективной обработки нужно группировать. Сложность заключается в том что много информации обращается в нестандартной и даже не формальной форме, что значительно затрудняет ее идентификацию. Разрабатываемый метод обработки больших данных должен помочь решать такие проблемы. История обработки больших объемов данных ведет свое начало от появления сетей обмена цифровой информацией. Таким моментом можно считать появление локальных сетей и сети интернет. Разница лишь в формулировке и объемах. То, что раньше называли большими данными, на сегодняшний день уже является стандартом. Основной целью данного исследования является изучить область использования и обработки больших объемов данных. Найти эффективные методы обработки информации. И на их основе разработать модель для обработки больших данных. Задачами данного исследования методов анализа и проектирования модели для обработки текстовой информации в больших массивах данных являются: — методы исследования текстовой информации в больших массивах данных; — большие массивы данных; — особенности обработки больших массивов данных; — методы исследования текстовой информации в больших массивах данных; — проектирование модели анализа текстовой информации в больших массивах данных; — анализ больших массивов данных; — алгоритмы обработки больших массивов данных; — математическая модель для обработки больших массивов данных. Объектом исследования являются обмен большими массивами информации, обработка больших массивов данных, методы анализа больших массивов данных. Предметом исследования является модель для обработки больших массивов данных. Методами исследования в данной работе являются изучение предметной области. Получение информации необходимой для проектирования модели для обработки больших массивов данных. Обостряющаяся конкурентная борьба в различных областях человеческой деятельности (бизнесе, медицине, корпоративном управлении и др.) и сложность внешней среды делают крайне востребованными подходы к экспертному использованию имеющихся данных для повышения обоснованности и оперативности принятия управленческих решений. При этом не всегда сегодня возможно непосредственное эффективное применение хорошо проработанного и известного аппарата теории вероятности или математической статистики без учета особенностей конкретной предметной области, компьютерных наук (включая детали хранения и обработки данных, алгоритмов машинного обучения и т.п.), специфики современных информационных технологий. Именно поэтому относительно недавно стала привлекать особое внимание область, связанная с высокопроизводительной интеллектуальной аналитической обработкой данных, направленная на то, чтобы оперативно извлекать из значительных массивов накопленных и поступающих данных ценные экспертные знания, поддерживая эффективную управленческую деятельность. Учитывая междисциплинарный характер этой предметной области, ее глубину и ярко выраженную прикладную направленность, до сих пор существует определенный дефицит систематизированных представлений о ней, на устранение которых в некоторой степени направлено данное пособие.
Фрагмент для ознакомления
Фрагмент для ознакомления
Введение Стремительная технологическая эволюция последних лет в сфере информационно-коммуникационных технологий позволила сформировать существенный задел в части развитой программно-аппаратной инфраструктуры, поддерживающей накопление и постоянное пополнение архивов данных различной природы и назначения. Актуальность исследования, методов проектирования модели анализа текстовой информации в больших массивах данных, заключается в том, что появились большие объемы информации, нуждающиеся в обработке данных. Это связанно популярностью социальных сетей, уход организаций от документооборота к электронному, появлению мобильных устройств с доступом к широкополосному интернету. Обмен данными в сети интернет увеличился многократно. И все эти данные требуют обработки, особенно обмен данными в социальных сетях и почтовых сервисах. Значение данной работы заключается том, что благодаря этому исследованию можно разработать методы обработки больших объемов данных с использованием аппаратных средств. Такие разработки позволят более эффективно обрабатывать большие массивы данных, ускорить обмен данными, экономить средства затрачиваемые на обработку больших массивов данных. Практическое применение разработанных методов обработки больших объемов данных, может быть использовано в самых различных областях, где приходится использовать большие объемы данных. Это могут быть социальные сети, почтовые серверы, крупные компании, использующие электронный документооборот. Проблемой исследования является то, что информацию для эффективной обработки нужно группировать. Сложность заключается в том что много информации обращается в нестандартной и даже не формальной форме, что значительно затрудняет ее идентификацию. Разрабатываемый метод обработки больших данных должен помочь решать такие проблемы. История обработки больших объемов данных ведет свое начало от появления сетей обмена цифровой информацией. Таким моментом можно считать появление локальных сетей и сети интернет. Разница лишь в формулировке и объемах. То, что раньше называли большими данными, на сегодняшний день уже является стандартом. Основной целью данного исследования является изучить область использования и обработки больших объемов данных. Найти эффективные методы обработки информации. И на их основе разработать модель для обработки больших данных. Задачами данного исследования методов анализа и проектирования модели для обработки текстовой информации в больших массивах данных являются: — методы исследования текстовой информации в больших массивах данных; — большие массивы данных; — особенности обработки больших массивов данных; — методы исследования текстовой информации в больших массивах данных; — проектирование модели анализа текстовой информации в больших массивах данных; — анализ больших массивов данных; — алгоритмы обработки больших массивов данных; — математическая модель для обработки больших массивов данных. Объектом исследования являются обмен большими массивами информации, обработка больших массивов данных, методы анализа больших массивов данных. Предметом исследования является модель для обработки больших массивов данных. Методами исследования в данной работе являются изучение предметной области. Получение информации необходимой для проектирования модели для обработки больших массивов данных. Обостряющаяся конкурентная борьба в различных областях человеческой деятельности (бизнесе, медицине, корпоративном управлении и др.) и сложность внешней среды делают крайне востребованными подходы к экспертному использованию имеющихся данных для повышения обоснованности и оперативности принятия управленческих решений. При этом не всегда сегодня возможно непосредственное эффективное применение хорошо проработанного и известного аппарата теории вероятности или математической статистики без учета особенностей конкретной предметной области, компьютерных наук (включая детали хранения и обработки данных, алгоритмов машинного обучения и т.п.), специфики современных информационных технологий. Именно поэтому относительно недавно стала привлекать особое внимание область, связанная с высокопроизводительной интеллектуальной аналитической обработкой данных, направленная на то, чтобы оперативно извлекать из значительных массивов накопленных и поступающих данных ценные экспертные знания, поддерживая эффективную управленческую деятельность. Учитывая междисциплинарный характер этой предметной области, ее глубину и ярко выраженную прикладную направленность, до сих пор существует определенный дефицит систематизированных представлений о ней, на устранение которых в некоторой степени направлено данное пособие. 1. Глава 1. Методы исследования информации в больших массивах данных 1.1. Большие массивы данных Под большими массивами данных подразумевают широкое разнообразие массивов данных, которые не могут быть должным образом обработаны традиционными приложениями из-за их огромного объема или сложного состава [5]. Сложность анализа больших объемов данных заключается в возможности сбора, контроля, совместного использования, хранения, передачи, визуализации и поддержания конфиденциальности информации [12]. Эти данные могут быть полезны для прогнозирования. Точность анализа больших данных помогает принимать оптимальные решения. В свою очередь, принятие лучших решений может повысить эффективность производства, снизить затраты и снизить риски. Предотвращать распространение эпидемий и борьбы с преступностью [15]. Научные и прикладные организации, работающие в сфере СМИ и рекламы, а также органы государственной власти часто сталкиваются с трудностями в работе ученых, особенно метеорологов, врачей, изучающих геномы, исследователей, специалистов в области изучения средств связи, физики, создания сложных тренажеров, также биологической и природоохранной деятельности, часто ограничивается невозможностью обработки огромных объемов данных. Объемы данных с каждым днем растут, поэтому возможность собирать информацию с помощью мобильных устройств, цифровой аэрофотосъемки, камер, микрофонов, радиочастотных считывателей и беспроводных сенсорных сетей. Весь объем информации, которая может храниться всеми современными техническими средствами, составляет примерно каждые 40 месяцев в течение 80-х годов 20-го века, и в настоящее время в Интернете будет получено 2,5 эксабайта (2,5 х 1018) информация [10]. Атрибутивные определения. Данный класс определений происходит от определения «4V», предложенного в 2011 году сотрудниками International Data Corporation (IDC), одного из пионеров и лидеров в области исследования больших данных и их влияния на современные компьютерные технологии[8]. Чтобы быть «большими данными» по определению атрибута, данные должны иметь четыре ключевых свойства, которые перечислены ниже. 1. Объем — «Большие данные» — это сгенерированные или хранимые данные таких объемов, которые стандартное программное обеспечение не может обработать за необходимое время. Объем — это основной показатель, по которому те или иные данные считают «большими данными» [3]. 2. Разнообразие — «Большие данные» — это самые разнообразные данные по своей природе и источникам. 3. Скорость — «Большие данные» — это данные, объемы которых растут с чрезвычайной скоростью. 4. Правдивость — «Большие данные» — это данные, значительная часть которых может быть недостаточной или неточной. Определение атрибутов являются развитием определения «3Vs», которое было предложено еще в 2001 году аналитиком из META Group Inc. Дугласом Лейни. Согласно этому определению, «большие данные» обладают следующими свойствами: объемом, разнообразием и скоростью накопления. Определение 3V теперь считается устаревшим, однако оно пока все еще используется некоторыми из IBM и Microsoft [4].
Конец ознакомительного фрагмента
Не рискуй — закажи уникальную работу!
Оригинальный текст по выгодной цене.
Проснувшись однажды утром после беспокойного сна, Грегор Замза обнаружил, что он у себя в постели превратился в страшное насекомое.
Заключение
Заключение Использование различных методов обработки данных, гигабайт и терабайт, требует особого внимания для обеспечения их высокопроизводительной обработки. Вы можете найти все необходимое для получения данных. такая сложная и дорогостоящая обработка поместиться. Мы сформулируем несколько основных принципов организации высокопроизводительных вычислений, которые должны доступно в практическом применении методов Data Mining. Первым принципом организации высокопроизводительных вычислений является повышение производительности обработки алгоритмы вычислительной эффективности, позволяющие использовать довольно сложную обработку данных, со стандартными сообщениями. Различные вычислительные мощности доступны сегодня. Вычислительные кластеры организованы как на основе стандартных недорогих сетей ПЭВМ, суперкомпьютерные мультипроцессорные технологии. Поэтому второй принцип определяет целесообразность использования таких подходов к cуперкомпьютерное оборудование, а также недорогие ПК, подключенные к сети. В этом случае подразумевается, что высокопроизводительная обработка осуществляется двумя способами. Первый метод предполагает решение серьезных за счет использование высокопроизводительных вычислений. Второе — адаптировать существующие подходы к возможным не только каноническая параллель, но и так называемая распределенное параллельное выполнение. Классы вычисляются как параллельные вычисления. Очевидно, что параллельные вычисления могут быть реализованы на одной платформе в многопроцессорном режиме под управлением многозадачной операционной системы. Параллельные вычисления на нескольких вычислительных узлах Суперкомпьютеры терминологически связаны с распределенными вычислениями. Практическая организация высокопроизводительных распределенно-параллельных вычислений с использованием доступных вышеуказанные принципы требуют ряда важных объяснений. Организация распределенных вычислений возможна с использованием различных подходов и архитектур. Однако для всех различают классификацию вычислительных систем — системы с общей (разделяемой) памятью и системы с распределенной памятью. К варианту построения вычислительных систем, с симметричной архитектурой и симметричной организация вычислительного процесса — SMP-системы симметричная многопроцессорная обработка). Поддержка обработки данных SMP участвовать в вычислительные процессы на многопроцессорных (многоядерных) ПК. Однако общая память требует решением проблем данных, и создание высокопроизводительных систем в этой архитектуре, усложняется технологической сложностью объединения большого числа процессоров с одной оперативной памятью.
Список литературы
Список использованных источников Анализ проблем безопасности архитектуры распределённых NoSQL приложений на примере программного каркаса Hadoop // Портал магистров ДонНТУ. [Электронный ресурс]. – Режим доступа: http://masters.donntu.org/2020/fknt/chuprin/library/_hadoop-security.htm (дата обращения 10.04.2020) Аналитический обзор рынка Big Data // Хабрахабр. [Электронный ресурс]. – Режим доступа: https://habrahabr.ru/company/moex/blog/256747/ (дата обращения 15.04.2020) Безопасность данных Hadoop и решение Sentry // IBM developerWorks. [Электронный ресурс]. – Режим доступа: http://www.ibm.com/developerworks/ru/library/se-hadoop/ (дата обращения 12.04.2020) Егоров А.А., Чернышова А.В. Исследование инструментов распределенной системы Hadoop // Конференция Современные информационные технологии в образовании и научных исследованиях (СИТОНИ-2017). Донецк, 2017 г.- 215 с. Егоров А.А., Чернышова А.В., Губенко Н.Е. Анализ средств защиты больших данных в распределенных системах // Первая международная научно-практическая конференция Программная инженерия: методы и технологии разработки информационно-вычислительных систем (ПИИВС-2016). Донецк, 2018 г. – Сборник научных трудов. – ДонНТУ, Том 2, с. 28-33. Защита информации в компьютерных системах и сетях // Ozon. [Электронный ресурс]. – Режим доступа: https://www.ozon.ru/context/detail/id/28336100/ (дата обращения 10.04.2020) Защита компьютерной информации от несанкционированного доступа // Ozon. [Электронный ресурс]. – Режим доступа: http://www.ozon.ru/context/detail/id/17981339/(дата обращения 09.04.2020) Исследование механизмов обеспечения защищенного доступа к данным, размещенным в облачной инфраструктуре // Cyberleninka. [Электронный ресурс]. – Режим доступа: https://cyberleninka.ru/article/n/issledovanie-mehanizmov-obespecheniya-zaschischennogo-dostupa-k-dannym-razmeschennym-v-oblachnoy-infrastrukture(дата обращения 01.04.2020) Информационная безопасность. Защита и нападение // Ozon. [Электронный ресурс]. – Режим доступа: https://www.ozon.ru/context/detail/id/139249153/ (дата обращения 12.04.2020) Исследование подхода использования распределенных модулей для обеспечения защиты информации // Портал магистров ДонНТУ. [Электронный ресурс]. – Режим доступа: http://masters.donntu.org/2005/fvti/vorotyntsev/diss/index.htm (дата обращения 11.04.2020) Некоторые аспекты информационной безопасности в распределенной компьютерной системе // Молодой ученый. [Электронный ресурс]. – Режим доступа: https://moluch.ru/archive/25/2709/ (дата обращения 07.04.2020) Чак Лэм. Hadoop в действии. – М.: ДМК Пресс, 2012. – 424 с.: ил. A Survey on Data Security System for Cloud Using Hadoop // International Journal of Innovative Research in Computer and Communication Engineering. [Электронный ресурс]. – Режим доступа: https://www.ijircce.com/upload/2020/november/164_A%20SURVEY.pdf (дата обращения 04.04.2020) Introduction to MapReduce // sci2s. [Электронный ресурс]. – Режим доступа: http://sci2s.ugr.es/BigData#Big%20Data%20Technologies (дата обращения 21.03.2020) MapReduce // Википедия. [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/MapReduce (дата обращения 12.03.2020) MongoDB Support // MongoDB. [Электронный ресурс]. – Режим доступа: https://docs.mongodb.com/v3.2/tutorial/configure-ssl/#mongodb-support (дата обращения 10.04.2020) Native SSL Support // CouchDB. [Электронный ресурс]. – Режим доступа: http://docs.couchdb.org/en/1.3.0/ssl.html (дата обращения 25.03.2020) Practical Hadoop Security // Amazon. [Электронный ресурс]. – Режим доступа: https://www.amazon.com/Practical-Hadoop-Security-Bhushan-Lakhe/dp/1430265442 (дата обращения 05.04.2020) Review on Big Data Security in Hadoop // International Journal Of Engineering And Computer Science. [Электронный ресурс]. – Режим доступа: https://www.ijecs.in/issue/v3-i12/28%20ijecs.pdf (дата обращения 09.04.2020) Sandeep Karanth. Mastering Hadoop. – Packt Publishing, 2018. – 374 p.
Не рискуй — закажи уникальную работу!
Оригинальный текст по выгодной цене.