DSpace logo

Por favor, use este identificador para citar o enlazar este ítem: http://repositorio.utmachala.edu.ec/handle/48000/16927
Título : Big data analytics aplicada en la integración de datos de internet de las cosas, caso de uso: Agricultura de precisión
Autor : Vargas Neira, Alvaro Ronny
Director(es): Mazón Olivo, Bertha Eugenia
Palabras clave : BIG DATA;ANALYTIC;AGRICULTURA DE PRECISION;SERIE TEMPORALE
Fecha de publicación : 2021
Editorial : Machala: Universidad Técnica de Machala
Citación : Vargas Neira, Alvaro Ronny (2021) Big data analytics aplicada en la integración de datos de internet de las cosas, caso de uso: agricultura de precisión (trabajo de titulación). UTMACH, Facultad de Ingeniería Civil, Machala, Ecuador.
Descripción : Cada vez más aumenta la necesidad de una mayor producción agrícola con excelentes parámetros de calidad, algo que ha supuesto un problema adicional para los agricultores provocando que apliquen el concepto de agricultura de precisión AP, la cual consiste en brindar un mayor soporte para la gestión de cultivos gracias al análisis de los datos recolectados a través de tecnologías y medios electrónicos. Razón por la cual se plantea este proyecto que consiste en analizar grandes cantidades de datos pertenecientes a lotes de cultivos, aplicando procesos de recolección, transformación e integración de datos. Toda la arquitectura planteada para el desarrollo del prototipo está basada en cada una de las fases pasos de la metodología MAMBO, la cual fue propuesta por un equipo de consultores estratégicos especializados en el campo de la analítica y que vieron la necesidad de implementar mejoras en la metodología CRISP DM para proyectos de Big Data Analytics. Se inicia con un análisis general de los sistemas de agricultura de precisión y de los datos requeridos para ser analizados a futuro, luego para el proceso de adquisición de datos, y considerando la falta de acceso a datos históricos reales, se utiliza un simulador de red de sensores inalámbricos que genere datos sintéticos como mensajes de dos tipos, configuración y lecturas, el primero, para información relacionada a cultivos, dispositivos, empresas, entre otros, y el segundo, para valores que generan los sensores. También se utiliza un middleware IoT con el objetivo de transferir los mensajes a través de protocolos de IoT, MQTT y Apache Kafka, y almacenarlos en bases de datos relacional y no relacional. Para el análisis de datos no es posible utilizar solamente el conjunto de datos generados por los sensores ya que estos simplemente contienen identificadores y los valores de cada sensor, para ello, es necesario relacionarlos con la información de las configuraciones que se encuentran almacenados en la base de datos relacional, a este proceso se lo denomina integración de datos, para ello se utiliza la herramienta Denodo, la cual permite crear un solo punto de acceso a partir de distintas fuentes de datos, el problema es que los datos que se integran no se alojan en un espacio físico y además, su volumen incrementa considerablemente al punto de tener un Big Data, es por eso que es necesario un clúster Apache Hadoop como una infraestructura Big Data para el almacenamiento y procesamiento de grandes cantidades de datos a través de sus servicios HDFS y YARN. La aplicación de estadística básica, descriptiva y predictiva se realiza al conjunto de datos almacenados en el clúster por medio de los lenguajes de programación Python y R, un mayor enfoque está sobre los modelos de predicción en series temporales pertenecientes a la estadística predictiva, y por ello, en la evaluación del prototipo, se establecen dos escenarios, el primero consiste en la medición de tiempos de transferencia para la carga de datos en streaming, es decir, los mensajes desde que son generados por el simulador hasta su almacenamiento en HDFS, y por otro lado, el segundo escenario que consiste en evaluar los modelos de predicción aplicando métricas de calidad. Los resultados del primer escenario indican que, para grandes volúmenes de datos, los tiempos de integración son altos en comparación a los tiempos de transferencia de mensajes individuales, esto, considerando los recursos de la máquina en donde se ejecuta toda la arquitectura del prototipo, mientras que, para el segundo escenario, mucho de los modelos de predicción evaluados, presentaron resultados similares uno de otros, esto quiere decir que los modelos, en su mayoría, se ajustaron bien al conjunto de datos reales para realizar predicciones significativas de cara al proceso de toma de decisiones dentro de un proceso agrícola.
Resumen : The need for greater agricultural production with excellent quality parameters is increasing, something that has been an additional problem for farmers, causing them to apply the concept of precision agriculture PA, which consists of providing greater support for crop management thanks to the analysis of data collected through technologies and electronic media. This is the reason for this project, which consists of analyzing large amounts of data pertaining to crop lots, applying data collection, transformation and integration processes. The entire architecture proposed for the development of the prototype is based on each of the phases steps of the MAMBO methodology, which was proposed by a team of strategic consultants specialized in the field of analytics and who saw the need to implement improvements in the CRISP-DM methodology for Big Data Analytics projects. It starts with a general analysis of precision agriculture systems and the data required to be analyzed in the future, then for the data acquisition process, and considering the lack of access to real historical data, a wireless sensor network simulator is used to generate synthetic data as messages of two types, configuration and readings, the first, for information related to crops, devices, companies, among others, and the second, for values generated by the sensors. An IoT middleware is also used to transfer messages through IoT protocols, MQTT and Apache Kafka, and store them in relational and non-relational databases. For data analysis it is not possible to use only the set of data generated by the sensors as these simply contain identifiers and values of each sensor, for this, it is necessary to relate them with the information of the configurations that are stored in the relational database, this process is called data integration, for this the Denodo tool is used, The problem is that the data that is integrated is not housed in a physical space and also, its volume increases considerably to the point of having a Big Data, that is why an Apache Hadoop cluster is necessary as a Big Data infrastructure for the storage and processing of large amounts of data through its HDFS and YARN services. The application of basic, descriptive and predictive statistics is performed to the dataset stored in the cluster by means of Python and R programming languages, a major focus is on prediction models in time series belonging to predictive statistics, and therefore, in the evaluation of the prototype, Two scenarios are established, the first one consists of measuring transfer times for loading streaming data, i.e., messages from the time they are generated by the simulator to their storage in HDFS, and on the other hand, the second scenario consists of evaluating the prediction models by applying quality metrics. The results of the first scenario indicate that, for large volumes of data, the integration times are high compared to the transfer times of individual messages, this, considering the resources of the machine where the entire architecture of the prototype is executed, while, for the second scenario, many of the prediction models evaluated, presented similar results to each other, this means that the models, for the most part, adjusted well to the real data set to make significant predictions for the decision making process within an agricultural process.
URI : http://repositorio.utmachala.edu.ec/handle/48000/16927
Aparece en las colecciones: Trabajo de Titulación Ingeniería de sistemas

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TTFIC-2021-IS-DE-00013.pdfTRABAJO DE TITULACION4,22 MBAdobe PDFVisualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons