有趣的地方

有趣的地方

基于Hadoop的城市公共交通大数据时空分析

文章目录 基于Hadoop的城市公共交通大数据时空分析 摘要 第一章 引言 1.1 研究背景 1.2 研究目的 1.3 研究方法 第二章 相关技术与方法 2.1 Hadoop平台 2.2 大数据处理技术 2.3 时空分析方法 第三章 城市公共交通大数据搜集与处理 3.1 数据源 3.2 数据预处理 第四章 基于Hadoop的时空数据存储与处理 4.1 时空数据模型 4.2 时空数据存储 4.3 时空数据处理 第五章 时空分析应用案例 5.1 公交车出行规律分析 5.2

第一章Hadoop概述

1. Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 主要解决,海量数据的存储和海量数据的分析计算问题。 广义上来说,Hadoop通常是指一个更广泛的概念--Hadoop生态圈 2. Hadoop发展历史(了解) Hadoop创始人Doug Cutting,为了实现与Google类似的全文搜索功能,他在Lucene框架基础上进行优化升级,查询引擎和索引引擎。 2001年年底Lucene成为Apache基金会的一个子项目 对于海量数

hive内置函数

1. 日期函数 -- 当前前日期 select current_date; select unix_timestamp(); -- 建议使用current_timestamp,有没有括号都可以 select current_timestamp(); -- 时间戳转日期 select from_unixtime(1505456567); select from_unixtime(1505456567, 'yyyyMMdd'); select from_unixtime(1505456

HDFS 组织架构

优质博文:IT-BLOG-CN 一、HDFS 概述 HDFS 产生背景: 随着数据量越来越多,一个系统存储不下所有的数据,那么就需要分配到多个操作系统的磁盘中进行存储,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统的一种。 HDFS 定义: HDFS(Hadoop Distributed File System)分布式文件系统,用于存储文件,通过目录树来定位文件,其次,它是分布式的,由很多服务器联合起来实

【hive】transform脚本

一、介绍 二、实现 1.脚本上传到本地 2.脚本上传到hdfs 三、几个需要注意的点 1.脚本名不要写全路径 2.using后面语句中,带不带"python"的问题 3.py脚本Shebang:#!/usr/bin/env python 4.通过约定增强脚本的通用性 文档地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Transform 一、介绍 和udf差不多的作

hive sql -- 看完就会了!

前言  想与你们共同学习,想与你们一起努力,想得到你们的支持与喜欢~ hivesql与sql区别: 1、mysql采用了sql语言,hive采用了类sql的查询语言hql。 2、hive不支持数据的改写和添加,mysql支持。 3、hive无索引,mysql有索引。 4、hive底层是marreduce,mysql底层是执行引擎。 5、hive存储的数据量超级大,而mysql只是存储一些少量的业务数据。 6、hive是把数据存储到hdfs,而mysql

Hadoop+Spark大数据技术 实验8 Spark SQL结构化

9.2 创建DataFrame对象的方式 val dfUsers = spark.read.load("/usr/local/spark/examples/src/main/resources/users.parquet") dfUsers: org.apache.spark.sql.DataFrame = [name: string, favorite_color: string ... 1 more field] dfUsers.show() +------+------------

在k8s中部署hadoop后的使用,包括服务端及客户端(客户端的安装及与k8s服务的对接)

(作者:陈玓玏) 在https://blog.csdn.net/weixin_39750084/article/details/136744772?spm=1001.2014.3001.5502和https://blog.csdn.net/weixin_39750084/article/details/136750613?spm=1001.2014.3001.5502这两篇文章中,说明了如何通过helm和k8s部署hadoop,接下来就看怎么在部署好的集群中使用hadoop了。 一、在服务端

Hive 部署

存放应用安装包的目录/export/software/ 存放应用的目录/export/servers/ 1、配置LINUX系统网络及主机名 虚拟机默认为动态地址,系统重启后IP地址会发生改变,不利于实际开发 一、修改主机名(主机名一致会造成通信混肴,同一主机名会指向不同的虚拟机) 修改主机名命令: hostnamectl set-hostname 修改的名字     ‘’‘例如:将主机名node01更改为node02 hostnamect

Hive on Tez 性能优化

       优化Hive on Tez查询永远不能以一种万能的方法来完成。查询的性能取决于数据的大小、文件类型、查询设计和查询模式。在性能测试期间,要评估和验证配置参数和任何SQL修改。建议在工作负载的性能测试期间一次进行一项更改,并且最好在生产环境中使用它们之前评估调整更改在您的开发和测试环境中的影响。 一、调优指南       与MR或Spark等较旧的执行引擎相比,Hive on Tez查询往往执行得更慢。这通常是由不同执行引擎之间的开箱即用的调整行为的差异 引起的。此外,用户可能已
<< 1 2 3 4 5 6 7 8 9 10 > >>

Powered By Z-BlogPHP 1.7.3

© 2018-2020 有趣的地方 粤ICP备18140861号-1 网站地图