SparkSql学习2 —— 在内存中分析2000万数据

上一篇,我们借助Sqlite分析了2000w条数据,分析结果不错,但有一个问题:造数据很耗时(花费了2个小时)、sql查询同样很耗时(分组汇总查询一次大概需要30秒)。那么,我们可以尝试下直接在内存中

SparkSql学习2 —— 在内存中分析2000万数据

SparkSQL读写外部数据源

objectJdbcDatasourceTest{defmain(args:ArrayString):Unit{valsparkSparkSession.builder().appName("Jdbc

SparkSQL读写外部数据源

SparkSQL的3种Join实现

引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。对于Spark来说有3中Join

SparkSQL的3种Join实现

SparkSQL查询程序的两种方法,及其对比

import包:importorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.rdd.RDDimportorg.apach

SparkSQL查询程序的两种方法,及其对比

SparkSQL内核解析之逻辑计划

!(https://oscimg.oschina.net/oscnet/860fdd59f6bb03c8460bd0082ee19cfd690.jpg)(https://www.oschina.net

SparkSQL内核解析之逻辑计划

SparkSQL内核解析

!(https://oscimg.oschina.net/oscnet/a20f873682c6837bb01308c014c365da91b.jpg)(https://www.oschina.net

SparkSQL内核解析

SparkSQL UDF两种注册方式:udf() 和 register()

调用sqlContext.udf.register()此时注册的方法只能在sql()中可见,对DataFrameAPI不可见用法:sqlContext.udf.register("makeDt",ma

SparkSQL UDF两种注册方式:udf() 和 register()

Hive和SparkSQL:基于 Hadoop 的数据仓库工具

Hive前言Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,将类SQL语句转换为MapReduce任务执行。!image(https

Hive和SparkSQL:基于 Hadoop 的数据仓库工具