大数据_揭阳站长网

分布式基础通信协议：paxos、totem 和 gossip（转载）

所属栏目：[大数据] 日期：2020-12-25 热度：103

背景：在分布式中，最难解决的一个问题就是多个节点间数据同步问题。为了解决这样的问题，涌现出了各种奇思妙想。只有在解决了如何进行信息同步的基础之上才衍生出形形色色的应用。这里开始介绍几种分布式通信协议。简单即有效——totem协议: totem协议也[详细]
Hive 导入 parquet 格式数据

所属栏目：[大数据] 日期：2020-12-25 热度：117

Hive 导入 parquet 数据步骤如下：查看 parquet 文件的格式构造建表语句倒入数据一、查看 parquet 内容和结构下载地址社区工具 GitHub 地址命令查看结构： java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar schema -d activity.201711171437.0.parque[详细]
Presto 常用配置及操作

所属栏目：[大数据] 日期：2020-12-25 热度：158

一、介绍 Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。 Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。推荐阅读 Presto实现原理和美团的使用实践二、安装 2.1[详细]
大数据的技术生态概述（转载）

所属栏目：[大数据] 日期：2020-12-25 热度：106

如何用形象的比喻描述大数据的技术生态？Hadoop、Hive、Spark 之间是什么关系？大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各[详细]
九种常见的数据分析模型

所属栏目：[大数据] 日期：2020-12-25 热度：126

1. 漏斗分析模型漏斗分析是一套流程式数据分析，它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。运营人员可以通过观察不同属性的用户群体（如新注册用户与老客户、不同渠道来源的客户）各环节转化率，各流程步骤转化率的[详细]
大数据领域常用技术栈

所属栏目：[大数据] 日期：2020-12-25 热度：136

提起大数据，不得不提由IBM提出的关于大数据的5V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性），而对于大数据领域的从业人员的日常工作也与这5V密切相关。大数据技术在过去的几十年中取得非常迅速的发[详细]
Databricks说的Lakehouse是什么？

所属栏目：[大数据] 日期：2020-12-25 热度：89

? 在过去的几年里，Lakehouse作为一种新的数据管理范式，已独立出现在Databricks的许多用户和应用案例中。在这篇文章中，我们将阐述这种新范式以及它相对于之前方案的优势。数据仓库在决策支持和商业智能应用方面有着悠久的历史。自20世纪80年代末问世以来[详细]
[编程题]数字翻转(大数加法)

所属栏目：[大数据] 日期：2020-12-25 热度：80

对于一个整数X，定义操作rev(X)为将X按数位翻转过来，并且去除掉前导0。例如: 如果 X = 123，则rev(X) = 321; 如果 X = 100，则rev(X) = 1. 现在给出整数x和y,要求rev(rev(x) + rev(y))为多少？? 输入描述: 输入为一行，x、y(1 ≤ x、y ≤ 1000)，以空格隔开[详细]
[bigdata-036] mit-scheme试用

所属栏目：[大数据] 日期：2020-12-25 热度：147

1. 安装Mit-scheme apt-get install mit-scheme 2. 写一个hello wold代码， hi.scm (begin (display "Hello,World!") (newline)) 3. 在命令行执行 scheme，进入交互界面，然后输入命令 (load 'hi.scm') 将执行这个文件，然后输出 "Hello,World!" 4. scheme语[详细]
[bigdata-037] docker hue 用SQL获取数据以及可视化

所属栏目：[大数据] 日期：2020-12-25 热度：159

1. hue官网 https://github.com/cloudera/hue http://gethue.com/ 2. hue的功能有py2+django开发，提供Hive,Impala,MySQL,Oracle,PostgreSQL,Spark SQL,Solr SQL,Phoenix...等SQL数据获取和页面展示 3. 用docker 安装hue docker pull gethue/hue 4. hue ima[详细]
[bigdata-037]apache hue 用SQL获取数据以及可视化

所属栏目：[大数据] 日期：2020-12-25 热度：183

1. hue官网 https://github.com/cloudera/hue http://gethue.com/ 2. hue的功能有py2+django开发，提供Hive,Impala,MySQL,Oracle,PostgreSQL,Spark SQL,Solr SQL,Phoenix...等SQL数据获取和页面展示 3. 用docker 安装hue docker pull gethue/hue 4. hue ima[详细]
[bigdata-038] tushare 金融数据安装使用

所属栏目：[大数据] 日期：2020-12-25 热度：64

1. 安装 pip install tushare 2. 获取股票的基本面 #!/usr/bin/env python3#!-*- coding:utf-8 -*-import tushare as ts#显示基本信息res = ts.get_stock_basics()print(res)print(type(res)) res是的类型是pandas.core.frame.DataFrame，3114? x 22 的矩阵[详细]
3.21.1、BI之SSIS之数据流转换（渐变维度-混合模式）

所属栏目：[大数据] 日期：2020-12-24 热度：121

BI之SSIS之数据流转换（渐变维度-混合模式） ? ? 1??????????3.21中介绍了普通模式的渐变维度，即通过时间标志来对维度属性值的变化进行记录，这种方式可以很直观的看到变化的时间点，但是在使用时却比较麻烦，因为你需要通过时间字段去判断 ? 2??????????这[详细]
[bigdata-039] pysql+pymongo+py3把数据从sql 导入到mongo的通

所属栏目：[大数据] 日期：2020-12-24 热度：154

#!/usr/bin/env python3#! coding:utf-8 -*-import pymysqlimport pymongodef trans_data_from_mysql_to_mongo(source_param,target_param,trans_type,where_clause,ignore_columns=[]): # 创建mysql连接 mysql_conn = pymysql.connect(host=source_param['d[详细]
使用机器学习和大数据预测心脏病

所属栏目：[大数据] 日期：2020-12-24 热度：97

编者按：现在公众号有置顶功能了，大家把微信更新到最新版本，点开“大数据实验室”公众号。点“ 置顶公众号 ”键，就可以置顶了，这样。不管我们什么时候更新，您都能容易找到。大数据和机器学习的组合是一项革命性的技术，如果以恰当的方式使用它，它可[详细]
[bigdata-040] cloudera manager web服务故障处理

所属栏目：[大数据] 日期：2020-12-24 热度：75

1. cloudera manager的web服务挂了 2. 根据文档进行重启 https://www.cloudera.com/documentation/enterprise/5-4-x/topics/cm_ag_server.html sudo service cloudera-scm-server start 无效，在10.14.x.x:7180上没有服务 lsof -i:7180上能看到端口占用。检[详细]
HDU 2054 大数比较

所属栏目：[大数据] 日期：2020-12-24 热度：167

题目传送门：http://acm.hdu.edu.cn/showproblem.php?pid=2054 ???? ?? A这个水题也没有什么意思，主要巩固前面Java大数类和一些方法的学习。 ??? ?? 题目如果直接用Java.Biginteger.equals()方法的话会WA，在API说明里面，对于2.00，和2.0值相等，标度不等[详细]
成为技术高手：想更了解自己的偶像么？教你用技术手段挖掘他#92

所属栏目：[大数据] 日期：2020-12-24 热度：155

点击上方“云栖社区”可以订阅哦摘要是否在不同的电影中，总是能看到那些熟悉却叫不上名字的演员们，想知道他们之间相互的关系么？本文将带你一步一步地挖掘出他们的关系。想更了解自己的偶像么，那就试试吧。以下为译文我最近换了个工作，在入职之前，[详细]
微信红包先抢和后抢差距居然这么大！春节抢红包的大数据分析

所属栏目：[大数据] 日期：2020-12-24 热度：178

春节是中华民族隆重的农历新年这是世界上规模最大的节日在春节前后炎黄子孙们不远万里衣锦还乡与亲人们团圆在此期间中国的铁路上会发生地球上最大规模的人口迁徙作为世界上最能吃最能玩的种族聪明勇敢的中国人发明了非常多的娱乐活动比如贴春联、[详细]
NMEA library数据处理过程分析

所属栏目：[大数据] 日期：2020-12-24 热度：96

? ? 今天学习一个 GPS 数据解析开源库—— NMEA lib 。使用这个库，可以轻松处理 GPS 接收机发出的数据，并不需要了解 NMEA 的具体协议，这个库可以解析所有 NMEA0813 规定的所有报文格式。不仅可以解析出原始数据中包含的所有参数，还可以计算两点之间的[详细]
打车不再加价？大数据说可以有

所属栏目：[大数据] 日期：2020-12-24 热度：93

高峰期打车的供求关系不均衡的问题，一直被诟[详细]
算法训练区间k大数查询

所属栏目：[大数据] 日期：2020-12-24 热度：58

问题描述给定一个序列，每次询问序列中第l个数到第r个数中第K大的数是哪个。输入格式第一行包含一个数n，表示序列长度。第二行包含n个正整数，表示给定的序列。第三个包含一个正整数m，表示询问个数。接下来m行，每行三个数l,r,K，表示询问序列从左往[详细]
万科房地产大数据分析平台

所属栏目：[大数据] 日期：2020-12-24 热度：130

如何研究房地产市场？归根结底需要解决的问题无非是地、房、人三大内容然而，传统的研究方法却耗时耗力看不全的土地——总会遗忘疏漏想不尽的产品——依旧经验为先读不透的客户——往往以偏概全上海万科率先使用先进的手段颠覆传统的研究方法！近[详细]
携程BI团队实践：推荐系统中基于深度学习的混合协同过滤模型

所属栏目：[大数据] 日期：2020-12-24 热度：102

背景近些年，深度学习在语音识别、图像处理、自然语言处理等领域都取得了很大的突破与成就。相对来说，深度学习在推荐系统领域的研究与应用还处于早期阶段。携程在深度学习与推荐系统结合的领域也进行了相关的研究与应用，并在国际人工智能顶级会议AAAI 20[详细]
[bigdata-033] 互联网金融-大数据架构平台和业务流程

所属栏目：[大数据] 日期：2020-12-24 热度：156

一张图,excited![详细]

4616

129