存储过程实现上亿级图数据分块ETL
Here’s the table of contents:
数据分块-从数据库获取最大最小自增ID
分块操作数据并批量提交【2.3亿条数据占用存储200G】
数据分块-从数据库获取最大最小自增ID
WITH 'jdbc:mysql://testlab-contentdb-dev.crkldnwly6ki.rds.cn-north-1.alibaba.com.cn:3306/database?user=dev&password=testlabgogo&useUnicode=true&characterEncoding=utf8&serverTimezone=UTC' AS url,'SELECT MIN(puid) AS min,MAX(pu...
Windows安装Hadoop踩坑
Here’s the table of contents:
报错信息
修改配置
配置成功
报错信息
E:\workspace\ongdb\halin>hadoop version
系统找不到指定的路径。
Error: JAVA_HOME is incorrectly set.
Please update E:\software\ongdb-spark\hadoop-2.7.7\conf\hadoop-env.cmd
'-Xmx512m' 不是内部或外部命令,也不是可运行的程序
或批处理文件。
修改配置
E:\software\ongdb-spark\hadoop-2.7.7\etc\hadoop
set JAVA_HOME=C:\...
Halin源码编译安装运行
Here’s the table of contents:
下载安装nodejs
源码编译运行Halin
修改Yarn源
修改npm源
部分镜像源地址如下
使用Yarn安装本地包
CentOS安装Yarn和Nodejs
Halin源码地址
Yarn Install报错解决
Yarn Install –Force报错解决
Navigate页面访问报错解决
下载安装nodejs
https://nodejs.org/dist/v14.15.1/node-v14.15.1-x64.msi
sudo wget https://nodejs.org/dist/v14.15.1/node-v14.15.1-linux-x64.tar.gz
sud...
ONgDB重复关系重构
Here’s the table of contents:
创建样例数据
重复数据定义
查询刚才创建的测试数据
关系重构
创建样例数据
MERGE (A:Test {name:'A'})
MERGE (B:Test {name:'B'})
CREATE (A)-[:Realation {name:'属性1'}]->(B)
CREATE (A)-[:Realation {name:'属性1'}]->(B)
CREATE (A)-[:Realation {name:'属性2'}]->(B)
CREATE (A)-[:Realation {name:'属性2'}]->(B)
CREATE (A)-[:Realation {name:'属性2'}]...
ONgDB磁盘满事物日志损坏服务恢复
Here’s the table of contents:
问题背景
修改配置强行恢复服务
问题背景
ONgDB服务器节点磁盘满,无法写入数据,导致服务挂掉
修改配置强行恢复服务
unsupported.dbms.tx_log.fail_on_corrupted_log_files=false
ONgDB在三节点集群上扩展一个Replica节点
Here’s the table of contents:
新建用户
优化配置
修改配置文件neo4j.conf
新建用户
## CentOS创建新用户
1、新增用户
sudo adduser ongdb-replica
2、修改密码 testlab%dev
sudo passwd ongdb-replica
3、切换用户
su - ongdb-replica
优化配置
# 该配置只配置CORE节点
#【之前遇到过在跑算法模型时此配置中存在Replica节点时,Replica节点会挂掉】【CORE节点挂掉Replica节点也不能挂,至少保证业务可以正常使用】
causal_clustering.initial_discovery_members=ongdb-1:...
Python调用ONgDB-HTTP接口
Here’s the table of contents:
安装包
ipython-cypher
安装包
pip install ipython-cypher
ipython-cypher
# -*- coding: utf-8 -*-
"""
Created on Tue Oct 27 15:13:46 2020
@author: XXX
"""
import cypher
con = "http://ongdb:testlab%pro@testlab.ongdb.http.server/db/data"
#con = "http://ongdb:testlab%pro@10.20.13.200/db/data"
query = """
MATCH p=()...
Airflow定时调度Cypher-Shell脚本
Here’s the table of contents:
Cron设置
执行Cypher脚本每天同步更新数据
执行Cypher脚本每天同步更新数据【执行CYPHER文件】
test.cql脚本内容【每次运行处理一天前的数据】
调度超大图数据的TASK实现方案【单个TASK的实现方案】
Cron设置
// 1 1 * * * 每天一点
// 1 7 * * * 每天七点
// */1 * * * * 每分钟
// */30 * * * * 每三十分钟
// 0 */12 * * * 每隔12个小时
执行Cypher脚本每天同步更新数据
每天同步前一天到现在的数据,暂不支持历史数据,需要手动跑
#!/bin/bash
DATE=$(date -d "1 da...
122 post articles, 16 pages.