Home

Airflow定时调度Cypher-Shell脚本

Here’s the table of contents: Cron设置 执行Cypher脚本每天同步更新数据 执行Cypher脚本每天同步更新数据【执行CYPHER文件】 test.cql脚本内容【每次运行处理一天前的数据】 调度超大图数据的TASK实现方案【单个TASK的实现方案】 Cron设置 // 1 1 * * * 每天一点 // 1 7 * * * 每天七点 // */1 * * * * 每分钟 // */30 * * * * 每三十分钟 // 0 */12 * * * 每隔12个小时 执行Cypher脚本每天同步更新数据 每天同步前一天到现在的数据,暂不支持历史数据,需要手动跑 #!/bin/bash DATE=$(date -d "1 da...

Read more

编译neo4j-spark-connector组件

Here’s the table of contents: 【一】警告信息 【一】解决方案 【二】警告信息 【二】解决方案 【三】报错 【三】解决方案 【三】报错 【三】解决方案 【一】警告信息 Using platform encoding (UTF-8 actually) to copy filtered resources, i.e. build is platform dependent! 【一】解决方案 在pom.xml中增加配置 <properties> <!--编译编码--> <project.build.sourceEncoding>UTF-8</project.buil...

Read more

基于图数据的组织机构聚类分析

Here’s the table of contents: 背景 技术架构 数据格式化 图数据建模 唯一索引 更新时间 数据模型 JDBC LOAD CYPHER 节点 关系 Spark相似性计算 关系权重分配 阈值设置 计算方式 计算结果保存到Elasticsearch 使用CYPHER查询某个公司主体的聚簇 背景 与组织机构相关的图谱中,公司主体的唯一性识别一般方法都是使用名称相似度和社会统一信用代码鉴别唯一主体。这种方法由...

Read more

ONgDB配置优化

Here’s the table of contents: 使用一些推荐配置 日志相关配置优化 使用一些推荐配置 bin/neo4j-admin memrec # Memory settings recommendation from neo4j-admin memrec: # # Assuming the system is dedicated to running Neo4j and has 126100m of memory, # we recommend a heap size of around 31200m, and a page cache of around 78800m, # and that about 16100m is left for the o...

Read more

ONgDB服务端报错

Here’s the table of contents: 【一】报错 【一】报错 neo4j.log中截获的报错 2020-11-11 11:39:05.236+0000 ERROR Failed to generate JSON output. Closed org.eclipse.jetty.io.EofException: Closed at org.eclipse.jetty.server.HttpOutput.write(HttpOutput.java:491) at com.sun.jersey.spi.container.servlet.WebComponent$Writer.write(WebComponent.java:300) at com.sun...

Read more

Nginx请求转发失败原因排查

Here’s the table of contents: 【一】日志报错 【一】报错解析 【一】报错原因 【二】日志报错 【二】报错解析 【二】报错解决 【三】日志报错 【三】报错解析 【三】报错解决 【四】日志报错 【四】报错解析 【四】报错解决 【五】日志报错 【五】报错解析 【五】报错解决 【一】日志报错 2020/11/11 06:04:25 [error] 25231#0: *7461416 connect() failed (111: Connection refused) while connecting to upstream, client: 10.10.39.169, server: testlab...

Read more

ONgDB集成图计算组件Spark

Here’s the table of contents: 版本信息 基本操作 替换Hadoop的bin文件夹 启动 访问地址 运行测试Spark计算 运行测试Spark+ONgDB计算 版本信息 Spark 2.4.0 http://archive.apache.org/dist/spark/spark-2.4.0/ Neo4j 3.5.x Driver 1.7.5 Scala 2.11 JDK 1.8 hadoop-2.7.7 https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ neo4j-spark-connector-full-2.4.1-M1 https://github.c...

Read more

Nginx访问量统计日常分析

Here’s the table of contents: 查询某个时间段的日志 根据访问IP统计UV 统计访问URL统计PV 查询访问最频繁的URL 查询访问最频繁的IP 根据时间段统计查看日志 查询每秒请求 查询某个时间段的日志 cat access.log |grep 'POST'|grep '2020:11' 根据访问IP统计UV awk '{print $1}' access.log|sort | uniq -c |wc -l 统计访问URL统计PV awk '{print $8}' access.log|wc -l 查询访问最频繁的URL awk '{print $8}' access.log|sort | uniq -c |sort...

Read more