版本

# Twitter数据集


# 简介

21世纪以来,社交网络高速发展,在短短的几十年间,拥有了数十亿的用户,影响着人们生活的方方面面,上到总统选举,下到日常生活的分享,社交网络已经是人们生活中不可缺少的一部分,同时实实在在的影响着现实世界。

在这样的背景下,在线社交网络分析科学应运而生,它是一种基于信息学,数学,社会学,心理学等科学的交叉学科,主要研究方向包括网络的机构与演化,网络中的群体与互动,以及在网络上的信息传播。相关应用包括用户画像,情感分析,社交推荐等等。

图分析是社交网络分析的重要分析手段,在社交网络图上使用各种图分析算法,可以帮助人们发现隐藏在数据背后的逻辑与规律。

Twitter数据集取自Twitter真实的用户关系数据,具有千万级节点,十四亿边的数据量级,在保留了社交网络特性的同时,也是数据分析工具很好的性能衡量工具。


# 数据指标

Twitter数据集是一个无属性有向图,图上有一种类型的点与一种类型的边,边没有唯一索引。

具体数据指标如下:

指标项 数量 描述
点数 41,652,230
边数 1,468,364,416
源数据大小 26.5GB 源数据为csv文件
点类型数 1
边类型数 1
点边比 0.02 常用于评估图密度
超级点数量 5213 以出度大于2w为标准
最大出度 2997469 点id:23934132
最大入度 770155 点id:21513299
最近一次更新时间: 9/14/2022, 11:23:36 AM