# Twitter数据集
# 简介
21世纪以来,社交网络高速发展,在短短的几十年间,拥有了数十亿的用户,影响着人们生活的方方面面,上到总统选举,下到日常生活的分享,社交网络已经是人们生活中不可缺少的一部分,同时实实在在的影响着现实世界。
在这样的背景下,在线社交网络分析科学应运而生,它是一种基于信息学,数学,社会学,心理学等科学的交叉学科,主要研究方向包括网络的机构与演化,网络中的群体与互动,以及在网络上的信息传播。相关应用包括用户画像,情感分析,社交推荐等等。
图分析是社交网络分析的重要分析手段,在社交网络图上使用各种图分析算法,可以帮助人们发现隐藏在数据背后的逻辑与规律。
Twitter数据集取自Twitter真实的用户关系数据,具有千万级节点,十四亿边的数据量级,在保留了社交网络特性的同时,也是数据分析工具很好的性能衡量工具。
# 数据指标
Twitter数据集是一个无属性有向图,图上有一种类型的点与一种类型的边,边没有唯一索引。
具体数据指标如下:
指标项 | 数量 | 描述 |
---|---|---|
点数 | 41,652,230 | |
边数 | 1,468,364,416 | |
源数据大小 | 26.5GB | 源数据为csv文件 |
点类型数 | 1 | |
边类型数 | 1 | |
点边比 | 0.02 | 常用于评估图密度 |
超级点数量 | 5213 | 以出度大于2w为标准 |
最大出度 | 2997469 | 点id:23934132 |
最大入度 | 770155 | 点id:21513299 |