首页 > 编程知识 正文

论文思路框架图,趋势分析

时间:2023-05-03 05:03:45 阅读:13362 作者:935

github :链接

论文趋势分析专栏:链接

论文趋势分析-作者关系图1数据预处理1.1数据加载1.2数据连接2统计机器学习领域作者图2.1机器学习领域的数据提取2.2映射图像2.3在机器学习领域找到合作数量最多的作者2.3.1的第一步连接图2.2 按照连接边数排序2.4Beygelzimer土豪排序红牛'合作作者2.5抽取Beygelzimer土豪红牛'合作连接图2.6以作者们与他人合作的频率2.7绘制最大连结子图

1数据预处理1.1数据导入#导入所需的package导入seaborn as SNS #用于攀登描绘用from bs4 importbeautifulsoup # arxiv的数据导入re #正则表达式,与字符串一致的参数导入JSON #读取数据。 我们的数据是json格式的import pandas as pd #数据处理,数据分析import matplotlib.pyplot as plt #绘图工具defreadarxivfile(path,columns=['id ' title '、' comments '、' journal-ref '、' doi '、' report-no '、' update_date '、' authors_parsed'] ' ' ' '、 count=None ) :“”定义了读取文件的函数path:文件路径columns:必须选择的列count:的读取行数“”“date”(“r”) 在线内枚举(f ) : if idx==count : breakd=JSON.loads ) line ) d={ col : d [ col ] forcolincolumns } data . DATA=PD.dataframe(data ) return data data=readarxivfile (d : (code (github ) data ) academictrendsanalysis/aded ' authors_parsed'] ',200000 (data [ ' categories ' ]=data.categories.str.split (',expand=dataadegories ) categories.CSV ' ) 1.2数据连接数据=data.merge (category, how='left'(data.head(3) idcategoriesauthors _ parsed group _ name archive _ name archive _ id category _ name categatege . physicshighenergyphysics-phenomenology hep-phighenergyphysics-phenomenologydescriptioncomingsoon 10704.0002 math.co ] mathematicsmathematicsmathematicscombinatoricsdiscretemathematics,graph theory,enumeraTiO.20704.004 Hongjun, ] physicsphysicsphysicsgeneralphysicsdescriptioncomingsoon 2统计机器学习领域的作者地图2.1机器学习领域的数据data _ ml=data.loc [ data.categorror (596,8 ) 2.2映射图像为了便于显示,只采用了前10篇论文baseline的data的过度采集。 改变活跃的摩托车光点后,图像现在可以正常显示。 import networkx as nx #无向图像g=NX.graph(#5仅用五篇论文构建forrowindata _ ml.iloc [ :10 ].ITER tuples ) (3360auttles ) forxinauthors]#第一个作者将forauthorinauthors [ 1: ] : g.add _ edge [ authorinauthors ]链接到其他作者

2.3在machine learning领域找到合作数量最多的作者2.3.1第一步生成合并图itertuples重复DataFrame对象G.add_edge (在图中边G=nx.Graph ors=row [3] authors=[ ' '.join [ x [ :-1 ] ] forxinauthors ] #第一个作者与其他作者链接forauthorinauthors[13360]3360 num _ sorted=sorted (dict (g.degree ) ).items )、key=(name,num ) inenumerate(num_sorted ) : ifi 3: pred num ) Beygelzimer土豪红牛:10 ara noya :9 liuhan :82.4 beygelzimer土豪红牛(与合作作者g(beygelzimer土豪红牛(Atlasview ) ) ' Dasgupta Sanjoy': {},' Lifshits Yuri': {},' Sorkin Gregory': {},' Strehl mldsy': {},' Li lilili } 与' Hsu Daniel': {},'张通' : { } 2.5 beygelzimer土豪红牛'合作的连接图deffunc(x ) : s=' ' fori inx : t=' returns data _ temp=data _ ml.authors _ parsed.apply (func ) data _ ml _ beya=data _ temp [ data _ temp ]无向标签只用五篇论文构建for row in data_ML_beya.to_frame ).itertuples ) ) 3360authors=) ' #第一个作者与其他作者forauthorinauthors [ 133336666

2.6作者们与他人合作的频率PLT.rcparams [ ' font.sans-serif ' ]=[ ' simhei ' ] PLT.bar (范围(len (NX.degree _ histogram plt.ylabel )、人数)、plt.title )机器学习领域的论文撰写者与他人的合作数)、text ) ) 0.5,

2.7制作最大合并子图的各节点在作者#每次取出各节点时(链接边数) degree_sequence=sorted ) [dforn, d in G.degree ) ],reverse=true (dmax=max (degree _ sequence ) gcc=g.subgraph ) sorted ) NX.connected _ comome key=len reverse=true(0) ) pos=NX.spring_layout(gcc ) PLT.axis ) ' off ' ) NX.draw_networkx_nodes ) gcccc

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。