中国计算机学会推荐国际学术会议和期刊目录(2019)

中国计算机学会推荐国际学术会议和期刊目录 (2019年)中国计算机学会推荐国际学术会议和期刊目录 中国计算机学会推荐国际学术期刊 (数据库/数据挖掘/内容检索) 一、A类 序号 刊物简称 刊物全称 出版社 网址 1 TODS ACM Transactions on Database Systems ACM http://dblp.uni-trier.de/db/journals/tods/ 2 TOIS ACM Transactions on Information Systems ACM http://dblp.uni-trier.de/db/journals/tois/ 3 TKDE IEEE Transactions on Knowledge and Data Engineering IEEE http://dblp.uni-trier.de/db/journals/tkde/ 4 VLDBJ The VLDB Journal Springer http://dblp.uni-trier.de/db/journals/vldb/ 二、B类 序号 刊物简称 刊物全称 出版社 网址 (^1) TKDD ACM Transactions on Knowledge Discovery from Data ACM http://dblp.uni-trier.de/db/journals/tkdd/ (^2) TWEB ACM Transactions on the Web ACM http://dblp.uni-trier.de/db/journals/tweb/ (^3) AEI Advanced Engineering Informatics Elsevier http://dblp.uni-trier.de/db/journals/aei/ (^4) DKE Data and Knowledge Engineering Elsevier http://dblp.

READ MORE

python assert

检查条件,如果不满足,则提示。 assert os.path.isdir(my_Path), 'dir path error' refer python 异常: 8. Errors and Exceptionshttps://docs.python.org/3/tutorial/errors.html . . . . . . . . .

READ MORE

The component and implementation of a basic gradient descent in python

in my impression, the gradient descent is for finding the independent variable that can get the minimum/maximum value of an objective function. So we need an obj. function: $\mathcal{L}$ an obj. function: $\mathcal{L}$ The gradient of $\mathcal{L}: 2x+2$ $\Delta x$ , The value of idependent variable needs to be updated: $x \leftarrow x+\Delta x$ 1. the $\mathcal{L}$ is a context function: $f(x)=x^2+2x+1$ how to find the $x_0$ that makes the $f(x)$ has the minimum value, via gradient descent? Start with an arbitrary $x$, calculate the value of $f(x)$ :

READ MORE

文本与网络中的幂率分布

问题背景:在大量文本中,对每个单词的出现次数进行统计,可以得到一张单词出现次数的表格。如: word #existance #of word with same existance a 100,000 20 an 100,000 20 boy 99,888 19 cat 99,877 18 … … … dog 5000 3000 eat 4000 3000 … … … folkloristic 20 80000 wacky 10 80000 zannichelliaceae 1 90009 后面2列,可据此形成二维坐标中的某个点。比如出现次数为100,000的单词,有20个。则对应坐标的横轴100,000,纵轴20. 将所有的行都在坐标中标注,并去掉重复的标注点,即可得到如下的图: 文本中的幂率分布即如下现象: 可以看到具有低出现次数的单词(横坐标较小),数量很大(纵坐标较大)。反之,具有高出现次数的单词,比如a, of, with, for … 数量并不多。而且在幂坐标系里,基本呈现线性,这就是所谓的幂率分布。 可看成是一排学生,出现的次数相当于学生的身高。那些身高很高的学生个数并不多,而身高不高的学生数量庞大。大量单词仅仅出现少量的几次。 对于Random Walk爬取的context, 其节点出现的频率与具有此频率的节点个数之间,也服从类似word 的幂率分布,这是DeepWalk拿来说事儿的根基。如图: 。 网络节点的度分布与power law 看一个netGAN 论文(ICML2018)中的图: 度数小的节点,位于x轴左侧,数量较大,y轴上侧。度数大的节点,位于x轴右侧,在y轴上处于值较小的位置,及数量较少。

READ MORE

有向图变无向图并存储

有向图变无向图并存储 Transform directed graph into undirected graph. ''' ''' import networkx as nx edgelist_path = 'fq_following.number' edgelist=[] with open(edgelist_path, 'r') as edgelistX_reader: # input anchor for bind for line in edgelistX_reader.readlines(): temp_array = line.strip().split(' ') # edgelist.append(list(map(int, temp_array))) # for netX, directly append edgelistX_reader.close() nodeID_set = set() # set for store the nodes for i in edgelist: nodeID_set.add(i[0]) # nodeID_set.add(i[1]) # edges = [tuple(e) for e in edgelist] node_names = [n for n in nodeID_set] G = nx.DiGraph() G.add_nodes_from(node_names) G.add_edges_from(edges) print(nx.

READ MORE

python标签值标准化到[0-(#class-1)](重新编码标签)

python 处理标签常常需要将一组标签映射到一组数字,数字还要求连续。 比如 [‘a’, ‘b’, ‘c’, ‘a’, ‘a’, ‘b’, ‘c’] ==(a->0, b->1, c->2)=> [0, 1, 2, 0, 0, 1, 2]。 为了便于本文被搜索,加个关键词:重新编码 可以用sklearn.preprocessing.LabelEncoder()这个函数。 以数字标签为例: from sklearn import preprocessing le = preprocessing.LabelEncoder() le.fit([1,2,2,6,3]) #获取标签值# In [2]: le.classes_ Out[2]: array([1, 2, 3, 6]) #将标签值标准化# In [3]: le.transform([1,1,3,6,2]) Out[3]: array([0, 0, 2, 3, 1], dtype=int64) #将标准化的标签值反转# 即“反向编码”: In [4]: le.inverse_transform([0, 0, 2, 3, 1]) Out[4]: array([1, 1, 3, 6, 2]) 非数字型标签值标准化: In [5]: from sklearn import preprocessing ...: le =preprocessing.LabelEncoder() ...: le.fit(["paris", "paris", "tokyo", "amsterdam"]) .

READ MORE

Why the Anaconda command prompt is the first choice in windows?

为什么在windows里,首选的conda命令行工具是Anaconda command prompt? In windows, what’s the difference between command prompt and anaconda prompt Anaconda command prompt is just like command prompt, but it makes sure that you are able to use anaconda and conda commands from the prompt, without having to change directories or your path. When you start Anaconda command prompt, you’ll notice that it adds/(“prepends”) a bunch of locations to your PATH. These locations contain commands and scripts that you can run. So as long as you’re in the Anaconda command prompt, you know you can use these commands.

READ MORE

[转]Python 的列表解析式,集合解析式,字典解析式

Python 的列表解析式,集合解析式,字典解析式 这三种都是 python 里面的语法糖。 语法糖,Syntactic Sugar,就是为了写程序时候少出错,发明的一些简便的方法,但不影响这个语法的功能。 (我第一反应是 HP 里面的 chocolate frog,哈哈哈) 1. 列表解析式 list comprehension 通常我们定义有内容 list 时,想对内容进行一些计算再放进去,除了使用 for 循环迭代出列表内的元素,进行计算再放进去,还可以在列表内直接写解析式计算。 1.1 普通版:[expression for i in iterable] 比如,要求 1-10 的每个数字的算术平方根组成的集合。 用 for 循环的话: lst = [] for i in range(1, 11): i = i ** 0.5 #不用pow()是因为这样计算比较快 lst.append(i) 这样看起来就比较繁琐。 用列表解析式的话,就相当于把上面的内容都浓缩起来: lst = [ i**0.5 for i in range(1,11) ] 这样看起来就很清爽,前面是要对 i 做的处理,后面是 i 从哪里迭代,这些都用中括号 [ ] 括起来,是生成一个列表。 1.2 进阶版 [expression for i in iterable if… for j in iterable if… …] 前面还是表达式,但是后面写的是双循环,还有判断条件,就是符合条件的再进前面的表达式。

READ MORE

由《把兴趣当职业到底靠不靠谱》想到的

由《把兴趣当职业到底靠不靠谱》想到的 2018年,梁宏达在他的《梁知》节目中讨论了一期关于职业发展相关的话题,“把兴趣当职业到底靠不靠谱”。 节目中他举了几个把兴趣当职业的例子,都是失败的案例。他总结的原因是:对某个事情产生的兴趣往往来自于做这些事情的人们身上所披的外在的光环。而当你真正了解到、接触到这些事情以后,往往会被其中的艰辛、困难等等吓跑或者吃不消。 他举了名企高管辞职开咖啡馆遇到经营难题的例子、自己爱好乒乓球接触到专业训练时体力不支的例子、郎朗练习钢琴对高强度练习的反感最终坚持下来的例子。等。 他说,人们真正对工作有兴趣,不应该是“爱一行,干一行”, 而是“干一行,爱一行”。意思是只有将工作干好了,得到同行和社会的肯定了,兴趣自然就来了。评论区里网友就说了,说我能做出别人做不出的数学题,自己对数学的兴趣就萌生了。 总结起来,职业选择时,考虑个人兴趣时,老梁认为切忌因为只看到某个职业的外在而忽略了其背后的艰辛和对个人能力天赋的要求。如果根据这样产生的兴趣而选择自己一生的职业,往往会入行以后不满意自己的职业。而很多由兴趣出发的职业选择都会遇到这样的问题。所以,多数从兴趣出发的职业选择往往是不靠谱的。 我想,对绝大多数人来说,职业选择应该首先是个人谋生的手段。如果还需要谋生,即需要社会对个人的认可,而不是个人对社会的挑选。中心在于环境和社会,不是个人。 这牵涉的问题应该是如何看待个人和世界的关系问题。如果一个人以个人为中心,那么他会更倾向于满足自己内心的诉求去做出行为选择,包括职业选择。反过来,以社会为中心和主体,他的选择会迎合社会发展需要,比如选择普遍高薪和人才相对紧缺的行业。 节目中透露出来的一个推论就是,谋生的职业往往是不舒适的,而兴趣往往是带来舒适感的。这二者存在着天生的矛盾。个人没有能力改变社会让谋生变成一个舒适的过程,工作中总有各种因素导致不如意。那么问题就成了工作不如意时,如何进行个人心态调适。 顺境中成长的人,往往太关心自我的感受,牺牲和奉献为其忽略。而这对于职业发展来说,往往是不可或缺的。

READ MORE