C++Primer
变量
类型
算术类型
- 整形
- 包括char和bool在内
- 浮点型
- 单精度
- 双精度
- 扩展精度
- 整形
空类型(void)
这一章是对上一章的优化,PCFGs主要有两个关键的弱点,第一个是缺乏对词汇信息的敏感度,第二个是缺乏对结构的偏好,第一个问题是我们使用lexicalized PCFGs的根本原因。
Noam Chomsky 曾经把语言定义为按照一定规律构成的句子和符号串的有限或无限集合,形式语言是用来精确描述语言及其结构的手段,形式语言学也称为代数语言学。
对于一个句子,我们要做的是给每一个单词打上词性标记,比如句子the dog saw a cat
对应的tag sequence是D N V D N,这个句子的长度是5,对应的输入\(x_1=the,x_2=dog,x_3=saw,x_4=the,x_5=cat\),用\(y_1y_2...y_n\)来表示tagging model的output,对应上面的有\(y_1=D,y_2=N,y_3=V,...\)。匹配句子\(x_1...x_n\)的tag sequence \(y_1...y_n\)的问题叫做 sequence labeling problem 或者是 tagging problem。
这里首先有个语料库,记录了很多条句子,然后预测给定句子出现的概率。给定一个句子,这里句子的长度为n,也就是\(|V|=n\),第i个单词用字母\(x_i\)表示,那么概率公式表示为:\(P(X_1=x_1,X_2=x_2,...X_n=x_n)\)
“惯例”这个词指的是“习惯的做法,常规的办法,一贯的做法”,与这个词对应的英文单词叫“idiom”。由于Python跟其他很多编程语言在语法和使用上还是有比较显著的差别,因此作为一个Python开发者如果不能掌握这些惯例,就无法写出“Pythonic”的代码。下面我们总结了一些在Python开发中的惯用的代码。
该笔记摘录自微信公众号“每天进步一点点2015”的文章《Python数据分析之pandas学习(一)》和《Python数据分析之pandas学习(二)》。我对代码和讲解中不够清晰的地方进行了一些改动和补充。
本文取自Analytics Vidhya的一个帖子12 Useful Pandas Techniques in Python for Data Manipulation,浏览原帖可直接点击链接,中文版可参见Datartisan的用 Python 做数据处理必看:12 个使效率倍增的 Pandas 技巧。这里主要对帖子内容进行检验并记录有用的知识点。