培训简介
(1) 线下面授使得学员和老师面对面直接互动,能及时解决学员提出的问题,老师也可以随时随地掌握学员的掌握情况。
(2) 往期培训
2018年8月爬虫俱乐部Stata编程技术训练营驻马店专场
2018年1月爬虫俱乐部Stata编程技术训练营武汉专场
2017年8月爬虫俱乐部Stata编程技术训练营温州专场
2017年4月爬虫俱乐部Stata编程技术训练营北京专场
2017年2月爬虫俱乐部Stata编程技术训练营武汉专场
初级班培训内容
第一节:初识Stata与数据读入
1)熟悉界面(菜单栏、工具栏、命令输入窗口、历史命令窗口、结果输出窗口等)
2)读入Stata格式的数据(use)
3)寻求帮助(在线帮助、搜索帮助、人肉帮助)
4)DOS命令(cd、mkdir、dir、erase、rm、rmdir、copy、type、shell等)
5)Winexec调用windows系统(播放音乐、打开、关闭浏览器等)
6)Copy命令(文件转移、文件重命名、网络文件读取、网页源代码读取)
7)常用命令(常用的30个命令:keep、drop、use save table browse等)
8)日期定义(Stata可识别的日期和时间格式、主要日期函数、时间函数等)
9)函数(数学函数、字符串函数、随机函数、编程函数等)
10)egen函数(egen与bysort结合、egen与常见统计量结合等)
11)读入TXT、CSV文件(万德交易数据为例)
12)Excel文件 (单个Excel文件、单个Sheet的读入与保存)
13)固定宽度的txt文件(构造固定宽度数据,用命令读入)
14)分行显示的txt文件(构造分行显示的固定宽度数据,用命令读入)
15)基金经理变更案例(不规则数据的整理、数据搬家与填充)
第二节:宏与循环
1)Local概念与基本操作(如何定义local)
2)global概念与基本操作(与local的区别)
3)宏扩展函数(将dis结果、dir结果等赋值给local)
4)while 循环
5)forvalue 循环
6)跳出循环的continue 和continue, break
7)NBER工作论文下载案例(forvalue循环与copy命令)
8)上交所年报抓取案例(forvalue循环,日期函数、容错命令cap、循环过程中的终止)
9)foreach循环, 读入多个csv文件(以wind交易数据为例)
10)获取文件夹中文件名列表(fs命令)并对多个文件循环
11)获取一个变量的取值列表(levelsof命令)并对变量的多个取值进行循环
12)读入多个Excel的多个Sheet案例(以csmar交易和财务数据为例)
第三节:数据库操作
1)数据的纵向合并(CSMAR交易数据为例、cntrade命令、工企数据库运用)
2)数据的横向合并 (财务数据为例)
3)数据长宽变换 (wind财务数据、多列变一列reshape,stack命令)
4)美国流行歌曲目录案例(reshape命令长变宽)
5)起死回生(preserve restore命令)
6) CSSCI期刊目录案例(preserve restore一列变多列)
7) label(文件label、变量label、观测值label)
8)用label找变量(labelsof、label 的宏扩展函数)
9)字符串处理(长度、关键词、替换、提取、寻找总经理、寻找董事长、两职合一)
第四节:Post命令与网络爬虫入门
1)post 原理
2)定义post
3)用post计算同步性和Beta
4)基于网络数据的事件研究
5)股本变更数据
6)新浪公告数据抓取
7)新浪高管任职数据抓取
第五节:绘图
1)基本统计图形的绘制(散点图:twoway scatter;折线图:twoway line;连线图:twoway connected;连线阴影图:twoway area;柱状图: twoway bar;直方图: twoway histogram;条形统计图:graph bar;饼图:graph pie)
2)基本统计图形的属性:颜色、形状、大小、标签、位置、坐标轴、图例等。
3)复杂图形的绘制(多个图形在同一个图形中的显示,多个坐标轴的绘画等)
4)透明图片的绘制
5)命令grss的运用
6)图形的保存、合并和输出
第六节:回归分析及结果输出
1)输出表格或图形到WORD文档、EXCEL文档和PDF文档:putdocx、putpdf、putexcel
2)基本统计信息:sum2doxc
3)分组检验:t2docx
4)相关系数矩阵:corr2docx
5)简单线性回归:reg2docx
高级班培训内容
第一节:正则表达式
1)正则表达式基本函数介绍(ustrregexm();ustrregexs();ustrregexrf()与ustrregexra())
2)正则表达式元字符介绍(基本元字符;数量元字符;位置元字符;前后查找;特殊字符元字符;回溯引用;unicode编码)
3)正则表达式匹配模式(贪婪模式;懒惰模式
4)正则表达式例子(邮编提取;英文姓与名的拆分;CSSCI数据预处理;百度新闻数量;城市名称提取;pdf表格数据的提取;英文姓名的拆分;用正则表达式表示日期
5)正则表达式相关命令(moss命令与简单的词频统计;subinfile命令对文本文档进行操作)
第二节:网络爬虫
1)爬虫初步(新浪高管任职数据抓取;NBER Working Paper信息的抓取
2)寻找真实链接(和讯网港股数据;深交所信息披露质量;百度新闻逐年结果数
3)调用curl(新浪财经港股数据;环保部AQI)
第三节:Mata
1)mata简介
2)mata简单操作(进入与退出mata环境;定义mata矩阵;mata读取文;mata运算;mata循环与条件语句
3)定义mata函数
4)使用mata进行网络数据处理
第四节:文本分析
1)分词原理
2)分词的实现函数(ustrwordcount()和ustrword();调用Python的jieba和pynlpir;Bosonnlp的API;词频统计)
3)高亮输出文章重点
4)词云图的实现
5)情感分析原理
6)情感分析的实现(Bosonnlp;构建词库计算情感值;大众点评日料评论情感分析)
第五节:markdown及其相关知识
1)Markdown应用场景
2)Markdown基本标记
3)Markdown渲染html网页脚本
4)用Markdown生成Stata静态网页报告(webdoc)
5)用Markdown生成Stata动态网页报告(dyndoc)