培训简介

(1)   线下面授使得学员和老师面对面直接互动,能及时解决学员提出的问题,老师也可以随时随地掌握学员的掌握情况。

(2)   往期培训

  2018年8月爬虫俱乐部Stata编程技术训练营驻马店专场

  2018年1月爬虫俱乐部Stata编程技术训练营武汉专场

  2017年8月爬虫俱乐部Stata编程技术训练营温州专场

  2017年4月爬虫俱乐部Stata编程技术训练营北京专场

  2017年2月爬虫俱乐部Stata编程技术训练营武汉专场

 

 

初级班培训内容

第一节:初识Stata与数据读入

      1)熟悉界面(菜单栏、工具栏、命令输入窗口、历史命令窗口、结果输出窗口等)

      2)读入Stata格式的数据(use)

      3)寻求帮助(在线帮助、搜索帮助、人肉帮助)

      4)DOS命令(cd、mkdir、dir、erase、rm、rmdir、copy、type、shell等)

      5)Winexec调用windows系统(播放音乐、打开、关闭浏览器等)

      6)Copy命令(文件转移、文件重命名、网络文件读取、网页源代码读取)

      7)常用命令(常用的30个命令:keep、drop、use save table browse等)

      8)日期定义(Stata可识别的日期和时间格式、主要日期函数、时间函数等)

      9)函数(数学函数、字符串函数、随机函数、编程函数等)

      10)egen函数(egen与bysort结合、egen与常见统计量结合等)

      11)读入TXT、CSV文件(万德交易数据为例)

      12)Excel文件 (单个Excel文件、单个Sheet的读入与保存)

      13)固定宽度的txt文件(构造固定宽度数据,用命令读入)

      14)分行显示的txt文件(构造分行显示的固定宽度数据,用命令读入)

      15)基金经理变更案例(不规则数据的整理、数据搬家与填充)

第二节:宏与循环

      1)Local概念与基本操作(如何定义local)

      2)global概念与基本操作(与local的区别)

      3)宏扩展函数(将dis结果、dir结果等赋值给local)

      4)while 循环

      5)forvalue 循环

      6)跳出循环的continue 和continue, break

      7)NBER工作论文下载案例(forvalue循环与copy命令)

      8)上交所年报抓取案例(forvalue循环,日期函数、容错命令cap、循环过程中的终止)

      9)foreach循环, 读入多个csv文件(以wind交易数据为例)

      10)获取文件夹中文件名列表(fs命令)并对多个文件循环

      11)获取一个变量的取值列表(levelsof命令)并对变量的多个取值进行循环

      12)读入多个Excel的多个Sheet案例(以csmar交易和财务数据为例)

第三节:数据库操作

      1)数据的纵向合并(CSMAR交易数据为例、cntrade命令、工企数据库运用)

      2)数据的横向合并 (财务数据为例)

      3)数据长宽变换 (wind财务数据、多列变一列reshape,stack命令)

      4)美国流行歌曲目录案例(reshape命令长变宽)

      5)起死回生(preserve restore命令)

      6) CSSCI期刊目录案例(preserve restore一列变多列)

      7) label(文件label、变量label、观测值label)

      8)用label找变量(labelsof、label 的宏扩展函数)

      9)字符串处理(长度、关键词、替换、提取、寻找总经理、寻找董事长、两职合一)

第四节:Post命令与网络爬虫入门

      1)post 原理

      2)定义post

      3)用post计算同步性和Beta

      4)基于网络数据的事件研究

      5)股本变更数据

      6)新浪公告数据抓取

      7)新浪高管任职数据抓取

第五节:绘图

      1)基本统计图形的绘制(散点图:twoway scatter;折线图:twoway line;连线图:twoway connected;连线阴影图:twoway area;柱状图: twoway bar;直方图: twoway histogram;条形统计图:graph bar;饼图:graph pie)

      2)基本统计图形的属性:颜色、形状、大小、标签、位置、坐标轴、图例等。

      3)复杂图形的绘制(多个图形在同一个图形中的显示,多个坐标轴的绘画等)

      4)透明图片的绘制

      5)命令grss的运用

      6)图形的保存、合并和输出

第六节:回归分析及结果输出

      1)输出表格或图形到WORD文档、EXCEL文档和PDF文档:putdocx、putpdf、putexcel

      2)基本统计信息:sum2doxc

      3)分组检验:t2docx

      4)相关系数矩阵:corr2docx

      5)简单线性回归:reg2docx

 

 

高级班培训内容

第一节:正则表达式

      1)正则表达式基本函数介绍(ustrregexm();ustrregexs();ustrregexrf()与ustrregexra())

      2)正则表达式元字符介绍(基本元字符;数量元字符;位置元字符;前后查找;特殊字符元字符;回溯引用;unicode编码)

      3)正则表达式匹配模式(贪婪模式;懒惰模式

      4)正则表达式例子(邮编提取;英文姓与名的拆分;CSSCI数据预处理;百度新闻数量;城市名称提取;pdf表格数据的提取;英文姓名的拆分;用正则表达式表示日期

      5)正则表达式相关命令(moss命令与简单的词频统计;subinfile命令对文本文档进行操作)

第二节:网络爬虫

      1)爬虫初步(新浪高管任职数据抓取;NBER Working Paper信息的抓取

      2)寻找真实链接(和讯网港股数据;深交所信息披露质量;百度新闻逐年结果数

      3)调用curl(新浪财经港股数据;环保部AQI)

第三节:Mata

      1)mata简介

      2)mata简单操作(进入与退出mata环境;定义mata矩阵;mata读取文;mata运算;mata循环与条件语句

      3)定义mata函数

      4)使用mata进行网络数据处理

第四节:文本分析

      1)分词原理

      2)分词的实现函数(ustrwordcount()和ustrword();调用Python的jieba和pynlpir;Bosonnlp的API;词频统计)

      3)高亮输出文章重点

      4)词云图的实现

      5)情感分析原理

      6)情感分析的实现(Bosonnlp;构建词库计算情感值;大众点评日料评论情感分析)

第五节:markdown及其相关知识

      1)Markdown应用场景

      2)Markdown基本标记

      3)Markdown渲染html网页脚本

      4)用Markdown生成Stata静态网页报告(webdoc)

      5)用Markdown生成Stata动态网页报告(dyndoc)