业务介绍 > 线下培训_武汉字符串数据科技有限公司

培训简介

（1）线下面授使得学员和老师面对面直接互动，能及时解决学员提出的问题，老师也可以随时随地掌握学员的掌握情况。

（2）往期培训

2018年8月爬虫俱乐部Stata编程技术训练营驻马店专场

2018年1月爬虫俱乐部Stata编程技术训练营武汉专场

2017年8月爬虫俱乐部Stata编程技术训练营温州专场

2017年4月爬虫俱乐部Stata编程技术训练营北京专场

2017年2月爬虫俱乐部Stata编程技术训练营武汉专场

初级班培训内容

第一节：初识Stata与数据读入

1)熟悉界面（菜单栏、工具栏、命令输入窗口、历史命令窗口、结果输出窗口等）

2)读入Stata格式的数据（use）

3)寻求帮助（在线帮助、搜索帮助、人肉帮助）

4)DOS命令（cd、mkdir、dir、erase、rm、rmdir、copy、type、shell等）

5)Winexec调用windows系统(播放音乐、打开、关闭浏览器等)

6)Copy命令（文件转移、文件重命名、网络文件读取、网页源代码读取）

7)常用命令（常用的30个命令：keep、drop、use save table browse等）

8)日期定义（Stata可识别的日期和时间格式、主要日期函数、时间函数等）

9)函数（数学函数、字符串函数、随机函数、编程函数等）

10)egen函数（egen与bysort结合、egen与常见统计量结合等）

11)读入TXT、CSV文件（万德交易数据为例）

12)Excel文件（单个Excel文件、单个Sheet的读入与保存）

13)固定宽度的txt文件（构造固定宽度数据，用命令读入）

14)分行显示的txt文件（构造分行显示的固定宽度数据，用命令读入）

15)基金经理变更案例（不规则数据的整理、数据搬家与填充）

第二节：宏与循环

1)Local概念与基本操作（如何定义local）

2)global概念与基本操作（与local的区别）

3)宏扩展函数（将dis结果、dir结果等赋值给local）

4)while 循环

5)forvalue 循环

6)跳出循环的continue 和continue, break

7)NBER工作论文下载案例(forvalue循环与copy命令)

8)上交所年报抓取案例(forvalue循环，日期函数、容错命令cap、循环过程中的终止)

9)foreach循环, 读入多个csv文件（以wind交易数据为例）

10)获取文件夹中文件名列表（fs命令）并对多个文件循环

11)获取一个变量的取值列表（levelsof命令）并对变量的多个取值进行循环

12)读入多个Excel的多个Sheet案例（以csmar交易和财务数据为例）

第三节：数据库操作

1)数据的纵向合并（CSMAR交易数据为例、cntrade命令、工企数据库运用）

2)数据的横向合并（财务数据为例）

3)数据长宽变换（wind财务数据、多列变一列reshape，stack命令）

4)美国流行歌曲目录案例（reshape命令长变宽）

5)起死回生（preserve restore命令）

6) CSSCI期刊目录案例（preserve restore一列变多列）

7) label(文件label、变量label、观测值label)

8)用label找变量（labelsof、label 的宏扩展函数）

9)字符串处理（长度、关键词、替换、提取、寻找总经理、寻找董事长、两职合一）

第四节：Post命令与网络爬虫入门

1)post 原理

2)定义post

3)用post计算同步性和Beta

4)基于网络数据的事件研究

5)股本变更数据

6)新浪公告数据抓取

7)新浪高管任职数据抓取

第五节：绘图

1)基本统计图形的绘制（散点图：twoway scatter；折线图：twoway line；连线图：twoway connected；连线阴影图：twoway area；柱状图: twoway bar；直方图: twoway histogram；条形统计图：graph bar；饼图：graph pie）

2)基本统计图形的属性：颜色、形状、大小、标签、位置、坐标轴、图例等。

3)复杂图形的绘制(多个图形在同一个图形中的显示，多个坐标轴的绘画等)

4)透明图片的绘制

5)命令grss的运用

6)图形的保存、合并和输出

第六节：回归分析及结果输出

1)输出表格或图形到WORD文档、EXCEL文档和PDF文档：putdocx、putpdf、putexcel

2)基本统计信息：sum2doxc

3)分组检验：t2docx

4)相关系数矩阵：corr2docx

5)简单线性回归：reg2docx

高级班培训内容

第一节：正则表达式

1)正则表达式基本函数介绍（ustrregexm()；ustrregexs()；ustrregexrf()与ustrregexra()）

2)正则表达式元字符介绍（基本元字符；数量元字符；位置元字符；前后查找；特殊字符元字符；回溯引用；unicode编码）

3)正则表达式匹配模式（贪婪模式；懒惰模式

4)正则表达式例子（邮编提取；英文姓与名的拆分；CSSCI数据预处理；百度新闻数量；城市名称提取；pdf表格数据的提取；英文姓名的拆分；用正则表达式表示日期

5)正则表达式相关命令（moss命令与简单的词频统计；subinfile命令对文本文档进行操作）

第二节：网络爬虫

1)爬虫初步（新浪高管任职数据抓取；NBER Working Paper信息的抓取

2)寻找真实链接（和讯网港股数据；深交所信息披露质量；百度新闻逐年结果数

3）调用curl（新浪财经港股数据；环保部AQI）

第三节：Mata

1)mata简介

2)mata简单操作（进入与退出mata环境；定义mata矩阵；mata读取文；mata运算；mata循环与条件语句

3)定义mata函数

4)使用mata进行网络数据处理

第四节：文本分析

1)分词原理

2)分词的实现函数（ustrwordcount()和ustrword()；调用Python的jieba和pynlpir；Bosonnlp的API；词频统计）

3)高亮输出文章重点

4)词云图的实现

5)情感分析原理

6)情感分析的实现（Bosonnlp；构建词库计算情感值；大众点评日料评论情感分析）

第五节：markdown及其相关知识

1)Markdown应用场景

2)Markdown基本标记

3)Markdown渲染html网页脚本

4)用Markdown生成Stata静态网页报告（webdoc）

5)用Markdown生成Stata动态网页报告（dyndoc）

联系我们

快捷导航

扫描二维码