Stata:Bayes Bootstrap介绍-exbsample

发布时间:2023-03-26 阅读 764

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:周圆 (中山大学)
邮箱zhouy678@mail2.sysu.edu.cn


目录


1. 理论介绍

Bootstrap 在中文中被译为自举,字面意思是提着靴子上的带子把自己提起来,在 Stata 中可以翻译为自抽样、自举法、靴带法。它是一种增广样本的统计方法,为解决小样本问题提供了很好的思路,可以用于参数估计、估计标准误和置信区间、假设检验等。对于以下的线性模型,根据样本生成过程的不同,Bootstrap 可分为经典 Bootstrap 和 Bayes Bootstrap。

1.1 经典 Bootstrap 简介

经典 Bootstrap 的核心思想是:通过对原样本的观测值进行有放回地抽样,生成一系列 bootstrap 经验样本,进而通过对经验样本的计算获得统计量的分布,以达到统计推断的目的。其背后逻辑在于将原样本当成总样本,也就是说,假设原样本包含总样本的全部信息,可以通过从原样本进行抽样后再统计推断。

具体而言,假设原始样本为 X={xj:j=12n},且样本之间独立同分布。经典 Bootstrap 的操作步骤如下:

  • Step 1:采用有放回抽样方式,从原始样本中抽取一个样本容量为 n 的 bootstrap 样本。
  • Step 2:根据抽出的 bootstrap 样本计算出一个想要的统计量的估计值。
  • Step 3:重复前两步 T 次,得到 T 个该统计量的估计值。
  • Step 4:根据这 T 个估计值获得该统计量的分布,并计算置信区间。

例如,原始独立同分布的样本为 X={xj:j=122000},要获得随机变量 X 的平均值的置信区间,可以采取有放回抽样的方式从原始样本重复抽取 1000 个 bootstrap 样本,每个 bootstrap 样本的容量为 2000;然后计算出每个 bootstrap 样本 X 的平均值,可以得到 1000 个平均值;最后可以根据这 1000 个平均值的分位数获得 X 的置信区间。

由于是有放回的抽样,在任何一次抽样中,原样本中每一个观测值被抽中的概率都为 1n。因此,获得一个 bootstrap 样本的过程等价于先给原样本 X={xj:j=12n} 定义先验概率 F={fj=1n:j=12n}。其中,fj 对应观测值 xj 的先验概率。

然后,再对原样本进行多次有放回抽样。记 W 为随机变量 X 的抽中次数,W={wj:j=12n},那么,W 服从多项式分布。从另外一个角度看,wj 为在该经验样本中观测值 xj 的权重,wj 取值为 [0, n] 区间的整数。

由 bootstrap 样本的生成过程可知,在某个经验样本中,有些观测值可能被多次抽中,而有些观测值可能一次都没有被抽中。因此,经典 Bootstrap 存在一个缺陷:bootstrap 样本中可能会出现某些观测值被抽中次数极高而其余观测值从未被抽中的情形,这会导致根据不同经验样本估计出来的参数估计量差异较大,最终得到的参数估计量的标准误较大,精度较小。

上述问题在下面的 Bayes Bootstrap 中得到了一定解决。

1.2 Bayes Bootstrap 简介

作为经典 Bootstrap 法的补充,Bayes Bootstrap 是由 Rubin (1981) 提出的,在操作和逻辑上都与经典 Bootstrap 很相似。两者的关键区别在于观测值权重的生成过程的不同。Bayes Bootstrap 的核心思想是:定义每一次抽样过程中原样本中任一观测值被抽中的概率是均值为 1n 的随机变量。

也就是说,令 P(X=xj)=gjgj 为随机变量,E(gj)=1nVar(gj)>0j=12n。这时,原样本 X={xj:j=12n} 的先验概率为 G={gj:j=12n}。给定先验概率后,再对原样本进行有放回抽样,得到一系列经验样本,进而计算统计量的分布。

具体而言,假设原始样本为X={xj:j=12n},且样本之间独立同分布。Bayes Bootstrap 的步骤如下:

  • Step 1:得到原样本的先验概率  G={gj:j=12n}。 G={gj:j=12n} 的生成过程为如下:从 (0,1) 区间随机抽取模拟 n1 个均匀随机数 u1un1。令 u0=0un=1。这些随机数满足:0=u0<u1<u2<<un1<un=1。然后令 gj=ujuj1j=12n
  • Step 2:按照先验概率 G={gj:j=12n} 对原样本进行有放回的抽样,得到一个 boostrap 经验样本。
  • Step 3:根据抽出的 bootstrap 样本计算出一个想要的统计量估计值。
  • Step 4:重复前三步 T 次,得到 T 个该统计量的估计值 。
  • Step 5:根据 T 个估计值获得统计量的分布,并计算置信区间。

记 kj 为某个经验样本中观测值 xj 的权重,K={kj:j=12n}。由 bootstrap 样本的生成过程可知,K 可以看成从狄利克雷分布中抽取的子样本,这时候,观测值的权重由整数权重变成了连续权重,且权值要严格大于 0。

将两种方法进行对比,可得到以下几点结论:

  • 两个方法都是基于相同的特殊的模型假设,即原始样本之间独立同分布,并且推断的结果依赖于这些假设。因此,在应用时,两个方法都要考虑模型假设的合理性。
  • 有放回抽样中原样本的先验概率不同。在经典 Bootstrap 方法中,原样本中每一个观测值被抽中的概率为固定值 1n,而在 Bayes Bootstrap 方法中,每个观测值被抽中的概率为随机变量。
  • 经验样本中的观测值的权重不同。利用经典 Bootstrap 方法获得的观察值权重服从多项式分布,为离散权重,且可以等于 0;而利用 Bayes Bootstrap 方法获得的观测值的权重服从狄利克雷分布,为连续权重,且严格大于 0。

因此,与经典 Bootstrap 方法对比,Bayes Bootstrap 方法的优势如下:每一个观测值的权重都会大于 0,意味着在每一个 Bootstrap 样本,每一个观测值至少被抽到一次,这使得 bootstrap 样本变得更加平滑,避免了极端情况的发生。在下面的命令 exbsample 与命令 bsample 对比部分,这一点会充分体现。

2. 命令介绍

2.1 exbsample 命令

命令 exbsample 用于生成 Bayes Bootstrap 方法中需要用到的经验样本的权重。这个权重可由从泊凇分布或者指数型分布 (两个分布的均值均为 1) 中重复抽取而产生。

  • 如果是从泊凇分布中抽取,那么所得到的权重为离散权重,这实际上类似于经典 Bootstrap 法——从多项式分布中抽取权重;
  • 如果是从指数型分布中抽取,那么所得到的权重为严格大于 0 的非整数权重。

两者相比,后者比前者具有先天优势:从指数型分布抽取的权重全为正数,导致原样本的每一个观测点都会在经验样本中出现,从而减少了极端情况的发生。

* 命令安装
ssc install exbsample, replace

* 命令语法
exbsample # [if] [in] [weight] [using filename] [, options]

其中,# 代表需要的经验样本的数目,if 代表条件语句,in 代表范围语句。options 代表其他选项,主要包括:

  • stub (name):给生成的权重变量添加变量名前缀 name,系统默认值为 boot
  • distribution (poisson or exponential):设定权重分布的类型,系统默认为 exponential,即指数型分布。poisson 代表泊松分布。
  • norescale:取消让每一个经验样本中的权重之和等于观测值数目,或者取消让每一个类别的经验样本中的权重之和等于该类别的观察值数目 (进行聚类分析时)。
  • balance (#):要求抽取每一个观测值的先验概率尽可能相等。
  • seed (#):设定随机种子数 #
  • strata (varlist):请求根据变量 varlist 进行分层抽样。
  • svysettings:要求聚类和分层抽样的信息能够在数据集的设定中显示出来。
  • idvars (varlist):要求将权重数据和变量 varlist 同时储存在一个 frame 或者数据文件,以便与当前内存的数据进行匹配。
  • frame (name [, linkvarname (varname) replace nofrlink]):把生成的权重数据储存在一个新的单独的名为 name 的数据框 (frame) 中。此外,在 nofrlink 没有被定义的情况下,通过 linkvarname (name) 在新 frame 与现在的 frame 间建立起名为 name 的连结 (系统默认为 BOOTSTRAPLINk)。
  • replace:要求在 frame、file 或权重变量存在的情况下,替换它们的名称。
  • nodots:不展示点。

2.2 范例 1:OLS 回归的 rmse 标准误

在演示范例前,先执行如下格式设定命令:

. set cformat %4.3f 
. set pformat %4.3f 
. set sformat %4.2f

范例一演示了利用 Bayes Bootstrap 法估计普通 OLS 回归模型的均方根误差 rmse 的标准误。思路如下:

  • 利用 nlsw88.dta 数据,将妇女工资 (wage) 对年龄 (age)、种族 (race)、婚姻状况 (married) 和工作年限 (tenure) 进行回归,然后计算出均方根误差 (rmse);
  • 利用 exbsample 命令,从指数型分布中抽取获得经验样本的权重,重复 499 次操作以获得均方差根 (rmse) 的分布,最后计算出其标准误。

具体操作过程如下所述。首先,导入 nlsw88.dta 数据。

. sysuse "nlsw88.dta", clear

接着,利用命令 exbsample 从指数型分布中重复抽样,获得 499 份经验样本的权重。

. exbsample  499, stub(rw)

然后,利用循环结构,获得每一份经验样本的均方根误差 rmse,并生成均方根误差矩阵 v

. forvalues i = 1/499{
  2.     quietly regress wage age race married tenure [iw=rw`i']
  3.     scalar rmse`i'=e(rmse)
  4.     mat v = (nullmat (v), rmse`i')
  5. }

最后,将均方根误差矩阵 v 转化为均方差根误差的变量 rmse,并估计 rmse 的标准误。

. mat v=v'
. svmat v, names(rmse)
. sum rmse1

    Variable |        Obs        Mean    Std. dev.       Min        Max
-------------+---------------------------------------------------------
       rmse1 |        499    5.627058    .2497832   4.919367   6.405003

可以看出,最后得到的 rmse 的标准误为 0.250。画出 rmse 的频率直方图。

. histogram rmse1, title ("均方根误差 rmse 的频率直方图")

2.3 范例 2:获得变量系数估计值的标准误和置信区间

例二演示了利用 Bayes Bootstrap 法来获得普通 OLS 回归模型中的变量系数估计值的标准误和置信区间。这里同样使用 nlsw88.dta 数据,具体操作步骤如下所述。

首先导入数据,并利用命令 exbsample 从指数型分布中重复抽样,获得 499 份经验样本的权重。

. sysuse "nlsw88.dta", clear
. exbsample 499, stub(rw)

然后,利用 svy bootstrap 进行 Bootstrap 推断。在运行命令 svy bootstrap 之前,必须运行 svyset 命令,以确定运行涉及的数据集。

. svyset, bsrweight(rw1-rw499) 
. svy bootstrap: regress wage age race married tenure

Survey: Linear regression                             Number of obs   =  2,231
                                                      Population size =  2,231
                                                      Replications    =    499
                                                      Wald chi2(4)    = 144.42
                                                      Prob > chi2     = 0.0000
                                                      R-squared       = 0.0452
------------------------------------------------------------------------------
             |   Observed   Bootstrap                         Normal-based
        wage | coefficient  std. err.      z    P>|z|     [95% conf. interval]
-------------+----------------------------------------------------------------
         age |     -0.107      0.038    -2.84   0.005       -0.181      -0.033
        race |     -1.233      0.242    -5.10   0.000       -1.707      -0.759
     married |     -0.657      0.267    -2.46   0.014       -1.180      -0.135
      tenure |      0.193      0.018    10.48   0.000        0.157       0.229
       _cons |     12.842      1.620     7.93   0.000        9.667      16.018
------------------------------------------------------------------------------

以变量 tenure 为例。结果显示,变量 tenure 系数的标准误为 0.018,其置信区间为 [0.157, 0.229]。

3. 命令对比

3.1 exbsample 与 bsample 的对比

3.1.1 bsample 简介

bsample 是 Stata 中对样本观测值进行有放回抽样的基本命令,可用于得到经典 Bootstrap 方法需要的经验样本。

* 命令语法
bsample [exp] [if] [in] [, options]

其中,exp 为表达式,用于指定抽取的样本个数。options 包括以下四种:

  • strata (varlist):请求根据变量 varlist 进行分层抽样。
  • cluster (varlist):请求对 (多路径) 聚类进行检验,重新对估计过程进行设置;
  • idcluster (newvar):创造一个新变量 newvar,用来识别每一个聚类。
  • weight (varname):将抽取的样本频数存放在变量 varname (已定义) 中。此时,只有 varname 的值改变,而原始数据不会改变。

使用命令 bsample 进行 N 次有放回的抽样后,得到一个观测值频数之和为 N 的经验样本。如上所述,可以知道,在这个经验样本中,观测值的样本频数的取值范围为 [0, N]。将命令 bsample 与命令 exbsample 对比,可得到以下几点结论。

  • 重复抽样的对象不一致。命令 bsample 是直接对观测值 (X,Y) 进行抽样;命令 exbsample 是对观测值的权重进行抽样。
  • 命令 exbsample 包含但不限于命令 bsample 能够实现的功能。由上所述可知,当命令 exbsample 从泊凇分布中抽取经验样本的权重时,其本质上与命令 bsample 相同,得到的结果都为离散权重。此外,命令 exbsample 还能从指数型分布中抽取经验样本的权重,这可以抽取严格为正的连续权重。

3.1.2 对比操作案例

这里用 nlsw88.dta 演示对比分别用命令 bsample 和命令 exbsample 进行重复抽样的效果,具体操作如下所述。首先,导入数据。

. sysuse "nlsw88.dta", clear

然后,利用命令 bsample 进行重复抽样获得一个经验样本。其中,变量 bootstrap_weights 储存该经验样本中观测值的整数权重。

. gen bootstrap_weights = 0
. bsample, weight(bootstrap_weights)
. tab bootstrap_weights // 显示观测值抽中次数的统计情况

bootstrap_w |
     eights |      Freq.     Percent        Cum.
------------+-----------------------------------
          0 |        839       37.36       37.36
          1 |        812       36.15       73.51
          2 |        407       18.12       91.63
          3 |        143        6.37       98.00
          4 |         34        1.51       99.51
          5 |         11        0.49      100.00
------------+-----------------------------------
      Total |      2,246      100.00

可以看出,该经验样本中有 823 个观测值的整数权重为 0,有 8 个观测值的整数权重为 5。接着,利用命令exbsample 进行从泊凇分布中重复抽样,得到观测值离散权重的经验样本。

. exbsample 1, stub(rw) distribution(poisson) // 获得整数权重
. tab rw1

        rw1 |      Freq.     Percent        Cum.
------------+-----------------------------------
          0 |        826       36.78       36.78
   .9833625 |        798       35.53       72.31
   1.966725 |        435       19.37       91.67
   2.950087 |        144        6.41       98.09
    3.93345 |         35        1.56       99.64
   4.916812 |          5        0.22       99.87
   5.900175 |          2        0.09       99.96
   6.883537 |          1        0.04      100.00
------------+-----------------------------------
      Total |      2,246      100.00

可以看出,利用命令 exbsample 从泊凇分布重复抽样得到的经验样本中,有 845 个观测值的权重为 0,有 2 个观测值的权重为 5.900175。该结果与用上面用命令 bsample 抽样得到的结果类似。

利用命令 exbsample 进行从指数型分布中重复抽样,得到观测值连续权重的经验样本。

. exbsample 1, stub(dw)  // 获得连续权重
. sum bootstrap_weights rw1 dw1

    Variable |        Obs        Mean    Std. dev.       Min        Max
-------------+---------------------------------------------------------
bootstrap_~s |      2,246           1    1.012175          0          5
         rw1 |      2,246           1    .9990838          0   6.883537
         dw1 |      2,246           1    .9357645   .0000271   9.316383

可以看出,三种权重中只有 dw1 的权值严格为正,且按方差从大到小排序,依次是 bootstrap_weights<rw1<dw1。这也进一步说明了 Bayes Bootstrap 法比起经典 Bootstrap 法更加平滑,减少了极端情况的发生。下图以频率直方图展示了三种权重的比较。

3.2 exbsample 与 boottest 的对比

3.2.1 boottest 简介

命令 boottest 是由 Roodman (2019) 编写的基于 wild (cluster) bootstrap 法 (原始自助法) 的命令。wild (cluster) bootstrap 可应用于工具变量、最大似然估计模型和误差项 (可能是很多方式) 聚集在一起的情况。boottest 提供了几种 Bootstrap 算法 (用于生成模拟数据集的算法),以及在数据集上运行的几种测试。

命令 boottest 的详细介绍,可参考连享会推文 Stata:原始聚类自助法(wild cluster bootstrap)-boottest

将命令 boottest 与命令 exbsample 进行比较,可得到以下几点结论:

  • 两者适用的数据类型不同。由上述可知,命令 exbsample 是 Bayes Bootstap 方法的 Stata 工具,适用于独立同分布的样本。也就是说,原始样本是同方差的。而命令 boottest 是 wild cluster bootstrap 方法的 Stata 工具,适用于具有异方差的原始样本,如存在较少的集群、较少的实验组或者弱工具变量。
  • 两者的功能范围不完全相同。单独的命令 exbsample 只能用来进行重复抽样,生成经验样本。而命令 boottest 在提供几种 Bootstrap 算法来生成经验样本的同时,还提供了在数据集上运行的几种测试。

3.2.2 对比操作案例

这里使用 nlsw88.dta 演示分别使用命令 exbsample 和命令 boottest 检验变量系数的零假设。在这里,我们使用 wage (妇女工资) 对 tenure (工作年限),ttl_exp (总工作经验),collgrad (是否毕业) 进行回归。设置抽取 499 个经验样本,随机种子数为 123。在考虑异方差时,将原样本在行业层面 (industry) 进行聚类。

先利用命令 exbsample 检验变量 tenure 系数的零假设。具体操作如下所述。

首先,计算出采取 Bayes Bootstrap 方法的变量 tenure 系数的 t 统计量。这里运用如下计算 t 统计量的计算公式。要计算变量 X 的系数的 t 统计量,β(X) 是在回归后变量 X 系数的估计值,σ(X) 是变量 X 系数的标准误,μ 为要检验的值。在零假设下,μ 等于 0。

. sysuse "nlsw88.dta", clear
. exbsample 499 , stub(rw) seed(123)
. svyset, bsrweight(rw1-rw499) 
. svy bootstrap: regress wage tenure ttl_exp collgrad

Survey: Linear regression                             Number of obs   =  2,231
                                                      Population size =  2,231
                                                      Replications    =    499
                                                      Wald chi2(3)    = 332.01
                                                      Prob > chi2     = 0.0000
                                                      R-squared       = 0.1270
------------------------------------------------------------------------------
             |   Observed   Bootstrap                         Normal-based
        wage | coefficient  std. err.      z    P>|z|     [95% conf. interval]
-------------+----------------------------------------------------------------
      tenure |      0.032      0.025     1.29   0.197       -0.017       0.081
     ttl_exp |      0.274      0.030     9.03   0.000        0.214       0.333
    collgrad |      3.252      0.291    11.17   0.000        2.681       3.822
       _cons |      3.390      0.297    11.41   0.000        2.808       3.972
------------------------------------------------------------------------------

根据公式计算出变量 tenure 系数的 t 统计量为 0.032 ÷ 0.025 = 1.29,其 95% 置信区间为 [-0.017, 0.081]。由此可见,不能拒绝变量 tenure 系数为 0 的假设。

然后,利用循环结构,得到出变量 tenure 系数的 t 统计量的分布。

. forvalues i = 1/499{
  2.     quietly regress wage tenure ttl_exp collgrad [iw=rw`i']
  3.     scalar t_tenure`i'=_b[tenure]/_se[tenure]
  4.     mat k = (nullmat(k), t_tenure`i')
  5. }
. mat k=k'
. svmat k,names(t_tenure_exbsample)

利用命令 boottest 检验变量 tenure 的零假设。首先,安装 boottest 命令。

* 命令安装 
· ssc install boottest, replace

然后,我们利用变量 wagetenurettl_expcollgrad 进行回归,并在行业层面 ( industry) 进行聚类。

. regress wage tenure ttl_exp collgrad, cluster(industry)

Linear regression                               Number of obs     =      2,217
                                                F(3, 11)          =      56.79
                                                Prob > F          =     0.0000
                                                R-squared         =     0.1255
                                                Root MSE          =      5.402
                              (Std. err. adjusted for 12 clusters in industry)
------------------------------------------------------------------------------
             |               Robust
        wage | Coefficient  std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
      tenure |      0.030      0.028     1.08   0.304       -0.032       0.093
     ttl_exp |      0.273      0.047     5.81   0.000        0.170       0.376
    collgrad |      3.255      0.397     8.21   0.000        2.382       4.129
       _cons |      3.420      0.285    11.98   0.000        2.792       4.048
------------------------------------------------------------------------------

接着,利用 boottest 进行检验,并储存为模拟分布。

. boottest tenure, svmat seed(123) nograph reps(499)

Wild bootstrap-t, null imposed, 499 replications, Wald test, bootstrap clustering by industry, Rademacher weights:
  tenure
                           t(11) =     1.0772
                        Prob>|t| =     0.2725
95% confidence set for null hypothesis expression: [−.02972, .1344]

上述 boottest 检验所设定的前提条件为联合零假设的 wild bootstrap-t 检验,施加了选项 null,使用权重为 Rademacher 权重。根据上述结果可知,由于遵循 Stata 约定,waldtest 使用 t(G1) 分布,这里有 G = 12 个集群。变量 tenure 的 t(11) 统计值为 1.0772。并利用 boottest 进行反向推断,得出 tenure 系数的 95% 置信区间为 [-0.02972, 0.1344]。所以在 5% 的显著性水平下不能拒绝了变量 tenure 系数为 0 的假设。

最后,我们将 Bootstrap 的准 t 分布或其分子保存为返回值 r(dist)

. mat v = r(dist)
. svmat v, names(t_tenure_boottest)
. twoway (kdensity t_tenure_exbsample1) (kdensity t_tenure_boottest1), ///
>     legend(order(1 "exbsample" 2 "boottest" ) ring(0) pos(1))        ///
>     title("变量tenure系数的t统计量") ytitle("kdensity")

下面,我们画出两种方法得到的变量 tenure 系数的 t 统计量的核密度函数图。可以看出,在考虑异方差的情况下,得到的 t 统计量的方差更小,说明其结果更加稳健可信。

4. 应用情况

Rubin (1981) 提出,Bayes Bootstrap 方法和经典 Bootstrap 在理论和逻辑上都一致,两者的不同在于数据的生成过程不一样。因此,在大多数 Bootstrap 方法应用的场景,Bayes Bootstrap 方法也有用武之地。自 Rubin 首次提出至今,Bayes Bootstrap 方法的理论体系一直在不断发展和完善。

  • 从研究领域来看,学者们将 Bayes Bootstrap 方法广泛运用于各个领域的实际问题研究当中,如金融、医学、军事、外贸、国家财政、生物医学等。
  • 从数据类型来看,Bayes Bootstrap 方法适用的数据类型由开始的小样本数据扩展到之后的缺失数据 (Lo, 1993)、有限总体 (Lo, 1998)、合成数据 (Dong et al., 2014)、高维小样本数据 (Datta and Ghosh, 2014)、大样本数据 (Taddy, 2015) 等。
  • 从应用场景来看,Bayes Bootstrap 方法适用的场景广泛,包括分位数回归 (Hahn, 1997)、分位数估计 (Meeden, 1993)、因果推断 (Graham et al., 2016)、多变量回归 (Heckelei and Mittelhammer, 2003)、模型预测 (Clyde and Lee, 2001)、基于树的建模 (Matthew et al., 2015) 等。

此外,在热门的机器学习领域,Bayes Bootstrap 方法也有应用。比如,Xu 等 (2022) 将 Bayes Bootstrap 方法应用于拉索模型 (Lasso),进行统计推断。

5. 参考资料

  • Barrientos A F, Peña V. Bayesian bootstraps for massive data[J]. Bayesian Analysis, 2020, 15(2): 363-388. -PDF-
  • Clyde M, Lee H. Bagging and the Bayesian bootstrap[C]//International Workshop on Artificial Intelligence and Statistics. PMLR, 2001: 57-62. -PDF-
  • Dong Q, Elliott M R, Raghunathan T E. A nonparametric method to generate synthetic populations to adjust for complex sampling design features[J]. Survey methodology, 2014, 40(1): 29. -PDF-
  • Graham D J, McCoy E J, Stephens D A. Approximate Bayesian inference for doubly robust estimation[J]. Bayesian Analysis, 2016, 11(1): 47-69. -PDF-
  • Hahn J. Bayesian bootstrap of the quantile regression estimator: a large sample study[J]. International Economic Review, 1997: 795-808. -PDF-
  • Heckelei T, Mittelhammer R C. Bayesian bootstrap multivariate regression[J]. Journal of econometrics, 2003, 112(2): 241-264. -PDF-
  • Lo A Y. A Bayesian bootstrap for censored data[J]. The Annals of Statistics, 1993: 100-123. -PDF-
  • Lo A Y. A Bayesian bootstrap for a finite population[J]. The annals of statistics, 1988: 1684-1695. -PDF-
  • Meeden G. Noninformative nonparametric Bayesian estimation of quantiles[J]. Statistics & probability letters, 1993, 16(2): 103-109. -PDF-
  • Præstgaard J, Wellner J A. Exchangeably weighted bootstraps of the general empirical process[J]. The Annals of Probability, 1993: 2053-2086. -PDF-
  • Rubin D B, Schenker N. Multiple imputation for interval estimation from simple random samples with ignorable nonresponse[J]. Journal of the American statistical Association, 1986, 81(394): 366-374. -PDF-
  • Rubin D B. The bayesian bootstrap[J]. The annals of statistics, 1981: 130-134. -PDF-
  • Matthew T, Chen C S, Yu J, et al. Bayesian and empirical Bayesian forests[C]//International Conference on Machine Learning. PMLR, 2015: 967-976. -PDF-
  • Xu S G, Yang S, Reich B J. A Bayesian Semiparametric Method For Estimating Causal Quantile Effects[J]. arXiv preprint arXiv:2211.01591, 2022. -PDF-

6. 相关推文

Note: 产生如下推文列表的 Stata 命令为:
lianxh bootstrap 标准误, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh