人类RNA结合蛋白大规模结合及功能图

来源:证券从业 发布时间:2020-12-16 点击:

 人类 RNA 结合蛋白的大规模结合及功能图 导读

 A RNA 结合蛋白(RBPs)是一组多样的参与基因表达的蛋白,能够与 RNA 相互作用形成核糖核蛋白复合体,调控 RNA 底物的成熟和命运,并且调节基因表达的多个方面,包括 pre- -A mRNA 剪切、裂解以及聚腺苷化、A RNA 稳定、A RNA 定位、A RNA 编辑还有翻译。一些 RBPs 参与多个过程,例如利用 NOVA 调节选择性剪接以及 polyA 位点,这些作用对于正常人的生理非常重要。RBP 功能缺失与基因和机体的紊乱有关,例如神经退行性病变、自身免疫和癌症。RBPs 的调节功能同样受 RBPs 亚细胞定位以及 RNA底物的影响,因为转录后的步骤通常发生在膜分离和相分离的亚细胞腔中。

 在本文中研究者介绍了 人类基因组中通过 A RNA 结合蛋白 (RBPs) 识别的一组新的 A RNA 元件,构成了E ENCODE 课题 I III 阶段的一部分。

 这组调控元件只有当转录进入 A RNA 时才会发挥功能,因为它们的作用是为 为 s RBPs 提 供结合位点以控制转录后生物学过程,例如剪切、裂解、聚腺苷化以及 mRNA 的编辑、定位、稳定和翻译。研究者在 在 2 K562 和 和 2 HepG2 细胞中绘制和描述了人类 RBPs 所识别 RNA 元件的图谱特征。将体内 RNA 和染色质上确定的 P RBP 结合位点、体外 s RBPs 结合的倾向、P RBP 结合位点的功能、 RBPs亚细胞定位以及 6 356 个 个 s RBPs 生成的 1223 个复制数据集这五个实验进行整合分析。研究者对整体转录组 RBP 结合的范围以及这些相互作用与包括 RNA 稳定性、剪接调节以及 RNA 定位等多个 RNA 生物学方面之间的关系进行描述,这些结果通过添加在 RNA 水平与 RBPs 相互作用的元件,扩展了人类基因组中编码的功能元件的目录。

  实验设计

  结果

 1 1

 对数据和加工过程回顾

 为了更好的理解人类 P RBP 的结合和功能,研究者利用 五种方法针对于 6 356 个 个 RBPs,产生了 1223 个可复制的数据集。这些 RBPs 参与 RNA 生物学的多个方面并且包含不同的序列和结构特征。从功能上而言,这些 RBPs 大多参与调节 RNA 剪接(98 RBPs, 28%),并且 162 RBPs (46%)已经报道含有多个功能,但是 83 (23%)尚未证实 RNA 的功能机制(图 1b)。尽管 57%的 RBPs包含已经确定的 RNA 结合结构域,剩余的包括研究较少的结构域或者尚不知晓的 RNA 结合结构域(图 1b)。一些 RBPs,包括核糖体蛋白 RPL23A 和剪接体因子 HNRNPC 在 ENCODE 细胞系和一系列人类组织中高表达,但是一些的表达具有组织特异性,表明 这些 s RBPs 的调节活性可能通过细胞类型特异的基因表达程序调节。五种方法中的每一种都聚焦于 RBP 活性的不同方面(图1a),如下所述。

  图 1. 对实验和数据类型回顾。(a)区分 RBPs 的五种实验;(b)至少通过一组 ENCODE 实验(黄色或者红色),结合免疫荧光(绿色)、CRISPR 筛选的重要基因(栗色)、手动注释的 RBP 功能(蓝色或者紫色)以及蛋白结构域的注释绘制 356 个 RBPs,每一类别的直方图如下所示;(c)PTBP3 的组合表达以及剪接调节。

 2

  s RBPs 的全转录组 A RNA 结合位点

 研究者鉴定并证实数以百计 IP 级别的抗体能够识别人类 RBPs,并且开发了 eCLIP。研究者分别对 K562 细胞中 120 个 RBPs 以及 HepG2 细胞中 103 个 RBPs 进行了高质量的 eCLIP 图谱绘制。该项工作鉴定了 844854 个差异富集的峰图,涵盖了 18.5%个注释的 mRNA 转录以及 2.6%个 mRNA 前体的转录组。

 3

  P RBP 应答的基因和选择性剪接事件

  为了探究 P eCLIP 峰图的功能,研究者利用 A shRNA 或者 R CRISPR 对个体 s RBPs 进行敲除,随后进行 RNA- - seq。研究者分别在 K562 细胞中敲除了 235 个 RBPs,在 HepG2 细胞中敲除了 237 个RBPs,与配对的非靶向对照数据集相比,在 20542 个基因中鉴定出 375,873 个差异表达基因的事件在至少一个 RBP 敲除后受到影响,以及 221,612 个差异剪接体事件,包含 38,555 个选择性剪接事件在至少一个 RBP 敲除时受到影响。进一步分析证实在一些数据集中 GC 对 read密度的影响可通过 Salmon 和 CAN 工具校正。除了每个实验的批次对照,批次校正能够对整个数据集整合分析。

 4

  体外 P RBP 结合基序

  研究者利用带有重组纯化 RBPs 的 RBNS 以及随机 RNA 寡核苷酸的工具对体外 78 个 RBPs 进行了 RNA 序列和结构结合的鉴定。研究者在接近半数的 RBPs (37 of 78)中鉴定五个核苷酸(nt) (k = 5)高度富集的 k-mers,并且聚类为单一的基序。剩余的 RBPs 具有更加复杂的结合图谱,由两个基序(32 of 78),或者三个或者更多的基序(9 RBPs)。这些结果提示一些 RBPs 对包含基序的序列和 RNA 结构是敏感的。

 5

  s RBPs 的亚细胞定位

  为了阐释细胞空间内 RBPs 的功能特性,研究者利用已经证实的抗体分别对 HepG2 细胞中274 个 RBPs 以及 HeLa 细胞中 268 个 RBPs 进行了系统的免疫荧光成像,发现它们与特异细胞器和亚细胞结构中 12 个标记物结合。这些数据包括 217,412 个图像并且采用词汇定位描述符,被收录在 RBP 图像数据库中(http://rnabiology.ircm.qc.ca/RBPImage/)。

 6

  s RBPs 与染色质结合

  为了研究 RBP 与染色质结合在转录和共转录剪接中的作用,研究者进行了 ChIP-seq 实验发现了 37 个 RBPs 相关联的 DNA 元件资源,这些实验确定了 792,007 个 ChIP-seq 的峰图,占基因组的 3.8%。

 7

  数据整合分析

  为了进行整合分析,每个数据类型中的所有数据都通过相同的数据加工管道,并且所有试验中数据的标准都是一致的。研究者利用至少两种不同的方法研究了 70%的 RBPs,并且利用至少三种方法对 129 (37%)个 RBPs 进行了分析,利用多个数据集实现了整合分析,例如 PTBP1调节 PTBP3(图 1c)。PTBP3 的 mRNA 包含外显子 2 改变了起始密码子的使用并且增加了 PTBP3蛋白的细胞质定位,在对照细胞中 PTBP3 外显子 2 缺失,但是在 PTBP1 敲低的条件下增加,这

 与之前的报道一致。剪接事件可能受 PTBP1 的直接调节,正如研究者在 PTBP3 外显子 2 的 3’端剪接位点的 eCLIP 的峰图一致,在 RBNS 中富含 U 的基序与 PTB 家族相连。研究者也发现了与 PTBP3 外显子 10 之间的强相互作用,没有表现出选择性剪接,但是是与 PTBP1 外显子 10 和PTBP2 外显子 11 是直系同源的,以 PTBP1 和 PTBP2 介导的方式选择性剪接,从而引发无意义的 mRNA 衰减。因此通过 PTBP1 介导的 PTBP3 外显子 10 的剪接并不是由于 PTBP1 不结合导致的。在另一个案例中,研究者观察到 GTPBP2 隐显子 HNRNPL 下游的富集包含首个 HNRNPL RBNS 基序的重复,表明 L HNRNPL 抑制外显子的剪接,并且对带有全长开放阅读框的 A GTPBP2 mRNA 的产生发挥重要作用。

 8

  P eCLIP 数据组的分析

  研究者进行了 488 例 eCLIP 实验,每一例都包含生物学重复的 IPs 以及一个配对的且大小匹配的 input。基于 IP 验证、文库产量、重现峰的存在或重复家族信号、基序富集(已知结合的 RBPs) 以及已经建立的生物学功能对质量进行评估,获取了 223 个高质量的 eCLIP 数据组,并且发布在了 ENCODE 数据协调中心(https://www.encodeproject.org)。另外 50 个数据组由于不符合严格的标准并不包含在进一步分析中,但是包含可重复的信号(GSE107768)。自动量化的标准也能准确的划分 83% eCLIP 数据组的质量。通过手动而非自动质量评估的数据组有特殊的注释。尽管研究者观察到严格的 IP 洗涤条件通常限制了非直接相互作用的回收,在本研究中 eCLIP实验并不包括蛋白相关 RNA的可视化,因此能够通过比对体外基序单独证实 eCLIP图谱,并且敲低后效应的改变也能证实真实的结合作用。

 标准的 CLIP-seq 分析通常能够鉴定成千上万个 read 密度富集的集簇。然而,研究者在之前的研究中发现 IP vs input 实验中所需要的富集通过移除转录本中非特异的信号特异的证实了生物学相关的峰图。因此,尽管所有集簇中的数据都只经过 IP 分析证实,在本研究中研究者所需要的峰图需要符合相对于 input 富集的严格标准(富集倍数 ≥8, P

 ≤ 0.001)。研究者进一步利用不可复制发现率(IDR)方法对生物学重复中特异的峰图进行了重复验证。最终,研究者将 57 个“黑名单”区域中重叠的峰图进行了移除,结果与人造信号一致。下游样本分析提示在低表达基因中标准测序深度下也能够检测到峰图。当研究者将峰图叠加到 GENCODE 转录本注释中时,大多数 RBPs 的峰图与特异的区域重叠,与之前鉴定的 RBPs 功能是一致的(图2a)。基于主要转录本区域结合的类型,研究者将这些 RBPs 聚类称 6 个 RNA 类型,为后续基于峰图的分析提供了参考比对(图 2a)。根据观察一些 eCLIP 数据组中特异匹配的 read 代表总数的一小部分,研究者开发了一种家庭意识的映射策略,能够对多拷贝元件上的相对富集进行准确的定量,包括多个假基因的基因家族、逆转录转座子以及其他重复元件。结合这种方法,研究者观察到与已知功能一致的 rRNA 或者 snRNA 信号调控的 RBPs 集簇,以及与反义 Alu 以及L1/LINE 信号介导的集簇(图 2b、c),与近期的分析一致,与逆转座元件结合包含 RBP 结合图谱中被忽视的一部分。

  图 2. RBP-靶基因相互作用调控网络的整合分析。(a)堆积的条形图提示 223 个 eCLIP 实验中显著的 eCLIP峰图,峰图的数量在对数范围,条形图的高度依据与 pre-RNA、mRNA 以及非编码 RNAs 重叠的线性部分标注,数据集依据相同区域图谱层次聚类为 6 个集簇;(b)针对 223 个 eCLIP 实验中特异的基因组以及多拷贝元件信号的 t-SNE 聚类,分为 17 个集簇和一个 RBPs 的离群值;(c)热图显示图 B 中 RBPs 集簇,提示每个 RNA 区域或者元件中平均相关信息;(d)每个点代表在 K562 细胞中 RBFOX2 eCLIP 对应 HepG2 细胞中可重复的 RBFOX2 eCLIP 峰图的富集倍数;(e)在 K562 和 HepG2 细胞中绘制的每个 RBP。

 9

  P RBP 元件的发现饱和

  尽管大多数表达的基因都表现为差异表达并且至少在一个数据集中有 eCLIP 峰图,只有5214 个基因具有来自同一个 RBP 的 eCLIP 峰图并且对该 RBP 的敲除应答,提示大部分基因敲

 除的应答改变是间接效应的结果。选择性剪接反应了更大的可变性,由 RNA 解旋酶和剪接体蛋白 AQR 的敲除鉴定出 13000 个剪接改变。单独考虑 eCLIP,在至少一个峰图上可以发现 3.4%内含子序列以及 33.5%外含子序列,尽管一些峰图反映了蛋白质包裹或者短暂的与 RNAs 结合,例如与 RNA 聚合酶 II 的成分 POLR2G 与 pre-mRNAs 之间相互作用,而不是 RNA 加工过程调节位点。

 接下来,研究者探究了 RBP 的调节是否在不同细胞类型中一致。研究者在 HepG2 细胞中观察到如果整体靶向 RNA 的表达在 5 的因子内,RBFOX2 eCLIP 的峰图在 K562 细胞中富集(图 2d)。将这一观察拓展到两种细胞系中全部 73 个 RBPs 的 eCLIP 数据汇总,在未改变的或者中度差异表达的基因内大多数峰图在第二种细胞系中四倍甚至更多倍的富集,并且在其他细胞类型中与重现且显著的峰图重叠(富集倍数≥8,

 P ≤ 0.001)(图 2e)。相反,46.3%RBP 峰图的平均值在第二种细胞系细胞类型特异表达的基因上没有富集,而只有 21.6%的发生在未改变、微弱或者适中差异表达的基因上。因此,这些结果表明大 多数 P RBP 的 的 P eCLIP 信号在细胞系相似基因的表达上是保守的,而峰图的差异往往反映了细胞类型特异的 A RNA 表达而不是差异结合。

  10 体外的特异性驱动了体内的结合

  体内 P RBP 的结合是由 A RNA 内在的结合特异性以及其他因素,例如 A RNA 结构和蛋白质的辅因子决定的。为了比较体外和体内的特异性,研究者计算了 RBNS 结合序列中每 5mer 的原始富集(R 值),并且与 eCLIP 峰图(ReCLIP)中对应的富集进行比对,发现聚焦于 5mers 是因为它们是最丰富的,且大多数蛋白经过 RBNS 包含的 RNA 识别基序(RRM)或者 hnRNP K 同源(KH)结构域分析,它们与 RNA 的 3-5 个碱基相连。在体内和体外显著富集的 5mers 大都是一致的,有15/23 个 RBPs 显著重叠(图 3a)。一个 RBP 的首个 RBNS 5mer 几乎富集在 eCLIP 峰图上(图3a),并且相较于相同 RNA 类型中其他 RBPs 的 eCLIP 峰图,RBNS 基序能够更多对应的 eCLIP峰图。在大多数案例中,在编码区、内含子区域或者 UTR 区域的 eCLIP 峰图观察到了相似的结果(图 3a)。显著的是,单一最富集的 RBNS 5mer 出现在 30%的 RBPs 峰中,包括SRSF9, TRA2A, RBFOX2, PTBP3, TIA1,HNRNPC,并且近一半的 eCLIP 峰图包含前五个 RBNS 5mers 中的一个(图 3a)。因此这些 5mers 的案例提供了候选的核苷酸分辨结合位点,能够预测改变 RNA 加工过程的遗传变异。当在 RBNS 和 eCLIP 中有两个或者更多不同的基序富集时,大部分体外富集的基序通常也在体内富集。这些结果与那些研究中称 RBPs 包含更多单链 RNA 结合结构域的观点是一致的。内在的结合特异性解释了很大一部分体内结合的倾向。

 对于近一半的 RBPs(10/23),前 5 个 RBNS 5mers 阐释了少于一半的 eCLIP 峰图。这些RBPs 中的一些与 RNA 结构特征相关或者延伸 RNA 序列元件,而其他的可能通过相互作用的蛋白连接。在一些案例中,RBNS 只和一小部分富集在 eCLIP 峰图上的基序有亲和性,例如 C 富集的 6mers 主要富集在 PCBP2 的 RBNS 数据以及 PCBP2 的 eCLIP 峰图上(图 3b),但是也有一部分 eCLIP 富集的 kmers 并不通过 RBNS 富集(图 3b)。这种“只有 eCLIP”的基序通常 G-, GC-,或者 GU-富集,可能代表 RNA 与其他蛋白的结合或者代表在共纯化或交联位置或接近交联位点的序列偏差。

 在 PCBP2 的案例中,C 富集的(RBNS)基序而不是 G 富集的(只有 eCLIP)基序在邻近 PCBP2调节的外显子上富集,提示 RBNS 基序可能帮助证实某个 eCLIP 的峰图与因子特异的调节相对应。考虑到 RBPs 与 eCLIP,RBNS 以及 KD-RNA-seq 数据,靠近选择性的外显子上 eCLIP 富集与18/28 个已知剪接调节 RBPs 敲低后剪接改变增多相关。为了探究序列特异结合和调节之间的

 关系,研究者将 eCLIP 峰图中包含(RBNS+)或者缺乏(RBNS–)最高亲和性的 RBNS 基序进行分类。在外显子区域,RBNS+ eCLIP 峰图与外显子跳跃收到强抑制有关,包含 RBNS–的峰图外显子约有 25%的升高(图 3c)。因此,能够反映体外结合序列特异性的 eCLIP 峰图赋予了更强的调节作用,可能是因为它们代表的相互作用更加持久。通过首个只有 eCLIP 的 5mer 存在或者缺失对 eCLIP 峰图分离,结果发现在剪接调节活性方面具有微小的差异。与 RBP 抑制的外显子不同,RBP 激活的外显子在 RBNS+和 RBNS–的峰图之间只有在内含子区域的下游有一个微弱的显著差异( P

 < 0.02),而在其他地方没有显著差异。是否在 RBP 抑制的而不是 RBP 激活的外显子上有一个更强的效应尚不清楚,可能更加持久的结合对于剪接抑制而不是激活更加关键。

  图 3. 体内序列特异性的结合主要是由 RBPs 的内在 RNA 亲和力决定的。(a)RBNS-和 eCLIP 富集 5mers 的首个序列基序,依据 RBNS 与 eCLIP 富集的相关性降低排序。填充的圆圈提示 RBNS 与 eCLIP 基序显著富集。左边的热图表示所有 5mers RBNS 和 eCLIP 富集之间的斯皮尔曼相关性,中间的热图表示不同基因区域 eCLIP 峰图中首个 RBNS 5mer 富集,右边的热图表示 eCLIP 峰图的比例归因于 10 个最高亲和力 RBNS 5mers 中的每一个,

 以及 RBNS 5mers 11–24 的结合;(b)比较体内 vs 体外 5mer 富集的 PCBP2,以及包含 CCCC 和 GGGG 的 5mers;(c)在 RBP 敲除后比较剪接的改变。

  11

  P RBP 靶向的功能特征

  对 KD–RNA-seq 数据进行分析使得研究者对 eCLIP 鉴定的 RNA 元件进行了功能推断。研究者首先鉴定了 RBP KD–RNA-seq 中对转录本丰度的显著变化,因为对 RNA 稳定性的调节可以改变稳定的 mRNA 水平。为了证实 RNA 稳定性的潜在调节因子,研究者将 RBP 敲除后在 eCLIP 富集的 5′UTRs、CDSs 以及 3′UTRs 的差异基因进行了比较。尽管与标准的 DESeq 分析比较,KD-RNA-seq 具有更多与 eCLIP 富集的显著重叠,研究者发现从与 RNA 稳定性调节相关的序列偏差的文库制备中很难解决基因水平 GC 含量的偏差。因此研究者进行了一项保守的分析,利用 Salmon 以及 CQN 工具对 KD-RNA-seq 倍数改变的潜在 GC 含量的偏差进行了完全的清除。研究者鉴定出了 4 个 RBPs 在 eCLIP 富集和敲除后表达升高之间存在相关性,有 7 个 RBPs 的 eCLIP峰图与表达降低相关(图 4a)。当与同一结合类的 RBPs 比较时(图 2a),靶向的 RBP 在 5/11案例中具有最大的富集,并且用于大多数比较。

 在 RBP 敲除后 RBPs 的 eCLIP 与靶基因的表达升高相关也包括之前鉴定的 RNA 衰减因子(如DDX6),在敲除后 RBPs 的 eCLIP 和表达降低相关包括 IGF2BP3 和 FMR1,在之前的报道中称能够提高 RNA 靶基因的稳定性(图 4c)。除了这 11 个 RBPs,其他的例如 UPF1 在更高的 eCLIP富集中止时显著相关(图 5e),暗示更复杂的模型可能显示更多的重叠。

  图 4. 敲除后 RBP 结合和 RNA 表达之间的相关性。(a)热图说明 RBP 敲除的 RNA-seq 实验中,基因显著富集的区域与显著升高或者降低基因之间显著重合;(b-c)线条表示 HepG2 细胞中 DDX6 eCLIP 富集以及 HepG2 中IGF2BP3 eCLIP 富集基因表达倍数变化的累积分布。

 12

  P RBP 与剪接调节相关

  RBP 与外显子结合能够调节包含或者排除外显子或者 5′或者 3′选择性剪接位点。为了探究 RBP 富集如何与剪接调节相关联,研究者通过比较细胞中 RBPs 敲除后的 RNA-seq 数据鉴定了所有显著的选择性剪接事件。接下来研究者在每个 RBP 中构建了一个 RNA 剪接图谱,利用自定义的方法对元-外显子上敲除响应的剪接事件的 eCLIP 富集取平均,对配对的 input 进行整合。在近内含子下游 RBFOX2 eCLIP 的富集与 RBP 敲除外显子外以及近内含子上游 PTBP1 富集相关(图 5a),与之前的报道 RBFOX2 和 PTBP1 基序的富集以及 CLIP 的结合相一致。在同一细胞系中 203 对 eCLIP 和 KD–RNA-seq,研究者发现外显子、3′选择性剪接以及 5′选择性剪接事件中的各种 RNA 图谱。SR 蛋白的结合与敲除后外显子的降低相关,而 hnRNP 蛋白与外显子的升高相关,与经典的模型中 SR 和 hnRNP 蛋白对剪接具有拮抗效应相关(图 5b)。当研究者比较不同细胞系中同一 RBP 的数据时发现了更高的剪接图谱相关性。重要的是,一些剪接体的 RBPs 具有不同的剪接图谱,表明剪接体停留的时间与敲除后的敏感性之间的关联需要进一步被探索。对于非剪接体的 RBPs,RBP 的关联性在外显子边界的内含子区域更高,这与之前的报道选择性事件对单个 RBPs 的剪接调节更加敏感是一致的。值得注意的是,上游 5’剪接位点的富集程度显著高于选择性外显子侧的内含子区域(图 5c), 表明外显子上游的内含子的 5 " " 剪接位点表示一个剪接体的调节未被充分认识的区域。

 作为一个额外的对照,研究者将同一 RNA 类型中所有 eCLIP 数据集每个敲除数据进行了比较,并且发现相似的剪接图谱。尽管一些 RBPs 仅在同一 RBP 中富集,其他的提示具有潜在的共调节作用。例如,QKI 在 RBFOX2 敲除外的外显子中 eCLIP 富集(图 5d、e),并且与敲除RBFOX2 或者 QKI 后剪接体的改变显著相关,与之前在 SKOV3ip1 卵巢癌细胞中观察到的结果一致。这些结果反映了 复杂的协调是由于 2 RBFOX2 和 和 I QKI 很少在同一内含子具有富集的 P eCLIP 信号。相反,TIA1 和 TIAL1 在 TIA1 敲除诱导的外显子上具有重叠的富集图谱,尽管与其他因子没有 co-IP,这与之前对 TIA1 和 TIAL1 的研究是一致的。然而,TIA1 和 TIAL1 敲除后对应的外显子与剪接体的改变没有关联,暗示结合的调节效应在这些位点可能不是共有的。

 图 5. eCLIP 和 RNA-seq 整合鉴定剪接调控图谱。(a)敲除后 RBFOX2 和 PTBP1 标准化剪接图谱;(b)热图提示 SBP 敲除后所有 HNRNP 和 SR 蛋白图谱中 nSE-标准化 eCLIP 密度之间的差异;(c)线条提示 eCLIP 峰图上 RBPs 的平均数量;(d)热图提示 HepG2 细胞中敲除 RBFOX2 外显子上标准化的 eCLIP 信号;(e)线条提示在下游近内含子区域 RBFOX2 和 QKI 标准化的 eCLIP 信号轨迹。

  13

  P RBP 与染色质相互作用

  表观标记物通过剪接调节因子的共转录沉积影响 RNA 的加工过程,并且调节型 RNAs 与染色质相互作用,协调表观和转录的状态。

 为了探究特异的 s RBPs 与 与 A DNA 之间的关联,研究者对HepG2 细胞中 58 个核 RBPs 以及 K562 细胞中 45 个 RBPs 进行了 ChIP-seq 实验。HepG2 细胞中约 52%的 RBPs 以及 K562 细胞中约 64%的 RBPs 具有可重复的 ChIP-seq 峰图。这些 RBPs 具有广泛的功能分类,包括 SR 和 hnRNP 蛋白,剪接体成分以及视为转录因子的 RBPs,例如 POLR2G和 GTF2F1。考虑到已经建立起的染色质特征,RBP 的 ChIP-seq 峰图在常染色质上具有更多的重叠,特别是在单个 RBPs 差异的基因启动子区域。然而,当研究者将 将 s RBPs 间 间 ChIP- -q seq 的峰图进行 直接比较时研究者发现仅在一小部分特异的 P RBP 性 对中有很少的重叠和很高的一致性(图6b)。总之,这些 RBPs 占据大约 30%超敏的或者开放的染色质区域,并且在两种细胞类型中注释的基因启动子区域占据 70%,提示 RBPs 和人类基因组中转录活化的区域存在广泛的相互联系。

  图 6. RBPs 与染色质之间的关联以及与 RNA 结合间的重合。(a)HepG2 细胞和 K562 细胞中 RBP ChIP–seq 与 DNase I高敏位点、组蛋白修饰之间的重合,标签提示与调节区域(RE)、启动子区域(TSS)、增强子区域(E)、转录区域(T)以及抑制区域(R);(b)热图提示所有 HepG2 ChIP-seq 数据集中启动子区域或者非启动子区域不同 RBPs ChIP-seq峰图之间的 Jaccard 系数;(c)与 ChIP-seq 峰图重合的 RBP eCLIP 比例(红色),以及与同一 RBP eCLIP 峰图重合的RBP ChIP-seq 比例(绿色),依据重合 ChIP-seq 峰图降低水平对 RBPs 分类;(d)HepG2 细胞非启动子区域不同 RBPs的染色质和 RNA 结合活性聚类分析。颜色代表相对于周边区域 eCLIP 峰图上 ChIP 的富集;(e)HepG2 细胞中 RBP 相互间染色质和 RNA 结合活性的比较。

 接下来研究者探究了在什么程度 ChIP-seq 鉴定的 DNA 靶向与 eCLIP 中鉴定的 RNA 靶向在同一 RBP 上重合,并且观察到平均的重合中只有 6%的 eCLIP 峰图以及 2.4%的 ChIP-seq 峰图(图6c)。然而,在有限的 RBPs 中观察到了更高的重合,包括之前报道过的 RBFOX2。在非启动子区域,很少有 RBPs 在 ChIP 以及 eCLIP 信号中有重合, 表明 P ChIP 信号反映了与 A DNA 或者 DNA结合蛋白之间的相互作用,而在大部分 P RBP 中不依赖于 A RNA 的直接结合(图 6d)。然而,研究者观察到在 HNRNPK 和 PCBP1/2 之间存在关联。这些 RBPs 具有共同的进化历史和结构域组成,

 但是却具有不同的功能,在基因体内 ChIP-seq 和 eCLIP 的峰图之间重合(图 6d)。PCBP1, PCBP2,以及 HNRNPK 的 ChIP-seq 信号以 eCLIP 的峰图为中心,尽管 HNRNPK 的 eCLIP峰图上游具有一个轻微的上移,这可能反映了这些潜在的 RBP 复合体在染色质上依赖转录方向的方式的一种特异的拓扑结构(图 6e)。因此尽管一些 RBPs 的 ChIP-seq 信号反映了在启动子区域前期或者共转录的关联,一个子集也反映出在基因体内 DNA 和 RNA 的靶向重合可能反映了不同的招募机制。在有限数目的 RBPs 中 ChIP-seq 的靶向也反映出了 RBP 敲除后差异基因表达或者选择性剪接的显著富集,提示 RBPs 与染色质的相互作用于 RNA 加工的下游相关。

 14

  亚细胞内 P RBP 的调节特征

  每个 RBP 的亚细胞定位对于解释其生物学功能是非常重要的,又因为 RNA 加工发生在多个时期和膜分离的位置。研究者系统的免疫荧光成像发现了不同的定位图谱(图 7a),大部分RBPs 与核以及胞浆中的多个结构相关。考虑到在特异类型 RNA 加工过程中细胞器已知的功能,定位在核内的 s RBPs 与 与 S 45S 前体 s rRNAs 以及小核 s RNAs 上 上 P eCLIP 的富集对应,定位在线粒体与线粒体 s RNAs 的富集对应,定位在核斑点与近端内含子区域的富集对应,证实了定位和 A RNA 靶向之间存在关联(图 7b)。核仁的 RBPs 包括 18 个参与 rRNA 加工的因子,例如 BOP1, UTP18,以及 WDR3。重要的是,其他 15 个 RBPs 在人类 RNA 加工功能中并没有注释,表现出核仁定位(表 1)。有三个 RBPs 在 45S rRNA 上的 eCLIP 信号富集:在大数据筛选出表现出 rRNA 加工缺陷的 AATF 以及 PHF6,以及酵母 rRNA 加工因子 SAS10 的人类同源物 UTP3。同样在核内,14/18个 RBPs(78%)在一个或者多个小核 RNAs 上具有至少五倍的富集,表现出核斑点的定位,而只有 51%的 RBPs 在 HepG2 细胞的 eCLIP 以及免疫荧光数据中显示与斑点共定位。研究者同样观察到相对于胞浆中 RBPs 的剪接转录本,核内 RBPs 未剪接的转录本 eCLIP 的信号升高,并且对RBP 缺失相关剪接改变分析发现,定位在斑点的 RBPs 能够影响更多的剪接事件,这与核斑点在剪接机制中的组织和调节的关键作用一致。

 聚焦于特异胞浆细胞器中的定位,42 个 RBPs 定位在线粒体,该细胞器具有独特的转录和RNA 加工调节。这些线粒体定位的 RBPs 与在线粒体 RNAs 重链、轻链或者两条链上显著富集的eCLIP 高度重合,并且免疫荧光显示的线粒体定位也与线粒体 RNAs 上 eCLIP 的显著富集升高相关(图 7b-d)。接下来研究者聚焦于 DHX30,它对于合适的线粒体核糖体组装和氧化磷酸化非常重要。与一些线粒体转录本相关联,与之前 RNA IP 以及 RIP-seq 的数据一致,DHX30 在所有注释的基因下游中未注释的 H 链区域富集且具有很大可能形成茎环结构(图 7d)。由于线粒体 H 链转录的终止信号尚不明确,研究者试图推算这一位点标记这一信号。这些案例说明s RBPs 细胞内如何定位,结合连接和功能缺失的数据,能够帮助推断不同细胞间隔和细胞器中转录后调节。

  图 7. RBPs 的亚细胞定位以及与转录结合和调节之间的关联。(a)示例 RBPs(绿色)与 9 个标记物(红色)共定位;(b)针对已知 RNA 家族定位图谱,热图分析显示 eCLIP 对比的显著差异;(c)条形图提示 eCLIP 相对于线粒体重链(灰色)或者轻链(红色)的信息;基因组浏览轨迹提示 eCLIP 沿着线粒体基因组或者 RBPs 大约 300-nt 区域。

  结论

  本研究介绍了人类基因组中通过 A RNA 结合蛋白 (RBPs) 识别的一组新的 A RNA 元件,构成了 E ENCODE 课题I III 阶段的一部分。

 这组调控元件只有当转录进入 A RNA 时才会发挥功能,因为它们的作用是为 RBPs提供结合位点以控制转录后生物学过程,例如剪切、裂解、聚腺苷化以及 mRNA 的编辑、定位、稳定和翻译。研究者在 在 2 K562 和 和 2 HepG2 细胞中绘制和描述了人类 s RBPs 所识别 A RNA 元件的图谱特征。将体内RNA 和染色质上确定的 RBP 结合位点、体外 RBPs 结合的倾向、RBP 结合位点的功能、RBPs 亚细胞定位以及 356 个 RBPs 生成的 1223 个复制数据集这五个实验进行整合分析。

 研究者对整体转录组 P RBP 结合的范围以及这些相互作用与包括 A RNA 稳定性、剪接调节以及 A RNA 定位等多个 A RNA 生物学方面之间的关系进行描述。这些结果通过添加在 RNA 水平与 RBPs 相互作用的元件,扩展了人类基因组中编码的功能元件的目录。

推荐访问:蛋白 人类 功能
上一篇:《数据结构(C语言版)》教案
下一篇:太阳能检测设备生产线项目建议书

Copyright @ 2013 - 2018 优秀啊教育网 All Rights Reserved

优秀啊教育网 版权所有