edgeR과 DexSeq을 많이 사용하시죠. 데이터 Dependent한 - TopicsExpress



          

edgeR과 DexSeq을 많이 사용하시죠. 데이터 Dependent한 성능을 보이니 이것 저것 해보시는 것도 좋지만. 이 복잡계에의 중심 태풍의 눈을 볼 필요가 있습니다 (그죠? 문용준님?). 그 중심은 어떻게 Negative Binomial의 Parameter 인 Dispersion을 구하는지의 차이에 있습니다. 우리 생명정보사는 논문을 볼 때 어떤것도 봐야 하는가 edgeR recommends a “tagwise dispersion” function, which estimates the dispersion on a gene-by-gene basis, and implements an empirical Bayes strategy for squeezing the estimated dispersions towards the common dispersion. Under the default setting, the degree of squeezing is adjusted to suit the number of biological replicates within each condition: more biological replicates will need to borrow less information from the complete set of transcripts and require less squeezing. 이것을 읽었다면 Empirical Bayesian이 무엇인가, Common Dispersion으로 Squeezing한다는 것이 무슨 의미인가? 를 공부해야 합니다.(생명정보학 lv2). DESeq는 이와는 달리 다음과 같습니다. ϕ was assumed to be a function of μ determined by nonparametric regression. The recent version used in this paper follows a more versatile procedure. Firstly, for each transcript, an estimate of the dispersion is made, presumably using maximum likelihood. Secondly, the estimated dispersions for all transcripts are fitted to the functional form: ϕ=a+bμ(DESeq parametric fit), (2) using a gamma-family generalised linear model. 이 두 가지 방법이 왜 필요한가 하면, 데이터는 적고 파라미터는 많기 때문에, Overfitting을 막기위한 것이라고 말할 수 있습니다. 그렇게 하기위해 edgeR은 common dispersion을 중력처럼 작용해 개개의 tag-wised dispersion을 끌어 내리는 것이고, DESeq는 regression을 구해서 울퉁 불퉁한 놈들을 잠재우는 겁니다. 그렇기 때문에 데이터가 많은 경우는 문제 없지만 데이터가 작을 경우 (replicates overestimation of significance or low p-value 현상으로 나타나는 겁니다. biomedcentral/1471-2164/13/484
Posted on: Sat, 01 Nov 2014 21:01:22 +0000

Trending Topics



Recently Viewed Topics




© 2015