레이블이 Arin인 게시물을 표시합니다. 모든 게시물 표시
레이블이 Arin인 게시물을 표시합니다. 모든 게시물 표시

수요일, 5월 17, 2023

The next giant step for microbes


최근 페링과 세레스에서 개발한 C. difficile 관련 치료제가 FDA의 승은을.. 아니 승인 받은 미생물 치료제들이 세상에 나오고 있고, 최근에는 세레스에서 먹는 장내 미생물 치료제까지... ㄷㄷㄷ

그런의미에서 microbes관련 짧은 글 하나가 눈에 보여 살짝쿵 글하나 올려봅니다.

The next giant step for microbes

C. difficile 치료제가 FDA 승인을 받은 시점에서 microbes가 가야하는 그곳은 어디인가?

이제 다들 잘 알고 있다 싶이 장 속의 미생물을 비롯해서 피부, 구강, 질, 폐 등 다양한 기관 -다분히 청정 또는 무균 일 것이라고 생각되는 장기들-에 우리와 함께 살고 있는 수많은 미생물들이 있습니다.

그 중 장 속에 압도적으로 많은 다양하고 많은 미생물들이 존재하고 신경 발달과 약물에 대한 치료의 효과에도 영향을 미치고 있는 엄청 중요한 존재인것을 이제 연구를 통해 알아가고 있습니다.

그래서 많은 바이오 기업들이 장내미생물을 활용한 약물 또는 건강을 개선하는데 사용할 수 있는 보조제나 치료제들을 개발하기 위해 노력하고 있습니다.

그러나 아직 장내미생물이 건강에 지대하고 중요한 역할을 하는 것에 비해 알려진것이 생각보다 많진 않는것 같습니다. 또한 약물이나 치료제로써 사용하기 위해서 안전성도 중요한 문제이다 보니 이런 부분들에 대해서도 아직 갈길이 멀지만 그래도 또 걷다보면 좋은 일이 있지 않을까 합니다.

간만에 간략한 글 하나 공유해보았습니다.


세상에는 할일이 참 많다는 것은 변하지않는 진리인듯 합니다. :)




출처: @ye._.vely618


수요일, 4월 26, 2023

언제까지 primer3만 사용할텐가

이제부터는 ConsensusPrime을 사용해보자.

ConsensusPrime—A Bioinformatic Pipeline for Ideal Consensus Primer Design

https://github.com/mcollatz/ConsensusPrime

작년 말에 출판된 논문으로 서열 정렬과 프라이머 디자인까지 자동화한 tool 소개 곰국되겠습니다.

소스코드는 물론 최신 트렌드에 맞게 docker로도 제공되고있습니다.

primer를 디자인 하고자 하는 영역의 서열과 primer3의 paramerter 파일만 준비하면 나머지는 제가, 아니 ConsensusPrime가 해줍니다.

물론 내가 원하는 수준의 결과물이 나오냐? 그런 모르겠습니다만

그래도 온갖 삽질은 줄어 들것 같은 긍정회로가 돌아가고 있지 않나요? 

실제로 쓸만한지는 한번 사용해보는걸로 :)


다음에 흥미로운 논문으로 찾아오도록 하겠습니다.



@ye._.vely618






화요일, 4월 25, 2023

딥러닝을 이용해서 CRISPR/Cas9의 Off-Target Cleavage의 정확도를 보장할 수 있을까?

간만에 CRISPR/Cas9 off target 예측 툴하나 훑어보겠습니다.

biorxiv에 21년도에 오픈된 논문인데, 지금쯤이면 어디 안착했을거라고 생각했던 논문인데 아직 biorxiv에 있네요..

제목은 "piCRISPR: Physically Informed Deep Learning Models for CRISPR/Cas9 Off-Target Cleavage Prediction"

doi : https://www.biorxiv.org/content/10.1101/2021.11.16.468799v3

github florianst/picrispr


유전자 편집에서 CRISPR/Cas9은 언급을 하지 않을 수 없는 기술이 됐죠

CRISPR/Cas9의 경우 기존 1,2세대 유전자 가위와 달리 target 서열을 인식하는 guide RNA만 있으면 어렵지 않게 유전자 편집을 할 수 있죠.

그러나 그와 함께 편집하고자 하는 위치를 정확히 하고자 하면 guide RNA의 길이가 길어질 수 밖에 없는데 guide RNA의 specific을 확보하기 위해 길이를 무한정 늘릴 수 없는 노릇이고, 사람 genome안에 흔하디 흔한 서열을 guide RNA 서열을 사용하게 되면 불필요한 곳을 편집하게 되니 guide RNA 서열을 잘 디자인 하는 것과 디자인한 guide RNA 서열이 off-target 없이 잘 작동하는지 미리 검토하는 작업이 필요하게 되었습니다.

그래서 유행하는 Deep Learning을 사용하여 CRISPR/Cas9의 off-target cleavage 정확도를 예측하는 툴을 만들었다고 합니다.


결론적으로,

동일한 guide RNA 서열이더라도 환경, 같은 사람이더라도 피부조직의 환경에서의 genome 또는 다양한 암(폐, 대장, 간...) 세포 내에서의 genome의 상황은 서로 다를 것이므로 이런 정보들을 잘 활용하여 CRISPR/Cas9 Off-Target의 cleavage의 예측 정확도를 향상 시켰고, 기존의 단순한 서열 기반의 off-target cleavage 예측 시스템과 다른 정확도를 보여줬다고 합니다.

모델은 6x23 모델과, 16x23 모델 2가지를 사용하였고,

서열정보와 더불어 GC Content, Nucleotide BDM, NuPoP Affinity, CRISPoff Free Energy 정보들을 활용하여 기존의 CRISPR/Cas9의 off-target 예측 툴 들과 비교하여 월등(?)한 결과를 보여줬다고 합니다.

그리고 Deep Learning종류 중 CNN(Convolutional Neural Network)와 RNN(Recurrent Neural Network) 방법이 있는데 결과를 비교 하다 보면 어떤 경우에는 CNN 방법이, 다른 경우에는 RNN 방법이 우수한 경우가 있었습니다. 이는 CNN과 RNN간의 우열이 있기 보다는 학습 방법의 특장점을 잘 활용해야 하는 것으로 보였고, 데이터의 특징에 따라 학습 모델을 잘 활용하면 조금 더 나은 결과를 확인 할 수 있지 않을까 합니다.


다음에 또 좋은 내용을 가지고 찾아오도록 하겠습니다. :)






@ye._.vely618





수요일, 4월 05, 2023

너도 AB1파일 가지고 pdf 만들 수 있어 (2)


너도 AB1 파일 사용해서 pdf 만들 수 있어 첫번째 글에 이은 두번째!!!


chatGPT한테 물어 물어 좀 쉽게 작성을 해보려고 했으나...

아.. 이것 또한 쉽지 않습니다.

예제를 보여줘서 학습을 시키면 좋을텐데... 잘 모르게서

그냥 간단히 matplotlib 코드만 간단히 활용해 보았습니다.


ab1 파일을 분석하는 것은 그냥 노가다로... ㅎㅎ 

우선 그냥 chatGPT한테 

"ab1파일 parsing해서 pdf로 만드는 스크립트 작성해줘" 하면 


from Bio import SeqIO

import matplotlib.pyplot as plt


# ab1 파일 경로 설정

abif_file = "example.ab1"


# ab1 파일 파싱하여 전기영동 결과 얻기

abif_record = SeqIO.read(abif_file, "abi")

electropherogram = abif_record.annotations['abif_raw']['DATA2']


# matplotlib를 이용하여 전기영동 결과 그래프 그리기

plt.plot(electropherogram)

plt.title("Electropherogram")

plt.xlabel("Base Position")

plt.ylabel("Signal Strength")

plt.show()


이렇게 알려줍니다.


이거 그대로 작성하면 우리가 기대했던 이미지하고 영 딴판의 결과가 저장됩니다.


그래서 세부 내용들은 Applied Biosystems에서 제공하는 Data File Format pdf를 좀 들쳐봐야합니다.

그래서 코드를 좀 수정 하면...


from Bio import SeqIO
import matplotlib.pyplot as plt

# ab1 파일 경로 설정
abif_file = "example.ab1"

# ab1 파일 파싱하여 전기영동 결과 얻기
abif_record = SeqIO.read(abif_file, "abi")
poc = record.annotations['abif_raw']['PLOC1']
a = record.annotations['abif_raw']['DATA10']
c = record.annotations['abif_raw']['DATA12']
g = record.annotations['abif_raw']['DATA9']
t = record.annotations['abif_raw']['DATA11']

data = {"A":a_seq, "C":c_seq,"G":g_seq,"T":t_seq}

plt.figure(figsize=(len(poc)/10,5))
for base, color in zip("ACGT",["g","b","k","r"]):
    plt.plot(data[base],color=color)

tmp = [None]*len(a_seq)

i=0
for pnt in poc:
    tmp[pnt]=seq[i]
    i+=1

plt.xticks(range(len(tmp)),tmp, fontsize=6)
plt.savefig('output.pdf')


이 코드를 사용하면 응? 좀 이상하지만 약간 그럴싸한 이미지가 보이실겁니다.

시퀀칭 업체에 Sanger Sequencing에 맡기면 fasta파일과 ab1파일과 함께 오는 pdf파일과 다르긴 하지만 얼추 비슷한...

그럼 다음 기회에는 Sanger Sequencing 맡기면 함께 받아 볼 수 있는 pdf 파일을 만들어보기로 해봐요. 내년 쯤에는 할 수 있지 않을까 합니다. :)




출처: @ye._.vely618





월요일, 3월 20, 2023

AAPL 1년치 주식 자료를 쉽게 다운로드 받을 수 없을까?

왜 없겠습니까?

그래서 chatGPT와 Bing에게 물어보았습니다.


chatGTP

----

Q: https://finance.yahoo.com/ 에서 API를 이용해서 AAPL 주식 1년 자료 다운로드 받는 코드 짜줘.

A: 안녕하세요! Yahoo Finance API는 2017년 이후에 deprecated되어 더 이상 지원되지 않기 때문에, 이를 이용한 데이터 수집이 불가능합니다. 대신 Yahoo Finance에서는 다양한 주식 데이터를 제공하고 있으므로 다른 방법으로 데이터를 수집해야 합니다.

먼저, Python에서는 yfinance 라이브러리를 이용해서 Yahoo Finance에서 주식 데이터를 다운로드할 수 있습니다. yfinance를 사용하면 간편하게 주식 데이터를 다운로드할 수 있습니다. 아래는 yfinance 라이브러리를 이용해 AAPL의 1년치 주식 데이터를 다운로드하는 코드입니다.

import yfinance as yf

import datetime


start_date = datetime.datetime.now() - datetime.timedelta(days=365)

end_date = datetime.datetime.now()


# AAPL의 주식 데이터를 다운로드합니다.

aapl = yf.download("AAPL", start=start_date, end=end_date)


# CSV 파일로 저장합니다.

aapl.to_csv("AAPL.csv")


이 코드는 현재 날짜를 기준으로 1년 전부터 현재까지의 AAPL 주식 데이터를 다운로드하고, CSV 파일로 저장합니다. 위 코드에서 start_date와 end_date 변수를 변경함으로써 원하는 기간의 데이터를 다운로드할 수 있습니다.

----


BING

----

# yfinance 라이브러리 설치

pip install yfinance

# yfinance 라이브러리 임포트

import yfinance as yf

# AAPL 티커 객체 생성

aapl = yf.Ticker("AAPL")

# 1년 동안의 주가 데이터 가져오기

hist = aapl.history(period="1y")

# 데이터를 csv 파일로 저장하기

hist.to_csv("aapl_1y.csv")

----


chatGTP와 bing에게 코드를 작성해 달라고 하였을 때 현재 단순한 코드에서는 chatGPT의 손을 들어주고 싶습니다.

그 이유는 date와 period의 차이라고 해두죠. 나중에 특정 년 월 일을 사용할 것을 생각한다면 bing보다는 chatGPT가 (아직은) 한 수 위 인듯 합니다. :)




출처: @ye._.vely618


금요일, 3월 17, 2023

논문을 내 의도에 맞게 쉽게 찾을 수 있을까

chatGPT나 Bing의 등장으로 저 같이 영어가 취약한(걍 저세상 수준) 닝겐들에게는 이제 논문 검색과 요약이 상대적으로 쉬워졌습니다.

물론 이미 구글 번역기만으로도 상당히 편했지만 이제는 더더더욱 좋아졌죠

그러나 이전에도 우리의 논문 검색을 도와주려는 시도는 있었습니다.

단지, 우리가 잘 몰랐을 뿐...


그래서 chatGPT의 시대가 찾아와서 조금 빛은 바랬으나
그래도 연구에 큰 도움이 누군가에게는되었을, 되고있을, 또 다른 연구주제의 시발점으로 활용 될 수 있을 논문 하나 투척 해봅니다.


이름하여 PubTator central automated concept annotation for biomedical full text articles, 이전 논문들 보니 이미 2013년도부터 작업은 하고 있었다고 합니다. (역시 제가 몰랐을 뿐)

URL: https://academic.oup.com/nar/article/47/W1/W587/5494727

DOI: doi.org/10.1093/nar/gkz389


간단히 얘기하면 PubMed의 초록정보와 PMC의 전문을 읽어서 gene, variant, disease 정보를 기준으로 tag를 달거나 annotation하여 내가 찾고자 하는 정보의 검색 결과 정확도를 향상시켜주는 검색 서비스라고 보시면 될듯합니다.

저자曰 pubtator은 문서 요약 서비스가 아니니 문서 요약을 원한다면 QuillBot Summarize라는 다른 툴을 사용하라고 안내하고 있네요. 친절도 하셔라 :)

그러나 2023년도를 사는 우리에게는 chatGPT, Bing이 있습니다.!! 


그럼 다음에는 또 다른 논문을 올려보기로 하겠습니다. :)


-Bing 요약 결과-

PubTator Central은 생물의학 전문 문서에 대한 자동 개념 주석을 제공하는 웹 서비스입니다. PubTator Central은 유전자/단백질, 유전 변이, 질병, 화학물질, 종 및 세포주와 같은 여러 중요한 생물 개념에 대한 최신 텍스트 마이닝 시스템의 주석을 제공하고 즉시 다운로드할 수 있습니다. PubTator Central은 PubMed(2천 9백만개 초록)과 PMC Text Mining subset(3백만개 전문 문서)을 주석 처리합니다. 새로운 PubTator Central 웹 인터페이스는 사용자가 전문 문서 컬렉션을 구축하고 각 문서에서 개념 주석을 시각화할 수 있게 해줍니다. 주석은 온라인 인터페이스, RESTful 웹 서비스 및 대량 FTP를 통해 여러 형식(XML, JSON 및 탭 구분)으로 다운로드할 수 있습니다. 개선된 개념 식별 시스템과 딥러닝 기반의 새로운 모호성 해소 모듈은 주석 정확도를 높이고 새로운 서버측 아키텍처는 속도를 크게 향상시킵니다. PubTator Central은 PubMed 및 PubMed Central과 동기화되며 매일 새로운 기사가 추가됩니다





출처: @ye._.vely618







토요일, 3월 11, 2023

우리가 기후변화에 더더욱 신경을 써야하는 이유

지속적으로 지구 온난화와 관련하여 과학자들이 주구장창 떠들어 데는데

겨울철 한파가 몰아칠 때 마다 이게 무슨 지구 온난화냐 한랭화 아니냐면서 지구 온난화라는 허구가지고 선동질 하는거 아니냐라는 정신없는 분들이 생각보다 많으나..

그런 분들은 차치하고 지구 온난화와 같은 기후변화에 우리가 신경써야 하는 이유에 대해서 언급한 논문이 최근에 출판되어서 하나 소개하려고 합니다.

Climate change and infectious disease: A prologue on multidisciplinary cooperation and predictive analytics

DOI: 10.3389/fpubh.2023.1018293


이 논문에서는 기후변화는 단순히 환경변화의 문제로 가뭄이나 홍수와 같은 이상기후로 인해 사람들이 피해를 입거나 식량의 생산량이 저하되어 기아 문제가 발생 하는 뿐 아니라 최근에 발병했던 COVID-19와 같은 전염병을 유발시켜 생물학적 보안에 문제가 발생 할 수 있다고 얘기하고 있고, 이런 문제들은 다제학적인 연구와 최근 각광받고 있는 AI/ML 방법을 이용하여 거시적으로 모니터링을 통해 예방해야한다 라고 얘기하고 있습니다.


다음은 저자가 환경에 영향을 받을거라고 생각하는(물론 환경, 특히나 기후변화만으로는 설명할 수 없을것이라고 이미 양념은 쳐놨습니다.) 전염병을 적어두었는데 매개체에 의해 일어나는 감염질환들 입니다.

Sin Nombre virus
Lyme Disease
Schistosomiasis
Malaria
Valley fever

기후변화, 즉 지구온난화로 이전에는 열대성 매개체들이 서식하지 못했던/않았던 지역들도 열대, 아열대 기후로 변하면서 해당 지역의 숙주(aka 인간)에게 감염이 용이해지거나 감염시킬 기회가 증가되서 적어둔듯 합니다.


가장 이해가 쉬운 시나리오는 갑작스런 강우로 홍수가 빈번하게 발생했는데 때마침 기온도 고온으로 유지될 때 홍수가 지나간 후 생긴 웅덩이에서 모기가 기하급수적으로 발생하고 그중 말라리아를 옮기는 모기들도 함께 증식되면서 말라리아가 잘 발생하지 않는 지역에 갑자기 말라리아가 발생하는 것이지 않을까 합니다.

그래서 게놈 연구도 중요하고 Vision연구도 중요하고 머신러닝과 AI를 이용한 기후와 질병 예측도 중요하고, 이 모든걸 혼자 할 수 없으니 공동 연구도 필요하다는 결론 되겠습니다.


그래서 이 논문도 Bing한테 한번 물어봤습니다.

논문 요약해줘

이 논문은 기후 변화와 감염병 사이의 관계에 대해 다학제적 협력과 예측 분석의 필요성을 강조하는 서론입니다. 저자들은 기후 변화가 감염병의 발생과 확산에 영향을 미치는 여러 요인들을 설명하고, 이를 예측하고 대응하기 위한 다양한 도구와 전략들을 소개합니다. 저자들은 기후 변화와 감염병의 복잡한 상호작용을 이해하고 관리하기 위해서는 과학자, 정책 결정자, 보건 전문가 등 다양한 이해관계자들이 협력해야 한다고 주장합니다.


기후변화가 감염병 발생과 관련이 있다고 했는데 genome 연구가 왜 중요한가요?

기후변화는 감염병의 발생과 확산에 영향을 미칠 수 있습니다. 기후변화로 인해 감염병의 범위나 계절성이 변하거나, 새로운 감염병이 등장할 수 있습니다. 기후변화는 200여 가지의 감염병과 수십 가지의 비전염성 질환에도 악영향을 미칩니다. Genome 연구는 이러한 기후변화와 감염병 사이의 관계를 이해하고 예방하고 치료하는데 도움이 될 수 있습니다. Genome 연구를 통해 감염원이나 전파 경로를 추적하거나, 적절한 백신이나 치료제를 개발하거나, 인간과 환경의 상호작용을 분석할 수 있습니다.


그럼 즐거운 주말 보내는걸로~ 제발~ 




출처: @ye._.vely618



 

수요일, 3월 08, 2023

임상에서 변이 탐지는 조금은 달라야지

오늘 읽어본 논문은 임상에서 변이탐지을 위한 모범 사례에 대한 내용입니다.

Best practices for variant calling in clinical sequencing


DOI: 10.1186/s13073-020-00791-w 


사실 지난번 논문이 현장에서는 더 도움이 되는 논문이긴 하나 

임상 현장에서의 의견이 좀 더 녹아져 있을까 해서 읽어보았습니다.

그래봤자 이미 우리 모두 대략적으로 다 알고 있는 바로 그 얘기입니다.


업으로 하고 있으신 들이 보면 사실 새로운건 없어요. 그냥 레퍼런스에요


어떤 정렬 프로그램이 좋은지, 정렬 하고 나서 바로 변이 탐지를 해도 되는지, 아니면 전처리를 어떻게 하고 변이 탐지를 하면 좋은지, 어떤 변이 탐지 방법을 사용하는게 좋은지..

여기서는 GATK 모범 사례를 주로 들긴 했지만, 여러 변이 탐지 프로그램 사용해서 가급적 못잡는 변이를 최소화하고, 가끔 de-novo 변이가 있는데 그거는 나도 모르겠으니 IGV 키고 눈씻고 찾아봐라. CNV도 시중에 떠돌아 다니는 프로그램 사용하더라도 마지막에는 IGV켜서 확인해라.

인듯하네요.



그리고 다음 내용은 MS사의 Bing에게 "요약해줘"(균형있게) 치트키를 써서 나온 내용입니다.

이 논문은 유전 질환과 암과 같은 질병에 대한 임상 유전 검사에서 사용되는 차세대 시퀀싱 기술의 발전에 따라 정확한 변이 호출이 얼마나 중요한지를 설명합니다. 또한 현재 변이 호출에 대한 최선의 관행과 향후 개선 방향을 제시합니다.


답변 후 요약이 충분히 도움이 되었나요? 더 자세한 정보를 원하시면 말씀해달라고 해서, "아니오, 더 자세히 알고 싶어요" 해서 나온 내용은 아래와 같습니다.

논문은 다음과 같은 내용으로 구성되어 있습니다.

배경: 차세대 시퀀싱(NGS) 기술은 임상 유전 검사의 범위와 정확도를 크게 향상시켰습니다. 그러나 NGS 데이터에서 변이를 호출하는 과정은 여전히 복잡하고 오류가 발생하기 쉽습니다. 따라서 변이 호출에 대한 표준화된 가이드라인과 최적화된 파이프라인이 필요합니다.

본론: 논문에서는 NGS 데이터에서 변이를 호출하는 과정에 영향을 미치는 여러 요인들을 설명합니다. 예를 들어, 시퀀싱 플랫폼, 시료 준비 방법, 분석 소프트웨어 등입니다. 또한 현재 사용되고 있는 변이 호출 알고리즘과 도구들을 비교하고 평가합니다. 마지막으로 임상 유전 검사에서 변이 호출의 정확도와 신뢰도를 향상시키기 위한 권장 사항과 개선 방안을 제시합니다.

결론: NGS 기술은 임상 유전 검사의 혁신적인 도구입니다. 그러나 변이 호출은 여전히 어려운 문제입니다. 이 논문은 임상 유전 검사에서 변이 호출에 대한 최선의 관행과 향후 연구 방향을 제공합니다.

더 궁금하신 점이 있으신가요?🙋


다음은 chatGPT한테 요약해줘 한 내용

이 논문은 기존 유전체 연구를 보완하고, 유전체 변이를 활용하여 질병 진단과 치료 방법을 개선하는 것을 목적으로 하고 있다.

이 논문에서는 유전체 연구의 새로운 방법으로 'CRISPR-Cas9' 기술을 사용하여 질병 관련 유전자를 수정하는 방법을 제시한다.

chatGPT는 참 치명적으로 창의적인듯...


결론은 chatGPT한테 링크 알려주고 요약해줘하면 헛소리 작렬, MS Bing한테 링크 알려주고 요약해줘 하면 성심껏 알려주는 거기다가 답변도 창의적으로, 균형있게, 근거기반 세분화해서 알려주는게 포인트



@ye._.vely618


토요일, 3월 04, 2023

역시 변이 탐지에서도 machine learning

역시 세상에는 내마을을 알고 있는 분들이 있다는..

논문 제목은 Systematic benchmark of state-of-the-art variant calling pipelines identifies major factors affecting accuracy of coding sequence variant discovery 입니다.

doi: https://doi.org/10.1186/s12864-022-08365-3


결론은 누가누가 변이를 잘 찾나 테스트 되겠습니다.

그래서 샘플 준비도 GIAB과 함께 non-GIAB 데이터도 준비하고, 정렬 프로그램도 BWA, BOWTIE, Isaac, Novoalign 다양하게, 변이 caller도 GATK, FreeBayes, Strelka이외에도 DeepVariantClair3Octopus 등 다양한 변이 caller를 도입해서 테스트를 진행해 보았다고 합니다.

Clair3와  Octopus는 처음들어 봤네요 @.@ 역시 사람은 공부를 해야함

그리고 GIAB외에도 non-GIAB 데이터를 활용한것은 또 새로운 접근법인듯합니다. 아무래도 많은 연구가 이뤄진 데이터와 그러지 않은 데이터간의 차이가 있을 수 있고, 아직 T2T를 사용한 변이 탐지 벤치마킹 논문을 찾아보진 못했는데 이 또한 조만간 나오겠네요. 이미 나와 있을수도.. 


여튼 이것저것 따져 봤을 때 정렬 프로그램은 일단 Bowtie2는 성능이 저하되는 결과를 보여주기에 사용하면 안되는 방법이고, 변이 탐지에서는 DeepVariant가 좋은 성능을 보이는 결과를 얻을 수 있었다고 합니다.

그리고 GIAB와 non-GIAB 샘플을 비교해본 바 현재 사용하는 분석 방법이 GIAB에서만 좋은 결과를 보이고 non-GIAB에서는 그렇지 않다는 것, aka GIAB 샘플이나 non-GIAB 샘플이나 편견없이 잘 분석된니, 현재 분석 방법들을 활용해도 문제가 없다는 것을 확인하였다고 합니다.

그러나 아직 존재하는 몇 가지 문제점을 지적하기도 했습니다.

기계학습 방법을 사용하는 caller 같은 경우 모델에 따라 변이 탐지에 문제가 발생할 수 있기 때문에 조심해서 사용하여야 하고, 앞서 얘기했던 T2T 표준 유전체를 사용하였을 때 발생할 수 있는 기존 정렬 프로그램이나 변이 탐지 프로그램의 한계점이나 영향(부정적인)은 확인된바가 없기떄문에 검토가 필요하다는 점, GIAB이나 non-GIAB이던 일반적인 벤치마킹에 사용하고 있는 표준 샘플들의 사용 region에 대한 문제, 대게 잘 정의된 변이들은 유전자 영역에 분포하고 있기 때문에 비유전자 영역에 있는 변이 또는 시퀀싱이 잘 되지 않은 영역들에 대한 정보는 제한적일 수 있기에 이런 단점들이 보강된 표준 샘플들이 필요하는 점, NGS 데이터의 경우 지속적으로 개선되고 새로운 방법이나 도구들이 개발되고 있으나 민감도, 재현성과 같은 변이 탐지 성능 지표에 집중되어 있지 분석 시간이나 사용의 편의성, 프로그램 설치 난이도와 같은 비교적 중요하게 다루지 않는 항목들에 대해서도 관심이 필요하다는 것들에 대해서 언급을 해주었습니다. 


간만에 최신 변이 탐지 벤치마킹 논문을 한번 읽어봤는데, 저는 유익한 시간이었는데 어떠셨나요? 

이제 즐거운 주말을 보내러~ :)


ps. 근데 chatGPT한테 요약 해달라고 하니 왜 이 논문에서 Dama dama (사슴)을 왜 그리 찾는지... 처음에는 내가 url을 잘못 입력한줄 알았는데... 



출처: @ye._.vely618


일요일, 2월 19, 2023

언제나 인간이 선을 넘었지, 바이러스가 선을 넘진 않았지

지난 2월 16일 Genomeweb와 cell지에 무시무시한 뉴스 한편이...

말레이 천산갑에서 HKU4-CoV보다 더 넓은 숙주를 감염시킬 수 있는 MjHKU4r-Cov라는 새로운 MERS와 유사한 CoV가 있다는 것이 확인되었다고 합니다.

ㅎㄷㄷㄷㄷ 

GenomeWeb 기사는 제가 회원이 아니라 모르겠고 공개되어 있는 cell의 논문이나 가볍게 읽어 보았습니다.

"A bat MERS-like coronavirus circulates in pangolins and utilizes human DPP4 and host proteases for cell entry"의 논문으로, 모든 면에서 "가볍"게 읽었습니다. (진지하게 받아들이셔도 개취 존중)


일단 또 Pangolin, 천산갑이 등장했습니다. 
천산갑이 매개자 역할을 하는 것인지 명확하지 않지만(저말고 이 곰국저자 曰) 포유류중 가장 많이 밀매된다고 코로나로는 부족했나 봅니다.

여튼 맛이 좋은건지, 한약재로 인기가 좋은건지 모르겠지만 Malayan pangolins, 말레이 천산갑에서 새로운 MERS-like coronavirus (이하 MjHKU4r-CoV)를 86마리(이 말레이 천산갑은 어디서 구했는지 모르겠으나) 천산갑 중 4마리는 pan-CoV PCR 양성, 7마리는 혈청 양성 반응을 보였고, 시퀀싱을 하여서 4개의 바이러스 서열을 확보, 이중에서 MjHKU4r-CoV 서열도 함께 확보해서 이런저런 실험을 진행해보았다고 합니다.


그래서 천산갑에서 확인된 새로운 바이러스가 사람도 감염시킬 수 있는가?

MjHKU4r-CoV는 사람을 감염시킬 수 있는가? 어려운 실험얘기는 논문 보시면 알 수 있고, HKU4-CoV, MERS-CoV, MjHKU4r-CoV를 가지고 실험을 해 보았다고 합니다.

근데 왜 MjHKU4r-CoV의 감염력 실험을 하는데 다른 2개 바이러스는 왜 할까? HKU4-CoV는 박쥐 코로나바이러스로 사람에게 직접 감염이 어려운 바이러스(음성컨트롤)이고, MERS는 MERS는 이미 사람에게 감염되는 것으로 알려져있죠(양성컨트롤)? 논문 제목과 새로운 바이러스의 이름때문에 박쥐(HKU)와 MERS를 비교삼아 진짜 감염력이 있는지 어느 녀석과 감염력이 유사한지 확인해본겁니다. 

그래서 결론은 사람 너님은 잘 감염됨. 또한 ACE2와 비슷한 hDPP4 또한 중요하다는 것도 확인했고 DPP4라는 수용체를 바탕으로 숙주가 가능한 것들을 한번 테스트 해봤는데.. 돼지, 염소, 고양이, 토끼, 말, 쥐, 햄스터, 개와 같이 감염시킬 수 있는 숙주의 범위가 꽤나 넓습니다.


근데 지난번에 우리 COVID19에 사용할 수 있는 치료제 있다고 하지 않았나?

예, 음.. 정확히 COVID19에 사용하기 위한 치료제는 모르겠고 에볼라 치료를 위해 만들었던 Remdesivir가 COVID19에도 효과가 있다고는 알려져 있어 사용해보았고 추가적으로 무엇인지는 모르겠으나 GC376, EIDD-2801라는 물질도 MjHKU4r-CoV에 효과가 있는지 확인해보았다고 합니다.

다행히 바이러스의 복제를 억제하는 효과는 있는것으로보입니다(Fig 7).
다만 MjHKU4r-CoV와 함께 MERS는 했으면서 왜 SARS-CoV는 왜 안했지.. 조금 궁금하네요..
그리고 억제 효과가 1uM이하에서는 안보이기 시작하는데.. 실제 주사로 투여했을 때 1uM이라는 수준으로 약제가 잘 도착해야할텐데... 


무튼... 

연구의 한계점이 있다는 것을 밝히면서 마무리하고 있는데, 삼림채벌이나 야생동물의 무분별하게(비위생적으로) 거래되어 애초에 인간과 접촉할 일이 없었던 바이러스들이 인간과 많이 접촉하게 되어 문제가 되고 있으니 적극적인 감시와 모니터링이 필요하다고하면서 논문을 마무리하였습니다.


천산갑에서 또 다른 COVID19와 유사한 바이러스가 또 나와서 COVID19와 같은 피해와 슬픔을 또 줄 수 있으니 두려움이 생길 수 있으나 아직은 가능성에 대한 내용일 뿐 지금부터 잘 대처하고 준비하면 COVID19 때 보다는 나은 상황이 펼쳐지지 않을까 하는 기대를 가져봅니다.



출처 : @ye._.vely618


월요일, 7월 25, 2022

mummer에서 larger than maximal textlen에러가 발생한다면

MUMmer3를 사용해서 작업하다가 

textlen에러를 맞이할 경우가 사실 생각보다 많이 있으리라고는 생각하지 않지만

그래도 이런 문제가 발생하였을 때 어떻게 대체해야 하는지

이미 수년전에 어느 용자께서 이에 대한 해답을 정리하셨었습니다.!!

>여기<


한글로 풀어쓰자면

1. MUMmer3.23/src/kurtz/libbasedir/types.h에 "#define SIXTYFOURBITS” 행을 “#ifdef SIXTYFOURBITS"이 행앞에 추가 하기

#define SIXTYFOURBITS
#ifdef SIXTYFOURBITS


2. 그리고 make할때 다음과 같이 하기

make clean

make CPPFLAGS=”-O3 -DSIXTYFOURBITS”



그럼 마법과 같이 MUMmer3 구동시 에러가 발생하지 않습니다.



출처 : @ye._.vely618




금요일, 5월 27, 2022

cffDNA의 fraction을 증가시켜 위음성과 NIPS 실패율을 줄일수 없을까

비침습적 산전 선별 검사인 NIPS에서 가장 중요한 부분은 엄마의 혈관안에 있는 태아로부터 유래된 cell free DNA을 얼마나 많이 확보하는것 입니다. 

그래서 분석적인 측면 뿐만 아니라 실험적인 측면에서도 태아의 cell free DNA를 enrichment할 수 있는 방법이 없을까 많은 방법들을 고민했고 하고 있는 중이죠

이 논문 또한 그런 맥락에서 시작하여 기존 실험 방법보다 태아 분획이 증가시켜 정확도를 향상시켜 이전에 확인하지 못했던 trisomy도 추가로 확인할 수 있었다고 얘기하고 있습니다.

An enrichment method to increase cell-free fetal DNA fraction and significantly reduce false negatives and test failures for non-invasive prenatal screening: a feasibility study

https://translational-medicine.biomedcentral.com/articles/10.1186/s12967-019-1871-x


NIPS/NIPT를 시작할 때 우리 Lo 훃아를 빼놓고 얘기 할 수 없겠죠?

그리고 사회적 요구와 기술 발전을 통해 NIPS/NIPT는 모든 산모가 침습적 검사를 하지 않도록 대안으로 빠르게 부상하였고 정확도 향상으로 21/18/13번 삼염색체의 경우  민감도/특이도 95%이상으로 나오고 있다고 합니다. (다른 논문에서는 21번은 한.. 98%정도였던것으로 기억하는데...)

여튼 그래서 이전의 확보된 만개의 NIPS 데이터로 최적화 작업을 하였고 , 1404개의 NIPS 실제 검체(11개의 위음성 검체가 포함된)를 가지고 테스트를 진행해 보았다고 합니다.

그리고 시퀀서는 JingXin BioelectronSeq 4000 시스템에서 시퀀싱을 하였다고 합니다.
?? 어디라고? CFDA 등록 허가 번호를 받은 반도체 시퀀서라고 합니다. Orz..
보아하니... 천조국 회사로 바꿔보자면 Thermo이지 않을까 합니다.
그래도.. 읽기 시작했으니깐.. 

근데 솔까말 cffDNA를 실험적으로 enrichment하는게.. 이 논문이 처음은 아니었던거 같은데...

여튼 결론은 실험적으로 160bp(엄마의 평균 cfDNA 길이)보다 짧은 서열들을 모으는게 핵심적이고 그리고 160bp보다 짧은 서열들이 진짜로 결과에 (좋은)영향을 주는지도 확인해 보았다고 합니다.

Table 1의 정리된 내용은 NIPT테스트에서 실패율이 감소하였다는 (그래서 재채혈 이슈가 줄었을것이라는...)

Table 2의 정리된 내용은 기존의 11개 위음성 검체가 있었는데 새로운 cffDNA 농축 방법을 사용함으로 11개 검체중 5개는 양성으로 확인되어 위음성도 효과적으로 감소 시킬 수 있다는것을 보여주었답니다.
-cffDNA를 농축하여 실패율을 줄이고 위음성도 줄일 수 있지만 그래도 현재 기술로는 100% 위음성을 피할 수 없다는것-

결론은 분석도 중요하지만 일단 실험이 잘 되어야 한다는 자명한 사실을 한번더 알려주는 논문이라는... :)


그리고 일하기 싫을때도 딴짓은 과학이라는....


출처: @ye._.vely618





금요일, 4월 22, 2022

A review of somatic single nucleotide variant calling algorithms for next-generation sequencing data

오랜만에 먼지 뒤집어 쓰고 있던 논문하나... 슬쩍...
somatic mutation call관련해서 누가누가 잘하나 훑어본...
다들 알고 있으신 논문 되겠습니다.



여기서 가장 훌륭한 내용을꼽으라면...
variant caller를 아주 일목요연하게 정리한 Table 1. 되겠습니다. 
(물론 Table 2.도 있습니다.)
이거 보시고 ensemble한 걸 생각하신다면 이전에 소개했었던 appreci8 잊지 않으셨겠죠?

결론적으로 DeepVariant 딥러닝 기반의 성능좋은 caller가 계속해서 나올꺼니 님들 연구 계속 열씸히들 하시고 somatic variant를 검증할 수 있는 데이터셋이 아직 없으니 이거 좀 만들어봐 되지 않을까합니다.

물론 논문에서 언급한 GIAB 프로젝트가 잘 되고 있으니 곧 somatic variant를 검증할 수 있는 set들도 잘 구비되지 않을까 합니다. MAQC/SEQC 프로젝트도 잘 운영되고 있으니..


그리고 뒤적뒤적 거리다 논문 하나를 봤는데.. 

여기 나온 데이터를 가지고 somatic variant pipeline 검증 할 수 있을지는 모르겠지만 그래도 활용은 할 수 있지 않을까 하네요... 한번 뒤적여봐야하겠네요.








출처 : @ye._.vely618


일요일, 4월 17, 2022

pip를 이용한 패키지 설치 그리고 삭제

하도 잘 까먹어서....


python3 -m pip install --user <package name>

python3 -m pip uninstall <package name>


그렇다고 합니다.


ps. 요즘에 cutadapt를 잘 안써서 이번에 알았는데 cutadapt 설치시 ubuntu에서는 apt사용해서 설치 가능하다능...



출처 @ye._.vely618

일요일, 11월 07, 2021

HLA를 빠르고 정확하게 할 수 없을까

그래서 나노포어가 준비했습니다.

절대적으로 빠른 건지, 정확도의 수준은 정확히 모르겠으나 일단 샘플당 $80되겠습니다.
물론 이게 재료비값인지 소비자가인지는.....
아마 본인들이 했을때 가격인듯.... (일반 소비자가 이 가격에 가능할지는 모르겠네요)

Rapid, highly accurate and cost-effective open-source simultaneous complete HLA typing and phasing of class I and II alleles using nanopore sequencing

그럼 HLA(Human leukocyte antigen)검사는 무엇이냐? 쉽게 얘기하면 장기이식할때 장기이식할수 있는지 여부를 확인하는 검사되겠습니다. 이 HLA가 내거와 내거 아닌거를 구분하게 해주는 녀석되겠습니다. 

면역학 책 들춰보시면... 책을 덮습니다.

일반적으로 HLA는 A,B,C인 Class I, DRA1, DRB1/3/4/5, DQA1, DQB1, DPA1, DPB1인 Class II인데 우리나라는 A,B,C를 포함해서 일부만 본다고 합니다. 

여튼 나노포어는 긴 길이로 시퀀싱하는 장점과 빠른 시퀀싱속도를 바탕으로 시퀀싱 시간은 8시간내 (물론 라이브러리 제작시간은... 따로 좀 봐야할것 같습니다.) 분석은 샘플당 30분(근데 사용한 서버 수준이... 32core 256g 메모리 서버)소요 됐다고하는데...

1 샘플(aka 1검체)의 경우 나노포어 한개 사용해서 기존 일루미나나 써모 플랫폼보다 빠르고 싸게 결과를 도출할 수 있도록 해준다는데...

영어의 짧음인지...  가끔 나노포어가 더 안좋아 보이게 설명하는거 같기도합니다. 


결론은 나노포어가 더 길게 시퀀싱하기 떄문에 복잡한 HLA에서 더 정확하게 구별할 수 있고,
기존에 short 시퀀싱에 적합한 pcr primer말고 long range PCR에 적합하게 프라이머를 변경해서 진행하면 HLA의 복잡한 부분들을 더 잘 잡아낼 수 있을것이라고 털고있습니다.


여튼 개인적으로 기존 short 시퀀서 플랫폼 보다는 나노포어가 HLA에서는 좀더 나은 성능을 보여주지 않을까합니다. HLA의 복잡도 때문에 나노포어의 장점을 활용할 수 있는 PCR 프라이머로 재 디자인해서 진행하면 시퀀싱 시간/분석 시간/정확도에서 가장 적합하기 않을까하는 생각입니다.




@ye._.vely618


화요일, 9월 28, 2021

isPcr 사용법

내가 디자인한 (아마도 업체나 primer3에서 디자인된..) 프라미어 서열이 진짜 잘 작동할까? 궁금하신 분들이 있겠죠..

그래서 이것 저것 컴퓨터 하는 애들이 얘기하는 ncbi에 들어가서 blast라는 것도 한번 돌려보고 ucsc에 blat이라는 것도 있다던데 그것도 한번 돌려서 확인해보라는데... 

그래서 kent옹께서 우리들과 같은 꼬꼬마들을 위해서 만들어 놓은 사이트가 바로
UCSC In-silico PCR 되겠습니다.

물론 사이트에서 하나씩 할 수도 있고 
당근 local 서버에 다운받아서도 할 수 있습니다.

다운로드는 >여기< 로

다운로드 받은 isPcr.zip 파일을 압축 푼 후 
>chmod 755 isPcr 
>./isPcr
하면 내 컴퓨터(운영체제가 윈도우라고는 안했다)에서 실행 가능합니다.

>isPcr <database> <query> < output>
database: 그냥 fasta파일의 human genome넣어주면되고
query: primer서열이 들어있는 파일인데 3개 컬럼으로 이뤄진 파일이 input으로 사용됩니다.
name, forward primer, reverse primer 컬럼 구분은 space나 tab으로 구분해주면되는데..
어떤건지 정확히는 다시 해봐야 알겠네요.. :)






화요일, 9월 14, 2021

Long-read sequencing identified a causal structural variant in an exome-negative case and enabled preimplantation genetic diagnosis

아니.. 2018년도에 이런 논문을 블로그에 keep놓고 그냥 놀고 있었다니..
여하튼 눈에 띄어서 한편 사브작 하나 올려봅니다.
역시 일이 많을때 딴짓은 국룰이라는 명제를 증명하듯......


WGS(Whole Genome Sequencing)이 아무리 저렴해졌다고하나 내 genome에 이상이 있는지 진단을 위해서 시퀀싱하는 비용이 억대에서 천만원 정도로 떨어진거지 아직은 WGS가지고 일반인이 무엇을 하기에는.... 물론 Private Premium Platinum Gold Special Society 같은 수식어의 멤버 라면... 할려면 할수는 있겠다만..

여튼 현재 아직까지는 유전체 진단에서 가장 현실적이고 합리적인 방법은 WES이나.. 짧은 read들을 가지고는 structural variant를 탐지하기에는 무리가 좀 있으니 long read로 해야하지 않겠냐라고 얘기하는 2018년도 논문되겠습니다.

해당 논문에서 언급하는 환자는 G6PC 유전자에 돌연변이가 생겨 간비대, 신장비대를 초래하는 recessive inheritance 질환으로 긴 지역에 deletion이 있었으나 WES만으로 진단하였을 때는 확인하지 못했고 nanopore (long read seq)를 사용하여 확인하였을 때에는 정확히 긴 길이의 SV를 확인 할 수 있어다 라는게 주제되겠습니다. 지금까지 short read만으로 시퀀싱하여 진단되지 않거나 오진되는 환자들의 돌연변이를 정확하게 확인 할 수 있는 도구가 임상 진단에서 하나더 생겼고 그로 인해 정확한 진단을 할 수 있게 되었다는 자화자찬의 평을 내면서 논문을 마무리하였습니다.

사례를 통해 short read만으로는 진단에 한계가 있다는것을 확인하였고 long read 방법이 이제 진단에 슬슬 자리 잡아야 하지 않나 싶은 생각이 드는....

(근데 길게 뽑으려면 나노포어 실험이 그렇게 쉽지 않은듯하던데.... )





출처: @ye._.vely618
출처: @ye._.vely618









화요일, 8월 03, 2021

NIPT는 왜 false negative에서 자유로울 수 없는가

NIPT는 데니스 로훃아께서 산모 혈액속에서 태아의 cell free DNA가 소량 존재하고, 탐지할 수 있는 것을 알게 된후 시퀀싱을 사용하여 태아의 DNA를 탐지하는 기술을 개발하면서부터 사용되었다. (그와 함께 온갖 특허로 돈방석에 올랐는지는 모르겠지만 일단 특허는 가지고 있으시다능 ㅜㅅㅜ, 관련기사는 >여기< 일루미나,Lo,시쿼놈 이 IP pool을 만들어서 세계여행중)


여튼 NIPT대한 서술은 이쯤하고..


NIPT가 침습적검사를 대체할 수 있었던 큰 이유는 바로 비침습이라는..

침습의 경우 높은 확률(몇인지 가물가물..)로 유산 가능성이 있으나 정확한 진단을 내릴 수 있기 때문에 꼭 필요한 산모들에게만 하는게 좋은데... 그 꼭 필요한 산모들을 어떻게 선정하느냐가....

그래서 NIPT로 스크리닝하고 고위험군의 산모들에게서 스크리닝결과 부정적인 의견이 나오면 침습검사를 권장하는것으로 이제 체계가 잡혀가는데..


이 NIPT가 갱장히 혁신적인 기술임인 반면에 치명적인 단점이 있었는데 위음성의 문제가 좀 있다

근데 산모 혈액속에 떠돌아 다니는 태아의 DNA(그냥 DNA는 아니고 cell-free된 fetal DNA)를 탐지해서 스크리닝하는건데 왜 위음성이 나타나는걸까?

엄밀히 말하면 산모 혈액속에 있는 태아의 DNA는 아니고 태아의 DNA와 시작을 함께하는 조직의 DNA(chorionic villi라는 한국말로 하자면 융모막융모에서 유래된 DNA)라서 위음성이 나타난다는...


from zygote to blastocyst.
from zygote to blastocyst



False Negative NIPT Results: Risk Figures for Chromosomes 13, 18 and 21 Based on Chorionic Villi Results in 5967 Cases and Literature Review

바로 이 논문이 NIPT에서 위음성이 왜 나타나는지 얼마나 나타나는지 알아보는 논문 되겠습니다.

NIPT에서 사용되는 태아의 cell free DNA의 기원에 대해서 이해를 해야지 NIPT의 위음성과 위양성에 대해서 이해 할 수 있습니다.

위의 그림과 이유를 표로 정리하면 다음과 같다.



자세한 NIPT의 정확도 수치같은 내용은 논문을 탐독하면 알 수 있을 것이고

오늘의 논문에서 NIPT의 위음성의 이유와 왜 그러는지에 대해서 알면 충분히 보람찬 하루가 되지 않을까합니다. 




일요일, 7월 25, 2021

Omniome 넌 누구냐

광고?뉴스?기사?글이 하나 포착되어 보는데

Pacific Biosciences signs a definitive agreement to acquire Omniome

Omniome이라는 처음보는 회사가 보여서 잠깐 검색 하는데 캐서린 우드의 ARK가 여기서 나오네.. ㄷㄷㄷ

여하튼 PacBio의 Long Read와 Omniome의 (길이는 언급하지 않겠다) 정확도가 만나 일루미나의 SBS(sequencing-by-synthesis)대항하여 SBB(sequencing-by-binding)라는 기술로 PacBio랑 잘 해보겠다? 정도인듯한데..

SBB가 무엇인지 한번 찾아보는것에 의의를 두도록 하겠습니다.

Omniome에서 SBB에 대한 논문과 특허는 이미 등록되었고 논문은 요기에 특허는 요기에 등록되어 있어보이고...


아.. 일단 갱장히 본인들을 잘 설명해놓았다고 생각하겠지만.. (아니면 본인들도 어떻게 설명해야 할지 잘 모르고 있다는것에 한표.. 이과놈들이란...)

여튼.. 한개 base를 읽기 위해 4개의 염기가 모두 필요하고..
올바른 base면 감지 가능한 신호(복합체)가 생기고...

이거... 복합체와 센서를 이온으로 변경하면 Ion Proton이랑 좀 비슷한듯....

여튼 SBB기술을 이해하려고 내가 알고있는 기술로 단순화하해서 접근해보니.. ion proton이랑 비슷한듯하네요..


처음에 미지의 서열에 A,C,G,T가 binding하고 이 서열이 올바른지 아닌지는 binding하여 만들어진 복합체의 양?에 따라 올바른 서열인지 아닌지 확인하는.. 모 그런 기술로 보여지는데..


추후에 더 이 기술에 알게 되면...
물론 나는 SBS, SBB같은 SRS(Short Read Sequencing이라고하는..)들은 별로 관심안가지지 않을까하는 생각이....


근데 ARK 실망..... 관심있어하는게 PacBio와 Omniome이라니.. 

옥스포드의 나노포어가 있는데....


출처: @ye._.vely618
출처: @ye._.vely618




토요일, 1월 02, 2021

High Heterozygosity genome 어셈블리 할 때 해결사로 자처하고 나온 어셈블러

2021년 첫 포스팅 시작합니다. :)

오늘은 de novo assembly관련된 tools 소개 글입니다.

모델 생물 혹은 그외의 생명체에 대해서 genome을 알고 싶다면...
그냥 절래절래 하거나 아니면 필요하거나 알고 싶은 부분만 클로닝해서 슬쩍 슬쩍 알아내던 시절... 

돈없는 연구자들은 손가락이나 빨고 눈물이나 흘리던지 어딘가에 끼어서 연구를 진행했었어야 했으나...

이제는 바야흐로 2021년!! (사실 글의 초안을 작성하고 있었던 때는 2020년 11월;;;)

454 따위 역사속으로 사라지고 킹왕짱 long read인 PacBio와 나노포어가 활발히 사용되는 시대에 살고 있습니다.

(물론 de novo는 454와 일루미나로 이어 붙여야 제맛이지 하는 라떼들도 있지만...)

저는 박테리아에서 PacBio 써본 후 박테리아 연구에서 PacBio 사용하지 않고 일루미나 플랫폼을 사용한다고하면 일루미나 주식을 가지고 있나 생각하게 되었고, 그외에 genome을 de novo작업은 nanopore를 추천하고 있는데 굳이 나노포어를 사용하지 않겠다라고 한다면... 굳이? 라는 궁금증으로 가지게 되었다능.. ㅋㅋ
(당연히 무조건 저걸 써야하는건 아니쥬 ㅎㅎ 연구 목적에 따라 봐야 하는 결과물에 따라 플랫폼을 잘 선택하시면되겠습니다.)

※ 여기서 나노포어 base의 quality는 굳이 논할 이유는 없고 제대로된 데이터 만져보면 나노포어 쓰지 않을 이유가 없으실 겁니다.


이제는 PacBio나 나노포어를 굳이 사용하지 않을 이유가 없는 것이 예전이라면 PacBio나 나노포어를 지원해주는 프로그램이 많지 않아서 좀 꺼려질수 있었지만.. 지금은 반대로 너무 많아셔져서 어떤 tools을 사용해야 하나 할 정도니...

그중에서 어셈블리를 하면서 문제가 되는 부분이 High heterozygous region들이 있는데 (그 와 함께 저세상 텐션을 보여주는 polyploidy;; ) 이런 문제들을 해결에 주겠다는 해결사로 자처하고 나온 tools이 있어서 한번 끄적여 보았습니다.

Purge Haplotigs: allelic contig reassignment for third-gen diploid genome assemblies

물론 이전에도 heterozygous 문제를 해결하는 tools이 없지는 않았습니다.
이전 글에서도 잠시 소개했었던 HaploMerger2 도 있고 저는 잘 몰랐지만 Redundans라는 도구도 있었다고 합니다. 다만 이전에 나온 tools의 단점은 사용자가 수동으로 contig를 재 할당해야한다는 문제가 있다고 합니다.
(음.. 저도 이전에 한두번 HaploMerge2를 사용해었는데;;; 여기서 얘기하는 contig 재할당에 대한 얘기가 정확히 어떤 의미인지는 정확하게 모르겠네요;; 여튼... 좀 단계 단계를 수동으로 작업을 하기는 했었습니다만 여기서 얘기하는 "수동"이 이 얘기가 아닌거 같은데...)

여튼... purge의 분석 pipeline은 다음과 같은 단계들로 진행됩니다.
purge의 분석 Flow chart >Figure1<


음... 확실히 장점으로는 draft로 조립된 genome에서 중복되는 contig들을 제거해서 draft assembly 서열의 크기를 줄여서 실제 genome size에 가깝게 된다는 것 이긴 합니다.

그리고 이 tool을 사용할 시 참고할 점으로는 일루미나 데이터를 가지고 purge를 진행할때는 지양했으면 합니다.
제가 해봤을때에 nanopore-raw 서열가지고는 분석이 가능했는데 일루미나 데이터로 작업하였을 때 purge_haplotigs의 hist 명령어를 사용하여 cov의 input 값이 -l, -m, -h 값을 구하는 작업을 할때 -l, -m, -h 값을 특정 할 수 있는 문제가 좀 있었습니다. 너무 값들이 낮아서 어떤 값을 low, mid, high을 사용할지가 모호하더라구요..

여튼..

de novo  작업을 하시다가 생각보다 genome 크기가 큰 경우 내 genome 중간에 heterozygous한 지역이 있구나 생각하시고 이 tools한번 돌려보시면 좋을것 같습니다. :)



출처: @ye._.vely618