목요일, 4월 18, 2024

UK Biobank 데이터 활용하면 어떤것을 할 수 있을까?

오늘은 많은 국가의 BioBank 사업에 귀감이 되고 있는 UK BioBank를 활용한 논문을 한번 가져와봤습니다. 

당연히 UK BioBank 데이터를 활용한 논문은 어마 무시하게 많이 있습니다.

그중에서 이 Effects of protein-coding variants on blood metabolite measurements and clinical biomarkers in the UK Biobank 논문을 가져온 이유는 그냥 최근에 나왔으니깐요 ㅎㅎ 

DOI: 10.1016/j.ajhg.2023.02.002


오늘도 역시 clova-x에게 물어보았습니다.

이 연구는 단백질 코딩 변이가 혈액 대사물 측정과 임상 바이오마커에 미치는 영향을 분석한 것으로, 다음과 같은 내용을 포함하고 있습니다.

1. 412,393 영국 바이오뱅크 샘플을 분석하여 희귀 변이와 대사물 측정 간의 연관성을 발견하였습니다.

2. 유전자 레벨 붕괴 분석을 통해 희귀 변이의 영향을 평가하였습니다.

3. 나이트릴 혈액 대사 측정과 임상 혈액 바이오마커에 대한 205개의 유전자와 331개의 유전자가 유의미한 연관성을 가진 것으로 나타났습니다.

4. 이 연구는 새로운 생물학적 통찰력을 제공하며, 확립된 질병 메커니즘에 대한 이해도 깊어질 수 있습니다.

5. 기존 GWAS에서 발견되지 않은 40%의 유의미한 임상 바이오마커 연관성이 존재합니다.

6. 희귀 단백질 코딩 변이형은 큰 효과 크기와 기능적 영향을 가지며, 유전체 시퀀스의 가용성으로 이전에 보고되지 않은 연관성을 확인할 수 있습니다.


이 연구는 단백질 코딩 변이와 혈액 대사물 측정, 임상 바이오마커 간의 연관성을 분석하여 희귀 변이의 영향을 평가하고, 새로운 생물학적 통찰력을 제공하는 것을 목적으로 합니다. 기존의 GWAS에서 발견되지 않은 40%의 유의미한 임상 바이오마커 연관성이 존재하며, 이를 통해 기존에 알려지지 않은 질병 메커니즘을 이해하는 데 도움이 될 수 있습니다.

대규모의 샘플을 분석하여 희귀 변이와 대사물 측정 간의 연관성을 발견하였으며, 이를 통해 희귀 변이의 영향을 평가하고, 새로운 생물학적 통찰력을 제공하는 데 기여하였습니다. 또한 유전체 시퀀스의 가용성으로 이전에 보고되지 않은 연관성을 확인할 수 있으며, 이를 통해 질병 예방과 치료에 대한 새로운 접근 방법을 개발하는 데 도움이 될 수 있습니다.

그리고 다양한 유전자 레벨 붕괴 분석을 통해 희귀 변이의 영향을 평가하였으며, 이를 통해 질병 예방과 치료에 대한 새로운 접근 방법을 개발하는 데 도움이 될 수 있습니다. 또한, 이 연구는 나이트릴 혈액 대사 측정과 임상 혈액 바이오마커에 대한 유전자와 유의미한 연관성을 발견하였으며, 이를 통해 질병 예방과 치료에 대한 새로운 접근 방법을 개발하는 데 도움이 될 수 있습니다.

이 연구는 단백질 코딩 변이와 혈액 대사물 측정, 임상 바이오마커 간의 연관성을 분석하여 희귀 변이의 영향을 평가하고, 새로운 생물학적 통찰력을 제공하는 것을 목적으로 합니다. 기존의 GWAS에서 발견되지 않은 40%의 유의미한 임상 바이오마커 연관성이 존재하며, 이를 통해 기존에 알려지지 않은 질병 메커니즘을 이해하는 데 도움이 될 수 있습니다.

이 논문은 생명공학 분야에서 중요한 연구 결과를 담고 있으며, 생명공학을 전공하지 않은 사람들도 이 논문을 통해 혈액 대사물 측정과 단백질 코딩 변이의 관계를 이해하고, 질병 예방과 치료에 대한 정보를 얻을 수 있습니다.

이 논문을 이해하기 위해서는 생명공학에 대한 기본적인 지식이 필요합니다. 생명공학에 대한 기본적인 지식이 없는 경우에는 이 논문을 이해하기 어려울 수 있습니다. 이 경우에는 생명공학에 대한 기초적인 지식을 학습하고, 이 논문을 다시 읽어보는 것이 좋습니다.


결론: 응? 무엇을 요약했는지 무슨 말인지 하나도 모르겠다.

아니 생명공학에 대한 기본 지식이 있는 전공자가 귀찮아서 생명공학을 전공하지 않은 사람들에게 설명하는 글을 작성해달라고 clova-x를 돌렸는데 기초지식을 학습하고 다시 논문을 읽어보라니.... 요놈 보소

결국 UK Biobank는 아이디어만 있으면 할 수 있는게 무궁무진 하다는 것 되겠습니다.




출처: @ye._.vely618


토요일, 4월 13, 2024

ONT, cfDNA 그리고 Methylation

나노포어를 이용해서 cell-free DNA의 메틸레이션 패턴을 분석한 논문이 있어서 한번 가져와봤습니다.
이번에는 제목은 어떻게 쓰면 좋을지 한번 물어보았습니다.

제목 답변

해당 연구의 제목은 "Detecting cell-of-origin and cancer-specific methylation features of cell-free DNA from Nanopore sequencing"입니다. 이 제목은 세포유리 DNA의 메틸화 패턴을 분석하여 암세포에서 유래한 세포유리 DNA를 식별하는 방법을 개발한 연구라는 것을 나타내고 있습니다. 이 연구는 생명공학 분야에서 매우 중요한 연구 중 하나이며, 세포유리 DNA의 메틸화 패턴을 분석하는 기술은 암 진단과 치료에 큰 도움을 줄 수 있습니다.
"세포유리 DNA의 메틸화 패턴을 이용한 암 진단 연구"와 같은 제목을 사용할 수 있습니다. 이 글에서는 연구의 목적과 방법, 결과 등을 소개하고, 세포유리 DNA의 메틸화 패턴이 암 진단에 어떻게 활용될 수 있는 지에 대해 설명할 수 있습니다.

내용 요약

이 연구는 세포유리 DNA의 메틸화 패턴을 분석하여 암을 진단하고 모니터링하는 방법을 개발하는 것을 목적으로 합니다. 암은 우리 주변에서 매우 흔하게 발생하는 질병 중 하나이며, 암을 조기에 발견하고 치료하는 것은 매우 중요합니다. 세포유리 DNA의 메틸화 패턴을 분석하는 기술은 암을 조기에 발견하고 치료하는 데 큰 도움을 줄 수 있습니다.

세포유리 DNA는 혈액 내에 존재하는 DNA 조각으로, 암세포에서 유래한 것일 수 있습니다. 이 연구에서는 세포유리 DNA의 메틸화 패턴을 분석하여 암세포에서 유래한 세포유리 DNA를 식별하는 방법을 개발하였습니다. 이를 위해 Nanopore sequencing 기술을 사용하여 세포유리 DNA의 염기서열을 분석하고, DNA methylation 분석을 수행하였습니다.

연구 결과, 세포유리 DNA의 메틸화 패턴은 암세포에서 유래한 세포유리 DNA와 건강한 세포에서 유래한 세포유리 DNA에서 차이가 있음을 확인하였습니다. 이는 세포유리 DNA의 메틸화 패턴을 분석하여 암을 진단할 수 있는 가능성을 보여줍니다. 또한, 이 연구는 세포유리 DNA의 메틸화 패턴이 시간에 따라 변화한다는 것을 발견하였습니다. 이는 암의 진행 상황을 모니터링하는 데 유용한 정보를 제공할 수 있습니다.

이 연구는 세포유리 DNA의 메틸화 패턴을 분석하여 암을 진단하고 모니터링하는 데 새로운 가능성을 제시한 것으로 평가됩니다. 이 연구 결과를 바탕으로, 세포유리 DNA의 메틸화 패턴을 분석하는 기술이 발전하면 암 진단과 치료에 더욱 효과적인 방법이 개발될 것으로 기대됩니다.

이 연구는 생명공학 분야에서 매우 중요한 연구 중 하나입니다. 세포유리 DNA의 메틸화 패턴을 분석하는 기술은 암 진단과 치료에 큰 도움을 줄 수 있으며, 미래에는 더욱 발전하여 다양한 질병을 진단하고 치료하는 데 활용될 수 있을 것입니다. 또한 미래의 건강과 의료 산업에 큰 영향을 미칠 것이며, 우리의 삶을 더욱 건강하고 안전하게 만들어줄 것입니다.

요약해줘 하니깐, 그래 이 연구는 중요해, 중요하니깐 중요해만 반복적으로 답변하는 느낌은 어쩔 수 없는듯합니다. 디테일 한 연구 내용을 확인하려면 질문을 계속 해서 확인해야 할 듯 합니다.

다시 잠깐 더 살펴보자면 단순히 ONT로 실험한 것이 아니고 기존의 표준실험 방법인 WGBS(Whole Genome Bisulfite Sequencing)와 비교한 데이터로 ONT로 연구해도 cfDNA의 메틸레이션을 확인 할 수 있다라고 주장하고 있는데... 생각해보면 cfDNA는 long read 시퀀서의 대명사인 ONT를 사용할 매력이 반감되기는 하나 native한 methylation을 볼 수 있다는 또 다른 압도적인 장점이 존재하다 보니..
그러나 보통 cfDNA가 150bp 이내의 짧은 것들만 생각하나 di나 tri-nucleosome도 함께 확인 할 수 있기 때문에... di나 tir nucleosome은 300~400bp 이상의 길이가 있기 때문에, 꼭 ONT의 매력이 반감되지는 않을 듯 합니다.
근데 di-, tri-nucleosome이 왜 중요한지는 제가 공부를 아직 안 해서 잘 모르겠습니다.
나중에 공부하게 되면 다시 글을 하나 써보는 걸로 :)


수요일, 4월 10, 2024

리듬 속의 장내미생물

오늘은 클로바에게 최근에 나온 논문으로 글을 써달라고 해보려고 합니다.

이름하여 "Diurnal rhythmicity of infant fecal microbiota and metabolites: A randomized controlled interventional trial with infant formula" 라는 논문으로 Cell Host & Micobe에 출판되었다고 합니다.

doi: 10.1016/j.chom.2024.02.015


clova-x에 파일을 업로드 하면 기본적으로 뱉어내는 내용은 다음과 같습니다.

  • 이번 연구는 210명의 유아를 대상으로 무작위, 대조군 개입 시험을 진행하였으며, 마이크로바이옴 프로파일이 주로 연령에 따라 적응한다는 것을 밝혀냄.
  • 갈락토올리고당은 비피도박테리움의 수준을 높게 유지시키는 것으로 밝혀짐.
  • 장내 세균총의 구성은 주로 나이에 영향을 받으며, 식습관에 따라 달라질 수 있음.
  • circadian rhythms의 존재는 완전히 알려지지 않았으며, circadian clocks는 24시간 리듬을 조절함.
  • circadian crosstalk between bacteria and the host는 소화기 건강과 대사에 영향을 미침.
  • 대사 산물은 feeding groups에 따라 명확하게 다르며, diurnal rhythmicity를 보여줌.
  • 이러한 결과는 circadian regulation이 생애 초기에 시작되며, 유아 마이크로바이옴에 기능적으로 기여할 수 있다는 가설을 뒷받침함.
  • 유아 마이크로바이옴의 일주기 리듬 발달은 나이와 formula supplementation에 영향을 받음.
  • 다양한 방법을 통해 얻은 데이터를 종합하여 분석한 결과, 유의미한 결과를 도출함.
  • 해당 논문은 circadian regulation이 생애 초기에 시작되며, 유아 마이크로바이옴에 기능적으로 기여할 수 있다는 가설을 뒷받침함.
  • 더 많은 연구를 통해 circadian rhythms과 관련된 추가적인 정보를 얻을 필요가 있음.


clova-x에게 조금 더 자세히 블로그에 올릴 글을 하나 작성해 달라고 하였습니다.

해당 논문은 유아의 마이크로바이옴과 circadian rhythms의 연관성을 조사한 연구로, 마이크로바이옴과 circadian rhythms의 상호작용을 이해하는 데 도움이 될 것입니다. 유아의 마이크로바이옴의 일주기 리듬 발달에 영향을 미치는 요인을 파악하여, 유아의 건강을 증진하는 데 도움이 될 것입니다. 장내미생물은 마이크로바이옴의 일부로, 장 내에 존재하며 음식물의 소화와 흡수, 면역 기능 등에 중요한 역할을 합니다.

해당 연구에서는 210명의 유아(이 유아 아님)를 대상으로 유아의 마이크로바이옴이 주로 연령에 따라 적응하며, 식습관에 따라 달라질 수 있다는 것을 밝혀냈습니다. circadian rhythms의 존재는 완전히 알려지지 않았지만, circadian clocks는 24시간 리듬을 조절하며, Host(사람)과 Bacteria(장내미생물)간의 circadian crosstalk은 소화기 건강과 대사에 영향을 미치는 것으로 나타났고, 장내미생물의 circadian rhythms은 인간의 건강에 영향을 미칠 수 있습니다.

그리고 feeding group에 따라 circadian rhythms이 달라질 수 있습니다. 이는 feeding group에 따라 장내 미생물의 구성이 다르기 때문입니다. 예를 들어, 모유를 먹는 유아와 분유를 먹는 유아는 장내 미생물의 구성이 다릅니다. 모유를 먹는 유아는 Enterobacteriaceae와 Bifidobacterium이 풍부하고, 분유를 먹는 유아는 Clostridium과 Bacteroides가 풍부합니다. 이러한 차이가 circadian rhythms에도 영향을 미치는 것으로 알려져 있습니다.

해당 연구는 유아의 마이크로바이옴과 circadian rhythms의 연관성을 조사한 연구로, 마이크로바이옴과 circadian rhythms의 상호작용을 이해하는 데 도움이 될 것입니다. 유아의 마이크로바이옴의 일주기 리듬 발달에 영향을 미치는 요인을 파악하여, 유아의 건강을 증진, 더 나아가서는 인류의 건강을 증진하는 데도 활용 될 수 있습니다.


라고 작성해 주었습니다.

clova-x도 특화되어 있는 내용이나 전문적인 주제에 대해서 학습이나 표현이 제한적이어서 그런 것인지 비슷한 말을 반복해서 얘기하는 문장들이 gemini처럼 증가하는 것은 느낌적인 느낌이라고 생각하고 싶습니다.

그래도 gemini처럼 이따금씩 다른 내용을 읆지는 않아서 좋은 것 같습니다. :)


출처: @ye._.vely618


목요일, 4월 04, 2024

병원 내 감염을 NGS로 검사하겠다는데 과연 저렴할까?

 오늘은 지난 3월 말에 genomeweb에 소개된 논문을 가져와 봤습니다.

기사링크: Sequencing Surveillance Improves Outbreak Detection in Hospital at 'Affordable' Costs

논문은 Methods for cost-efficient, whole genome sequencing surveillance for enhanced detection of outbreaks in a hospital setting으로 아직 정식 출판되지는 않았으나 medRxiv에 올라와 있으나 어디 좋은 출판사가 발굴해서 곧 제자리 찾아가겠죠

오늘은 gemini대신 clover-x에게만 물어봤습니다. gemini에게 써달라고 해봤자 개조식으로밖에 안써주기 때문에... 


병원 내 감염은 병원에서 발생하는 감염으로, 환자의 건강과 생명에 큰 영향을 미칩니다. 이를 예방하기 위해서는 감염을 조기에 탐지하고 신속하게 대응하는 것이 중요합니다. 최근에는 유전체 분석 기술을 이용하여 병원 내 감염을 예방하는 연구가 진행되고 있습니다.

유전체 분석 기술은 유전체 전체를 해독하는 기술로, 미생물의 유전체 정보를 분석하여 병원체의 종류, 유전적 변이, 역학적 정보 등을 파악할 수 있습니다. 이를 통해 병원 내 감염을 예방하는 방법은 다음과 같습니다.

병원체 종류 확인: 유전체 분석 기술을 통해 병원체의 유전체 정보를 분석하여 병원체의 종류를 확인할 수 있습니다. 이를 통해 어떤 종류의 병원체가 감염을 일으켰는지 파악할 수 있습니다.

유전적 변이 확인: 유전체 분석 기술을 통해 병원체의 유전적 변이를 확인할 수 있습니다. 유전적 변이는 병원체의 감염력, 독성, 내성 등에 영향을 미치기 때문에, 유전적 변이를 파악하면 병원체의 특성을 이해하고, 적절한 치료 방법을 선택할 수 있습니다.

역학적 정보 확인: 유전체 분석 기술을 통해 병원체의 역학적 정보를 확인할 수 있습니다. 역학적 정보는 병원체의 전파 경로, 감염원, 감염 시기 등을 파악하는 데 중요한 역할을 합니다. 이를 통해 병원 내 감염의 원인을 파악하고, 감염 확산을 방지할 수 있습니다.

감염 클러스터 확인: 유전체 분석 기술을 통해 감염 클러스터를 확인할 수 있습니다. 감염 클러스터는 동일한 병원체에 감염된 환자들이 모여 있는 그룹을 말합니다. 감염 클러스터를 확인하면, 해당 그룹의 환자들에게 적절한 치료와 예방 조치를 취할 수 있습니다.

전염 경로 추적: 유전체 분석 기술을 통해 전염 경로를 추적할 수 있습니다. 이를 통해 감염이 어떻게 전파되었는지 파악하고, 감염 확산을 방지할 수 있습니다.

유전체 분석 기술을 이용한 병원 내 감염 예방 연구는 아직 초기 단계이지만, 이 기술을 이용하여 주기적으로 검사를 진행하여 병원 내 감염을 예방하고, 적시에 필요한 내용을 제공하여 환자의 안전을 보호할 수 있을 것으로 기대됩니다.


제목에는 "저렴한"이 강조되어 있으나 요약 내용에는 숫자 부분이 빠져있는 것이 조금 아쉬울 따름입니다. 그래서 잠깐 언급하자면

MiSeq(32개샘플 기준)은 샘플당 $84.27, NextSeq의 경우는 48개 검채 기준으로는 샘플 당 $71.46, 96검체 기준으로는 샘당 $51.88로 예상되고 일반 외부 랩실에 맡긴다면 샘플당 $84.21 비용을 계산하고 있는데.. 이게 인건비들은 포함된것인지 살짝 갸우뚱하네요 

검사하는 주기나 얼마나 많은 샘플을 대상으로 분석 할 것인지 가이드라인을 잘 세우면 저렴하면서 효율적인 의료기관내 감염(HAI) 모니터링이 요원하지는 않을 것 같다는 생각입니다.

개인적으로 이 모델이 미래 NGS의 한 축이 되지 않을까 하는 생각도 있어서 한번 공유해보았습니다.

다음에 또 도움이 될만한 내용으로 찾아뵙도록 하겠습니다.




출처: @ye._.vely618

화요일, 4월 02, 2024

누가 누가 BRCA를 잘 검사할까?

근데.. 그걸 논하기에는 2018년 논문이라서.. 의미가 있을지는 모르겠지만..

NGS를 이용한 BRCA1/2 Kit을 가지고 상호 벤치마킹 한 결과 되겠습니다.

논문 제목은 Benchmarking of Amplicon-Based Next-Generation Sequencing Panels Combined with Bioinformatics Solutions for Germline BRCA1 and BRCA2 Alteration Detection 이고,

doi는 10.1016/j.jmoldx.2018.06.003 입니다.


우선 gemini에게 논문 내용을 바탕으로 블로그에 올릴 글을 작성해달라고 했습니다.


## BRCA 검사란 무엇일까요?

BRCA 검사는 유방암과 난소암 발병 위험을 높일 수 있는 BRCA1 및 BRCA2 유전자의 돌연변이를 확인하는 검사입니다. BRCA 유전자는 DNA 손상을 복구하는 데 중요한 역할을 하는데, 이 유전자에 돌연변이가 발생하면 암 발생 위험이 크게 증가할 수 있습니다.


## BRCA 검사 방법에는 어떤 것들이 있을까요?

**1. 혈액 검사:**

가장 일반적인 BRCA 검사 방법입니다. 혈액 검사를 통해 BRCA1 및 BRCA2 유전자의 전체 또는 일부를 분석하여 돌연변이를 확인합니다.

**2. 조직 검사:**

암 진단 후 조직 검사를 통해 BRCA 유전자 돌연변이를 확인할 수 있습니다. 

**3. 가족력 기반 검사:**

가족 중에 유방암이나 난소암 환자가 있는 경우, 가족력 기반 검사를 통해 BRCA 유전자 돌연변이 위험을 평가할 수 있습니다.


## BRCA 검사는 누가 받아야 할까요?

다음과 같은 경우 BRCA 검사를 고려해 볼 수 있습니다.

* 유방암이나 난소암 진단을 받은 경우

* 가족 중에 유방암이나 난소암 환자가 있는 경우

* 유방암 또는 난소암 발병 위험이 높다고 판단되는 경우


## BRCA 검사를 받기 전에 주의해야 할 것들

* BRCA 검사 결과는 암 발병 여부를 확실하게 알려주는 것이 아닙니다.

* BRCA 검사 결과에 따라 심리적인 부담을 느낄 수 있습니다.

* BRCA 검사 결과는 유전 상담을 통해 해석하는 것이 중요합니다.


## BRCA 검사 후 주의해야 할 것들

* BRCA 유전자 돌연변이가 확인된 경우, 정기적인 검진 및 예방 조치를 취해야 합니다.

* BRCA 검사 결과는 가족들에게 공유하는 것이 중요합니다.


## BRCA 검사는 암 예방 및 조기 발견에 중요한 역할을 할 수 있습니다. 그러나 검사를 받기 전에 충분한 정보를 얻고, 유전 상담을 통해 검사 결과를 해석하는 것이 중요합니다.



다음은 clova-x에게 블로그에 올릴 글 하나 작성해달라고 하였습니다.


제목: BRCA 검사, 어떤 방법이 가장 정확할까?

유방암과 난소암은 여성들에게 매우 치명적인 질환입니다. 이러한 질환의 발생 위험을 미리 예측하고 예방하기 위해서는 유전자 검사가 필요합니다. 그 중에서도 BRCA1과 BRCA2 유전자 검사는 유방암과 난소암의 발생 위험을 예측하는 데 매우 중요한 역할을 합니다.

BRCA 검사는 BRCA1과 BRCA2 유전자의 변이를 확인하는 검사입니다. 이 유전자는 유방암과 난소암의 발생에 중요한 역할을 합니다. 만약 이 유전자에 변이가 있다면, 유방암과 난소암의 발생 위험이 높아집니다. 따라서, BRCA 검사를 통해 자신의 유전자 변이 여부를 확인하고, 이에 따라 적절한 예방과 치료를 받을 수 있습니다.

BRCA 검사에는 다양한 방법이 있습니다. 대표적인 방법으로는 다음과 같은 것들이 있습니다.

1.**PCR 기반 검사**: 가장 일반적인 방법으로, 유전자의 특정 부위를 증폭하여 변이 여부를 확인합니다. 검사 비용이 저렴하고, 검사 결과를 빠르게 얻을 수 있습니다. 하지만, 검사 정확도가 다소 떨어질 수 있습니다.

2.**NGS 기반 검사**: 유전자 전체를 시퀀싱하여 변이 여부를 확인합니다. 검사 정확도가 매우 높고, 다양한 종류의 변이를 검출할 수 있습니다. 하지만, 검사 비용이 비싸고, 검사 결과를 얻기까지 시간이 오래 걸립니다.

3.**액세스 배열 기반 검사**: 마이크로어레이 기술을 이용하여 유전자의 변이를 검출합니다. 검사 정확도가 높고, 검사 결과를 빠르게 얻을 수 있습니다. 하지만, 검사 비용이 비싸고, 검사 대상 유전자가 제한적입니다.

BRCA 검사는 유방암과 난소암의 예방과 치료에 매우 중요한 역할을 합니다. 하지만, 검사 결과를 해석하고, 이에 따라 적절한 예방과 치료를 받는 것은 쉽지 않습니다. 따라서, 검사를 받기 전에 전문가의 조언을 듣는 것이 중요합니다.

BRCA 검사는 개인의 유전 정보를 다루는 검사이기 때문에, 검사 결과가 유출될 경우 개인의 사생활 침해 문제가 발생할 수 있습니다. 따라서, 검사를 받을 때는 검사 기관의 보안 시스템을 확인하고, 검사 결과를 안전하게 보관하는 것이 중요합니다.

유방암과 난소암은 여성들에게 매우 치명적인 질병입니다. 하지만, BRCA 검사를 통해 자신의 유전자 변이 여부를 확인하고, 이에 따라 적절한 예방과 치료를 받으면, 이들 질병의 발생 위험을 줄일 수 있습니다. 따라서, 여성들은 BRCA 검사에 대해 적극적으로 관심을 가지고, 전문가의 조언을 듣는 것이 중요합니다.


gemini를 쓰면서 느끼는 것은 답변의 대부분을 개조식으로 요약만 하는 듯 한 느낌을 많이 받았습니다. 난 문장으로 작성해달라고 했는데.. 결국 개조식으로 답변을... 

그리고 이번 같은 경우 구글 드라이브에 논문 파일을 업로드해서 정리하라고 했는데... 논문 내용이 아닌 일반적인 내용을 냅다 읊조리는 듯한 건 저만 느끼는건 아니죠?

반면에 클로바X는 그럭저럭 사용자가 요구한것을 잘 맞추려고 노력한 모습이 역력합니다. 

다만 논문 내용과는 전혀 상관없는 PCR 검사 방법을 언급했는데.. 이건 아마 Ion AmpliSeq BRCA1/2의 AmpliSeq 떄문에 그런것 같아 보입니다. 그리고 추가적인 질문으로 벤치마킹한 패널들에 대해서 자세히 설명하라고 했었는데 이때 다른 BRCA HC와 함께 BRCA Tumor을 설명 할때 BRCA Tumor를 BRCA 조직에서 변이를 분석하는 방법이라고 적어놓는 해프닝도 있었습니다. 아직 도메인 지식이 부족하여 생긴 혼선이지 않았을까하네여, 

그래도 이번 프롬프트에서는 다국적 gemini보다는 사용자가 의도한 대로 결과물을 준 것은 클로바 X 같아 보였습니다. 프롬프터의 실력 향상이 더 필요해 보이긴 합니다. 



출처: @ye._.vely618

토요일, 3월 30, 2024

NGS를 사용할 때 필요한 그 가이드라인

오늘은 AMP(미국분자병리학회)와 CAP(미국병리학회)에서 공동으로 합의한 지침인 "Guidelines for Validation of Next-Generation Sequencing–Based Oncology Panels: A Joint Consensus Recommendation of the Association for Molecular Pathology and College of American Pathologists"을 네이버의 클로바와 gemini에게 각각 물어보았습니다.

doi는 10.1016/j.jmoldx.2017.01.011 입니다.


먼저 gemini입니다.

안녕하세요, 생명공학 전공자가 아닌 분들을 위한 블로그 글을 작성하고자 하시는군요.

제가 찾은 논문은 다음과 같은 내용을 다루고 있습니다.

* **연구 목적과 배경**

이 연구는 다음세대 염기서열 분석(NGS) 기반 종양 패널 검사의 분석적 검증을 위한 최선의 실천 지침을 확립하는 것이 목적이었습니다. 이 연구는 분자 병리학 협회(Association for Molecular Pathology)가 주관하고 미국 병리학회(College of American Pathologists)가 연계 대표를 맡은 작업 그룹이 수행했습니다.

* **연구 방법**

이 연구에서는 NGS 기반 종양 패널 검사의 분석적 검증을 위한 단계별 지침을 제시했습니다. 이러한 단계에는 패널 설계, 라이브러리 준비, 염기서열 분석 및 데이터 분석이 포함됩니다. 또한 참조 자료와 세포주를 사용하여 검사 성능을 평가하는 중요성을 강조했습니다.

* **결과**

이 연구에서는 NGS 기반 종양 패널 검사의 분석적 검증을 위한 다음과 같은 권장 사항을 제시했습니다.

* 오류 기반 접근 방식을 사용하여 잠재적인 오류의 원인을 식별합니다.

* 분석 프로세스 전반에 걸쳐 품질 관리를 사용하여 고품질 염기서열 분석 결과를 보장합니다.

* 참조 세포주와 참조 자료로 검사 성능을 평가합니다.

* 커버리지 깊이와 테스트 성능을 확립하기 위해 사용해야 하는 샘플의 최소 요구 사항을 설정합니다.

* **논의**

이 연구는 NGS 기반 종양 패널 검사의 분석적 검증을 위한 중요한 지침을 제공합니다. 이러한 지침은 검사의 정확성과 신뢰성을 보장하는 데 도움이 됩니다.



다음은 CLOVA X입니다.

NGS 기반 암 패널 테스트의 분석적 유효성 검증을 위한 지침

NGS(Next Generation Sequencing)는 차세대 염기서열 분석 기술로, 유전체 분석에 혁명을 일으키고 있습니다. NGS는 기존의 염기서열 분석 기술보다 빠르고 정확하며, 비용이 저렴하다는 장점이 있습니다. 이러한 이유로 NGS는 암 진단에 빠르게 적용되고 있습니다.

암 진단을 위해서는 암 세포에서 발견되는 유전자 변이를 파악해야 합니다. 이를 위해 NGS 패널을 사용합니다. NGS 패널은 암 세포에서 발견되는 유전자 변이를 탐지할 수 있는 유전자 패널입니다.

NGS 패널을 사용할 때는 분석적 유효성 검증을 해야 합니다. 분석적 유효성 검증은 NGS 패널이 정확하게 유전자 변이를 탐지할 수 있는 지를 검증하는 과정입니다.

이번 논문에서는 NGS 기반 암 패널 테스트의 분석적 유효성 검증을 위한 지침을 제공합니다. 이 지침은 표적 유전자 패널과 고형 종양 및 혈액 악성 종양의 진단 용도에 초점을 맞춥니다.

NGS 패널은 SNVs, indels, deletions, CNAs, SVs, gene fusions 등을 탐지할 수 있습니다. CNAs와 SNVs, indels를 탐지하기 위해 패널을 사용할 수 있는지 고려해야 합니다. SVs는 염색체 재배열을 포함합니다.

NGS 방법은 샘플 준비, 라이브러리 준비, 시퀀싱, 데이터 분석을 포함합니다. NGS 데이터 분석 파이프라인은 SNV 검출, indel containing sequence reads의 정렬, CNAs 식별, SVs detection 등의 작업으로 나뉩니다.

NGS 패널 콘텐츠는 hotspot panels에서 개인 codons에 초점을 맞춘 것부터 수백 개의 유전자의 코딩 영역을 포함하는 것까지 다양합니다. NGS 플랫폼 선정 시 고려해야 할 사항은 turnaround time, 샘플 테스트, sensitivity, 예상되는 테스트 양, 유전 변이의 유형과 복잡성, 생물정보학 지원, 인프라 등입니다.

NGS assay development process에서 error를 평가하는 방법은 pre analytical and analytical factors를 고려하는 것입니다. FFPE samples을 다룰 때는 nucleic acid yield가 문제가 될 수 있으므로 uracil Nglycolase로 treatment를 하는 것이 도움이 됩니다. 라이브러리 준비 시 도서관 방법에 사용된 증폭 오류와 내용 편향의 가능성을 염두에 두고 assay design을 통해 error의 잠재적 근원을 해결해야 합니다.

assay validation을 시작하기 전 optimization and familiarization (O&F) 과정이 필요합니다. optimization and familiarization (O&F) 과정은 NGS test를 통해 design expectations를 충족하는지 평가하는 과정입니다.

NGS 패널을 사용할 때는 분석적 유효성 검증을 해야 합니다. 분석적 유효성 검증은 NGS 패널이 정확하게 유전자 변이를 탐지할 수 있는 지를 검증하는 과정입니다. 이를 통해 NGS 패널의 신뢰성을 높일 수 있습니다.

통계적인 방법을 활용하여 분석적 유효성 검증을 수행합니다. 예를 들어, sensitivity, specificity, positive predictive value, negative predictive value 등의 지표를 사용하여 분석적 유효성 검증을 수행합니다.

NGS 패널을 사용할 때는 분석적 유효성 검증을 반드시 수행해야 합니다. 이를 통해 NGS 패널의 신뢰성을 높이고, 암 진단의 정확성을 높일 수 있습니다.


음.. CLOVA가 생각보다 글을 (블로그처럼 작성한다는... 형식적인 측면에서..) 잘 작성하는 것 같아 보이네요 

gemini는 요약하라고 하면 개조식으로 많이 작성하는 것 같더라구요.

여튼 CLOVA와 gemini를 적절히 잘 섞으면 괜찮은 내용이 나올듯하네요 :)




출처: @ye._.vely618


월요일, 3월 25, 2024

NGS에서 Target Coverage 균일성의 중요성

NGS데이터 생산시 Target Coverage가 들쑥날쑥해도 분석이 잘 될것인가? 라는 것에 대해서 궁금증을 해결해줄 바로 그 논문!!! 

Evaluation of the evenness score in next-generation sequencing라는 제목의 논문이고, 

doi: 10.1038/jhg.2016.21입니다.


gemini에게 다음과 같이 찡찡거려봤습니다.


"왜 NGS에서 타겟 커버리지의 균일성이 중요한지에 대해 블로그에 작성하려고 합니다. 생명공학을 전공하지 않고, NGS에대해서 익숙하지 않은 일반인을 대상으로 블로그에 올릴 수 있는 글을 작성해주세요"

NGS(Next Generation Sequencing)는 DNA 염기 서열을 분석하는 강력한 기술입니다. 마치 책을 읽듯 우리 몸의 유전 정보를 해독하는데 비유할 수 있습니다. 하지만 책을 읽는 데 중요한 것이 모든 페이지를 꼼꼼하게 읽는 것과 마찬가지로, NGS에서도 모든 타겟 영역을 균일하게 분석하는 것이 매우 중요합니다.

왜 타겟 커버리지 균일성이 중요할까요?

정확한 분석 결과: 만약 특정 타겟 영역만 깊게 분석하고 다른 영역은 덜 분석하면, 마치 책의 특정 페이지만 읽고 다른 페이지는 건너뛸 때와 마찬가지로 잘못된 정보를 얻을 수 있습니다. 이는 질병 진단, 유전적 특징 분석 등 NGS 분석의 정확성에 큰 영향을 미칩니다.

데이터 해석의 어려움: 만약 타겟 커버리지가 불균일하다면, 분석된 데이터를 해석하는데 어려움을 겪을 수 있습니다. 마치 책의 페이지가 누락되거나 순서가 뒤바뀌었을 때와 마찬가지로, 데이터의 일관성이 떨어지고 정확한 해석이 어려워집니다.

유전 정보의 누락: 만약 특정 타겟 영역이 분석되지 않으면, 그 영역에 존재하는 중요한 유전 정보를 놓칠 수 있습니다. 마치 책의 특정 페이지가 찢어져 없어졌을 때와 마찬가지로, 유전 정보의 일부가 누락되어 질병 진단이나 유전적 특징 분석에 영향을 미칠 수 있습니다.

NGS에서 타겟 커버리지 균일성을 높이는 방법:

샘플 준비 방법 개선: DNA 샘플을 준비하는 과정에서 오류가 발생하면 타겟 커버리지 불균일성이 발생할 수 있습니다.

시퀀싱 라이브러리 제작 방법 개선: 시퀀싱 라이브러리 제작 과정에서 오류가 발생하면 특정 타겟 영역이 덜 분석될 수 있습니다.

시퀀싱 조건 최적화: 시퀀싱 조건을 최적화하여 모든 타겟 영역을 균일하게 분석하도록 설정합니다.

데이터 분석 방법 개선: 데이터 분석 방법을 개선하여 불균일한 커버리지를 보정하고 정확한 정보를 추출합니다.

결론: NGS에서 타겟 커버리지 균일성은 정확한 분석 결과, 데이터 해석의 용이성, 유전 정보의 누락 방지를 위해 매우 중요합니다. NGS 기술의 발전과 함께 타겟 커버리지 균일성을 높이는 방법들이 계속 연구되고 있으며, 이는 NGS 분석의 정확성과 신뢰성을 향상시키는 데 중요한 역할을 할 것입니다.




음.. 프롬프트를 좀더 신경써봐야 할 것 같습니다.


출처: @ye._.vely618


월요일, 3월 18, 2024

부동산트렌드 따라해보기 1장

오늘은 자료 수집관련하여 글 하나 투척합니다.

최근 "부동산 트렌드"라는 책을 읽고 있어서 강남3구와 노도강에서 거래되었던 자료들이 진짜 그런지 한번 확인해보고자 자료 수집 작업을 위한 것을 한번 로그삼아 남겨보도록 하겠습니다.

국내 부동산 거래 가격은 국토교통부 실거래가 공개시스템에서 확인하실 수있습니다.

안타깝게 막 영화에서 나오는것 처럼 뚝딱 뚝딱 해서 API로 실시간으로 끌어오고 화면에 촤라락 그래피컬하게 하는것은 기대하시면 창을 끄시면되겠습니다.


우선 실거래가 공개시스템에서 [조건별 자료제공] 이라는 사이트로 들어가셔서 시도별 1년단위로 데이터를 다운 받으시면 되겠습니다. 전 우선 서울시와 경기도 데이터만 다운로드 받았습니다. 전국 데이터는 한 달 기준으로 다운로드 받을 수 있다고하니.. 개인이 필요한 데이터에 맞게 다운로드 받으시면 되겠습니다.

그리고 수월한 작업을 위해 엑셀이 아닌 sqlite3에 실거래가 정보들을 모두 때려박아 넣도록 하겠습니다.

다음 코드가 일단 DB에 다 때려박는 코드 되겠습니다.


import csv
import sqlite3


# SQLite 데이터베이스 파일 경로

sqlite_file_path = "real_estate_transactions.db"


# SQLite 연결 객체 생성

connection = sqlite3.connect(sqlite_file_path)


csv_file_path = "아파트(매매)_실거래가_서울특별시_2022.csv"


num = 0

with open(csv_file_path, newline="") as csvfile:   

    reader = csv.reader(csvfile, delimiter=",")

    # 커서 객체 생성

    cursor = connection.cursor()

    for row in reader:        

        if num < 16:

            pass

        else:

            tmp = list()

            for r in row[1:]:

                tmp.append(r.strip())


            cursor.execute("""INSERT OR IGNORE INTO transactions ("시군구","번지","본번","부번","단지명","전용면적","계약년월","계약일","거래금액","동","층","매수자","매도자","건축년도","도로명","해제사유발생일","거래유형","중개사소재지","등기일자") VALUES (?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?)""", (tmp),)

            connection.commit()            


        num+=1

        

# 연결 닫기

connection.close()


다음 시간에는 sqlite3에 있는 정보를 가지고 끄적끄적하는 시간을 가지지 않을까합니다. 




출처: @ye._.vely618


수요일, 3월 13, 2024

Long-read 시대의 정렬 알고리즘

사실 아직 Long-read 시대라고 하기에는 전세계 적으로 생산되는 시퀀싱 데이터의 비율로 보면 꼬꼬마이긴 하나 그래도 비용이나 지금까지의 축적된 자료 활용이라는 몇몇 점들을 제외하면 짧은 애들시대는 조만간 저물지 않을까 합니다.

물론 짧은 애들 또한 계속 필요는 합니다. 그러나 Long read 이전과는 같지 않을 것이기에 Long read 시대를 준비해서 나쁘지는 않을겁니다.

그래서 "A survey of mapping algorithms in the long-reads era" 라는 논문 하나 준비해봤습니다.

DIO: 10.1186/s13059-023-02972-3

시대가 시대이고 영어 읽기 귀찮으니 구글에게 한번 맡겨보았습니다.


Q: 내 드라이브에서"s13059-023-02972-3.pdf" 파일을 읽고 자세히 한글로 요약해줘

서론:

DNA 염기서열 분석은 생명과학 분야의 핵심 기술이며, 롱리드 시퀀싱 기술의 발전은 이 분야에 큰 변화를 가져왔습니다. 롱리드 기술은 기존의 짧은 리드 시퀀싱 기술에 비해 훨씬 더 긴 염기서열 정보를 얻을 수 있지만, 이에 따라 데이터 분석 과정에서도 새로운 문제들이 발생했습니다. 그 중 하나가 롱리드 데이터를 참고 유전체에 매핑하는 과정입니다. 

본 논문에서는 롱리드 시대의 DNA 염기서열 분석에 사용되는 다양한 매핑 알고리즘에 대한 조사 연구 결과를 제시합니다.


1. 롱리드 기술 개요:

롱리드 기술은 10kb 이상의 긴 염기서열 정보를 얻을 수 있는 기술입니다.

롱리드 기술의 장점은 다음과 같습니다.

  • 유전체 구조 변형 (SV) 분석에 유리
  • 단일 분자 haplotyping 가능
  • 염기서열 조립 (assembly) 과정 개선

롱리드 기술의 단점은 다음과 같습니다.

  • 높은 오류율
  • 높은 컴퓨팅 비용


2. 매핑 알고리즘 종류:

롱리드 매핑 알고리즘은 크게 씨앗-확장 (seed-and-extend) 프레임워크와 씨앗-체인 (seed-and-chain) 프레임워크로 나눌 수 있습니다.

씨앗-확장 프레임워크는 짧은 리드 매핑 알고리즘에서 사용되는 기본적인 방법입니다.

씨앗-체인 프레임워크는 롱리드 데이터의 특징을 고려하여 개발된 새로운 방법입니다.


3. 주요 매핑 알고리즘 비교 분석:

본 논문에서는 다음과 같은 주요 매핑 알고리즘을 비교 분석했습니다.

  • Minimap2
  • NGMLR
  • GraphMap
  • LSC
  • BWA-MEM
  • LAST
  • BLASR
  • RapMap
  • SMALT

비교 분석 기준은 다음과 같습니다.

  • 정확도
  • 속도
  • 메모리 사용량
  • 특징


4. 매핑 알고리즘 선택 가이드:

연구 목적에 따라 적절한 매핑 알고리즘을 선택해야 합니다.

정확도가 가장 중요한 경우 Minimap2 또는 NGMLR을 사용하는 것이 좋습니다.

속도가 가장 중요한 경우 LSC 또는 BWA-MEM을 사용하는 것이 좋습니다.

메모리 사용량이 가장 중요한 경우 GraphMap 또는 LAST를 사용하는 것이 좋습니다.


5. 향후 연구 방향:

  • 롱리드 기술 발전에 따라 새로운 매핑 알고리즘 개발
  • 멀티 샘플 데이터 분석을 위한 효율적인 알고리즘 개발
  • 염기서열 변형 (variant) 분석을 위한 정확한 알고리즘 개발


결론:

본 논문은 롱리드 시대의 DNA 염기서열 분석에 사용되는 다양한 매핑 알고리즘에 대한 종합적인 개요를 제공합니다. 각 알고리즘의 특징, 장단점, 성능 비교 등을 분석하여 연구 목적에 맞는 최적의 알고리즘 선택에 도움을 줍니다.

오... 비약도 있고 생략도 많지만 (물론 클로드 3에 비해서는 아직 갈길이 멀듯합니다)그래도 pdf파일을 요약해줍니다. 근데.. 추가 정보에 롱리드 시퀀싱 기술의 url이..  신박한 링크를 넣어놨네요;; Orz


출처: @ye._.vely618

목요일, 3월 07, 2024

나노포어용 정렬 프로그램을 비교해보자

오늘은 최근에 논란의 중심에 서 있는 claude3를 사용해보았습니다.

Comparative analysis of alignment tools for application on Nanopore sequencing data

이 논문을 선택한 이유는 claude.ai에서 무료로 해주는 양의 논문이라서 선택하였습니다.

 

Q. 요약해줘

이 논문에서는 나노포어 시퀀싱 데이터에 대한 6가지 다양한 정렬 도구(BLASR, GraphMap, LAST, minimap2, NGMLR 및 BWA MEM)의 성능과 정렬 품질을 실험 데이터셋을 사용하여 비교 분석했습니다. 주요 내용은 다음과 같습니다:

3개의 서로 다른 실험 나노포어 시퀀싱 데이터셋(람다 파지 전장 유전체, 인간 MEFV 유전자 암플리콘, SARS-CoV-2 전장 유전체)을 사용하여 정렬 도구를 비교했습니다.

각 도구의 CPU 시간, 메모리 사용량, 일치율, 불일치율, 오류율 등의 성능 및 품질 지표를 측정하고 비교했습니다.

Minimap2가 모든 데이터셋에서 속도와 메모리 효율성 면에서 가장 우수한 성능을 보였습니다.

BLASR, GraphMap, NGMLR는 상대적으로 느린 속도를 보였고, NGMLR는 높은 메모리 사용량을 보였습니다.

일치율, 불일치율, 오류율 측면에서 LAST를 제외한 도구들이 대체로 유사한 수준의 높은 정렬 품질을 보였습니다.

데이터셋 특성과 알고리즘 접근법에 따라 도구 간 차이가 있었으며, 실험 설계와 추가 분석 과정을 고려하여 적절한 도구를 선택해야 합니다.


Q. 그럼, 나노포어 왜 전용 정렬 도구가 필요합니까?

논문에 따르면 나노포어 시퀀싱 기술의 가장 큰 단점은 다른 시퀀싱 기술에 비해 높은 에러율(error rate)이라고 설명하고 있습니다. 구체적인 문장은 다음과 같습니다:

"So far, the most important disadvantage of this technology is the increased error rate compared to other sequencing technologies."

이처럼 나노포어 시퀀싱 데이터는 기존 단분자 시퀀싱 데이터와는 다른 에러 프로파일을 가지고 있어, 이러한 높은 에러율을 보완하기 위해 전용의 정렬 도구가 필요하다고 설명하고 있습니다.


Q. 좀더 자세히 설명해줘

네, 더 자세히 설명드리겠습니다.

나노포어 시퀀싱은 전기화학적 신호를 읽어 DNA/RNA 서열을 분석하는 새로운 기술입니다. 이 기술의 장점은 긴 읽기(long reads)가 가능하고 빠르며 비용이 저렴하다는 점입니다. 하지만 단점으로 다른 기존 시퀀싱 기술에 비해 상대적으로 높은 에러율을 가지고 있습니다.

이런 높은 에러율은 나노포어 시퀀싱 데이터의 고유한 에러 프로파일에서 비롯됩니다. 삽입(insertion), 삭제(deletion), 치환(substitution) 등의 에러가 많이 발생합니다. 이러한 에러들을 효과적으로 다루지 않으면 후속 데이터 분석 단계에서 오류가 커질 수 있습니다.

따라서 나노포어 시퀀싱 데이터를 정확하게 분석하기 위해서는 이러한 높은 에러율과 특수한 에러 프로파일을 잘 보완할 수 있는 전용 정렬(alignment) 도구가 필요합니다. 기존의 단분자 시퀀싱 데이터 분석용 도구들은 나노포어 데이터의 특성을 제대로 반영하지 못해 정확성이 낮을 수 있기 때문입니다.

요약하면, 나노포어 시퀀싱의 높은 에러율과 특수한 에러 프로파일을 보완하여 정확한 데이터 분석이 가능하도록 최적화된 전용 정렬 도구가 필요한 것입니다.


음.. 일단 무료 요금에서 사용하는 양인 경우 일단 쓸만한데 대부분의 논문 양은 유료버전 사용하시라고 뜰껍니다. :)



출처: @ye._.vely618