엑손-인 트 론 구조의 정확도에 대 한 정량적 평가는 금 표준 annotation29 획득을 향한 중요 한 단계입니다. MAKER v2에서는 주석 편집 거리 (AED) 라고 하는 성능 측정을 사용 하 여 게놈 annotation18의 정확도를 평가 합니다. AED는이를 뒷받침하는 증거에 대 한 주석의 적합성을 측정 합니다. AED는 0과 1 사이의 숫자 이며, 0은 사용 가능한 증거와 함께 완벽 한 일치를 나타내고 1은 주석이 달린 유전자 모델에 대 한 지원 부족/부재를 나타냅니다. 도 2는 가장 최근의 토마토의 방출 (ITAG 3.20) 및 옥수수 (6a)와 비교 하 여 v 4.0 멜론 주석에 대 한 AED의 누적 분포 함수 (CDF)를 나타낸 것으로, 이와 유사한 전략을 이용 하 여 얻었다. V 4.0 주석의 90% 이상은 옥수수 6a 주석과 유사한 토마토 ITAG 3.2 주석의 프로 파일을 가진 0.5 미만의 AED 점수를가지고 있습니다. 호모 2004 사피엔스와 같은 고 등 유기 체와 비교 하 여, 뮤 무스 (Berardini 외)와 애기 장 대 등의 광범위 한 주석을 위한 사용 가능한 정보 및 도구가 부족 하다 (맥가 베이 2015 외. 2015). 따라서, 조류 단백질 기능에 대 한 정보를 제공 하는 것이 중요 하다, 특히 단백질 속성에 관련 된. 이 화학적 성질은 단백질의 구조적 안정성, 반응성 및 용해성의 근본적인 측면을 이해 하는데 유용 하다. 구조적 특성은 구조적 및 기능적 도메인 또는 영역에 할당 된 다른 기존 단백질 서 열에 대 한 단백질 이차 구조 및 기능적 주석을 식별 하는 데 도움을 준다. 또한, PTM 및 세포 간 현지화는 잠재적인 단백질 다양성, 구조 및 기능을 해명 하는 데 도움을 준다.

상기에서 언급 한 바와 같이 다양 한 단백질 특성에 대하여 조류 단백질 기능에 대 한 정보를 개선 하기 위해 28 개의 단백질 특성을 추정 하였다 (표 2). 단백질 속성에 대 한 모든 정보는 Alga-PrAS 데이터베이스에 통합 되어 보관 되었습니다. 도 2는 또한 CDF의 각 사분 위 수에 대해 알려지지 않은 기능을 가진 유전자에 대 한 공지 된 함수와 함께 주석이 달린 유전자의 분포를 보여준다. 알 수 없는 기능을 가진 유전자의 증가 비율은 세 번째와 네 번째 사분 위를 향해 이동 관찰 됩니다. 이 패턴은 0.5 보다 큰 AED 점수를 제시 하는 주석의 감소 품질을 반영 합니다. 또한 이러한 유전자는 작은 펩타이드, 의사 유전자 또는 비 코딩 RNAs를 인코딩하는 것이 타당 합니다. 대조적으로, 제 1 및 제 2 사분 위 수의 알려지지 않은 기능을 가진 4000 유전자의 약 1000는 RNA-서 열에 의해 지원 되 고 고아 유전자를 나타낼 수 있고,이는 식물과 비 식물 organisms30에 있는 중요 한 역할이 있는 것으로 보고 되는 것을 주목할 만하다. Chlamydomonas 라인하르트 티이는 최근 몇 년 동안 가장 많이 연구 된 녹색 조류 중 하나입니다 (5 월 외. 2009, 블루와이 2014, 아오키 외. 2016).

UniProt 데이터베이스 (Bateman 외. 2015)에 따르면, 2016 년 7 월에는 c. 라인하르트 티이의 14716 기록이 있었습니다. 그러나 이러한 기록 (9860 레코드)의 2/3는 유익한 주석이 아니며 (예: ` 예측 된 단백질 `, ` 예측 단백질 단편 ` 및 ` 특성화 되지 않은 단백질 `)만 50 주석 보다 적은 하위 세트만 실험적으로 검증 되었습니다. 기능 (레이 즌 스 외)