המרכז הלאומי למידע ביוטכנולוגיה NCBI הוא חלק מהספרייה הלאומית לרפואה של ארצות הברית (NLM), שלוחה של המכון הלאומי לבריאות (NIH). זה מאושר וממומן על ידי ממשלת ארצות הברית. ה-NCBI ממוקם בבת'סדה, מרילנד, והוא נוסד בשנת 1988 באמצעות חקיקה בחסות חבר הקונגרס האמריקני קלוד פפר.
ה-NCBI מכיל שורה של מאגרי מידע רלוונטיים לביוטכנולוגיה וביורפואה ומהווה משאב חשוב לכלים ושירותים ביואינפורמטיקה. מאגרי מידע מרכזיים כוללים את GenBank for DNA רצפי ו- PubMed, מסד נתונים ביבליוגרפי לספרות ביו-רפואית. מסדי נתונים אחרים כוללים את מסד הנתונים של NCBI Epigenomics. כל מאגרי המידע הללו זמינים באינטרנט דרך מנוע החיפוש Entrez.
את NCBI ביים דייוויד ליפמן אחד מהמחברים המקוריים של תוכנית יישור הרצף BLAST ודמות מוערכת בביואינפורמטיקה.
GenBank
שרותי בריאות: GenBank
ל-NCBI הייתה אחריות להגשת מסד הנתונים של רצפי ה-DNA של GenBank מאז 1992. GenBank מתאם עם מעבדות בודדות ומסדי נתונים של רצפים אחרים, כמו אלה של המעבדה האירופית לביולוגיה מולקולרית (EMBL) ו- DNA Data Bank of Japan (DDBJ).
מאז 1992, NCBI גדלה לספק מאגרי מידע נוספים בנוסף ל-GenBank. NCBI מספקת את מסד הנתונים של גנים, תורשה מנדלית מקוונת באדם, מסד הנתונים של מודלים מולקולריים (מבני חלבון תלת מימדיים), dbSNP (מסד נתונים של פולימורפיזמים של נוקלאוטידים בודדים, אוסף רצפי ההתייחסות, מפה של הגנום האנושי ודפדפן טקסונומיה, ומתאם עם המכון הלאומי לסרטן לספק את פרויקט האנטומיה של גנום הסרטן. ה-NCBI מקצה מזהה ייחודי (מספר מזהה טקסונומיה) לכל סוג של אורגניזם.
ל-NCBI יש כלי תוכנה הזמינים דרך דפדפני אינטרנט או באמצעות FTP. לדוגמה, BLAST היא תוכנת חיפוש דמיון ברצף. BLAST יכול לבצע השוואות רצף מול מסד הנתונים של GenBank DNA תוך פחות מ-15 שניות.
מדף ספרים של NCBI
מדף הספרים של NCBI הוא אוסף של גרסאות מקוונות הנגישות והניתנות להורדה של ספרים ביו-רפואיים נבחרים. מדף הספרים מכסה מגוון רחב של נושאים לרבות ביולוגיה מולקולרית, ביוכימיה, ביולוגיה של התא, גנטיקה, מיקרוביולוגיה, מצבי מחלה מנקודת מבט מולקולרית ותאית, שיטות מחקר ווירולוגיה.
חלק מהספרים הם גרסאות מקוונות של ספרים שפורסמו בעבר, בעוד שאחרים, כגון Coffee Break, נכתבים ונערכים על ידי צוות NCBI.
מדף הספרים הוא השלמה למאגר Entrez PubMed של תקצירי פרסומים שנבדקו עמיתים בכך שתכני מדף הספרים מספקים פרספקטיבות מבוססות על תחומי מחקר מתפתחים והקשר שבו ניתן לארגן חלקים בודדים שונים של מחקרים מדווחים.
כלי חיפוש יישור מקומי בסיסי (BLAST)
BLAST הוא אלגוריתם המשמש לחישוב דמיון ברצף בין רצפים ביולוגיים, כגון רצפי נוקלאוטידים של DNA ורצפי חומצות אמינו של חלבונים. BLAST הוא כלי רב עוצמה למציאת רצפים הדומים לרצף השאילתות בתוך אותו אורגניזם או באורגניזמים שונים. הוא מחפש את רצף השאילתות על מסדי נתונים ושרתים של NCBI ומפרסם את התוצאות בחזרה לדפדפן של האדם בפורמט הנבחר. רצפי קלט ל-BLAST הם לרוב בפורמט FASTA או GenBank בעוד שהפלט יכול להימסר במגוון פורמטים כגון HTML, עיצוב XML וטקסט רגיל.
HTML הוא פורמט הפלט המוגדר כברירת מחדל עבור דף האינטרנט של NCBI.
תוצאות עבור NCBI-BLAST מוצגות בפורמט גרפי עם כל ההתאמות שנמצאו, טבלה עם מזהי רצף עבור ההיטים עם נתונים הקשורים לניקוד, יחד עם יישור רצף העניין וההתאמות שהתקבלו עם ציוני BLAST אנלוגיים עבור אלה.
Entrez
מערכת החיפוש של Entrez Global Query Cross-Database משמשת ב-NCBI עבור כל מסדי הנתונים העיקריים כגון רצפי נוקלאוטידים וחלבונים, מבני חלבון, PubMed, טקסונומיה, גנומים מלאים, OMIM ועוד כמה אחרים. Entrez היא גם מערכת אינדקס ואחזור הכוללת נתונים ממקורות שונים למחקר ביו-רפואי.
NCBI הפיצה את הגרסה הראשונה של Entrez ב-1991, המורכבת מרצפי נוקלאוטידים מ- PDB ו- GenBank, רצפי חלבונים מ-SWISS-PROT, תורגם GenBank, PIR, PRF, PDB, ותקצירים וציטוטים קשורים מ-PubMed.
Entrez תוכנן במיוחד כדי לשלב את הנתונים מכמה מקורות, מסדי נתונים ופורמטים שונים למודל מידע ומערכת אחזור אחידה שיכולה לאחזר ביעילות את ההפניות, הרצפים והמבנים הרלוונטיים.
ג'ין
ג'ין יושם ב-NCBI כדי לאפיין ולארגן את המידע על גנים. הוא משמש כצומת עיקרי בקשר של המפה הגנומית, הביטוי, הרצף, תפקוד החלבון, המבנה ונתוני ההומולוגיה. GeneID ייחודי מוקצה לכל רשומה של גנים שניתן לעקוב אחריו באמצעות מחזורי רוויזיה.
רשומות גנים עבור גנים ידועים או חזויים מבוססים כאן והם תחום על ידי מיקומי מפה או רצפי נוקלאוטידים.
לג'ין יש מספר יתרונות על פני קודמו, LocusLink, כולל אינטגרציה טובה יותר עם מסדי נתונים אחרים ב-NCBI, היקף טקסונומי רחב יותר ואפשרויות משופרות לשאילתות ושליפה המסופקות על ידי מערכת Entrez.
חלבון
מסד הנתונים של חלבונים שומר על רשומת הטקסט עבור רצפי חלבון בודדים, הנגזרים ממשאבים רבים ושונים כגון פרויקט NCBI Reference Sequence (RefSeq), GenBank, PDB ו-UniProtKB/SWISS-Prot. רשומות חלבון קיימות בפורמטים שונים כולל FASTA ו- XML ומקושרות למשאבי NCBI אחרים. חלבון מספק את הנתונים הרלוונטיים למשתמשים כגון גנים, רצפי DNA/RNA, מסלולים ביולוגיים, נתוני ביטוי ושונות וספרות. הוא גם מספק את הקבוצות שנקבעו מראש של חלבונים דומים וזהים לכל רצף כפי שחושבו על ידי ה-BLAST. מסד הנתונים של המבנה של NCBI מכיל ערכות קואורדינטות תלת-ממדיות עבור מבנים שנקבעו בניסוי ב-PDB המיובאים על ידי NCBI. מסד הנתונים של תחום השמור CDD של חלבון מכיל פרופילי רצף המאפיינים תחומים שמורים מאוד בתוך רצפי חלבון.
יש לו גם רשומות ממשאבים חיצוניים כמו SMART ו- Pfam.
ישנו מסד נתונים נוסף של חלבונים הידוע בשם Protein Clusters database, המכיל קבוצות של רצפי חלבונים המקובצים על פי ההתאמה המקסימלית בין הרצפים הבודדים כפי שחושבו על ידי BLAST.
מסד הנתונים של Pubchem
מסד הנתונים PubChem של NCBI הוא משאב ציבורי למולקולות ופעילותן נגד מבחני ביולוגיים. PubChem ניתנת לחיפוש ונגיש על ידי מערכת אחזור המידע של Entrez.