{"@context":{"@language":"en","@vocab":"https://schema.org/","citeAs":"cr:citeAs","column":"cr:column","conformsTo":"dct:conformsTo","cr":"http://mlcommons.org/croissant/","rai":"http://mlcommons.org/croissant/RAI/","data":{"@id":"cr:data","@type":"@json"},"dataType":{"@id":"cr:dataType","@type":"@vocab"},"dct":"http://purl.org/dc/terms/","examples":{"@id":"cr:examples","@type":"@json"},"extract":"cr:extract","field":"cr:field","fileProperty":"cr:fileProperty","fileObject":"cr:fileObject","fileSet":"cr:fileSet","format":"cr:format","includes":"cr:includes","isLiveDataset":"cr:isLiveDataset","jsonPath":"cr:jsonPath","key":"cr:key","md5":"cr:md5","parentField":"cr:parentField","path":"cr:path","recordSet":"cr:recordSet","references":"cr:references","regex":"cr:regex","repeated":"cr:repeated","replace":"cr:replace","sc":"https://schema.org/","separator":"cr:separator","source":"cr:source","subField":"cr:subField","transform":"cr:transform","wd":"https://www.wikidata.org/wiki/"},"@type":"sc:Dataset","conformsTo":"http://mlcommons.org/croissant/1.0","name":"ATOMICA","url":"https://doi.org/10.7910/DVN/4DUBJX","creator":[{"@type":"Person","givenName":"Ada","familyName":"Fang","affiliation":{"@type":"Organization","name":"Harvard University"},"sameAs":"https://orcid.org/0009-0003-7957-1905","@id":"https://orcid.org/0009-0003-7957-1905","identifier":"https://orcid.org/0009-0003-7957-1905","name":"Fang, Ada"},{"@type":"Person","affiliation":{"@type":"Organization","name":"Harvard University"},"name":"Zaixi Zhang"},{"@type":"Person","givenName":"Andrew","familyName":"Zhou","affiliation":{"@type":"Organization","name":"Harvard University"},"name":"Andrew Zhou"},{"@type":"Person","givenName":"Marinka","familyName":"Zitnik","affiliation":{"@type":"Organization","name":"Harvard University"},"sameAs":"https://orcid.org/0000-0001-8530-7228","@id":"https://orcid.org/0000-0001-8530-7228","identifier":"https://orcid.org/0000-0001-8530-7228","name":"Marinka Zitnik"}],"description":"Datasets used in developing & evaluating ATOMICA.","keywords":["Chemistry","Medicine, Health and Life Sciences","Computer and Information Science"],"license":"http://creativecommons.org/licenses/by/4.0","datePublished":"2025-04-02","dateModified":"2025-04-02","includedInDataCatalog":{"@type":"DataCatalog","name":"Harvard Dataverse","url":"https://dataverse.harvard.edu"},"publisher":{"@type":"Organization","name":"Harvard Dataverse"},"version":"1.0","citeAs":"@data{DVN/4DUBJX_2025,author = {Fang, Ada and Zaixi Zhang and Andrew Zhou and Marinka Zitnik},publisher = {Harvard Dataverse},title = {ATOMICA},year = {2025},url = {https://doi.org/10.7910/DVN/4DUBJX}}","distribution":[{"@type":"cr:FileObject","@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv","name":"ATOMICAScore_protein_small_molecule_results.csv","encodingFormat":"text/csv","md5":"76969812c7fed425b8e665ea31d885eb","contentSize":"425587","description":"ATOMICAScore for identification of amino acid blocks involved in intermolecular bonds.","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11033981?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/ADP_ids_sequence_30_split.csv","name":"ADP_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"795204a97b7c494b8ff83895933a0c21","contentSize":"11462074","description":"30% sequence similarity split for ADP ligands on protein-small molecule complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034562?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/annotated_dark_proteome_AF3_outputs.tar.gz","name":"annotated_dark_proteome_AF3_outputs.tar.gz","encodingFormat":"application/x-gzip","md5":"9cce8002d06256c35922fa4b865fead3","contentSize":"89416322","description":"AlphaFold3 structures and confidence scores of predicted dark proteome metal ion and small molecule complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11036980"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/ATP_ids_sequence_30_split.csv","name":"ATP_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"8ed28c536eba26f470c580bff2cff412","contentSize":"11372851","description":"30% sequence similarity split for ATP ligands on protein-small molecule complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034561?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/CA_ids_sequence_30_split.csv","name":"CA_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"dff748cdc3ca7554ed14505af331cca4","contentSize":"6712717","description":"30% sequence similarity split for CA ligands on protein-ion complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034569?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/CIT_ids_sequence_30_split.csv","name":"CIT_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"bae3c7ef9ddc15f3fb10901c13b85e68","contentSize":"10533229","description":"30% sequence similarity split for CIT ligands on protein-small molecule complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034575?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/CLA_ids_sequence_30_split.csv","name":"CLA_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"e6f85754b1c7b1f327718f41505fc4fd","contentSize":"10584684","description":"30% sequence similarity split for CLA ligands on protein-small molecule complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034579?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/CO_ids_sequence_30_split.csv","name":"CO_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"b9ba82201df2f1d60afb554988dbde81","contentSize":"6708909","description":"30% sequence similarity split for CO ligands on protein-ion complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034566?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/CU_ids_sequence_30_split.csv","name":"CU_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"fbe7b51b2471402ceefe072c211d90ff","contentSize":"6657723","description":"30% sequence similarity split for CU ligands on protein-ion complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034565?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/dark_proteome_predictions.csv","name":"dark_proteome_predictions.csv","encodingFormat":"text/csv","md5":"605aef7e1a1171b95bee8004a539ad51","contentSize":"156268","description":"Predictions of ATOMICA-Ligand on dark proteome ion and small molecule binding sites","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034865?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/FAD_ids_sequence_30_split.csv","name":"FAD_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"835d6b3394c9c1b760ae061215bcba19","contentSize":"11444026","description":"30% sequence similarity split for FAD ligands on protein-small molecule complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034572?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/FE_ids_sequence_30_split.csv","name":"FE_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"f81897359a6b2aad343730493559dd46","contentSize":"6698266","description":"30% sequence similarity split for FE ligands on protein-ion complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034574?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/GDP_ids_sequence_30_split.csv","name":"GDP_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"b2c280d04ef71d9eae09ac53894e1fd4","contentSize":"10926060","description":"30% sequence similarity split for GDP ligands on protein-small molecule complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034571?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/GTP_ids_sequence_30_split.csv","name":"GTP_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"4a521d1a293659b8069e511336e8d25a","contentSize":"10803030","description":"30% sequence similarity split for GTP ligands on protein-small molecule complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034576?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/HEC_ids_sequence_30_split.csv","name":"HEC_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"86c5133614e0fd8d9dcaf4740dacc869","contentSize":"9187701","description":"30% sequence similarity split for HEC ligands on protein-small molecule complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034573?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/HEM_ids_sequence_30_split.csv","name":"HEM_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"acedf4d5883b0d5fcdfe86446d1894c5","contentSize":"11430436","description":"30% sequence similarity split for HEM ligands on protein-small molecule complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034563?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/is_dark_90_plddt_PeSTo_80_ion.jsonl.gz","name":"is_dark_90_plddt_PeSTo_80_ion.jsonl.gz","encodingFormat":"application/x-gzip","md5":"628d0949dedadf65cf5dc1e0b4dbb417","contentSize":"3868970","description":"Processed AFDB Cluster representative proteins (with pLDDT &gt; 90) which have predicted small molecule binding sites (with PeSTo confidence &gt; 80)","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11037789"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/is_dark_90_plddt_PeSTo_80_small_molecule.jsonl.gz","name":"is_dark_90_plddt_PeSTo_80_small_molecule.jsonl.gz","encodingFormat":"application/x-gzip","md5":"5d1f257ff56f73926de10107f86db042","contentSize":"1644950","description":"Processed AFDB Cluster representative proteins (with pLDDT &gt; 90) which have predicted ion binding sites (with PeSTo confidence &gt; 80)","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11037790"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/K_ids_sequence_30_split.csv","name":"K_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"14a20585f8f3c60f9213f18e2cf50f3a","contentSize":"6746465","description":"30% sequence similarity split for K ligands on protein-ion complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034568?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/MG_ids_sequence_30_split.csv","name":"MG_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"a985e3ed0d7edef0fb8f30999f74272e","contentSize":"6663665","description":"30% sequence similarity split for MG ligands on protein-ion complexe complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034580?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/MN_ids_sequence_30_split.csv","name":"MN_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"81cfd2ed8ef71cf7a41ab62bb6be5e9b","contentSize":"6765148","description":"30% sequence similarity split for MN ligands on protein-ion complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034578?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/NAD_ids_sequence_30_split.csv","name":"NAD_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"37488c0d5feea179127043e7c56e2764","contentSize":"10609260","description":"30% sequence similarity split for NAD ligands on protein-small molecule complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034567?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/NAP_ids_sequence_30_split.csv","name":"NAP_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"dcc0b8b372a1de6a8c30ef887bd2ce3f","contentSize":"10573932","description":"30% sequence similarity split for NAP ligands on protein-small molecule complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034564?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/NDP_ids_sequence_30_split.csv","name":"NDP_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"b8af92dbd72c59824f48466d0d8d20f6","contentSize":"9866517","description":"30% sequence similarity split for NDP ligands on protein-small molecule complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034577?format=original"},{"@type":"cr:FileObject","@id":"ATOMICA-Ligand/ZN_ids_sequence_30_split.csv","name":"ZN_ids_sequence_30_split.csv","encodingFormat":"text/csv","md5":"6a1d7f693efeb4db79ffb5a0aec2fb23","contentSize":"6731665","description":"30% sequence similarity split for ZN ligands on protein-ion complexes","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034570?format=original"},{"@type":"cr:FileObject","@id":"ATOMICANets/ATOMICANet_ion.gml","name":"ATOMICANet_ion.gml","encodingFormat":"application/gml+xml","md5":"673859abc385af17a64765ac3bbc034b","contentSize":"4621912","description":"ATOMICANet-Ion for protein-ion interfaceome","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034594"},{"@type":"cr:FileObject","@id":"ATOMICANets/ATOMICANet_lipid.gml","name":"ATOMICANet_lipid.gml","encodingFormat":"application/gml+xml","md5":"022c7d9e7ca7a944a937b0fd566998bf","contentSize":"4511346","description":"ATOMICANet-Lipid for protein-lipid interfaceome","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034591"},{"@type":"cr:FileObject","@id":"ATOMICANets/ATOMICANet_nucleic_acid.gml","name":"ATOMICANet_nucleic_acid.gml","encodingFormat":"application/gml+xml","md5":"908f29521ae5610aab6edea213e9670b","contentSize":"5092933","description":"ATOMICANet-Nucleic-Acid for protein-nucleic acid interfaceome","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034593"},{"@type":"cr:FileObject","@id":"ATOMICANets/ATOMICANet_protein.gml","name":"ATOMICANet_protein.gml","encodingFormat":"application/gml+xml","md5":"23f5377ef396566654008d557afff8c2","contentSize":"14328029","description":"ATOMICANet-Protein for protein-protein interfaceome","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034590"},{"@type":"cr:FileObject","@id":"ATOMICANets/ATOMICANet_small_molecule.gml","name":"ATOMICANet_small_molecule.gml","encodingFormat":"application/gml+xml","md5":"7c12752d2e2597d3d5e6c6470cdb00a7","contentSize":"4718642","description":"ATOMICANet-Small-Molecule for protein-small molecule interfaceome","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034592"},{"@type":"cr:FileObject","@id":"ATOMICANets/pesto_70_plddt_70_ion.jsonl.gz","name":"pesto_70_plddt_70_ion.jsonl.gz","encodingFormat":"application/x-gzip","md5":"9a89dfeeba01103d18251bf3ca678977","contentSize":"21048537","description":"Human proteome protein-ion interfaces from AlphaFold2 structures with pLDDT 70% cutoff and PeSTO 70 confidence cutoff","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034000"},{"@type":"cr:FileObject","@id":"ATOMICANets/pesto_70_plddt_70_lipid.jsonl.gz","name":"pesto_70_plddt_70_lipid.jsonl.gz","encodingFormat":"application/x-gzip","md5":"7bc4b961b1d1dc57090c7c4a7db2badc","contentSize":"55285687","description":"Human proteome protein-lipid interfaces from AlphaFold2 structures with pLDDT 70% cutoff and PeSTO 70 confidence cutoff","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034003"},{"@type":"cr:FileObject","@id":"ATOMICANets/pesto_70_plddt_70_nucleic_acid.jsonl.gz","name":"pesto_70_plddt_70_nucleic_acid.jsonl.gz","encodingFormat":"application/x-gzip","md5":"50ed7bce8880c9971a2de0d8fcfdf53d","contentSize":"41289880","description":"Human proteome protein-nucleic acid interfaces from AlphaFold2 structures with pLDDT 70% cutoff and PeSTO 70 confidence cutoff","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034001"},{"@type":"cr:FileObject","@id":"ATOMICANets/pesto_70_plddt_70_protein.jsonl.gz","name":"pesto_70_plddt_70_protein.jsonl.gz","encodingFormat":"application/x-gzip","md5":"60ec39c9f041836a6893ebad9d7fc837","contentSize":"132879043","description":"Human proteome protein-protein interfaces from AlphaFold2 structures with pLDDT 70% cutoff and PeSTO 70 confidence cutoff","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034002"},{"@type":"cr:FileObject","@id":"ATOMICANets/pesto_70_plddt_70_small_molecule.jsonl.gz","name":"pesto_70_plddt_70_small_molecule.jsonl.gz","encodingFormat":"application/x-gzip","md5":"0c3d32eb8cd573ea2cc1886c232c481d","contentSize":"16785015","description":"Human proteome protein-small molecule interfaces from AlphaFold2 structures with pLDDT 70% cutoff and PeSTO 70 confidence cutoff","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11034004"},{"@type":"cr:FileObject","@id":"pretraining_data/CSD.jsonl.gz","name":"CSD.jsonl.gz","encodingFormat":"application/x-gzip","md5":"a9c4e5c76b54217d384b18d4c98e4069","contentSize":"2616073958","description":"CSD pre-training data","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11033988"},{"@type":"cr:FileObject","@id":"pretraining_data/CSD_ids.csv","name":"CSD_ids.csv","encodingFormat":"text/csv","md5":"72c5d3c76eb24b031da62c4f36e4eb44","contentSize":"194350982","description":"CSD molecule motif similarity split","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11033997"},{"@type":"cr:FileObject","@id":"pretraining_data/PDNA.jsonl.gz","name":"PDNA.jsonl.gz","encodingFormat":"application/x-gzip","md5":"475ef9a0b4e66661c5019d1d29c504d1","contentSize":"53339541","description":"Protein-DNA pre-training data","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11033990"},{"@type":"cr:FileObject","@id":"pretraining_data/PDNA_ids.csv","name":"PDNA_ids.csv","encodingFormat":"text/csv","md5":"e5d44ba5f5e56dd5a530c441949424fd","contentSize":"98686","description":"Protein-DNA 30% sequence similarity split","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11033982?format=original"},{"@type":"cr:FileObject","@id":"pretraining_data/Pion.jsonl.gz","name":"Pion.jsonl.gz","encodingFormat":"application/x-gzip","md5":"a00c7c5c25bddf19b3ef1354983b6097","contentSize":"105449814","description":"Protein-ion pre-training data","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11033994"},{"@type":"cr:FileObject","@id":"pretraining_data/Pion_ids.csv","name":"Pion_ids.csv","encodingFormat":"text/csv","md5":"7691672fe28901f28943701e947496f5","contentSize":"2494764","description":"Protein-ion 30% sequence similarity split","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11033989?format=original"},{"@type":"cr:FileObject","@id":"pretraining_data/PL.jsonl.gz","name":"PL.jsonl.gz","encodingFormat":"application/x-gzip","md5":"8961288d17033882a44a0dd57b9ceece","contentSize":"502259276","description":"Protein-small molecule pre-training data","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11033991"},{"@type":"cr:FileObject","@id":"pretraining_data/PL_ids.csv","name":"PL_ids.csv","encodingFormat":"text/csv","md5":"61fdc5e58913d7a811cc5224f9e87e4d","contentSize":"4113952","description":"Protein-small molecule 30% sequence similarity split","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11033996?format=original"},{"@type":"cr:FileObject","@id":"pretraining_data/PP.jsonl.gz","name":"PP.jsonl.gz","encodingFormat":"application/x-gzip","md5":"baf7b80399ae0f53ffca3f634902ca95","contentSize":"1404346699","description":"Protein-protein pre-training data","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11033986"},{"@type":"cr:FileObject","@id":"pretraining_data/Ppeptide.jsonl.gz","name":"Ppeptide.jsonl.gz","encodingFormat":"application/x-gzip","md5":"fced77c894751658e1212e2aaf536ea0","contentSize":"57193859","description":"Protein-peptide pre-training data","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11033992"},{"@type":"cr:FileObject","@id":"pretraining_data/Ppeptide_ids.csv","name":"Ppeptide_ids.csv","encodingFormat":"text/csv","md5":"b2b71040f101f69846f1352a6237f45b","contentSize":"290536","description":"Protein-peptide 30% sequence similarity split","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11033993?format=original"},{"@type":"cr:FileObject","@id":"pretraining_data/PP_ids.csv","name":"PP_ids.csv","encodingFormat":"text/csv","md5":"8bc3abed35855447b6f3a83bf9620532","contentSize":"2107681","description":"Protein-protein 30% sequence similarity split","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11033984?format=original"},{"@type":"cr:FileObject","@id":"pretraining_data/PRNA.jsonl.gz","name":"PRNA.jsonl.gz","encodingFormat":"application/x-gzip","md5":"f9ca8ae764731daaf610600f03ec5648","contentSize":"69038123","description":"Protein-RNA pre-training data","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11033995"},{"@type":"cr:FileObject","@id":"pretraining_data/PRNA_ids.csv","name":"PRNA_ids.csv","encodingFormat":"text/csv","md5":"225403678ebf70a946566cd4f83b3d36","contentSize":"125731","description":"Protein-RNA 30% sequence similarity split","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11033983?format=original"},{"@type":"cr:FileObject","@id":"pretraining_data/RNAL.jsonl.gz","name":"RNAL.jsonl.gz","encodingFormat":"application/x-gzip","md5":"be075b567fe6d939ff1996efc85a3027","contentSize":"7089739","description":"RNA-ligand pre-training data","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11033987"},{"@type":"cr:FileObject","@id":"pretraining_data/RNAL_ids.csv","name":"RNAL_ids.csv","encodingFormat":"text/csv","md5":"2dac5a37bbadf1fd1b7d1eef8bf54d7d","contentSize":"206283","description":"RNA-ligand 30% sequence similarity split","contentUrl":"https://dataverse.harvard.edu/api/access/datafile/11033985?format=original"}],"recordSet":[{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"item_id","description":"item_id","dataType":"sc:Text","source":{"@id":"36326959","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"item_id"}}},{"@type":"cr:Field","name":"topk_Hydrogen Bonds","description":"topk_Hydrogen Bonds","dataType":"sc:Integer","source":{"@id":"36326955","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"topk_Hydrogen Bonds"}}},{"@type":"cr:Field","name":"topk_Hydrophobic Interactions","description":"topk_Hydrophobic Interactions","dataType":"sc:Integer","source":{"@id":"36326956","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"topk_Hydrophobic Interactions"}}},{"@type":"cr:Field","name":"topk_pi-Stacking","description":"topk_pi-Stacking","dataType":"sc:Integer","source":{"@id":"36326958","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"topk_pi-Stacking"}}},{"@type":"cr:Field","name":"topk_Metal Complexes","description":"topk_Metal Complexes","dataType":"sc:Integer","source":{"@id":"36326964","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"topk_Metal Complexes"}}},{"@type":"cr:Field","name":"topk_Halogen Bonds","description":"topk_Halogen Bonds","dataType":"sc:Integer","source":{"@id":"36326970","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"topk_Halogen Bonds"}}},{"@type":"cr:Field","name":"rand_Hydrogen Bonds","description":"rand_Hydrogen Bonds","dataType":"sc:Integer","source":{"@id":"36326963","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"rand_Hydrogen Bonds"}}},{"@type":"cr:Field","name":"rand_Hydrophobic Interactions","description":"rand_Hydrophobic Interactions","dataType":"sc:Integer","source":{"@id":"36326954","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"rand_Hydrophobic Interactions"}}},{"@type":"cr:Field","name":"rand_pi-Stacking","description":"rand_pi-Stacking","dataType":"sc:Integer","source":{"@id":"36326966","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"rand_pi-Stacking"}}},{"@type":"cr:Field","name":"rand_Metal Complexes","description":"rand_Metal Complexes","dataType":"sc:Integer","source":{"@id":"36326960","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"rand_Metal Complexes"}}},{"@type":"cr:Field","name":"rand_Halogen Bonds","description":"rand_Halogen Bonds","dataType":"sc:Integer","source":{"@id":"36326947","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"rand_Halogen Bonds"}}},{"@type":"cr:Field","name":"topk_total","description":"topk_total","dataType":"sc:Integer","source":{"@id":"36326951","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"topk_total"}}},{"@type":"cr:Field","name":"rand_total","description":"rand_total","dataType":"sc:Integer","source":{"@id":"36326967","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"rand_total"}}},{"@type":"cr:Field","name":"Hydrogen Bonds","description":"Hydrogen Bonds","dataType":"sc:Integer","source":{"@id":"36326969","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"Hydrogen Bonds"}}},{"@type":"cr:Field","name":"pi-Stacking","description":"pi-Stacking","dataType":"sc:Integer","source":{"@id":"36326957","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"pi-Stacking"}}},{"@type":"cr:Field","name":"Hydrophobic Interactions","description":"Hydrophobic Interactions","dataType":"sc:Integer","source":{"@id":"36326968","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"Hydrophobic Interactions"}}},{"@type":"cr:Field","name":"Metal Complexes","description":"Metal Complexes","dataType":"sc:Integer","source":{"@id":"36326949","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"Metal Complexes"}}},{"@type":"cr:Field","name":"Halogen Bonds","description":"Halogen Bonds","dataType":"sc:Integer","source":{"@id":"36326948","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"Halogen Bonds"}}},{"@type":"cr:Field","name":"esm_Hydrogen Bonds","description":"esm_Hydrogen Bonds","dataType":"sc:Integer","source":{"@id":"36326962","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"esm_Hydrogen Bonds"}}},{"@type":"cr:Field","name":"esm_Hydrophobic Interactions","description":"esm_Hydrophobic Interactions","dataType":"sc:Integer","source":{"@id":"36326961","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"esm_Hydrophobic Interactions"}}},{"@type":"cr:Field","name":"esm_pi-Stacking","description":"esm_pi-Stacking","dataType":"sc:Integer","source":{"@id":"36326952","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"esm_pi-Stacking"}}},{"@type":"cr:Field","name":"esm_Metal Complexes","description":"esm_Metal Complexes","dataType":"sc:Integer","source":{"@id":"36326965","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"esm_Metal Complexes"}}},{"@type":"cr:Field","name":"esm_Halogen Bonds","description":"esm_Halogen Bonds","dataType":"sc:Integer","source":{"@id":"36326950","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"esm_Halogen Bonds"}}},{"@type":"cr:Field","name":"esm_total","description":"esm_total","dataType":"sc:Integer","source":{"@id":"36326953","fileObject":{"@id":"analyses/ATOMICAScore_protein_small_molecule_results.csv"},"extract":{"column":"esm_total"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36332215","fileObject":{"@id":"ATOMICA-Ligand/ADP_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36332216","fileObject":{"@id":"ATOMICA-Ligand/ADP_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36332110","fileObject":{"@id":"ATOMICA-Ligand/ATP_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36332109","fileObject":{"@id":"ATOMICA-Ligand/ATP_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36331553","fileObject":{"@id":"ATOMICA-Ligand/CA_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36331552","fileObject":{"@id":"ATOMICA-Ligand/CA_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36331922","fileObject":{"@id":"ATOMICA-Ligand/CIT_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36331923","fileObject":{"@id":"ATOMICA-Ligand/CIT_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36331926","fileObject":{"@id":"ATOMICA-Ligand/CLA_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36331927","fileObject":{"@id":"ATOMICA-Ligand/CLA_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36331551","fileObject":{"@id":"ATOMICA-Ligand/CO_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36331550","fileObject":{"@id":"ATOMICA-Ligand/CO_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36331545","fileObject":{"@id":"ATOMICA-Ligand/CU_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36331544","fileObject":{"@id":"ATOMICA-Ligand/CU_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"ligand","description":"ligand","dataType":"sc:Text","source":{"@id":"36335283","fileObject":{"@id":"ATOMICA-Ligand/dark_proteome_predictions.csv"},"extract":{"column":"ligand"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36335282","fileObject":{"@id":"ATOMICA-Ligand/dark_proteome_predictions.csv"},"extract":{"column":"id"}}},{"@type":"cr:Field","name":"mean","description":"mean","dataType":"sc:Float","source":{"@id":"36335284","fileObject":{"@id":"ATOMICA-Ligand/dark_proteome_predictions.csv"},"extract":{"column":"mean"}}},{"@type":"cr:Field","name":"std","description":"std","dataType":"sc:Float","source":{"@id":"36335285","fileObject":{"@id":"ATOMICA-Ligand/dark_proteome_predictions.csv"},"extract":{"column":"std"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36332164","fileObject":{"@id":"ATOMICA-Ligand/FAD_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36332163","fileObject":{"@id":"ATOMICA-Ligand/FAD_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36331549","fileObject":{"@id":"ATOMICA-Ligand/FE_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36331548","fileObject":{"@id":"ATOMICA-Ligand/FE_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36332107","fileObject":{"@id":"ATOMICA-Ligand/GDP_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36332108","fileObject":{"@id":"ATOMICA-Ligand/GDP_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36332105","fileObject":{"@id":"ATOMICA-Ligand/GTP_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36332106","fileObject":{"@id":"ATOMICA-Ligand/GTP_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36331746","fileObject":{"@id":"ATOMICA-Ligand/HEC_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36331745","fileObject":{"@id":"ATOMICA-Ligand/HEC_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36332162","fileObject":{"@id":"ATOMICA-Ligand/HEM_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36332161","fileObject":{"@id":"ATOMICA-Ligand/HEM_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36331742","fileObject":{"@id":"ATOMICA-Ligand/K_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36331741","fileObject":{"@id":"ATOMICA-Ligand/K_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36331547","fileObject":{"@id":"ATOMICA-Ligand/MG_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36331546","fileObject":{"@id":"ATOMICA-Ligand/MG_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36331743","fileObject":{"@id":"ATOMICA-Ligand/MN_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36331744","fileObject":{"@id":"ATOMICA-Ligand/MN_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36331928","fileObject":{"@id":"ATOMICA-Ligand/NAD_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36331929","fileObject":{"@id":"ATOMICA-Ligand/NAD_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36331925","fileObject":{"@id":"ATOMICA-Ligand/NAP_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36331924","fileObject":{"@id":"ATOMICA-Ligand/NAP_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36331747","fileObject":{"@id":"ATOMICA-Ligand/NDP_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36331748","fileObject":{"@id":"ATOMICA-Ligand/NDP_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36331554","fileObject":{"@id":"ATOMICA-Ligand/ZN_ids_sequence_30_split.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36331555","fileObject":{"@id":"ATOMICA-Ligand/ZN_ids_sequence_30_split.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36326972","fileObject":{"@id":"pretraining_data/PDNA_ids.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36326971","fileObject":{"@id":"pretraining_data/PDNA_ids.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36326981","fileObject":{"@id":"pretraining_data/Pion_ids.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36326982","fileObject":{"@id":"pretraining_data/Pion_ids.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36326983","fileObject":{"@id":"pretraining_data/PL_ids.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36326984","fileObject":{"@id":"pretraining_data/PL_ids.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36326977","fileObject":{"@id":"pretraining_data/Ppeptide_ids.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36326978","fileObject":{"@id":"pretraining_data/Ppeptide_ids.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36326980","fileObject":{"@id":"pretraining_data/PP_ids.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36326979","fileObject":{"@id":"pretraining_data/PP_ids.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36326974","fileObject":{"@id":"pretraining_data/PRNA_ids.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36326973","fileObject":{"@id":"pretraining_data/PRNA_ids.csv"},"extract":{"column":"id"}}}]},{"@type":"cr:RecordSet","field":[{"@type":"cr:Field","name":"split","description":"split","dataType":"sc:Text","source":{"@id":"36326976","fileObject":{"@id":"pretraining_data/RNAL_ids.csv"},"extract":{"column":"split"}}},{"@type":"cr:Field","name":"id","description":"id","dataType":"sc:Text","source":{"@id":"36326975","fileObject":{"@id":"pretraining_data/RNAL_ids.csv"},"extract":{"column":"id"}}}]}]}