Tietojoukko (IBM)

Tietojoukko ( rus. Dataset , joskus myös translitteroitu "Dataset" ) on termi, jota käytetään IBM : n keskustietokoneen tiedostojärjestelmään . kokoelma loogisia tietueita, jotka on tallennettu monikkona . Tietojoukkoa voidaan verrata tiedostoon , mutta toisin kuin tiedosto, tietojoukko on sekä hakemisto että tiedosto tiedostojärjestelmässä, eikä se voi sisältää muita joukkoja.

Käytännössä voi usein löytää kirjoituksen yhdellä sanalla ( dataset ), joka tarkalleen ottaen on väärin, mutta hyväksyttävää. Tämä käytäntö syntyi siitä, että sanaa on käytettävä itse joukon nimen yhteydessä, mikä ei tue välilyöntejä merkkien välillä.

Kuvaus

Mainframe-tiedostojärjestelmä on keskittynyt tallentamaan tietueita , jotka ovat jakamattomia tallennusyksiköitä .  Tietueet yhdistetään ryhmiksi, joita kutsutaan tietojoukoiksi. Tietuetta ei voi tallentaa minkään joukon ulkopuolelle. Sovellukset käyttävät tietojoukkojen tietueita esimerkiksi syötteenä tai sovellus voi luoda tietueita työnsä tuloksena. Tietojoukon tietueet voivat siis olla tekstidataa (esimerkiksi ohjelman lähdekoodeja), objektitiedostoja , ladattavia moduuleja, tietueita konfiguraatiomuuttujineen jne.

Tietojoukkoon voidaan viitata määrittämällä tarkka sijainti, johon se on tallennettu, tai, jos joukolle on aiemmin varattu tiedostojärjestelmän nimi, nimellä. Tietojoukkoja, joilla on yksilölliset nimet , kutsutaan luetteloituiksi .  Tietojoukot eivät voi pesiytyä toisiinsa, joten nimissä käytetään tarkennejärjestelmää: nimi koostuu kahdeksan merkin pituisista tarkennuksista, jotka on erotettu toisistaan ​​pisteellä, kun taas joukon nimi ei saa ylittää 44 merkkiä, esimerkiksi . Fyysisesti sarjoja voidaan tallentaa erityyppisille tietovälineille (magneettilevyille tai nauhakaseteille), lisäksi sarjoja voidaan sijoittaa virtuaalimuistiin . USER.MYDIR.PROJ.SOURCE

Keskuskoneissa suoraa tiedonsiirtoa tukevat tallennuslaitteet käyttävät termiä DASD ( Direct Access Storage Device ) .  DASD-laite on loogisesti jaettu taltioihin ( English Volumes ), jotka tallentavat erityyppisiä sarjoja. Jotta järjestelmä tietää, mitkä joukot on tallennettu tietylle DASD-laitteelle, se ylläpitää erityistä "päähakemistoa" tai toisin sanoen luetteloa luetteloiduista sarjoista.  

Tietojoukko itsessään ei ainoastaan ​​yhdistä tietueita, vaan myös määrittelee näiden tietueiden säännöt (tallennusmuoto). Tallennusmuotoparametreja ovat tietuelohkon koko (lohkotyyppi), yhden sarjan tietueen enimmäiskoko. Myös itse tietojoukon tyyppi on määriteltävä, mistä riippuu, miten se esitetään loogisesti (jatkuvana tietuejonona, toisistaan ​​erotettuina jäseninä ( English  Members ) jne.).

Tapoja asettaa sarjat

Yhden DASD-laitteen asemat voivat sisältää useita erityyppisiä sarjoja. Sarjan nimien on oltava yksilöllisiä samassa tallennuslaitteessa. Jokainen laitteen äänenvoimakkuus on jaettu raitoihin .  Nollaradalle, nollasylinterille, on tallennettu DASD-tarra, joka osoittaa VTOC-taltion sisällysluettelon sijainnin ( englanniksi Volume Table of Contents ) - jonkin verran MBR :n ja GPT :n analogia samanaikaisesti. VTOC tallentaa kaikkien asemaan tallennettujen sarjojen nimet, kappalenumerot, joista kukin sarja alkaa, koot ja pääsyrajoitukset. Koska joukot on sidottu niiden taltioihin, käyttöjärjestelmä etsii joukkoa ensin läpi näkyvien taltioiden luettelon ja sitten kun tarvittava taltio löytyy, se hakee sen VTOC:iin.  

Kuten aiemmin todettiin, joukon pienin yksikkö on looginen tietue, jonka koko rajoittaa LRECL. Yhden joukon sisältävän volyymin vierekkäiset raidat muodostavat laajuuden . Tyypillisesti tallennuslaitteen ohjain yrittää allokoida laajuusjoukkoja, koska tämä nopeuttaa pääsyä niihin. Tämän strategian mahdollistamiseksi VTOC pitää kirjaa vierekkäisistä vapaista kaistoista.

Mainframe-tiedostojärjestelmä ei tietojoukkoa lukiessaan luota itse datan tavuihin, vaan käyttää tietoja sarjamuodosta ( RECFM). Muoto määrittää, kuinka monta tavua dataa voidaan kirjoittaa yhteen koon lohkoon BLKSIZE. IBM:n keskustietokoneet käyttävät seuraavia muotoja:

Virtuaalimuistiin kartoittavien joukkojen tietueet (ns. VSAM-joukot) tallennetaan myös DASD-laitteeseen, mutta erillään ei-VSAM-sarjoista, laajuuksissa, joita kutsutaan ohjausintervalleiksi  ( CI), ja luetteloidaan erikseen. CI on hieman monimutkaisempi ja samanlainen kuin lohko: sitä edustaa alue, jolle tietueet sijoitetaan peräkkäin, jota seuraa RDF-kentät tietueiden lukumäärällä ( Record  Definition Fields ) ja yksi CIDF-kenttä ( Control Interval Definition Kenttä ) .  Ensimmäisen RDF-kentän ja viimeisen merkinnän välissä voi olla tyhjä väli. RDF-kentät kuvaavat joukon tietueita yksitellen, kun taas CIDF kuvaa ohjausväliä kokonaisuutena. Sovellukset käyttävät sisäisesti VSAMeja.

Rekrytointiorganisaatio

Toinen joukon ominaisuus on sen organisaatio DSORG, joka ehdottaa järjestystä, jossa se tulee lukea ja päivittää. On olemassa seuraavanlaisia ​​organisaatiotyyppejä:

Jokaiselle organisaatiotyypille voidaan soveltaa yhtä tai useampaa käyttöjärjestelmän tarjoamaa pääsytapaa. Esimerkiksi joukoille, joissa on PS-organisaatio, voidaan soveltaa BSAM- (Basic Sequential Access Method)- ja QSAM- (Queued Sequential Access Method) -käyttömenetelmiä; PO-joukot käyttävät BPAM-menetelmää (Basic Partitioned Access Method) ja DA-joukot BDAM-menetelmää (Basic Direct Access Method).

Virtuaalimuistin tultua käyttöön sitä varten järjestettiin joukkoja, esimerkiksi KSDS, LDS, RRDS jne., joihin käytetään omaa pääsytapaa - VSAM (Virtual storage access method) .

Kirjallisuus