Terug naar de beginpaginaCentor Homepage

Methode om testdatabases van realistische data te voorzien

Data Masker Software maskeert gevoelige data in testdatabases



In het vorige nummer van Het Orakel bespraken we het nut en de noodzaak van belastingtests. Hierin zagen we hoe client/server-applicaties die in praktijksituaties de input van duizenden gebruikers tegelijkertijd moeten kunnen verwerken, middels een ‘load test' hierop beproefd kunnen worden. In het verlengde daarvan ligt dit artikel, dat gaat over het beschermen van gevoelige data in testdatabases. Hierbij wordt gevoelige data in een testdatabase vervangen door realistisch uitziende maar gefingeerde informatie. Dat klinkt op z'n minst als een tijdrovend karwei, maar gelukkig zijn daar goede hulpmiddelen voor ontwikkeld.


Live database-omgevingen bevatten veelal kostbare en vertrouwelijke informatie en zijn daarom doorgaans goed afgeschermd tegen ongeautoriseerde toegang. Dit is niet alleen vanuit zakelijke overwegingen noodzakelijk, maar het is vaak ook een wettelijke verplichting: denk maar aan de wet op de bescherming van persoonsgegevens. Echter, bijna iedere goed beschermde database heeft ook een aantal kopieën voor ontwikkel- en testdoeleinden. Daar zit potentieel een zwakke plek, want in test- en ontwikkelomgevingen is de beveiliging een stuk minder strikt. De data in die testdatabases loopt dan opeens wel een aanmerkelijk risico.

Toch zijn data als persoonsgegevens ook in testomgevingen noodzakelijk. Het volstaat dan ook niet om gevoelige informatie in testdatabases simpelweg onleesbaar te maken. Immers, ook tijdens het testen van een applicatie moet de ‘look and feel' realistisch zijn en dat lukt niet wanneer de gegevens onleesbaar of slecht interpreteerbaar zijn. Test- en ontwikkelteams moeten nu eenmaal kunnen beschikken over functionele kopieën van de echte database en hoewel ze natuurlijk niet de echte gegevens nodig hebben, moet het format wel overeenkomen. Het zou dus ideaal zijn wanneer werkelijke informatie vervangen zou kunnen worden door gelijksoortige maar tegelijkertijd valse informatie. Die methode bestaat en het heeft ook een naam: Data Sanitization of Data Scrubbing. Daarbij blijft de aangepaste data zonder meer bruikbaar, maar loopt de echte data geen enkel risico.

De Data Masker software
Het Engelse softwarehuis Net 2000 Ltd. is de maker van Data Masker: een software-oplossing die de werkelijke data maskeert en in plaats daarvan gefingeerde — maar wel realistische — informatie toont. Dat gaat ver, want Data Masker heeft tal van valse voornamen, achternamen en voorvoegsels, titels, bedrijfsnamen, mailadressen, creditcardnummers, landnamen, floats en integers, straatnamen, plaatsnamen, telefoonnummers, postcodes, noem het maar op. Ook zelf gedefinieerde data kan gemaskeerd worden.

Een paar voorbeelden. Stel, we willen een kolom met achternamen omzetten. De Data Masker kan de namen in die kolom omzetten door gebruik te maken van haar dataset met meer dan 100.000 realistische achternamen. Dit proces kan nog verder aangepast worden, bijvoorbeeld door alle vrouwelijke voornamen te laten vervangen door alternatieve vrouwelijke voornamen. Of we willen een kolom met numerieke data door elkaar schudden, echter zonder daarbij de som van de waarden te veranderen. Data Masker biedt dan de mogelijkheid de ‘Shuffle rule' op de kolom los te laten. De gegevens in de kolom worden dan zodanig door elkaar gehaald, dat de individuele waarden niet geassocieerd kunnen worden met de originele records. Het kolomtotaal blijft echter onveranderd.

Slimme trucjes
De alfanumerieke structuur van waarden kan met behulp van een zelf te specificeren template vastgelegd worden, waarna de data binnen de aangegeven structuur wordt aangepast of gegenereerd. Op deze manier kunnen ook creditcardnummers in een ander jasje worden gestoken. Het is bijvoorbeeld mogelijk een template te gebruiken die alle cijfers in een ‘X' veranderd, met uitzondering van de eerste vier cijfers. De structuur van het nummer wordt daarbij gerespecteerd. Maar Data Masker kent nog veel meer slimme trucjes met getallen, zoals bijvoorbeeld nummervariatie. Wanneer het in een numerieke kolom wenselijk is de werkelijke waarden buiten het zicht te houden, maar de data verder niet te veel mag afwijken, kan een percentuele afwijking ingesteld worden. Sommige waarden worden dan lager gemaakt, andere weer hoger, maar altijd binnen het ingestelde afwijkingspercentage.
Naast het omzetten van bestaande data, is Data Masker ook in staat nieuwe data te genereren. Dit komt met name van pas wanneer voor testdoeleinden initiële data nodig is. Alle informatie in de datasets van Data Masker is beschikbaar voor het laden van (toepasselijke) initiële data.

De werking
Data Masker werkt met een zogeheten ‘Masking Set': een verzameling eenvoudig te definiëren regels die als set op de data worden losgelaten. Deze ‘Masking Set' voert een serie acties uit. Data Masker heeft bewezen met zelfs de meest complexe database-structuren overweg te kunnen. Het pakket kan overweg met datarelaties tussen rijen in tabellen, tussen rijen in dezelfde tabel en zelfs intern tussen kolommen in dezelfde rij. De white paper — die ook vanaf de website gedownload kan worden — gaat hier tot in detail op in. Ook met grote hoeveelheden heeft het pakket van Net 2000 geen probleem: Data Masker heeft tabellen met meer dan 110 miljoen rijen probleemloos gemaskeerd.

Eenvoudige configuratie
Dankzij de goede interface en dito ondersteuning wordt het maskeren van data of het initieel vullen van een (test)database met Data Masker een eenvoudig en repeteerbaar proces. Start Data Masker, selecteer de tabellen en de kolommen die aangepast moeten worden en kies de gewenste methode. Na het — door middel van aanwijzen en klikken — configureren van de dataset kan de testdata met één enkele druk op de knop worden gemodificeerd. De dataset kan vanzelfsprekend worden opgeslagen voor hergebruik.

Conclusie
Het maskeren van gevoelige data in testdatabases kan een belangrijke rol spelen bij het voldoen aan zowel interne als externe beveiligingseisen. Denk in dit laatste verband maar eens aan richtlijnen als de European Parliament Directive 95/46/EC, de UK Data Protection Act en de Amerikaanse Gramm-Leach-Bliley Act (GLBA). De makers van Data Masker hebben er alles aan gedaan om de drempel voor toekomstige gebruikers zo laag mogelijk te maken. Vanaf de website (www.datamasker.com) kan een gratis 30 dagen probeerversie gedownload worden. Handige online handleidingen brengen de gebruiker snel op weg. Het pakket draait op een gewone Windows PC, zonder dat aan de kant van de server aanpassingen nodig zijn. Alle Oracle v7, v8, v9 en v10 databases op alle platforms worden ondersteund. De Data Masker rules kunnen — wanneer gespecificeerd — automatisch gebruik maken van de door Oracle geleverde DBMS Obfuscation Toolkit voor data-encryptie.


OC Centor BV
Coltbaan 4e
3439 NG
Nieuwegein
tel. 030 6020060

Realisatie:
Beaumont Tekst&Ontwerp
H. Dunantweg 20 2400BD
Alphen a/d Rijn
tel. 0172 419370

: Dagelijks Nieuws :
Klik hier voor een actueel overzicht van Linux, Unix, Oracle, DWH, BI, Java, Database, Emercing Technologies, Security, ICT en Financieel nieuws.