Seite 1 von 4
"Statistiker" gesucht
Verfasst: Sa Feb 28, 2009 12:17 pm
von js
Zur Auswertung von einigen hundertausend Zeilen Performancemessdaten suchen wir jemanden, der das kann und tun will. Die Daten müssten nachher als Grafik vorliegen, die etwa aussagt - und solche Daten wird es in einigen Wochen oder Monaten wieder geben, d.h. diese Prozedur sollte leicht wiederholbar sein.
Die Daten müssten dahingegend erstmal bereinig werden, d.h. einzelne Spitzen sind herauszulöschen. Dann dachte ich an ein Balkendiagramm mit 3 Angaben pro Balken: Minimum, Maximum und Durchschnitt (der nicht genau zwischen min und max sein sollte). Dabei sollte ein Diagramm nach Typen entstehen und ein zweites nach Zeit für jeden einzelnen Typ.
Diese Aufgabe macht man mal nicht nebenher. Bei einem letzten Auflauf einen Graphen zu bekommen dauerte alleine der Datenimport 6 Stunden und die entstandenen Graphen waren ohne Nachbearbeitung der Daten kaum zu gebrauchen.
Wer jetzt das "mal eben mit Excel" & Co machen will, hat sich gleich disqualifiziert, denn da ist bei 65000 Zeilen Schluss. Dieser Text ist absichtlich schwer zu lesen.
Re: "Statistiker" gesucht
Verfasst: Sa Feb 28, 2009 1:00 pm
von Seefeldt
Vielleicht könnte ich etwas tun, möglichst mit der Datenbank MS Access, zur Not aber sicher mit SAS.
Wenn das Einlesen auch bei mir so lange dauert, könnte ich lediglich an Sonntagen und Samstagen drangehen, aber nicht an jedem dieser Tage.
Frage aber: wie willst Du derart riesiges Datenmaterial versenden?
Re: "Statistiker" gesucht
Verfasst: Sa Feb 28, 2009 2:18 pm
von js
Die Übertragung sollte nicht das Problem sein, komprimiert sind das als CSV wenige MB. Mich würde da mehr interessieren, wie du da Bilder draus bekommen willst.
Re: "Statistiker" gesucht
Verfasst: Sa Feb 28, 2009 2:25 pm
von Slein
Was genau ist in diesen Daten bzw. Zeilen den enthalten?
Wie sind sie aufgebaut?
Re: "Statistiker" gesucht
Verfasst: Sa Feb 28, 2009 3:25 pm
von js
Wie gesagt, CSV mit Zeit, Typ und einem Wert. Typ liegt jeweils in min, max und avg vor, aber wahrscheinlich ist avg ausreichend.
Re: "Statistiker" gesucht
Verfasst: Sa Feb 28, 2009 8:21 pm
von DJLeuchte
Ich könnte euch da weiterhelfen
Ich würde euch gerne ein Programm dazu mit php Programmieren, der die Daten aus der csv automatisch in eine sql db reinpackt, die spitzen rauslöscht und dann die auswertung ausgibt
Sind nur wenige Tage arbeit für mich und ihr könnt euch jederzeit die neuen logfiles ohne weitere Hilfe auswerten
M.f.G. Tommy Leuchtemann
Re: "Statistiker" gesucht
Verfasst: Sa Feb 28, 2009 8:27 pm
von Seefeldt
js hat geschrieben:Mich würde da mehr interessieren, wie du da Bilder draus bekommen willst.
SAS erstellt selbst Graphiken.
MS Access ist ein Office-Programm, das mit Excel gut verbunden werden kann. Wenn mit Access selbst keine Graphiken erstellt werden können (das müßte ich erst einmal prüfen), sollte das über Access und Excel (nach Datenaufbereitung und ggf. Zusammenfassung in Access) möglich sein.
Zeit, Typ und Wert - das scheinen ja keine großen Datensätze zu sein. Damit sollte auch Access fertigwerden.
Re: "Statistiker" gesucht
Verfasst: Sa Feb 28, 2009 9:22 pm
von PhilippK
Also das Zeilenlimit ist mit Excel 2007 gefallen
Im Zweifel sollte Excel aber die Daten problemlos aus einer Access-Datenbank beziehen können. Die Sache mit den Spitzenwerten rät zur Nutzung des Medians und von Quantilen.
Gruß, Philipp
Re: "Statistiker" gesucht
Verfasst: Sa Feb 28, 2009 9:36 pm
von js
Nun, da es gleich mehrere Bewerben gibt, hier mal die Datei:
http://doku.stellwerksim.de/sts/data.txt.gz
avg[0] bis avg[5] wären die verschiedenen Typen, von denen die Balken gewünscht wären. Das nochmals nach cn unterschiedene, also für jeden cn-Wert die Balken avg[]. Die Zeitstempel können dabei als Orientierung dienen, die sind bei einem Datensatz immer gleich.
Also ein Balken von einem avg könnte so aussehen:
Code: Alles auswählen
+---+ max
|:::|
|:::|
|:::|
+---+ durchschnitt
|:::|
|:::|
+---+ min
|###|
|###|
|###|
+---+
Wobei ### eine dunklere Farbe als ::: wäre.
Re: "Statistiker" gesucht
Verfasst: So Mär 01, 2009 12:14 pm
von PhilippK
Mhh - ganz so ideal ist das Datenformat nicht
Das Problem ist, dass die Reihenfolge der Datensätze relevant ist - also immer 7 Zeilen einen Datensatz ergeben. Und der Datumsstempel kann auch nicht zur Identifizierung beitragen, da auch mal zwei Gruppen die selben Datumsstempel haben können. Das macht recht viel manuelle Arbeit notwendig...
Gruß, Philipp
Re: "Statistiker" gesucht
Verfasst: So Mär 01, 2009 12:23 pm
von js
Ich hab nicht gesagt, dass es einfach ist. Achja, zwischen den Spalten ist ein TAB als Trenner.
Re: "Statistiker" gesucht
Verfasst: So Mär 01, 2009 1:07 pm
von Seefeldt
Darf ich davon ausgehen, daß du mindestens ein Programm mit Graphikerstellung hast?
Dann wäre nach meiner jetzigen Einschätzung die beste Möglichkeit, die Daten in einer Datenbank (MS Access) nach deinem Wunsche zusammenzufassen, auf das von dir gewünschte Format umzustellen (z.B. Excel- oder CSV-Datei) und dir die Zusammenfassung zur weiteren Verarbeitung zurückzuschicken. Das würde dir freie Bearbeitungs- und Darstellungsmöglichkeit bieten.
Was das Arbeiten mit deinen Daten betrifft: Die Verteilung der Eingangsdaten auf mehre Zeilen scheint mir auch kein großes Problem.
Wenn feststeht, daß immer 7 Zeilen nacheinander kommen, schon gar nicht, aber auch dann nicht, wenn die Reihenfolge der "Satzarten" feststeht.
So etwas läßt sich in Access mit VBA-Modulen lösen (in deinem Fall eine eher einfache Angelegenheit).
Re: "Statistiker" gesucht
Verfasst: So Mär 01, 2009 1:18 pm
von js
Stopp, ich will die Daten nicht in einer Datenbank haben - da liegen sie ja schon. Ich will ein Bild haben. Und ich besitze kein Programm, dass sowas kann, sonst würde ich das (die nötige Zeit vorausgesetzt) selbst machen.
Es geht hier nicht darum, ein paar Daten, die ich aus der Datenbank beliebig abfragen könnte, mir in eine anderen Pseudodatenbank wie Access zu schreiben, es geht darum, die Daten in ein Bild zu bringen. Wie ist mir recht egal, ich will am Ende eine Sammlung von Gifs oder Jpegs oder Pngs oder SVGs. Das ggf. in einem PDF oder OpenOffice-Dokument.
Re: "Statistiker" gesucht
Verfasst: So Mär 01, 2009 5:01 pm
von Seefeldt
Na, jetzt wird die Sache etwas klarer.
Wenn du also selbst eine Datenbank hast und du damit auch die Daten beliebig abfragen kannst, könntest du doch schon selbst die Daten zusammenfassen - ganz nach deinem Bedarf.
Und du schreibst von OpenOffice. Hast du das? Dann hast du auch die Tabellenkalkulation, und in dieser hast du wiederum die Möglichkeit, ein Diagramm zu erstellen (Einfügen -> Diagramm), also das, was du wohl möchtest.
Übrigens - Access ist eine echte Datenbank, ich habe beruflich schon sehr viel damit gearbeitet.
Beispiel einer Pseudodatenbank ist die "Datenbank" von Excel oder Works. Access ist etwas ganz anderes.
Re: "Statistiker" gesucht
Verfasst: So Mär 01, 2009 5:04 pm
von Slein
So einfach ist das nicht (siehe erster Beitrag spezifisch der graue Text).
Könnte js das selbst machen, hätte er es sicher schon in angriff genommen.