Syntaktische, semantische und pragmatische Informationsmaße. Methoden zum Kodieren von Audioinformationen. Syntaktische Informationsmaße

Syntaktisches Maß für Informationen

Als syntaktisches Maß repräsentiert die Informationsmenge die Datenmenge.

UM Datenvolumen V d in einer Nachricht wird „in“ anhand der Anzahl der Zeichen (Ziffern) in dieser Nachricht gemessen. Wie bereits erwähnt, in binäres System Die Maßeinheit der Notation ist Bit. In der Praxis wird neben dieser „kleinsten“ Datenmesseinheit häufig eine größere Einheit verwendet – Byte gleich 8 Bits. Der Einfachheit halber werden Kilo- (10 3), Mega- (10 6), Giga- (10 9) und Tera- (10 12) Byte usw. als Zähler verwendet. Das Volumen von kurzen schriftlichen Nachrichten, dicken Büchern, Musik, Bildern und Softwareprodukten wird in bekannten Bytes gemessen. Es ist klar, dass dieses Maß in keiner Weise charakterisieren kann, was und warum diese Informationseinheiten enthalten. Messen Sie den Roman von L.N. in Kilobyte. „Krieg und Frieden“ von Tolstoi ist beispielsweise nützlich, um zu verstehen, ob es auf den freien Speicherplatz einer Festplatte passt. Dies ist genauso nützlich wie das Messen der Größe eines Buches – seiner Höhe, Dicke und Breite – um zu beurteilen, ob es in ein Bücherregal passt, oder wie das Wiegen, um zu sehen, ob eine Aktentasche das Gesamtgewicht tragen kann

Also. Ein syntaktisches Informationsmaß reicht eindeutig nicht aus, um eine Nachricht zu charakterisieren: In unserem Wetterbeispiel enthielt die Nachricht des Freundes im letzten Fall eine Datenmenge ungleich Null, aber nicht die von uns benötigten Informationen. Die Schlussfolgerung über die Nützlichkeit der Informationen ergibt sich aus der Betrachtung des Inhalts der Nachricht. Um den semantischen Inhalt von Informationen zu messen, d.h. Um seine Quantität auf der semantischen Ebene zu ermitteln, führen wir das Konzept des „Thesaurus des Informationsempfängers“ ein.

Ein Thesaurus ist eine Sammlung von Informationen und Verbindungen zwischen diesen, über die der Informationsempfänger verfügt. Wir können sagen, dass ein Thesaurus das gesammelte Wissen des Empfängers ist.

In einem sehr einfachen Fall, wenn der Empfänger ist technisches Gerät - Persönlicher Computer Der Thesaurus wird durch die „Waffen“ eines Computers gebildet – die darin eingebetteten Programme und Geräte, die es ihm ermöglichen, zu empfangen, zu verarbeiten und zu präsentieren Textnachrichten in verschiedenen Sprachen, mit unterschiedlichen Alphabeten, Schriftarten sowie Audio- und Videoinformationen aus einem lokalen oder weltweiten Netzwerk. Wenn Ihr Computer nicht ausgestattet ist Netzwerkkarte, können Sie nicht erwarten, darauf Nachrichten von anderen Netzwerkbenutzern in irgendeiner Form zu erhalten. Das Fehlen von Treibern mit russischen Schriftarten ermöglicht es Ihnen nicht, mit Nachrichten in russischer Sprache usw. zu arbeiten.

Wenn der Empfänger eine Person ist, ist sein Thesaurus auch eine Art intellektuelle Waffe einer Person, ein Arsenal seines Wissens. Es bildet auch eine Art Filter für eingehende Nachrichten. Die empfangene Nachricht wird unter Nutzung des vorhandenen Wissens verarbeitet, um Informationen zu erhalten. Wenn der Thesaurus sehr umfangreich ist, ist das Wissensarsenal tiefgreifend und vielfältig; er ermöglicht es Ihnen, Informationen aus fast jeder Nachricht zu extrahieren. Ein kleiner Thesaurus mit wenig Wissen kann ein Hindernis für das Verständnis von Botschaften sein, die einer besseren Vorbereitung bedürfen.


Beachten wir jedoch, dass das Verstehen der Botschaft allein nicht ausreicht, um die Entscheidungsfindung zu beeinflussen – sie muss die dafür notwendigen Informationen enthalten, die nicht in unserem Thesaurus enthalten sind und die wir in ihn aufnehmen möchten. Was das Wetter angeht, verfügte unser Thesaurus nicht über die neuesten, „aktuellen“ Wetterinformationen für das Universitätsgebiet. Wenn eine Nachricht, die wir erhalten, unseren Thesaurus ändert, kann sich auch unsere Wahl der Lösung ändern. Diese Änderung im Thesaurus dient semantisches Maß Die Informationsmenge ist eine Art Maß für den Nutzen der empfangenen Nachricht.

Formell Menge semantische Informationen Ist, später in den Thesaurus aufgenommen wird, wird durch das Verhältnis des Thesaurus S des Empfängers bestimmt ich, und der Inhalt der in der Nachricht übermittelten Informationen „an“ S. Eine grafische Darstellung dieser Abhängigkeit ist in Abb. 1 dargestellt.

Betrachten wir Fälle, in denen die Menge an semantischen Informationen groß ist Ist gleich oder nahe Null:

Bei S ich= 0 der Empfänger nimmt die eingehenden Informationen nicht wahr;

Bei 0< Sich< S 0 получатель воспринимает, но не понимает поступившую в сообщении информацию;

Bei S ich-» ∞Der Empfänger verfügt über umfassende Kenntnisse und die eingehenden Informationen können seinen Thesaurus nicht auffüllen.

Reis. Abhängigkeit der Menge semantischer Informationen vom Thesaurus des Empfängers

Mit Thesaurus S ich> S 0 Menge semantischer Informationen Ist, erhalten aus einer angehängten Nachricht β Information Swächst zunächst schnell mit dem Wachstum des eigenen Thesaurus des Empfängers und dann - ab einem bestimmten Wert S i - sinkt . Der Rückgang der für den Empfänger nützlichen Informationsmenge ist darauf zurückzuführen, dass die Wissensbasis des Empfängers recht solide geworden ist und es immer schwieriger wird, ihn mit etwas Neuem zu überraschen.

Dies lässt sich am Beispiel von Studierenden der Wirtschaftsinformatik veranschaulichen, die Materialien von Websites zum Thema Unternehmens-IP lesen . Zunächst, wenn das erste Wissen darüber gebildet wird Informationssysteme Das Lesen bringt nicht viel - es gibt viele unklare Begriffe, Abkürzungen, selbst die Überschriften sind nicht alle klar. Die Beharrlichkeit beim Lesen von Büchern, dem Besuch von Vorlesungen und Seminaren und der Kommunikation mit Fachleuten trägt dazu bei, den Thesaurus aufzufüllen. Mit der Zeit macht das Lesen von Site-Materialien Spaß und ist nützlich, und am Ende Ihrer beruflichen Laufbahn – nachdem Sie viele Artikel und Bücher geschrieben haben – wird es viel seltener vorkommen, neue nützliche Informationen von einer beliebten Site zu erhalten.

Wir können darüber sprechen, was für die gegebenen Informationen optimal ist. S der Thesaurus des Empfängers, in dem er die maximalen Informationen erhält, sowie die optimalen Informationen in der Nachricht „in“ für diesen Thesaurus Sj. Wenn in unserem Beispiel der Empfänger ein Computer ist, bedeutet der optimale Thesaurus, dass seine Hardware installiert ist Software alle in der Nachricht „in“ enthaltenen Symbole wahrnehmen und für den Benutzer richtig interpretieren und so die Bedeutung der Informationen vermitteln S. Wenn die Nachricht Zeichen enthält, die nicht dem Inhalt des Thesaurus entsprechen, gehen einige Informationen und der Wert verloren Ist wird abnehmen.

Wenn wir andererseits wissen, dass der Empfänger nicht in der Lage ist, Texte auf Russisch zu empfangen (sein Computer verfügt nicht über diese Möglichkeit). notwendige Treiber), und weder er noch wir haben die Fremdsprachen studiert, in denen unsere Nachricht gesendet werden kann, können wir zur Übermittlung der notwendigen Informationen auf Transliteration zurückgreifen – das Schreiben russischer Texte mit Buchstaben eines fremden Alphabets, das der Computer des Empfängers gut versteht . Auf diese Weise gleichen wir unsere Informationen mit dem Computer-Thesaurus ab, der dem Empfänger zur Verfügung steht. Die Nachricht wird hässlich aussehen, aber das Ganze notwendige Informationen Der Empfänger kann es lesen.

Somit ist die maximale Menge an semantischen Informationen aus einer Nachricht β der Empfänger erwirbt, indem er sich auf seinen semantischen Inhalt einigt Sc Thesaurus Si,(bei Si = Sj opt). Informationen aus derselben Nachricht können für einen kompetenten Benutzer einen sinnvollen Inhalt haben, für einen inkompetenten Benutzer jedoch bedeutungslos sein. Die Menge der semantischen Informationen in einer vom Benutzer empfangenen Nachricht ist eine individuelle, personalisierte Größe – im Gegensatz zu syntaktische Informationen. Semantische Informationen werden jedoch auf die gleiche Weise wie syntaktische Informationen gemessen – in Bits und Bytes.

Ein relatives Maß für die Menge semantischer Informationen ist der Inhaltskoeffizient C, der als Verhältnis der Menge semantischer Informationen zu ihrem Datenvolumen definiert ist Vd, in der Nachricht enthalten β:

C = Is / Vd

Vorlesung 2 zum Fachgebiet „Informatik und IKT“

Thema 2. Grundlagen der Darstellung und Verarbeitung von Informationen in einem Computer

Literatur

1. Informatik in den Wirtschaftswissenschaften: Lehrbuch/Hrsg. SEI. Odintsova, A.N. Romanova. – M.: Universitätslehrbuch, 2008.

2. Informatik: Grundkurs: Lehrbuch/Hrsg. S.V. Simonowitsch. – St. Petersburg: Peter, 2009.

3. Informatik. Allgemeiner Kurs: Lehrbuch/Co-Autor: A.N. Guda, M.A. Butakova, N.M. Nechitailo, A.V. Tschernow; Unter allgemein Hrsg. IN UND. Kolesnikowa. – M.: Dashkov und K, 2009.

4. Informatik für Wirtschaftswissenschaftler: Lehrbuch/Hrsg. Matjuschka V.M. - M.: Infra-M, 2006.

5. Wirtschaftsinformatik: Einführung in die Wirtschaftsanalyse von Informationssystemen. - M.: INFRA-M, 2005.

Informationsmaße (syntaktisch, semantisch, pragmatisch)

Zur Messung von Informationen können verschiedene Ansätze verwendet werden, am weitesten verbreitet sind sie jedoch statistisch(wahrscheinlich), semantisch und P pragmatisch Methoden.

Statistisch(probabilistische) Methode zur Messung von Informationen wurde 1948 von K. Shannon entwickelt, der vorschlug, die Informationsmenge als Maß für die Unsicherheit des Systemzustands zu betrachten, die durch den Empfang von Informationen beseitigt wird. Der quantitative Ausdruck der Unsicherheit wird Entropie genannt. Wenn der Beobachter nach Erhalt einer Nachricht die Nachricht erhält Weitere Informationenüber das System X, dann hat die Unsicherheit abgenommen. Die zusätzlich empfangene Informationsmenge ist definiert als:

Wo ist die zusätzliche Menge an Informationen über das System? X, in Form einer Nachricht empfangen;

Anfängliche Unsicherheit (Entropie) des Systems X;

Endliche Unsicherheit (Entropie) des Systems X, nach Erhalt der Nachricht auftritt.

Wenn das System X kann in einem der diskreten Zustände sein, deren Anzahl N, und die Wahrscheinlichkeit, das System in jedem von ihnen zu finden, gleich ist und die Summe der Wahrscheinlichkeiten aller Zustände gleich Eins ist, dann wird die Entropie mit der Shannon-Formel berechnet:

wo ist die Entropie von System X;

A- die Basis des Logarithmus, die die Maßeinheit der Informationen bestimmt;

N– die Anzahl der Zustände (Werte), in denen sich das System befinden kann.

Entropie ist eine positive Größe, und da Wahrscheinlichkeiten immer kleiner als eins sind und ihr Logarithmus negativ ist, macht das Minuszeichen in K. Shannons Formel die Entropie positiv. Somit wird die gleiche Entropie, jedoch mit umgekehrtem Vorzeichen, als Maß für die Informationsmenge genommen.

Der Zusammenhang zwischen Information und Entropie kann wie folgt verstanden werden: Die Beschaffung von Informationen (ihre Zunahme) bedeutet gleichzeitig eine Verringerung der Unwissenheit oder Informationsunsicherheit (Entropie).

Der statistische Ansatz berücksichtigt also die Wahrscheinlichkeit des Erscheinens von Nachrichten: Die Nachricht, die weniger wahrscheinlich ist, wird als informativer angesehen, d. h. am wenigsten erwartet. Die Menge an Informationen erreicht Maximalwert, wenn die Ereignisse gleich wahrscheinlich sind.

R. Hartley schlug die folgende Formel zur Messung von Informationen vor:

I=log 2 n ,

Wo N- Anzahl gleich wahrscheinlicher Ereignisse;

ICH– ein Maß an Informationen in einer Nachricht über das Auftreten eines dieser Ereignisse N Veranstaltungen

Das Maß der Information wird in ihrem Umfang ausgedrückt. Am häufigsten betrifft dies die Größe des Computerspeichers und die über Kommunikationskanäle übertragene Datenmenge. Als Einheit wird die Informationsmenge angesehen, bei der die Unsicherheit um die Hälfte reduziert wird; eine solche Informationseinheit wird aufgerufen bisschen .

Wenn der natürliche Logarithmus () als Basis des Logarithmus in Hartleys Formel verwendet wird, dann ist die Maßeinheit für Informationen nat ( 1 Bit = ln2 ≈ 0,693 nat). Wenn die Zahl 3 als Basis des Logarithmus verwendet wird, dann - behandeln, wenn 10, dann - sagte (Hartley).

In der Praxis wird häufiger eine größere Einheit verwendet - Byte(Byte) gleich acht Bits. Diese Einheit wurde ausgewählt, weil sie zum Codieren aller 256 Zeichen des Computertastaturalphabets (256 = 2 8) verwendet werden kann.

Zusätzlich zu den Bytes werden Informationen in Halbwörtern (2 Bytes), Wörtern (4 Bytes) und Doppelwörtern (8 Bytes) gemessen. Auch größere Maßeinheiten für Informationen werden häufig verwendet:

1 Kilobyte (KB - Kilobyte) = 1024 Bytes = 2 10 Bytes,

1 Megabyte (MB - Megabyte) = 1024 KB = 2 20 Bytes,

1 Gigabyte (GB - Gigabyte) = 1024 MB = 2 30 Bytes.

1 Terabyte (TB - Terabyte) = 1024 GB = 2 40 Bytes,

1 Petabyte (PByte - Petabyte) = 1024 TB = 2 50 Bytes.

1980 schlug der russische Mathematiker Yu. Manin die Idee des Konstruierens vor Quantencomputer, in deren Zusammenhang eine solche Informationseinheit erschien als Qubit ( Quantenbit, Qubit ) – „Quantenbit“ ist ein Maß für die Größe des Speichers in einer theoretisch möglichen Computerform, die Quantenmedien, beispielsweise Elektronenspins, nutzt. Ein Qubit kann nicht zwei verschiedene Werte („0“ und „1“) annehmen, sondern mehrere, entsprechend normalisierten Kombinationen zweier Grundspinzustände, was ergibt größere Zahl mögliche Kombinationen. Somit können 32 Qubits etwa 4 Milliarden Zustände kodieren.

Semantischer Ansatz. Ein syntaktisches Maß reicht nicht aus, wenn Sie nicht die Datenmenge, sondern die in der Nachricht benötigte Informationsmenge bestimmen müssen. Dabei wird der semantische Aspekt berücksichtigt, der es uns ermöglicht, den Inhalt der Informationen zu bestimmen.

Um den semantischen Inhalt von Informationen zu messen, können Sie den Thesaurus ihres Empfängers (Konsumenten) verwenden. Die Idee der Thesaurus-Methode wurde von N. Wiener vorgeschlagen und von unserem einheimischen Wissenschaftler A.Yu entwickelt. Schrader.

Thesaurus angerufen Informationsbestand die der Empfänger der Informationen hat. Indem Sie den Thesaurus mit dem Inhalt der empfangenen Nachricht korrelieren, können Sie herausfinden, inwieweit dadurch die Unsicherheit verringert wird.

Abhängigkeit des Umfangs semantischer Informationen einer Nachricht vom Thesaurus des Empfängers

Entsprechend der im Diagramm dargestellten Abhängigkeit, ob der Benutzer über keinen Thesaurus verfügt (Wissen über das Wesen der empfangenen Nachricht, d. h. =0) oder über das Vorhandensein eines solchen Thesaurus verfügt, der sich durch den Eingang nicht geändert hat der Nachricht (), dann ist die Menge der darin enthaltenen semantischen Informationen gleich Null. Der optimale Thesaurus () ist einer, in dem die Menge an semantischen Informationen maximal ist (). Beispielsweise semantische Informationen in einer eingehenden Nachricht in einer unbekannten Fremdsprache gibt es Null, aber die gleiche Situation wird in diesem Fall sein wenn die Nachricht keine Neuigkeit mehr ist, da der Benutzer bereits alles weiß.

Pragmatische Maßnahme Information bestimmt seinen Nutzen bei der Erreichung der Ziele des Verbrauchers. Dazu reicht es aus, die Wahrscheinlichkeit der Zielerreichung vor und nach Erhalt der Nachricht zu ermitteln und zu vergleichen. Der Informationswert (nach A.A. Kharkevich) wird nach folgender Formel berechnet:

Wo ist die Wahrscheinlichkeit, das Ziel zu erreichen, bevor die Nachricht empfangen wird?

Die Wahrscheinlichkeit, das Ziel zu erreichen, ist der Bereich des Empfangs der Nachricht;

Klassifizierung von Maßnahmen

Informationsmaßnahmen

Formulare zur Informationsangemessenheit

Die Angemessenheit von Informationen kann in drei Formen ausgedrückt werden: semantisch, syntaktisch, pragmatisch.

Syntaktische Angemessenheit. Es zeigt die formalen und strukturellen Merkmale von Informationen und hat keinen Einfluss auf deren semantischen Inhalt. Auf syntaktischer Ebene werden die Art des Mediums und die Art der Informationsdarstellung, die Übertragungs- und Verarbeitungsgeschwindigkeit, die Größe der Codes zu ihrer Darstellung, die Zuverlässigkeit und Genauigkeit der Konvertierung dieser Codes usw. berücksichtigt. Informationen, die nur aus syntaktischer Sicht betrachtet werden, werden üblicherweise als Daten bezeichnet, weil die semantische Seite spielt keine Rolle.

Semantische (fiktive) Angemessenheit. Diese Form bestimmt den Grad der Übereinstimmung zwischen dem Bild des Objekts und dem Objekt selbst. Der semantische Aspekt beinhaltet die Berücksichtigung des semantischen Inhalts von Informationen. Auf dieser Ebene werden die Informationen, die die Informationen widerspiegeln, analysiert und semantische Zusammenhänge berücksichtigt. In der Informatik werden semantische Verbindungen zwischen Codes zur Darstellung von Informationen hergestellt. Dieses Formular dient dazu, Konzepte und Ideen zu bilden, die Bedeutung, den Inhalt von Informationen und deren Verallgemeinerung zu identifizieren.

Pragmatische (Verbraucher-)Angemessenheit spiegelt die Beziehung zwischen Informationen und ihrem Verbraucher wider, die Übereinstimmung von Informationen mit dem auf ihrer Grundlage umgesetzten Managementziel. Pragmatische Eigenschaften Informationen erscheinen nur, wenn Einheit von Information (Objekt), Benutzer und Kontrollziel besteht. Der pragmatische Aspekt der Überlegung hängt mit dem Wert und der Nützlichkeit der Nutzung von Informationen zusammen, wenn der Verbraucher eine Lösung zur Erreichung seines Ziels entwickelt.

Um Informationen zu messen, werden zwei Parameter eingeführt: die Informationsmenge I und die Datenmenge V. Diese Parameter haben je nach betrachteter Form der Angemessenheit unterschiedliche Ausdrücke und Interpretationen. Jede Form der Angemessenheit entspricht einem eigenen Maß für die Informationsmenge und das Datenvolumen (Abb. 2.1).

Datenvolumen V d in einer Nachricht wird anhand der Anzahl der Zeichen (Bits) in dieser Nachricht gemessen. IN verschiedene Systeme In der Notation hat eine Ziffer ein anderes Gewicht und die Maßeinheit der Daten ändert sich entsprechend:

  • im binären Zahlensystem ist die Maßeinheit ein Bit (Bit – Binärziffer – Binärziffer);
  • Im dezimalen Zahlensystem ist die Maßeinheit dit (Dezimalstelle).


Reis. 2.1. Informationsmaßnahmen

Menge an Informationen I auf syntaktischer Ebene kann nicht bestimmt werden, ohne das Konzept der Unsicherheit des Systemzustands (Entropie des Systems) zu berücksichtigen. Tatsächlich ist die Beschaffung von Informationen über ein System immer mit einer Veränderung des Grades der Unwissenheit des Empfängers über den Zustand dieses Systems verbunden. Betrachten wir dieses Konzept.


Geben Sie dem Verbraucher einige vorläufige (a priori) Informationen über das System a, bevor Sie Informationen erhalten. Das Maß seiner Unkenntnis des Systems ist die Funktion H(a), die gleichzeitig als Maß für die Unsicherheit des Systemzustands dient.

Nach dem Empfang einer Nachricht b erlangte der Empfänger einige zusätzliche Informationen I b (a), die seine a priori Unwissenheit reduzierten, sodass die a posteriori (nach dem Empfang der Nachricht b) Unsicherheit des Systemzustands zu H b (a) wurde.

Dann wird die Menge der in Nachricht b empfangenen Informationen I b (a) über das System bestimmt als

I b (a) = H(a)-H b (a),

diese. Die Informationsmenge wird anhand einer Änderung (Verringerung) der Unsicherheit des Systemzustands gemessen.

Wenn die endgültige Unsicherheit des Systems H b (a) Null wird, wird das anfängliche unvollständige Wissen durch vollständiges Wissen ersetzt und die Informationsmenge I b (a) = H (a). Mit anderen Worten, Entropie des Systems H(a) kann als Maß für fehlende Informationen angesehen werden.

Die Entropie eines Systems H(a) mit N möglichen Zuständen ist nach der Shannon-Formel gleich

,

wobei P i die Wahrscheinlichkeit ist, dass sich das System im i-ten Zustand befindet.

Für den Fall, dass alle Zustände des Systems gleich wahrscheinlich sind, d.h. ihre Wahrscheinlichkeiten sind gleich P i = , seine Entropie wird durch die Beziehung bestimmt

.

Oft werden Informationen mit Zahlencodes in dem einen oder anderen Zahlensystem kodiert, dies gilt insbesondere bei der Darstellung von Informationen auf einem Computer. Natürlich die gleiche Anzahl von Ziffern verschiedene Systeme Die Notation kann eine unterschiedliche Anzahl von Zuständen des angezeigten Objekts vermitteln, die als Verhältnis dargestellt werden können

wobei N die Anzahl aller möglichen angezeigten Zustände ist;

m - Basis des Zahlensystems (Vielzahl der im Alphabet verwendeten Symbole);

n ist die Anzahl der Bits (Zeichen) in der Nachricht.

Am häufigsten werden binäre und dezimale Logarithmen verwendet. Die Maßeinheiten sind in diesen Fällen Bit bzw. Dit.

Koeffizient (Grad) des Informationsgehalts(Prägnanz) einer Nachricht wird durch das Verhältnis der Informationsmenge zur Datenmenge bestimmt, d. h.

Y=1/V d und 0

Mit zunehmendem Y nimmt der Arbeitsaufwand für die Konvertierung von Informationen (Daten im System) ab. Daher streben sie danach, den Informationsgehalt zu erhöhen, wofür spezielle Methoden zur optimalen Kodierung von Informationen entwickelt werden.


Um den semantischen Inhalt von Informationen zu messen, d.h. Aufgrund seiner Quantität auf semantischer Ebene ist das Thesaurusmaß am bekanntesten, das die semantischen Eigenschaften von Informationen mit der Fähigkeit des Benutzers verbindet, die eingehende Nachricht zu akzeptieren. Zu diesem Zweck wird das Konzept verwendet Thesaurus Benutzer.

Thesaurus ist eine Sammlung von Informationen, die einem Benutzer oder System zur Verfügung stehen.

Abhängig von der Beziehung zwischen dem semantischen Inhalt der Informationen S und dem Thesaurus S p des Benutzers ändert sich die Menge der semantischen Informationen I c, die vom Benutzer wahrgenommen und anschließend von ihm in seinen Thesaurus aufgenommen werden. Die Art dieser Abhängigkeit ist in Abb. dargestellt. 2.2.



Reis. 2.2. Abhängigkeit von der Menge der vom Verbraucher wahrgenommenen semantischen Informationen

Betrachten wir zwei Grenzfälle, in denen die Menge der semantischen Informationen I c
gleich 0:

  • wenn S p = 0, nimmt der Benutzer die eingehenden Informationen nicht wahr oder versteht sie nicht;
  • Mit S p ® ¥ weiß der Benutzer alles und benötigt die eingehenden Informationen nicht.

Der Verbraucher erwirbt die maximale Menge an semantischen Informationen I c, wenn er seinen semantischen Inhalt S mit seinem Thesaurus S p (S p = S p opt) koordiniert, wenn die eingehenden Informationen für den Benutzer verständlich sind und ihm bisher Unbekanntes (nicht in seinem Thesaurus) enthalten ) Information.

Folglich ist die Menge an semantischen Informationen in einer Nachricht, die Menge an neuem Wissen, das der Benutzer erhält, ein relativer Wert. Dieselbe Nachricht kann für einen kompetenten Benutzer einen sinnvollen Inhalt haben und für einen inkompetenten Benutzer bedeutungslos (semantisches Rauschen) sein.

Bei der Beurteilung des semantischen (inhaltlichen) Aspekts von Informationen ist eine Harmonisierung der Werte von S und S p anzustreben.

Ein relatives Maß für die Menge semantischer Informationen kann der Inhaltskoeffizient C sein, der als Verhältnis der Menge semantischer Informationen zu ihrem Volumen definiert ist:


Quantität und Qualität der Informationen

Ebenen der Informationsübertragungsprobleme

Bei der Umsetzung von Informationsprozessen werden Informationen stets räumlich und zeitlich von der Informationsquelle zum Empfänger (Empfänger) mittels Signalen übertragen. Signal - ein physikalischer Prozess (Phänomen), der eine Nachricht (Information) über ein Ereignis oder einen Zustand eines Beobachtungsobjekts übermittelt.

Nachricht- eine Form der Darstellung von Informationen in Form einer Reihe von Zeichen (Symbolen), die zur Übertragung verwendet werden.

Eine Nachricht als Zeichensatz kann aus Sicht der Semiotik – einer Wissenschaft, die die Eigenschaften von Zeichen und Zeichensystemen untersucht – auf drei Ebenen untersucht werden:

1) syntaktisch, Dabei werden die internen Eigenschaften von Nachrichten berücksichtigt, d. h. die Beziehungen zwischen Zeichen, die die Struktur eines bestimmten Zeichensystems widerspiegeln.

2) semantisch, wo die Beziehungen zwischen Zeichen und den von ihnen bezeichneten Objekten, Handlungen und Eigenschaften analysiert werden, d. h. der semantische Inhalt der Nachricht, ihre Beziehung zur Informationsquelle;

3) pragmatisch, Dabei wird die Beziehung zwischen der Nachricht und dem Empfänger betrachtet, d. h. der Verbraucherinhalt der Nachricht, ihre Beziehung zum Empfänger.

Probleme syntaktische Ebene befassen sich mit der Schaffung theoretischer Grundlagen für den Aufbau von Informationssystemen. Auf dieser Ebene betrachten sie die Probleme der Übermittlung von Nachrichten an den Empfänger als Zeichensatz unter Berücksichtigung der Art des Mediums und der Art der Informationsdarstellung, der Übertragungs- und Verarbeitungsgeschwindigkeit, der Größe der Informationsdarstellungscodes, der Zuverlässigkeit usw Genauigkeit der Konvertierung dieser Codes usw., völlig abstrahiert vom semantischen Inhalt von Nachrichten und ihrem beabsichtigten Zweck. Auf dieser Ebene werden Informationen, die nur aus syntaktischer Sicht betrachtet werden, üblicherweise als Daten bezeichnet, da die semantische Seite keine Rolle spielt.

Probleme semantische Ebene sind mit der Formalisierung und Berücksichtigung der Bedeutung der übermittelten Informationen verbunden und bestimmen den Grad der Übereinstimmung zwischen dem Bild des Objekts und dem Objekt selbst. Auf dieser Ebene werden die Informationen, die die Informationen widerspiegeln, analysiert, semantische Zusammenhänge berücksichtigt, Konzepte und Ideen gebildet, Bedeutung und Inhalt der Informationen offengelegt und deren Verallgemeinerung durchgeführt.



Auf einer pragmatischen Ebene Interesse an den Folgen des Erhalts und der Verwendung dieser Informationen durch den Verbraucher. Probleme auf dieser Ebene hängen mit der Bestimmung des Werts und der Nützlichkeit der Nutzung von Informationen zusammen, wenn der Verbraucher eine Lösung zur Erreichung seines Ziels entwickelt. Die Hauptschwierigkeit besteht darin, dass der Wert und Nutzen von Informationen für verschiedene Empfänger völlig unterschiedlich sein kann und darüber hinaus von einer Reihe von Faktoren abhängt, wie beispielsweise der Aktualität ihrer Übermittlung und Nutzung.

Informationsmaßnahmen

Maße für Informationen auf syntaktischer Ebene

Um Informationen auf syntaktischer Ebene zu messen, werden zwei Parameter eingeführt: die Informationsmenge (Daten) - V D(Volumenansatz) und Informationsmenge - ICH(Entropieansatz).

Informationsumfang V D. Bei der Umsetzung von Informationsprozessen werden Informationen in Form einer Nachricht übermittelt, bei der es sich um eine Reihe von Symbolen eines Alphabets handelt. Wenn die in einer Nachricht mit einem Zeichen enthaltene Informationsmenge als eins betrachtet wird, dann ist die Informationsmenge (Daten) V D in jeder anderen Nachricht entspricht der Anzahl der Zeichen (Ziffern) in dieser Nachricht.

Im dezimalen Zahlensystem hat also eine Ziffer das Gewicht 10, und dementsprechend ist die Maßeinheit der Informationen dit (Dezimalstelle). In diesem Fall eine Nachricht im Formular N V D= P dit. Beispielsweise hat die vierstellige Zahl 2003 ein Datenvolumen VD = 4 dit.

Im binären Zahlensystem hat eine Ziffer das Gewicht 2, und dementsprechend ist die Maßeinheit für Informationen das Bit (Bit (Binärziffer)- Binärzahl). In diesem Fall eine Nachricht im Formular N-Digitale Nummer hat Datenvolumen V D = p bisschen. Beispielsweise hat der Acht-Bit-Binärcode 11001011 ein Datenvolumen V D= 8 Bit.

In der modernen Datenverarbeitung wird neben der minimalen Dateneinheit Bits häufig auch die erweiterte Byteeinheit verwendet, die 8 Bits entspricht. Bei der Arbeit mit großen Informationsmengen werden größere Maßeinheiten zur Berechnung der Menge verwendet, z. B. Kilobyte (KB), Megabyte (MB), Gigabyte (GB), Terabyte (TB):

1 kByte = 1024 Bytes = 2 10 Bytes;

1 MB = 1024 KB = 2 20 Byte = 1.048.576 Byte;

1 GB = 1024 MB = 2 30 Byte = 1.073.741.824 Byte; .

1 TB = 1024 GB = 2 40 Byte = 1.099.511.627.776 Byte.

Informationsmenge I (Entropieansatz). In der Informations- und Kodierungstheorie wird ein Entropieansatz zur Messung von Informationen übernommen. Dieser Ansatz basiert auf der Tatsache, dass die Tatsache der Informationsgewinnung immer mit einer Abnahme der Diversität bzw. Unsicherheit (Entropie) des Systems verbunden ist. Auf dieser Grundlage wird die Informationsmenge in einer Nachricht als Maß für die Verringerung der Unsicherheit über den Zustand eines bestimmten Systems nach dem Empfang der Nachricht bestimmt. Sobald ein Beobachter etwas in einem physikalischen System identifiziert hat, nimmt die Entropie des Systems ab, weil das System für den Beobachter geordneter geworden ist.

Beim Entropieansatz wird Information also als der quantitative Wert der Unsicherheit verstanden, der während eines Prozesses (Testen, Messen usw.) verschwunden ist. In diesem Fall wird die Entropie als Maß für die Unsicherheit eingeführt N, und die Informationsmenge beträgt:

Wo H Apr - A-priori-Entropie über den Zustand des untersuchten Systems;

Zufällig- hintere Entropie.

A posteriori- aus Erfahrung (Tests, Messungen) stammen.

A priori- ein Konzept, das Wissen charakterisiert, das der Erfahrung vorausgeht (Prüfung) und von dieser unabhängig ist.

Für den Fall, dass während des Tests die bestehende Unsicherheit beseitigt wird (ein bestimmtes Ergebnis erhalten wird, d. h. Zufällig = 0) stimmt die Menge der empfangenen Informationen mit der anfänglichen Entropie überein

Betrachten wir als das untersuchte System eine diskrete Informationsquelle (eine Quelle diskreter Nachrichten), womit wir ein physisches System meinen, das eine endliche Menge möglicher Zustände hat. Das ist eine Menge A= (A 1, A 2 , ..., a p) Zustände eines Systems werden in der Informationstheorie als abstraktes Alphabet oder Alphabet einer Nachrichtenquelle bezeichnet.

Einzelne Staaten a 1, a 2,..., a„ werden Buchstaben oder Symbole des Alphabets genannt.

Ein solches System kann zu jedem Zeitpunkt zufällig einen Zustand aus einer endlichen Menge möglicher Zustände annehmen und ich.

Da einige Zustände von der Quelle häufiger und andere seltener ausgewählt werden, handelt es sich im allgemeinen Fall um ein Ensemble A, d. h. eine vollständige Menge von Zuständen mit Eintrittswahrscheinlichkeiten, die sich zu eins summieren:

, und (2.2)

Lassen Sie uns ein Maß für die Unsicherheit bei der Wahl des Quellzustands einführen. Es kann auch als Maß für die Informationsmenge betrachtet werden, die unter vollständiger Eliminierung der Unsicherheit hinsichtlich gleichwahrscheinlicher Zustände der Quelle erhalten wird.

Dann um N=1 wir bekommen AUF DER)= 0.

Dieses Maß wurde 1928 vom amerikanischen Wissenschaftler R. Hartley vorgeschlagen. Die Basis des Logarithmus in Formel (2.3) ist nicht von grundlegender Bedeutung und bestimmt nur den Maßstab oder die Maßeinheit. Abhängig von der Basis des Logarithmus sind die folgenden Einheiten der Messung verwendet werden.

1. Bits – in diesem Fall ist die Basis des Logarithmus gleich 2:

(2.4)

2. Nits – in diesem Fall ist die Basis des Logarithmus gleich e:

3. Dits – in diesem Fall ist die Basis des Logarithmus gleich 10:

In der Informatik wird üblicherweise Formel (2.4) als Maß für die Unsicherheit verwendet. In diesem Fall wird die Einheit der Unsicherheit als binäre Einheit oder Bit bezeichnet und stellt die Unsicherheit dar, die bei der Auswahl zweier gleich wahrscheinlicher Ereignisse entsteht.

Formel (2.4) kann empirisch ermittelt werden: Um die Unsicherheit in einer Situation mit zwei gleich wahrscheinlichen Ereignissen zu beseitigen, sind eine Erfahrung und dementsprechend ein Informationsbit erforderlich; im Falle einer Unsicherheit, die aus vier gleich wahrscheinlichen Ereignissen besteht, sind 2 Informationsbits erforderlich genügen, um die gewünschte Tatsache zu erraten. Um eine Karte aus einem Kartenspiel mit 32 Karten zu identifizieren, genügen 5 Bits an Informationen, d. h. es reicht aus, fünf Fragen mit den Antworten „Ja“ oder „Nein“ zu stellen, um die gesuchte Karte zu bestimmen.

Die vorgeschlagene Maßnahme ermöglicht die Lösung bestimmter praktischer Probleme, wenn alle möglichen Zustände der Informationsquelle die gleiche Wahrscheinlichkeit haben.

Im Allgemeinen hängt der Grad der Unsicherheit bei der Umsetzung des Zustands der Informationsquelle nicht nur von der Anzahl der Zustände ab, sondern auch von der Wahrscheinlichkeit dieser Zustände. Wenn eine Informationsquelle beispielsweise zwei mögliche Zustände mit Wahrscheinlichkeiten von 0,99 und 0,01 aufweist, ist ihre Auswahlunsicherheit deutlich geringer als die einer Quelle mit zwei gleich wahrscheinlichen Zuständen, da in diesem Fall das Ergebnis praktisch vorbestimmt ist ( Realisierung des Zustands, Wahrscheinlichkeit, die gleich 0,99 ist).

Der amerikanische Wissenschaftler K. Shannon verallgemeinerte das Konzept eines Maßes für die Entscheidungsunsicherheit H falls H hängt nicht nur von der Anzahl der Zustände ab, sondern auch von den Wahrscheinlichkeiten dieser Zustände (Wahrscheinlichkeiten). p i Charakterauswahl und ich, Alpha Beta). Dieses Maß, das die Unsicherheit pro Staat im Durchschnitt darstellt, wird aufgerufen Entropie einer diskreten Informationsquelle:

(2.5)

Wenn wir uns erneut auf die Messung der Unsicherheit in binären Einheiten konzentrieren, sollte die Basis des Logarithmus gleich zwei angenommen werden:

(2.6)

Bei gleichwahrscheinlichen Wahlen ist die Wahrscheinlichkeit p i =1/N Formel (2.6) wird in R. Hartleys Formel (2.3) umgewandelt:

Das vorgeschlagene Maß wurde nicht zufällig Entropie genannt. Tatsache ist, dass die formale Struktur des Ausdrucks (2.5) mit der zuvor von Boltzmann definierten Entropie des physikalischen Systems übereinstimmt.

Mit den Formeln (2.4) und (2.6) können wir die Redundanz ermitteln D Alphabet der Nachrichtenquelle A, was zeigt, wie rational die Symbole eines bestimmten Alphabets verwendet werden:

Wo N max (A) - die maximal mögliche Entropie, bestimmt durch Formel (2.4);

AUF DER) - Entropie der Quelle, bestimmt durch Formel (2.6).

Der Kern dieser Maßnahme besteht darin, dass bei einer gleichwahrscheinlichen Wahl durch die Verwendung eines kleineren Alphabets die gleiche Informationslast auf einem Zeichen sichergestellt werden kann wie bei einer ungleichen Wahl.

Ebenen der Informationsübertragungsprobleme

Bei der Umsetzung von Informationsprozessen werden Informationen immer räumlich und zeitlich von der Informationsquelle zum Empfänger (Empfänger) übertragen. In diesem Fall werden verschiedene Zeichen oder Symbole zur Übermittlung von Informationen verwendet, beispielsweise in natürlicher oder künstlicher (formeller) Sprache, sodass diese in einer Form ausgedrückt werden können, die als Nachricht bezeichnet wird.

Nachricht- eine Form der Darstellung von Informationen in Form einer Reihe von Zeichen (Symbolen), die zur Übertragung verwendet werden.

Eine Nachricht als Zeichensatz aus semiotischer Sicht (aus dem Griechischen). semiion - Zeichen, Attribut) – eine Wissenschaft, die die Eigenschaften von Zeichen und Zeichensystemen untersucht – kann auf drei Ebenen untersucht werden:

1) syntaktisch, Dabei werden die internen Eigenschaften von Nachrichten berücksichtigt, d. h. die Beziehungen zwischen Zeichen, die die Struktur eines bestimmten Zeichensystems widerspiegeln. Externe Eigenschaften werden auf semantischer und pragmatischer Ebene untersucht;

2) semantisch, wo die Beziehungen zwischen Zeichen und den von ihnen bezeichneten Objekten, Handlungen und Eigenschaften analysiert werden, d. h. der semantische Inhalt der Nachricht, ihre Beziehung zur Informationsquelle;

3) pragmatisch, Dabei wird die Beziehung zwischen der Nachricht und dem Empfänger betrachtet, d. h. der Verbraucherinhalt der Nachricht, ihre Beziehung zum Empfänger.

Unter Berücksichtigung eines bestimmten Zusammenhangs zwischen den Problemen der Informationsübertragung und den Ebenen der Untersuchung von Zeichensystemen werden sie daher in drei Ebenen unterteilt: syntaktische, semantische und pragmatische.

Probleme syntaktische Ebene befassen sich mit der Schaffung theoretischer Grundlagen für den Aufbau von Informationssystemen, deren wesentliche Leistungsindikatoren möglichst nahe am Maximum liegen, sowie mit der Verbesserung bestehender Systeme, um die Effizienz ihrer Nutzung zu steigern. Hierbei handelt es sich um rein technische Probleme der Verbesserung der Methoden zur Übertragung von Nachrichten und ihrer materiellen Träger – Signale. Auf dieser Ebene betrachten sie die Probleme der Übermittlung von Nachrichten an den Empfänger als Zeichensatz unter Berücksichtigung der Art des Mediums und der Art der Informationsdarstellung, der Übertragungs- und Verarbeitungsgeschwindigkeit, der Größe der Informationsdarstellungscodes, der Zuverlässigkeit usw Genauigkeit der Konvertierung dieser Codes usw., völlig abstrahiert vom semantischen Inhalt von Nachrichten und ihrem beabsichtigten Zweck. Auf dieser Ebene werden Informationen, die nur aus syntaktischer Sicht betrachtet werden, üblicherweise als Daten bezeichnet, da die semantische Seite keine Rolle spielt.

Die moderne Informationstheorie untersucht hauptsächlich Probleme auf dieser Ebene. Es basiert auf dem Konzept der „Informationsmenge“, einem Maß für die Häufigkeit der Verwendung von Zeichen, das in keiner Weise die Bedeutung oder Wichtigkeit der übermittelten Botschaften widerspiegelt. In diesem Zusammenhang wird manchmal gesagt, dass die moderne Informationstheorie auf der syntaktischen Ebene angesiedelt sei.

Probleme semantische Ebene sind mit der Formalisierung und Berücksichtigung der Bedeutung der übermittelten Informationen verbunden und bestimmen den Grad der Übereinstimmung zwischen dem Bild des Objekts und dem Objekt selbst. Auf dieser Ebene werden die Informationen, die die Informationen widerspiegeln, analysiert, semantische Zusammenhänge berücksichtigt, Konzepte und Ideen gebildet, Bedeutung und Inhalt der Informationen offengelegt und deren Verallgemeinerung durchgeführt.

Probleme auf dieser Ebene sind äußerst komplex, da der semantische Inhalt von Informationen mehr vom Empfänger als von der Semantik der in einer beliebigen Sprache präsentierten Nachricht abhängt.

Auf pragmatischer Ebene interessieren wir uns für die Konsequenzen, die der Empfang und die Nutzung dieser Informationen durch den Verbraucher haben. Probleme auf dieser Ebene hängen mit der Bestimmung des Werts und der Nützlichkeit der Nutzung von Informationen zusammen, wenn der Verbraucher eine Lösung zur Erreichung seines Ziels entwickelt. Die Hauptschwierigkeit besteht darin, dass der Wert und Nutzen von Informationen für verschiedene Empfänger völlig unterschiedlich sein kann und darüber hinaus von einer Reihe von Faktoren abhängt, wie beispielsweise der Aktualität ihrer Übermittlung und Nutzung. Hohe Anforderungen an die Geschwindigkeit der Informationsbereitstellung ergeben sich häufig aus der Tatsache, dass Kontrollaktionen in Echtzeit durchgeführt werden müssen, d. h. mit der Geschwindigkeit der Zustandsänderung gesteuerter Objekte oder Prozesse. Verzögerungen bei der Bereitstellung oder Nutzung von Informationen können katastrophale Folgen haben.