Fehlertoleranz mobiler Agenten
Von der Fakultät Informatik der Universität Stuttgart 
zur Erlangung der Würde eines Doktors der
Naturwissenschaften (Dr. rer. nat.) genehmigte Abhandlung
Vorgelegt von
Markus Straßer
aus Urach, jetzt Bad Urach
Hauptberichter: Prof. Dr. rer. nat. Dr. h. c. Kurt Rothermel
Mitberichter: Prof. Dr.-Ing. habil. Bernhard Mitschang
Tag der mündlichen Prüfung: 19. 11. 2002
Institut für Parallele und Verteilte Systeme (IPVS)
der Universität Stuttgart
2003

Danksagung
Mein besonderer Dank gilt meinem Doktorvater, Prof. Dr. Kurt Rothermel, der mich durch seine
Bereitschaft zu Diskussionen und seine Denk- und Motivationsanstöße sehr konstruktiv bei der
Durchführung meines Forschungsvorhabens unterstützt und betreut hat. 
Ebenfalls sehr herzlich bedanken möchte ich mich bei meinem Zweitbetreuer, Prof. Dr. Bern-
hard Mitschang, für die Bereitschaft, als Mitberichter zur Verfügung zu stehen und für alle ge-
führten Diskussionen und Tips, die er mir gegeben hat.
Einen sehr positiven Einfluß auf das Gelingen dieser Arbeit hatten neben meinem langjährigen
Büro- und Teamkollegen Wolfgang Theilmann insbesondere auch die anderen Mitglieder des
Mole-Teams, Joachim Baumann, Fritz Hohl und Markus Schwehm. Ohne die vielen, konstruk-
tiven Diskussionen und die Motivation, die sich aus der Gruppe heraus entwickelte, wäre der
Weg zum Ziel wesentlich steiniger gewesen. Ein herzliches Dankeschön, auch für das Korrek-
turlesen dieser Arbeit!
Ebenfalls sehr hilfreich, interessant und angenehm war die Zusammenarbeit mit vielen Studen-
ten, die in unserem Team ihre Studien- und Diplomarbeiten durchführten. 
Schließlich will ich mich auch bei den restlichen Kollegen der Abteilung Verteilte Systeme für
die gute, hilfreiche und sehr humorvolle Zusammenarbeit und für viele nützliche Diskussionen
bedanken.
Meinem derzeitigen Kollegen Carl Mayer danke ich für das Korrekturlesen der englischen Zu-
sammenfassung.
Zu guter letzt möchte ich mich bei denen bedanken, ohne die diese Arbeit gar nicht möglich ge-
wesen wäre: meinen Eltern. Sie waren immer für mich da, haben mir den Rücken gestärkt und
haben trotz des für sie sehr trockenen Themas diese Arbeit Korrektur gelesen.
Markus Straßer

5Kurzfassung
Mobile Agenten sind Programme, die sich zur Ausführung ihrer Aufgabe autonom zwischen
Ausführungsumgebungen in einem Rechnernetz bewegen können, um die jeweiligen lokalen
Ressourcen der Rechner zu nutzen. Neben Lösungen im Bereich der Sicherheit und der Kon-
trolle mobiler Agenten ist die Zuverlässigkeit der Ausführung von mobilen Agenten eine der
Grundvoraussetzungen für die breite Anwendung dieser Technologie. Die vorliegende Arbeit
erarbeitet Lösungen für die zuverlässige Ausführung mobiler Agenten und das zuverlässige,
partielle Rücksetzen der Agentenausführung. 
Um den Ausfall von Rechnern, auf denen ein Agent einen Teil seiner Aufgabe ausführen möch-
te, einfacher tolerieren zu können ist es vorteilhaft, wenn dem Agenten Alternativen zur Aus-
wahl stehen. Als Basisbaustein für die fehlertolerante Ausführung wird daher ein flexibles Rei-
seroutenkonzept entwickelt. Dieses Konzept erlaubt nicht nur die Spezifikation alternativer
Ausführungsrechner sondern erlaubt auch, die einer Anwendung inhärenten Alternativen der
Ausführungsreihenfolge der einzelnen Aufgabenteile offenzulegen.
Für die fehlertolerante Ausführung werden zwei Mechanismen entwickelt. Der Basismechanis-
mus stellt die genau-einmal Ausführung eines Agenten durch transaktionale Ausführung des
Agenten sicher. Die blockierungsfreie Ausführung von Agenten wird durch eine Erweiterung
dieses Basismechanismus sichergestellt, bei der die Ausführung des Agenten durch mehrere
Rechner überwacht und im Fehlerfalle weitergeführt wird. Die Korrektheit der Mechanismen
wird in einem informalen Beweis nachgewiesen und eine analytische Bewertung der Mechanis-
men durchgeführt.
Da für das partielle Rücksetzen der Agentenausführung ein einfaches Rücksetzen auf einen al-
ten Zustand nicht ausreicht, kommen hierfür Kompensationsoperationen zum Einsatz. Die zu-
verlässige Ausführung der Kompensation wird durch transaktionale Ausführung sichergestellt.
Um den Anwendungsentwickler möglichst stark zu entlasten, werden die Daten des Agenten in
zwei unterschiedliche Klassen aufgeteilt. Ein Teil der Daten des Agenten kann von der Ausfüh-
rungsumgebung durch eine Kopie des alten Zustandes zurückgesetzt werden. Für den anderen
Teil der Agentendaten und für die Ressourcen müssen Kompensationsoperationen zur Verfü-
gung gestellt werden. Eine Klassifizierung der Kompensationsoperationen erlaubt Optimierun-
gen bei der Kompensation. 
6
7Fault-Tolerance of Mobile Agents
Extended english abstract of the dissertation
“Fehlertoleranz mobiler Agenten”
1 Introduction
The current, rapid development of the information society comes along with the opening of the
Internet to the broad masses. The increase of the Internet size and capacity during the last decade
has been extraordinary and has been seconded only by the even vaster increase of Internet users.
New developments in the area of consumer electronics provide easy access to the Internet (e.g.
by using web pads) or allow the mobile access to the net. Additionally, the number and variety
of services provided via Internet increases permanently. This development results in several
problems and new challenges, for example the permanent overload of the Internet or the mobile
Internet access using unstable GSM connections with low bandwidth.
A technology to solve several of these problems has been introduced in the early 1990s: mobile
agents. Mobile agents are programs, which autonomously execute a task on behalf of their own-
er. While executing their task, mobile agents are able to move within a network of computers,
i.e. they are able to shift their program execution from one computer to another (migration). This
enables an agent to efficiently access resources locally instead of accessing these resources us-
ing global communication. An example illustrates this: An agent has to search some specific in-
formation in a huge database using a sophisticated information retrieval algorithm. Since the da-
tabase allows only simple searches, the agent has to read most of the database to finally find the
required information. If the database is not local to the agents execution environment, all the in-
formation has to be transferred to the agent. However, if the agent is able to migrate to the da-
tabase, only the agent (i.e. its program code and execution state) and the result has to be trans-
ferred over the network. Depending on the agent size and the size of the result, this may be a
considerable smaller amount of data which has to be transferred over the network.
Although the technology of mobile agents seems to be promising for several application areas,
it is not used wide-spread up to now. One of the main reasons is, that some of the topics which
are very important for the commercial use of mobile agents – control mechanisms, security and
fault-tolerance – are still subject to research. This thesis deals with the fault-tolerance of mobile
agents. The following scenario from the area of electronic commerce outlines the importance of
fault-tolerance in the area of mobile agents: A concierge agent has the task to organize a busi-
ness trip. It first travels to the server of the airline and books the flight. Afterwards, it reserves
a car and the hotel on the respective servers and sends the result to the user. Since the agent
moves autonomously, the user can not directly monitor the agents actions. Therefore, it is im-
possible for the user to detect that the agent has been lost or blocked due to a system failure.
Furthermore, it is not acceptable that the agent executes only a part of its task or that it executes
8some parts more than once (e.g. books two flights). For reliable execution, it has to be ensured
that the agent executes its task exactly-once as fast as possible without being blocked even in
the presence of system failures. Currently available mobile agent platforms do not cover these
requirements. 
Based on a realistic system and error model, this thesis develops an algorithm which ensures
exactly-once execution of an agents task and prevents the agent from being blocked by system
failures. As a prerequisite to this algorithm, an itinerary concept is developed which allows to
specify the application-inherent alternatives regarding the execution order of the sub-tasks of an
agent as well as the possible alternatives regarding the computers where the sub-tasks have to
be executed. Finally, based on the mechanism for the exactly-once execution of mobile agents,
a mechanism is developed which allows the partial rollback of an agents execution.
2 Mobile agents
As defined by WHITE (1997), mobile agents are programs autonomously executing a task on be-
half of their owner. In order to do this, they can move between execution environments (or hosts,
also called places), use the resources offered by these environments and communicate with oth-
er agents. 
For the mechanisms in the following sections, a more detailed model of mobile agents is neces-
sary: The task of an agent consists of several sub-tasks which are executed sequential. A sub-
task is also called a step. A step can be executed several times during an agents lifetime, e.g. the
step queryPriceList has to be executed in several shops before the shopping agent buys some
goods at the cheapest shop. Each step is executed entirely inside one execution environment.
Several (not necessarily consecutive) steps may be executed in the same execution environment
(place). During the execution of a step, the agent can access the resources and services offered
by the place. On each physical host exists at most one execution environment for mobile agents.
Migration between places is performed using weak migration, i.e. only the agents program code
and data state (global variables) but not the execution state (stack, local variables) are trans-
ferred to the target place (see CUGOLA ET AL. (1996)). Agents have a globally unique name
which is non-mutable during the agents execution. Mobile agents can not communicate to other
mobile agents and are not able to start new mobile agents (these last two restrictions are neces-
sary for the mechanisms developed in the next sections).
3 Itineraries
While performing a job, a mobile agent often has to visit several places to access local services.
In many cases, some (or all) of these places are either known before agent initialization or can
be determined by the agent several steps in advance. However, as in real life, there is no strict
order in which the places have to be visited. For example, an agent having to order a CD and a
theatre ticket, may perform these tasks in any sequence. Furthermore, if there are several
branches of a music shop, the agent needs to visit only one of these branches. If this freedom in
9an agents travel plan is made visible to the mobile agent system, this can be exploited in different
ways. One possibility is, that the agent system may calculate the shortest possible path for the
agent. Another, more important possibility is that this information may be used to increase the
level of fault-tolerance in the system. If the system can choose between several places which the
agent can visit and one of these places is currently unavailable, it is able to postpone the visit of
this place automatically or may choose an alternative place instead. 
To clarify this, let us consider the following scenario: Paul, planning to spend a romantic
evening with his wife, instructs his personal concierge agent to order some flowers, to buy a
ticket for the theatre and to make a reservation for a table in a nice restaurant close to the theatre.
The play for which the agent has to buy tickets is currently enacted in two different theatres. To
fulfil the job, the agent has to visit the place of the flower service, one of the two places offering
the ticket service for the respective theatre (unfortunately, there is no central ticket service for
both theatres), and, depending on the chosen theatre, the place of the restaurant. An itinerary for
this example has to specify, that, besides ordering the flowers in a flower shop, the agent has to
visit one of the two places offering the ticket service and, afterwards, the respective place of the
restaurant. 
The tree in figure 3-1 shows all possible paths that can be taken by Paul’s agent. The path, where
the agent first orders the flowers, then buys a ticket in the ModernArts theatre and finally makes
a reservation for a table at the BeefHouse is marked bold. The tree shows, that in each step ex-
cept the last one there is more than one possible target for the agent to be transferred to. If, for
example, the agent has started by ordering the flowers, the system may chose to transfer the
agent to the CentralTheatre or the ModernArts place alternatively. Therefore, the agent may pro-
ceed even if one of those two places is unavailable. In the thesis, two itinerary concepts provid-
ing the necessary flexibility are developed. The more flexible of the developed concepts allows
to define itineraries by specifying preconditions which have to be fulfilled in order to execute a
step and it supports the nesting of itineraries. A detailed description of those concepts can be
found in STRASSER UND ROTHERMEL (1998). 
Figure 3-1. Tree of possible paths of the concierge agent.
FlowerLand
CentralTheatre
ModernArts
KingsInn
BeefHouse
CentralTheatre
ModernArts
KingsInn
BeefHouse
FlowerLand
FlowerLand
FlowerLand KingsInn
BeefHouseFlowerLand
10   4 Exactly-once execution
In this section, two algorithms for the exactly-once execution are developed based on the system
model, the failure model and the definition for exactly-one execution of mobile agents given at
the beginning of the section.
The algorithms described in this chapter have already been published in ROTHERMEL UND
STRASSER (1998), STRASSER UND ROTHERMEL (1998) and STRASSER, ROTHERMEL UND
MAIHÖFER (1998).
4.1 System model and failure model
This section defines the system and failure model used in the thesis. The system model describes
the relevant parts of a system. A distributed system consists of several places (execution envi-
ronments) which are interconnected by a network. A place consists of a processor and private
volatile and stable storage. A program is executed within a process, concurrent threads within a
process are possible. To manage timeouts, each place has a correct clock. Communication be-
tween places is performed by message exchange using communication channels. There is a
communication channel between each pair of processes. The system is asynchronous (no upper
time limit for the execution of commands or for message transmission).
The failure model defines the possible failures in the system. Places only suffer from crash fail-
ures. If a place crashes, all programs on the place stop executing – the crash of a (real) subset of
the processes is not possible. All information in the volatile storage (execution state of the proc-
esses) is lost in case of a crash, information stored on stable storage is not lost. The stable storage
and communication between processes in a place are error-free. The network also suffers from
crash failures, failures always result in network partitions. Places within a network partition can
communicate, places in different partitions can not. Communication within a partition is error-
free. Since the system is asynchronous, place failures and network failures can not be distin-
guished. Crashes are only temporary and the crashed component (place/network) is available
again after restart/repair.
4.2 Definition “exactly-once execution”
The exactly-once property has already been defined for RPC systems by SPECTOR (1982),
where he defines the failure semantics of a single remote procedure. However, in the context of
mobile agents, a sequence of agent steps is to be considered rather than a single procedure.
Therefore, the definition of the exactly-once property of mobile agents is based on the informa-
tion contained in the agent’s itinerary and on the steps to be performed at the visited places.
Let P={P1,...,Pn} be the set of all possible paths the agent may take for a given itinerary, let L(Pi)
be the number of places in path Pi=[Ni,1,Ni,2,...,Ni,L(Pi)] and let Si,j be the step to be performed
11on the j-th place Ni,j of path Pi (1≤i≤n, 1≤j≤L(Pi)). Then the execution of an agent is defined to
be exactly-once iff
• only places Ni,1,...,Ni,L(Pi) belonging to one path Pi∈P are visited, 
• the agent executes step Si,j before step Si,j+1, 1≤j<L(Pi), and
• each step Si,j 1≤j≤L(Pi) is executed exactly once.
In the scenario of Section 3, an electronic commerce system providing the exactly-once property
for mobile agents guarantees, that the agent visits the flower shop, only one of the two theatres
and the restaurant associated with that theatre. The steps which have to be executed on these
places are performed in one of the orders defined by the tree of possible paths in figure 3-1. Each
of these steps is executed exactly once.
4.3 The basic protocol
The exactly-once property of mobile agents can be achieved in a simple way by using transac-
tional message queues. Transactional message queues provide for persistent messages and en-
sure the exactly-once delivery (see e.g. GRAY UND REUTER (1993)). Moreover, the Put and Get
operations, which put a message in a queue or get a message out of a queue, can be performed
within ACID transactions (see e.g. HÄRDER UND REUTER (1983)).
Figure 4-1 depicts how transactional message queues can be used to implement exactly-once
agents. At each migration and at the start of an agent, the run-time system chooses one of the
possible destinations of the agent. The place can be chosen either randomly or by performing
optimizations, e.g. calculating a shortest path, using the information contained in the itinerary.
The possible destinations an agent may visit next according to the itinerary are contained in the
NextSet, which is provided by the itinerary. At the start, the agent is put in the input queue of
the first place in the path. Once the agent has been stored in this initial queue (Q1 in our exam-
ple), the owner of the agent can be informed that this agent - provided that a crashed place re-
covers eventually - will eventually be performed exactly once.
All places (with the exception of the last one, Ni,k) perform the following sequence of opera-
tions: Begin_Transaction; Get(Agent); Execute(Agent); Put(Agent); Commit. Get removes an
agent from the place’s input queue, Execute performs the received agent locally, and Put places
it in the input queue of the next place. All three operations are performed within a transaction
and hence build an atomic unit of work. So, if for instance transaction Tj aborts due to a place
Figure 4-1. Exactly-once execution of mobile agents with the base protocol.
Q1 Q2Ni,1
Execute
PutGet
T1
Q3Ni,2
Execute
PutGet
T2
Qk Ni,k
Execute
Get
Tk
Launch
12   or transaction failure, recovery undoes all of the agent’s effects at Ni,j and restores the agent in
its original state in Qj. Any effects in Qj+1 are also undone. After recovery is finished, Ni,j con-
tinues normal processing and will eventually execute this agent and then hand it over to its suc-
cessor. 
Although this protocol guarantees the exactly-once property of mobile agents, it is possible that
agents are caught in the (local) input queue of a place that crashes after the agents have been put
into the queue. A partitioning of the underlying network may have similar effects. In contrast to
client/server processing, where a client calling the operations of a server monitors the availabil-
ity of this server, there is no “natural” instance to monitor the progress of an agent because of
the autonomy of mobile agents. Therefore, a novel protocol is presented in the following section
that enables the system to monitor the agents execution and, if necessary, allows it to react on
failures by executing the agent on alternative places. 
4.4 The blocking-free protocol
To allow for fault-tolerance, the execution model described above is extended by the concept of
stages (see also SCHNEIDER (1997A)): for each step there is a non-empty set of places, called a
stage, which can perform the next step alternatively. One place of the stage, holding the role of
the worker, executes the agent while the other places of the stage, the observers, monitor the
availability of the stage’s worker. When the worker becomes unavailable (caused by either the
failure of the worker place or a network partition), this will be detected by the observer places,
which will then elect a new worker from the set of available stage places. Each stage place is
associated with a priority (which may be specified in the itinerary or determined by the system)
that defines a total ordering between the places belonging to the same stage (which is required
for the voting and selection process). The initial worker of a stage will become the place with
the highest priority. Figure 4-2 shows a three-stage execution of an agent. For example, stage S1
is associated with one worker and four observers. In S2, the place with the highest priority (1)
fails and the place with priority 2 is selected to be the new worker.
The execution of an agent on the worker place is performed inside an ACID transaction. To start
the agent, the worker place begins a new transaction, reads the agent from its transactional input
Figure 4-2. Execution of an agent in three stages
4
3
2
1
5
3
2
1
4
3
2
1
5
S1 S2 S3
13queue and executes the agent. All actions of the agent are performed inside this transaction. Af-
ter the agent issues the command to move to the next place, the worker puts the agent into the
input queues of the places of the next stage and commits the transaction. Figure 4-3 shows the
transactional execution of an agent in stage Si. Please note that the Read operations of the ob-
servers are excluded from the transactions, because including them would require all stage plac-
es to be available to commit the stage.
The fault-tolerance of the protocol is provided by incorporating three different protocols into
stage processing. The monitoring protocol monitors the availability of a stage’s worker. The
worker of a stage periodically sends I_Am_Alive messages to the observers of the stage. If an
observer times out while waiting for an I_Am_Alive message, it assumes the worker to be una-
vailable (either due to a place crash or network partitioning) and initiates the selection protocol. 
The selection of a new worker place is performed by the selection protocol. The selection pro-
tocol is a variant of the bully algorithm (see GARCIA-MOLINA (1982)). An observer detecting
the failure of the worker sends an Are_You_There message to all places in the stage with a higher
priority. Available places (observers as well as workers) reply to this message with an
I_Am_There message. If no reply arrives within a reasonable time, the initiator decides to be the
new worker and informs the other places of the stage about it. If the initiator receives a reply
instead, it cancels its selection procedure and starts monitoring the new worker. This protocol
results in the place with the highest priority being selected as the new worker.
In the presence of network partitioning, the protocol presented so far selects a worker in each
partition. If two partitions are rejoined, two workers remain in the resulting partition. The voting
protocol is responsible to ensure that only one worker may commit its transaction. This voting
protocol has to be integrated into the two-phase commit protocol (2PC) of the transaction. When
the transaction manager issues the prepare request, voting requests are sent to all stage places.
A stage place receiving a voting request responds depending on the fact if it has already voted
for another place in the stage or not. Only if a worker place gets a majority of votes from the
other stage places, the transaction on this place commits and the other stage places are notified
about the commit. Otherwise, the transaction is aborted on this place.
The thesis contains an informal proof of correctness of the protocol. Some considerations on
communication overhead and an algorithm for stage construction contained in the thesis have
been published in STRASSER, ROTHERMEL UND MAIHÖFER (1998).
Figure 4-3. Transactional processing of an agent in a stage
3
2
1
3
2
1
Write
Write
Write
Read Read
Read
Read
S
i
T
i
S
i+1
Execute
14   4.5 Analytical evaluation
An in-depth analytical evaluation of the protocols has been performed. A comparison of the
blocking probability shows, that the blocking-free protocol extremely reduces the probability
that an agent gets blocked (however, the probability is not 0). Furthermore, the average time an
agent stays in a stage has been calculated using a Markov model. The calculation shows, that
the average time in a stage with several places is only moderately higher than in a stage with
only one place (i.e. in the basic protocol). Therefore, the blocking-free protocol is well suited
for any application that can not afford longer interruptions of the agent execution due to system
errors.
5 Partial rollback
In this section, a protocol for the partial rollback of mobile agents executed using one of the ex-
actly-once execution protocols of the previous section is presented. The basic ideas of this pro-
tocol are shown in figure 5-1. 
The figure shows the execution of the steps Si to Si+3 of the Agent A. During each step, the state
of the agent as well as the state of the resources of the executing place are changed. Ai describes
the agents data state before the execution of step Si, and  describe the state of the resourc-
es Ri of place Pi before and after the execution of the agent’s i-th step. During the execution of
step Si+3, the agent (or the execution environment) decides, that the agent has to be rolled back
to its last savepoint (savepoints have to be established by the agent). The step transaction is
aborted and leaves the agent in the input queue of place Pi+3. Now, the steps Si+2, Si+1 and Si
must be rolled back. Since those steps have been executed within committed transactions, it is
Figure 5-1. Partial rollback
Ri
1 Ri
2
Pi
Ri
write read
compensate
compensate
CTi
4
Ai
Qi
Ri
3
AW,i
AS,i
Ai
Pi+1
Ri+1
write read
compensate
compensate
CTi+1
4
Ai+1
Qi
Ri+1
3
AW,i+1
AS,i+3
Ai+1
Pi
Ri
read write
execute
access
Ti
1
Ai
Qi
Ri
2
Pi+1
Ri+1
read write
execute
access
Ai AW,i
AS,i
Ti+1
abort
savepoint j
e
x
e
c
u
t
i
o
n
r
o
l
l
b
a
c
k
1
AW,i+3
AS,i+3
Ai+3
savepoint j
CTinit
Ai+1
Qi+1
Ri+1
2
Pi+2
Ri+2
read write
execute
access
Ti+2
1
Ai+2
Qi+2
Ri+2
2
Pi+3
Ri+3
read
execute/rollback
access
1
Ai+3
Qi+3
Ri+3
2
Ti+3
Ri+3
1
Ai+3
Qi+3
Pi+2
Ri+2
write read
compensate
compensate
CTi+2
4
Ai+2
Qi+1
Ri+2
3
Ai+3
Qi+2
AW,i+3
AS,i+3
Ai+3
AW,i+2
AS,i+3
Ai+2
15not possible to simply restore the previous state of the resources of the places the agent visited
in these three steps – another agent or program possibly already made changes to the resources.
Therefore, the resources of the places have to be rolled back using compensation operations. As
KORTH, LEVY UND SILBERSCHATZ (1990) have shown, the use of compensation operations for
resources also requires the use of compensation operations for the program state. Therefore, the
agents data state is rolled back also using compensation operations. To provide the exactly-once
property for the agent rollback, the principles of the basic mechanism from the previous section
are used for the compensation: the compensation of each step is executed within a compensation
transaction CT on the same place on which the step has been executed. In figure 5-1, Ai symbol-
ises the agents data state after compensation of step Si, and  describe the state of the re-
sources Ri of place Pi before and after the compensation of that step. Since compensation is
used, Ai and  are in general not the same states as Ai and  but only semantically equivalent
states.
The compensation operations necessary for the rollback of the steps have to be provided by the
agent developer. To simplify this task, the data of the agent is classified into two different types.
Strongly reversible data is data that can be rolled back using a copy of the previous state. If, for
example, an agent collects data and stores this data in a vector, this data can simply be rolled
back by restoring the original state of the vector. AS,i symbolises the strongly reversible data part
of the agents data in figure 5-1. Weakly reversible data (symbolised with AW,i and AW,i) is the
(remaining) data of the agent which has to be rolled back using compensation operations. An
example for such data is an electronic purse containing electronic coins. If a transaction where
the agent paid goods using electronic coins has to be compensated, the original coins have al-
ready been transferred to the sellers bank and therefore the seller can only provide coins with
the same value but different serial numbers.
The strongly reversible data (which has to be declared by the developer as strongly reversible)
is automatically stored at savepoints. Therefore, no additional effort of the developer is neces-
sary for the rollback of this data. Only for the compensation of the weakly reversible data and
the resources data, compensation operations have to be provided.
The data necessary for the rollback is stored in the agent rollback log. It contains the data stored
in savepoints and the compensation operations as well as additional data necessary for the com-
pensation operations. For the strongly reversible data, physical logging (see HÄRDER UND
REUTER (1983)) is used: an image of the strongly data is written into the log (state logging). For
the weakly reversible data, logical logging is used: the compensation operations as well as their
parameters are written into the log.
The agent rollback log is appended to the agent and migrates with the agent. Appending the log
to the agent has two advantages. First, there is no need for any distributed actions to delete the
log data when the agent finishes its execution. Secondly, the log data is always available when-
ever the agent is available and therefore, rollback is always possible as long as the resources
which have to be rolled back are available. This second advantage is not important for the algo-
Ri
3 Ri
4
Ri
4 Ri
1
16   rithm described above, but an optimization described below benefits from it. A drawback of ap-
pending the log to the agent is, that the agent’s size grows with the log size.
The thesis presents two optimizations of the rollback mechanism. The first optimization takes
advantage of the fact that the rollback log is appended to the agent. If the agent did not alter any
resources during its execution on a place, it is not necessary to migrate the agent to this place
for the rollback – the operations performed on the agent’s state on that place can be compensated
wherever the agent resides. If e.g. the agent in figure 5-1 did not alter any data of place Pi+1 dur-
ing its step Si+1, it is not necessary to migrate the agent to Pi+1 during the rollback since the com-
pensation operations on the agent state necessary to compensate Si+1 can be executed on place
Pi+2 as well as on Pi. Further optimizations allow to send compensation operations to the place
where a step has been executed instead of migrating the agent. 
The second optimization deals with the size of the rollback log. The main possibility to reduce
the size of the rollback log is to reduce the number of savepoints to which the agent execution
can be rolled back. The thesis proposes the integration of savepoint generation into an itinerary
concept which allows the automatic deletion of log data which is not needed any more.
An early version of the algorithms has been presented in STRASSER UND ROTHERMEL (2000).
6 Conclusions
Mobile agents are a new and promising technology to develop distributed applications which
currently suffers from the lack of mechanisms for reliable agent execution. This thesis closes
the gap by presenting novel mechanisms for the exactly-once execution and rollback of mobile
agents. The mechanisms for exactly-once execution guarantee that all sub-tasks of an agent are
executed eventually exactly-once in a correct order despite the occurrence of system failures.
The blocking-free variant additionally considerably reduces the probability that an agent is
blocked due to system failures. The mechanism for partial rollback allows the partial rollback
of an agent executed with one of the exactly-once execution mechanisms. The rollback is also
performed exactly-once.
The exactly-once execution mechanisms can also be applied to non-agent applications. The pre-
requisite for their use is, that the application which has to be executed exactly-once must be able
to write a savepoint on stable storage from which the execution can be resumed. If the blocking-
free mechanism should be applied, it is necessary that the data written at a savepoint allows the
resumption of the execution on any system contained in a stage. The general use of the presented
rollback mechanisms is much more difficult and therefore subject to research.
Further investigations are also necessary to allow a single step to span the agent execution on
several places and to incorporate the ability of agents which are executed exactly-once to direct-
ly communicate with other agents.
However, the mechanisms presented in this thesis provide support for reliable mobile agent ex-
ecution for the most important application classes, allowing the use of mobile agent technology
even in critical application areas like electronic commerce.
17
18   
19Inhaltsverzeichnis
Danksagung ............................................................................................................................... 3
Kurzfassung ............................................................................................................................... 5
Extended english abstract of the dissertation ............................................................................ 7
Inhaltsverzeichnis .................................................................................................................... 19
Abkürzungsverzeichnis ........................................................................................................... 23
1 Einführung ........................................................................................................................ 25
1.1 Motivation ................................................................................................................... 25
1.2 Wissenschaftlicher Beitrag .......................................................................................... 27
1.3 Aufbau der Arbeit ........................................................................................................ 29
2 Mobile Agenten ................................................................................................................. 31
2.1 Einführung in mobile Agenten .................................................................................... 31
2.1.1 Mobile-Agenten-Technologie ........................................................................... 31
2.1.1.1 Der Platz - eine Abstraktion für Rechner .............................................. 32
2.1.1.2 Agenten-Programmiersprache und -Code ............................................. 33
2.1.1.3 Migration und Reiserouten .................................................................... 33
2.1.1.4 Kommunikation und Ressourcen-/Dienstzugriff ................................... 34
2.1.1.5 Kontrollmechanismen............................................................................ 34
2.1.1.6 Sicherheit ............................................................................................... 35
2.1.1.7 Fehlertoleranz ........................................................................................ 35
2.1.2 Stärken ............................................................................................................... 36
2.1.3 Herausforderungen ............................................................................................ 37
2.2 Agentenmodell ............................................................................................................ 38
3 Reiserouten ........................................................................................................................ 41
3.1 Ein einfaches Reiseroutenkonzept ............................................................................... 42
3.2 Ein flexibleres Reiseroutenkonzept ............................................................................. 44
3.2.1 Die flache Reiseroute ........................................................................................ 45
3.2.2 Geschachtelte Reiserouten ................................................................................. 50
3.2.3 Beispiel einer komplexen Reiseroute ................................................................ 56
3.2.4 Diskussion ......................................................................................................... 59
4 Genau-einmal Ausführung .............................................................................................. 61
4.1 System- und Fehlermodell ........................................................................................... 62
4.1.1 Fehlerklassifikation ........................................................................................... 62
4.1.2 Verwendetes Systemmodell .............................................................................. 63
4.1.3 Verwendetes Fehlermodell ................................................................................ 64
4.2 Definition “Genau-einmal Ausführung” ..................................................................... 64
20   4.3 Basisprotokoll .............................................................................................................. 65
4.4 Blockierungsfreies Protokoll ....................................................................................... 69
4.4.1 Überblick über das Protokoll ............................................................................. 69
4.4.2 Votierprotokoll .................................................................................................. 75
4.4.2.1 Integration in das 2-Phasen-Commit-Protokoll ..................................... 76
4.4.2.2 Stabile Zustände des Protokolles ........................................................... 77
4.4.2.3 Phasen des Votierprotokolles ................................................................ 78
4.4.2.4 Fehlerbehandlung .................................................................................. 85
4.4.2.5 Adaption an Fehlermodell mit Nachrichtenüberholung ........................ 91
4.4.2.6 Alternativen zum Mehrheitsentscheid ................................................... 91
4.4.3 Beobachtungs- und Auswahlprotokoll .............................................................. 91
4.4.3.1 Beobachtungsprotokoll .......................................................................... 92
4.4.3.2 Auswahlprotokoll .................................................................................. 95
4.4.4 Korrektheit ......................................................................................................... 97
4.4.4.1 Korrektheit eines Protokolles ................................................................ 98
4.4.4.2 Informaler Korrektheitsbeweis .............................................................. 98
4.5 Kommunikationsaufwand und Stufenkonstruktion ................................................... 109
4.5.1 Kommunikationsaufwand der Protokolle ........................................................ 109
4.5.2 Möglichkeiten zur Reduktion des Kommunikationsaufwandes ...................... 115
4.5.3 Algorithmus zur Stufenkonstruktion ............................................................... 117
4.6 Analytische Bewertung der Fehlertoleranz ............................................................... 122
4.6.1 Markov-Modelle .............................................................................................. 123
4.6.2 Einschränkung des Fehlermodells ................................................................... 128
4.6.3 Verfügbarkeit eines Knotens ........................................................................... 128
4.6.4 Systemverfügbarkeit und Blockierwahrscheinlichkeit .................................... 129
4.6.4.1 Basisprotokoll ...................................................................................... 130
4.6.4.2 Blockierungsfreies Protokoll ............................................................... 130
4.6.5 Verweildauer in einer Stufe ............................................................................. 133
4.6.5.1 Basisprotokoll ...................................................................................... 134
4.6.5.2 Blockierungsfreies Protokoll ............................................................... 141
4.6.5.3 Vergleich der Protokolle...................................................................... 152
4.7 Leistungsmessungen .................................................................................................. 155
4.7.1 Protokollimplementation ................................................................................. 155
4.7.2 Messungen ....................................................................................................... 157
4.8 Verwandte Arbeiten ................................................................................................... 160
4.8.1 Bereiche Transaktionsverarbeitung und Fehlertoleranz .................................. 160
4.8.2 Mobile Agenten ............................................................................................... 164
4.9 Diskussion ................................................................................................................. 167
  215 Partielles Rücksetzen ...................................................................................................... 171
5.1 Problemstellung ......................................................................................................... 172
5.2 Kompensation ............................................................................................................ 174
5.3 Erweiterung des Agentenmodells .............................................................................. 176
5.4 Basismechanismus ..................................................................................................... 184
5.4.1 Überblick ......................................................................................................... 184
5.4.2 Logging ............................................................................................................ 186
5.4.3 Algorithmus ..................................................................................................... 189
5.4.4 Integration in den blockierungsfreien Mechanismus ...................................... 193
5.5 Optimierungen ........................................................................................................... 194
5.5.1 Vermeidung unnötiger Agententransporte ...................................................... 195
5.5.1.1 Typen von Operationseinträgen........................................................... 195
5.5.1.2 Möglichkeiten der Optimierung .......................................................... 199
5.5.1.3 Algorithmus ......................................................................................... 205
5.5.2 Reduzierung der Größe des Rücksetz-Logs .................................................... 210
5.6 Verwaltung von Rücksetzpunkten ............................................................................. 211
5.7 Verwandte Arbeiten ................................................................................................... 216
5.8 Diskussion ................................................................................................................. 217
6 Resümee ........................................................................................................................... 219
6.1 Zusammenfassung ..................................................................................................... 219
6.2 Allgemeinheit der Ergebnisse ................................................................................... 221
6.3 Ausblick ..................................................................................................................... 221
Literaturverzeichnis ............................................................................................................ 223
22   
  23Abkürzungsverzeichnis
2PC-Protokoll 2-Phasen-Commit-Protokoll
ACID Eigenschaften von Transaktionen: Atomizität, Konsistenz (Consistency)
Isolation und Dauerhaftigkeit
bzw. beziehungsweise
CD Compact Disc
d.h. das heißt
engl. englisch
GSM Global System for Mobile communications
i.a. im allgemeinen
MASIF OMG Mobile Agent System Interoperability Facility
MTTF Mean Time To Failure - mittlere Zeit bis zum Ausfall
MTTR Mean Time To Repair - mittlere Zeit bis zur Reparatur
OMG Object Management Group
PDA Personal Digital Assistant
RPC Remote Procedure Call (Entfernter Funktionsaufruf)
RM Ressourcenmanager
TM Transaktionsmanager
URL Uniform Resource Locator
vgl. vergleiche
Wdh. Wiederholung
WWW World Wide Web
z.B. zum Beispiel
24   
Kapitel 1
Einführung
1.1 Motivation
Die momentane, sehr stürmisch verlaufende Entwicklung der Informationsgesellschaft geht
einher mit einer explosionsartigen Entwicklung im Bereich der Rechnernetze. Die Anzahl der
Nutzer von Netzwerken – vor allem des Internets – und damit gekoppelt die Größe und der
Durchsatz der Netzwerke nehmen rasant zu. Neue Entwicklungen im Bereich der Unterhal-
tungselektronik ermöglichen den einfachen Zugang zum Internet (z.B. mittels Webpads) oder
bieten die Möglichkeit des mobilen, momentan vor allem GSM-gestützten Zugangs zum Netz.
Zudem nimmt die Vielfalt der angebotenen Dienste ständig zu.
Durch diese Entwicklung ergeben sich eine ganze Menge an Problemen und neuen Herausfor-
derungen, von denen hier nur einige exemplarisch aufgelistet sind: Trotz des stetigen Wachs-
tums der Netzwerkkapazitäten sind die Netzwerke durch die weitaus stärker ansteigende Zahl
an Benutzern chronisch überlastet. Die Verwendung mobiler Endgeräte ist durch die zur Zeit
vorherrschende synchrone Online-Nutzung von Diensten aufgrund der geringen Übertragungs-
raten und der instabilen Verbindungen nur sehr eingeschränkt möglich. Obwohl das Internet
gerne als das Netz der unbegrenzten Möglichkeiten dargestellt wird, ist es für den durchschnitt-
lichen Internet-Benutzer mangels permanenter Anbindung seines Rechners jedoch nur sehr ein-
geschränkt möglich, selbst neue, eigene Dienste im Internet bereitzustellen.
Eine in den letzten Jahren aufkommende Technologie zur Lösung dieser Probleme und Heraus-
forderungen ist die der mobilen Agenten. Mobile Agenten sind Programme, die autonom im
Auftrag ihres Besitzers einen Auftrag ausführen. Charakteristisch für mobile Agenten ist hier-
bei, daß sie sich zur Erfüllung ihres Auftrages in einem Netzwerk von Rechnern bewegen, d.h.
die Programmausführung von einem Rechner auf einen anderen verlagern können
(Migration). Dies ermöglicht ihnen einerseits, auf einfache Weise auf Ressourcen aller Rechner
im Netzwerk (lokal) zuzugreifen, und andererseits, mittels kooperativer Bearbeitung eines Pro-
blems durch mehrere mobile Agenten eine Aufgabe effizienter zu erfüllen. Hat beispielsweise
26 Kapitel 1   Einführungein mobiler Agent die Aufgabe, auf beliebigen Rechnern liegende Datenquellen (z.B. WWW-
Server) nach bestimmten Kriterien zu durchsuchen, so kann er zu diesen Rechnern migrieren,
die Datenquellen lokal untersuchen und die Ergebnisse zum Benutzer zurücksenden, anstatt
sich die Daten, z.B. die einzelnen Seiten der WWW-Servers, über das Netzwerk zu laden, um
sie zu untersuchen. Eine Untersuchung von STRASSER UND SCHWEHM (1997) und Ergebnisse
von THEILMANN (2000) zeigen, daß sich abhängig von der zu untersuchenden Datenmenge, der
Größe des zu übermittelnden Resultats und dem für die Migration des Agenten notwendigen
Aufwandes durch dieses Vorgehen erhebliche Einsparungen sowohl in der Netzwerkbelastung
als auch in der zur Ausführung notwendigen Zeit ergeben können. Sowohl diese mögliche Re-
duzierung der Netzwerkbelastung als auch die Möglichkeit der mobilen Agenten, ihre Aufgabe
ohne Kontakt zum Benutzer asynchron weiter zu bearbeiten, machen mobile Agenten auch für
Anwendungen im Bereich mobiler Endgeräte äußerst attraktiv.
Neben der schon erwähnten globalen Suche und Filterung von Datenbeständen gibt es für mo-
bile Agenten noch viele andere Anwendungsgebiete. Beispiele sind Anwendungen in den Be-
reichen des elektronischen Handels, des Netzwerk-Managements, der Informationsverteilung
oder des Parallelrechnens. Dies sind nur einige der Anwendungsbereiche, welche von vielen
Autoren in Veröffentlichungen genannt werden, z.B. in MINSKY ET AL. (1996), FÜNFROCKEN
UND MATTERN (1999), LANGE UND OSHIMA (1999) und WONG ET AL. (1999).
Obwohl die Verwendung mobiler Agenten in den genannten Gebieten sehr attraktiv erscheint,
wird die Technologie bisher jedoch nur sehr wenig eingesetzt. Zwar sind eine ganze Anzahl von
Plattformen für mobile Agenten sowohl als Forschungsprototypen (z.B. Ara (PEINE UND
STOLPMANN (1997)), D’Agents (GRAY ET AL. (1998)), Mole (BAUMANN ET AL. (1998A))) als
auch als kommerzielle Produkte (z.B. Aglets (LANGE UND OSHIMA (1998)), Grashopper
(GRASSHOPPER (2000)), Concordia (WALSH, PACIOREK UND WONG (1999))) verfügbar, die An-
zahl der darauf realisierten und tatsächlich verwendeten Anwendungen ist jedoch sehr gering.
Dies liegt unter anderem daran, daß einige der für die kommerzielle Verwendung mobiler Agen-
ten essentiellen Problemstellungen – Kontrollmechanismen, Sicherheit und Fehlertoleranz –
zum gegenwärtigen Zeitpunkt noch Gegenstand der Forschung sind. Der Bereich der Kontroll-
mechanismen beschäftigt sich vor allem mit den Problemen des Findens und Terminierens von
mobilen Agenten und der Waisenerkennung. BAUMANN (2000) gibt einen Überblick über exi-
stierende Ansätze und schlägt weitere Lösungen für diese Problemstellungen vor. Der Bereich
der Sicherheit in Agentensystemen beschäftigt sich vor allem mit dem Schutz des Rechners und
mobiler Agenten gegen den Angriff durch böswillige mobile Agenten und dem Schutz mobiler
Agenten gegen den Angriff durch böswillige Ausführungsumgebungen. Hierbei unterscheidet
sich der Schutz des Rechners und mobiler Agenten gegen Angriffe durch böswillige Agenten
nur marginal von der allgemeinen Sicherheitsproblematik in Verteilten Systemen. Der Schutz
eines mobilen Agenten und damit letztendlich eines Programmes gegen eine böswillige Aus-
führungsumgebung ist Neuland und wird unter anderem in SANDER UND TSCHUDIN (1998) und
HOHL (2001) untersucht.
1.2 Wissenschaftlicher Beitrag 27Die vorliegende Arbeit beschäftigt sich mit der Fehlertoleranz der Ausführung mobiler Agen-
ten. Für viele der oben genannten Anwendungsbereiche ist eine fehlertolerante Ausführung mo-
biler Agenten eine notwendige Voraussetzung für den Einsatz dieser Technologie. Betrachten
wir dazu das folgende Szenario aus dem Bereich des elektronischen Handels: Unser persönli-
cher Hilfsassistent, welcher als mobiler Agent realisiert ist, hat die Aufgabe, eine Geschäftsreise
zu organisieren. Hierfür muß er einen Flug buchen, ein Zimmer reservieren und bei einer Auto-
vermietung einen Mietwagen ordern. Nachdem er alle notwendigen Informationen vom Benut-
zer erhalten hat, migriert er zuerst vom PDA (Personal Digital Assistant) des Benutzers zum
Server der Fluggesellschaft und bucht dort den Flug. Mit den nun feststehenden genauen Rei-
sedaten kann er das Zimmer und den Mietwagen in einer beliebigen Reihenfolge auf den jeweils
zuständigen Servern buchen. Das Ergebnis legt er entweder im Briefkasten des Benutzers ab
oder präsentiert es, nachdem er auf den PDA des Benutzers zurückmigriert ist. Ein Problem
hierbei ist, daß der Benutzer den Fortschritt des Agenten bei der Ausführung dieser Aufgabe
nicht direkt beobachten kann und deshalb selbst nicht bemerkt, wenn der Agent durch System-
fehler verloren geht oder in seiner Ausführung blockiert wird. Es ist beispielsweise nicht akzep-
tabel, wenn zwar ein Flug und ein Auto gebucht werden, die Hotelreservierung jedoch unter-
bleibt. Ebenso inakzeptabel ist jedoch, daß eine der Teilaufgaben durch Systemfehler der
beteiligten Rechner oder des Netzwerkes mehrfach ausgeführt wird, z.B. daß zwei Flüge ge-
bucht werden. Es muß also sichergestellt sein, daß alle (Teil-)Aufgaben des Agenten genau ein-
mal (engl.: exactly once) ausgeführt werden. Zudem muß sichergestellt werden, daß der Agent
seine Aufgabe so schnell wie möglich ausführt und nicht durch Systemfehler unnötig lange
blockiert werden kann. Fällt wegen eines Systemfehlers ein Rechner aus, dann sollte jeder zum
Zeitpunkt des Absturzes auf diesem Rechner ausgeführte Agent möglichst schnell automatisch
auf einem anderen Rechner – für den Agenten möglichst transparent – neu gestartet werden.
Auch in diesem Falle sollte sichergestellt werden, daß die Aufgaben des Agent genau einmal
ausgeführt werden. Bisher erhältliche Ausführungsplattformen für mobile Agenten bieten in
diesem Sinne nur wenig oder keine Fehlertoleranz.
1.2 Wissenschaftlicher Beitrag
In Veröffentlichungen vorgeschlagene Ansätze zur fehlertoleranten Ausführung von mobilen
Agenten behandeln meist nur Teilaspekte. Während alle Ansätze gewährleisten, daß ein Agent
durch Rechner- oder Netzwerkausfälle nicht verloren gehen kann und viele sicherstellen, daß
ein Agent bei Ausfall eines Rechners nicht bis zum Neustart des Rechners blockiert wird, stellen
die wenigsten Ansätze sicher, daß die Aufgaben des Agenten unter allen Umständen genau ein-
mal ausgeführt werden. Darüberhinaus basieren die vorgeschlagenen Ansätze überwiegend auf
Fehlermodellen, in denen keine Netzwerkpartitionierungen auftreten können. Der einzige An-
satz, der alle diese Aspekte abdeckt stammt von SCHNEIDER (1997A). Dieser Ansatz bietet nicht
nur Schutz gegen Ausfälle von Rechnern oder dem Netzwerk, sondern darüber hinaus auch
28 Kapitel 1   EinführungSchutz gegen byzantinische Fehler, d.h. gegen Fehler, bei denen sich die defekten Komponenten
zufällig verhalten. Hierdurch bedingt ist der Mehraufwand für diesen Ansatz sehr hoch und die
Voraussetzungen, um diesen Ansatz nutzen zu können, nur in seltenen Anwendungsfällen ge-
geben. Existierende Ansätze aus dem Gebiet der Verteilten Systeme sind aufgrund der Mobilität
und Autonomie der mobilen Agenten nicht ohne jedes weitere übertragbar und behandeln dar-
über hinaus auch nicht alle der oben aufgeführten Teilaspekte. Einen Überblick über diese Ar-
beiten gibt Abschnitt 4.8.
Die vorliegende Arbeit entwickelt einen Mechanismus, der sicherstellt, daß die Aufgaben eines
Agenten genau einmal ausgeführt werden, d.h. der Agent geht unter keinen Umständen durch
Rechner- oder Netzwerkausfall verloren und führt jede seiner Aufgaben einmal (und nicht öfter)
durch. Darüberhinaus wird sichergestellt, daß der Agent durch Rechner- oder Netzwerkausfälle
nicht blockiert werden kann. Im Fehlermodell des Netzwerkes sind hierbei Netzwerkpartitio-
nierungen enthalten. Wesentliche Ziele bei der Entwicklung des Mechanismus sind einerseits
eine möglichst breite Schicht von Anwendungsszenarien durch den Mechanismus zu unterstüt-
zen, aber auch andererseits möglichst wenig Mehraufwand bei der fehlertoleranten Ausführung
der Agenten zu verursachen und den Mechanismus für den Agentenprogrammierer möglichst
transparent zu gestalten.
Voraussetzung der effizienten Anwendung dieses Mechanismus ist es, bei jeder Migration des
Agenten mehrere mögliche Migrationsziele – z.B. alternative Rechner für dieselbe Teilaufgabe
oder alternative Teilaufgaben auf verschiedenen Rechnern – zur Auswahl zu haben. Die weni-
gen, für mobile Agenten existierenden Reiseroutenkonzepte werden diesem Anspruch nur sehr
eingeschränkt gerecht. Daher wird in dieser Arbeit zuerst ein Reiseroutenkonzept entwickelt,
welches es mit einfachen Mitteln erlaubt, die einer Anwendung inhärenten Alternativen zu spe-
zifizieren, welche in der Auswahl eines Rechners zur Ausführung einer Teilaufgabe und in der
Ausführungsreihenfolge der Teilaufgaben bestehen.
Schließlich wird aufbauend auf den Mechanismus zur fehlertoleranten Ausführung mobiler
Agenten ein Mechanismus entwickelt, welcher das partielle Rücksetzen (partial rollback) der
Ausführung von Agenten ermöglicht. Da der fehlertolerante Ausführungsmechanismus auf ei-
ner Aneinanderreihung von Transaktionen zur Ausführung der Teilaufgaben eines Agenten be-
ruht, ist es notwendig, diese Transaktionen beim partiellen Rücksetzen des Agenten zu kompen-
sieren. Im Gegensatz zu gängigen Mechanismen, bei denen der Programmierer einer
Anwendung für jede Transaktion eine Kompensationstransaktion zur Verfügung stellen muß,
ermöglicht es der in dieser Arbeit vorgestellte Ansatz, daß ein Anwendungsprogrammierer für
bestimmte Anwendungsklassen keine Kompensationstransaktionen zur Verfügung stellen muß.
1.3 Aufbau der Arbeit 291.3 Aufbau der Arbeit
Kapitel 2 führt detailliert in die Thematik der mobilen Agenten ein. Hierbei wird der Raum der
Interpretationsmöglichkeiten des Begriffes “mobiler Agent” aufgespannt, die Anwendungs-
möglichkeiten mobiler Agenten skizziert und die in dieser Arbeit verwendete Definition des Be-
griffes “mobiler Agent” eingeführt. 
Das darauffolgende Kapitel beschäftigt sich eingehend mit Mechanismen zur Spezifikation fle-
xibler Reiserouten, deren Flexibilität von den in den folgenden Kapiteln entwickelten Mecha-
nismen zu Optimierungszwecken verwendet werden kann. 
In Kapitel 4 werden Mechanismen zur fehlertoleranten Ausführung mobiler Agenten entwik-
kelt. Die Korrektheit der entwickelten Mechanismen wird nachgewiesen und der Nachrichten-
mehraufwand durch Optimierungen verringert. Anschließend werden noch eine analytische Be-
wertung der durch die entwickelten Mechanismen eingeführten Verfügbarkeit und Messungen
der durch die Mechanismen eingeführten Zeitkomplexität durchgeführt. 
Kapitel 5 beschäftigt sich mit Systemmechanismen zum partiellen Rücksetzen der Ausführung
eines Agenten. Nach einer Analyse der Problemstellung werden Kompensationsoperationen
und deren Einschränkungen diskutiert, bevor das in Kapitel 2 eingeführte Agentenmodell um
das partielle Rücksetzen erweitert wird. Dieses Modell dient dann als Grundlage zur Entwick-
lung eines Basismechanismus zum partiellen Rücksetzen und von Optimierungen dieses Me-
chanismus. 
Kapitel 6 schließt die Arbeit mit einer Zusammenfassung, einer Diskussion der Übertragbarkeit
der erzielten Ergebnisse auf andere Gebiete und einem Ausblick.
30 Kapitel 1   Einführung
Kapitel 2
Mobile Agenten
Bedingt durch die sich exponentiell entwickelnde weltweite Vernetzung, den dabei vermehrt
auftretenden nicht oder nur unbefriedigend gelösten Problemen, erfährt die Technologie der
mobilen Agenten dank ihres Potentials zur Lösung zumindest einiger dieser drängenden Proble-
me in den letzten Jahren zunehmende Aufmerksamkeit – sowohl durch die akademische als
auch die industrielle Forschung. Im Mittelpunkt steht hierbei vor allem die Entwicklung und die
Standardisierung jener Infrastruktur (eine Middleware), welche für den Einsatz der Technologie
mobiler Agenten notwendig ist.
Im ersten Teil dieses Kapitel wird der Frage nachgegangen, was mobile Agenten überhaupt sind
und welche Funktionalität eine Infrastruktur für mobile Agenten zur Verfügung stellen muß.
Die Antwort hierauf wird keine eindeutige, scharfe Definition sein. Es wird vielmehr ein Raum
aufspannt innerhalb dessen die meisten der heute existierenden Ansätze eingeordnet werden
können. Ferner wird darauf eingegangen, welche Probleme durch die Verwendung mobiler
Agenten gelöst – aber auch aufgeworfen – werden. Bei der Diskussion der Stärken der Mobile-
Agenten-Technologie ergeben sich exemplarisch einige der möglichen Anwendungsbereiche
dieser Technologie. Der zweite Teil des Kapitels führt das in dieser Arbeit verwendete Mobile-
Agenten-Modell ein. 
2.1 Einführung in mobile Agenten
2.1.1 Mobile-Agenten-Technologie
Mobile Agenten sind Programme, die im Auftrag ihres Besitzers autonom einen Auftrag aus-
führen. Hierzu können sie sich frei in einem Netzwerk von Rechnern bewegen, die auf den
Rechnern verfügbaren Ressourcen und Dienste (lokal) in Anspruch nehmen und mit anderen
(mobilen) Agenten kommunizieren (WHITE (1997)). Die Idee, Programme inklusive Daten über
ein Netzwerk auf andere Rechner zu versenden und dort auszuführen, ist als solche nicht sehr
32 Kapitel 2   Mobile Agentenneu – sie läßt sich bis in die Anfänge des Internets zurückverfolgen (vgl. BAUMANN (1999) für
einen Überblick). Die Idee der mobilen Agenten unterscheidet sich hiervon jedoch vor allem da-
durch, daß die autonome Fortbewegung eines Agenten über potentiell viele Rechner ohne die
Notwendigkeit des Kontaktes zum Ursprungsrechner des Agenten grundlegender Bestandteil
des Programmierparadigmas ist.
Zur Realisierung der genannten Eigenschaften mobiler Agenten wird eine Infrastruktur benö-
tigt. Neben einer Ausführungsumgebung für Agenten stellt sie unter anderem die zur Fortbewe-
gung – auch Migration genannt – und zur Kommunikation notwendigen Mechanismen zur Ver-
fügung. Diese Infrastruktur bezeichnet man als Mobile-Agenten-Plattform (engl.: mobile agent
platform), oft auch als Mobile-Agenten-System (engl.: mobile agent system). Da der Begriff Mo-
bile-Agenten-System allerdings auch häufig zur Bezeichnung einer Menge auf Rechnern instal-
lierter Mobile-Agenten-Plattformen inklusive der sich in dem System aufhaltenden mobilen
Agenten verwendet wird, wird in dieser Arbeit der Begriff Agentenplattform zur Bezeichnung
der auf einem Rechner vorhandenen Infrastruktur verwendet. Da jede im Bereich der mobilen
Agenten arbeitende Forschergruppe ihre eigenen Schwerpunkte setzt, existieren annähernd so-
viel verschiedene inkompatible Implementierungen (bzw. Typen) von Agentenplattformen wie
Forschergruppen. Bei den in den nächsten Abschnitten folgenden Beschreibung der Eigenschaf-
ten und Funktionalitäten von Agentenplattformen werden einzelne Implementierungen von
Plattformen exemplarisch aufgelistet. Einen umfassenderen Überblick über existierende Platt-
formen bietet HOHL (2000).
2.1.1.1 Der Platz - eine Abstraktion für Rechner
Eine in Agentenplattformen häufig anzutreffende Abstraktion ist die des Platzes (engl.: place),
manchmal auch mit anderen Namen wie z.B. Ort (engl.: location) bezeichnet. Ein Platz befindet
sich auf einem (physikalischen) Rechner und bietet eine Ausführungsumgebung für mobile
Agenten. Ein Agent bewegt sich in diesem Fall nicht mehr von Rechner zu Rechner, sondern
von Platz zu Platz. Auf einem Rechner können sich mehrere Plätze befinden. Dies ermöglicht
beispielsweise, daß verschiedene Autoritäten (Benutzer, Organisationen, ...) voneinander unab-
hängig auf einem Rechner Ausführungsumgebungen anbieten, welche den Agenten sehr unter-
schiedliche Ressourcen und Dienste zur Verfügung stellen. Stellt eine Agentenplattform eine
Platz-Abstraktion zur Verfügung, so muß sie ein (eindeutiges) Adressierungskonzept für Plätze
zur Verfügung stellen. Agentenplattformen, die eine Platz-Abstraktion anbieten, sind unter an-
derem Ara (PEINE UND STOLPMANN (1997)), Mole (BAUMANN ET AL. (1998B)) und Telescript
(BRADSHAW (1997)), hingegen stellt zum Beispiel Tacoma (JOHANSEN, VAN RENESSE UND
SCHNEIDER (1995)) diese Abstraktion nicht zur Verfügung.
2.1 Einführung in mobile Agenten 332.1.1.2 Agenten-Programmiersprache und -Code
Weitere Merkmale, in denen sich die verschiedenen Agentenplattformen unterscheiden, sind ei-
nerseits die zur Programmierung der Agenten unterstützten Programmiersprachen und anderer-
seits die Art, in welcher Form der Code des Agenten beim Transport über das Netzwerk vorliegt
und wie der Code ausgeführt wird. Generell kann ein Agent entweder von einem Interpreter
oder direkt als Maschinencode ausgeführt werden. Im ersten Fall liegt der Code des Agenten
entweder im Quellcode (z.B. TCL (OUSTERHOUT (1994))) oder aber in einem rechnerunab-
hängigen Zwischencode (z.B. Java Byte-Code, vgl. auch ARNOLD UND GOSLING (1997)) vor.
Wird der Agent direkt als Maschinencode ausgeführt, dann wird der Agent entweder schon als
übersetztes Programm verschickt oder vor der Ausführung vom ausführenden Rechner über-
setzt. Unter anderem aus Gründen der Portabilität verwenden die meisten der heute existieren-
den Agentenplattformen eine interpretierte Sprache als Programmiersprache für Agenten. Hier
wird vor allem Java verwendet (Mole (STRASSER, BAUMANN UND HOHL (1996)) und Aglets
(LANGE UND OSHIMA (1998))), aber auch TCL (D’Agents (GRAY ET AL. (1998)) und Ara (PEI-
NE UND STOLPMANN (1997))) und Python (HYLTON ET AL. (1996)) finden Verwendung. Nur
wenige Plattformen bieten die Möglichkeit, unter mehreren Programmiersprachen zu wählen
(z.B. TACOMA (JOHANSEN, VAN RENESSE UND SCHNEIDER (1995)), Ara und D’Agents).
2.1.1.3 Migration und Reiserouten
Der Begriff der Migration beschreibt die Fortbewegung eines Agenten von einer Ausgangsaus-
führungsumgebung zu einer Zielausführungsumgebung. Der Agent wird bei der Migration aus
der Ausgangsumgebung entfernt, zur Zielumgebung transportiert und dort gestartet. Hierbei
muß von der Agenten-Plattform neben dem Code des Agenten auch dessen Zustand zur Ziel-
umgebung übertragen werden. CUGOLA ET AL. (1996) unterscheiden hier zwischen schwacher
Migration (engl.: weak migration) und starker Migration (engl.: strong migration). Bei der
schwachen Migration wird zusätzlich zum Code nur der Zustand der globalen Variablen über-
tragen; lokale Variablen, der Stapel (engl.: stack) und Programmzähler werden nicht übertragen.
Der Agent wird dann in der Zielumgebung entweder mit einer ausgezeichneten Start-Prozedur
(bzw. Methode) gestartet oder es wird beim Migrationsbefehl eine Prozedur/Methode angege-
ben, mit welcher der Agent gestartet werden soll. Bei der starken Migration wird der komplette
Zustand des Agenten übertragen. Nach der Ankunft bei der Zielumgebung setzt der Agent dann
seine Ausführung direkt nach dem Migrationsbefehl fort. Agentenplattformen mit starker Mi-
gration sind unter anderem Ara und Telescript. Aufgrund der schwierigeren Implementation
und semantischer Ungereimtheiten bei starker Migration (z.B. Zugriff auf lokale Ressourcen,
offene Netzwerkverbindungen) stellen die meisten der heute verfügbaren Agentenplattformen
nur schwache Migration zur Verfügung.
Um das Ziel einer Migration anzugeben, existieren in den heutigen Systemen zwei unterschied-
liche generelle Ansätze. Beim ersten Ansatz wird das Ziel beim Migrationsbefehl explizit als
34 Kapitel 2   Mobile AgentenParameter im Programmcode angegeben. Da dieser Parameter eine Variable sein kann, ist hier-
mit die dynamische Wahl des nächsten Zieles während der Ausführung des Agenten gewährlei-
stet. Der zweite Ansatz wird der Tatsache gerecht, daß es bei den meisten Mobile-Agenten-An-
wendungen einen oder auch mehrere Zeitpunkte gibt, zu denen zumindest für die nähere
Zukunft festgelegt wird, welche Plätze vom Agent besucht werden sollen. Diese Planung kann
dann in eine Reiseroute eingetragen werden, welche in Agentenplattformen mit diesem Ansatz
essentieller Bestandteil eines Agenten ist. Der Migrationsbefehl hat in diesem Fall keinen Ziel-
Parameter sondern entnimmt das Ziel der Reiseroute des Agenten. Die Reiseroute kann bei den
meisten Systemen dynamisch beliebig geändert und erweitert werden. Die mögliche Komplexi-
tät der Reiseroute schwankt, abhängig von der Agentenplattform, zwischen einer einfachen li-
nearen Liste von Plätzen, die in der angegebenen Reihenfolge besucht werden (zum Beispiel in
Concordia, vgl. WONG ET AL. (1997)), bis zu sehr komplexen Spezifikationen. Kapitel 3 stellt
ein solches komplexes Reiseroutenkonzept vor. Vorteil des Reiseroutenansatzes ist, daß die Rei-
seroute für das System sichtbar wird. Läßt die Reiseroute Spielräume hinsichtlich der Abfolge
der zu besuchenden Plätze, kann das System dies beispielweise dazu nutzen, um die Abfolge
der besuchten Plätze im Rahmen des gegebenen Spielraumes (z.B. nach der Zeit) zu optimieren.
2.1.1.4 Kommunikation und Ressourcen-/Dienstzugriff
Essentielle Bestandteile des Mobile-Agenten-Paradigmas, und daher von allen Agentenplattfor-
men angeboten, sind die lokale Kommunikation zwischen Agenten und die Nutzung lokaler
Ressourcen bzw. Dienste. Mit dem Argument, daß globale Kommunikation durch Migration
(mit anschließender lokaler Kommunikation) ersetzt werden kann, verzichten einige Plattfor-
men (z.B. Ara, Messenger Environment M0 (TSCHUDIN (1997))) komplett auf globale Kommu-
nikation. Die anderen Plattformen bieten aus Effizienzgründen globale Kommunikation zwi-
schen Agenten und teilweise auch globalen Ressourcenzugriff an.
Gängige Kommunikationsmechanismen für lokale und globale Kommunikation zwischen
Agenten sind Nachrichtenaustausch und Prozedur- bzw. Methodenaufrufe (ähnlich einem
RPC). Damit bei diesen Kommunikationsmechanismen der Empfänger einer Nachricht oder ei-
nes Methodenaufrufes spezifiziert werden kann, muß die Agentenplattform ein Namens- und
Adressierungskonzept bereitstellen. Seltener, und dann meist auch nur im Falle der lokalen
Kommunikation wird die anonyme Kommunikation über gemeinsamen Speicher verwendet.
CABRI, LEONARDI UND ZAMBONELLI (1998) beschreiben mit den TupleSpaces ein solches Kon-
zept der anonymen Kommunikation. Einen allgemeineren Überblick über Kommunikationsme-
chanismen bieten BAUMANN ET AL. (1997).
2.1.1.5 Kontrollmechanismen
Neben den in den meisten Agentenplattformen vorhandenen Mechanismen zum Starten von
Agenten (entweder durch einen Benutzer oder einen Agent) und zum Klonen von Agenten gibt
2.1 Einführung in mobile Agenten 35es Bedarf an einer ganzen Reihe weiterer Kontrollmechanismen, die aber nur in sehr wenigen
Systemen angeboten werden. Funktioniert das Beenden (die Terminierung) eines lokal auf ei-
nem Platz sich befindlichen Agenten noch bei den meisten Systemen, wird nur bei sehr wenigen
Systemen die Terminierung eines Agenten durch seinen Besitzer auf einem beliebigem (evtl.
unbekanntem) Platz unterstützt. Beispiele für Systeme mit globaler Terminierung sind Mole,
die Aglets Workbench und den MASIF-Standard (MILOJICIC ET AL. (1998)) erfüllende Syste-
me. Mechanismen zum Auffinden des momentanen Aufenthaltsortes eines Agenten bieten auch
nur die wenigsten Plattformen (Beispiele hierfür sind ebenfalls die bei der Terminierung ge-
nannten Systeme). Folge hiervon ist, daß bei den meisten Systemen, die globale Kommunikati-
on anbieten, stets der momentane Aufenthaltsort des Agenten, mit dem man kommunizieren
möchte, angegeben werden muß (die Anwendung hat dafür zu sorgen, daß der Aufenthaltsort
bekannt ist). Einen Mechanismus zur Waisenerkennung (engl.: orphan detection) stellt momen-
tan nur Mole zur Verfügung. Einen ausführlichen Überblick über den Stand im Gebiet der Kon-
trollmechanismen für mobile Agenten und die Vorstellung der in Mole implementierten Kon-
trollmechanismen bietet BAUMANN (1999).
2.1.1.6 Sicherheit
Dem Thema Sicherheit kommt im Bereich der mobilen Agenten besondere Bedeutung zu. Da
ein Agent seinen Code bei der Migration mitbringt, muß sichergestellt sein, daß dieser anderen
Agenten und dem ausführenden System (und von dort aus anderen Systemen) keinen Schaden
zufügt. Diese Problematik unterscheidet sich jedoch nicht wesentlich von der Sicherheit in ver-
teilten Systemen und Mobile-Code-Systemen (z.B. Java Applets), wodurch entsprechende Lö-
sungen angepaßt werden können. Ein völlig neuer Aspekt besteht jedoch darin, daß bei mobilen
Agenten die Ausführungsumgebung (bzw. deren Besitzer) eines Agenten Interesse daran haben
könnte, die Ausführung des Agenten in irgendeiner Weise zu sabotieren oder die im Agent vor-
handenen Informationen zu lesen. Sucht zum Beispiel ein Einkaufsagent ein möglichst günsti-
ges Angebot für einen einzukaufenden Artikel, könnte ein “virtueller Laden” den Agent durch
Manipulation seiner Ausführung davon überzeugen, daß dieser Laden der billigste ist. Trägt der
Agent elektronisches Geld (CHAUM (1985)) mit sich, dann kann einfach eine Kopie der in ihm
enthaltenen elektronischen Münzen gemacht werden. Sicherheit in Agentenplattformen im all-
gemeinen und verschiedene Ansätze zum Schutz des Agenten vor feindlichen Ausführungsum-
gebungen findet man in HOHL (2001).
2.1.1.7 Fehlertoleranz
Die fehlertolerante Ausführung der mobilen Agenten ist für viele potentielle Anwendungen die
Voraussetzung, um überhaupt Mobile-Agenten-Technologie einsetzen zu können. Bewegt sich
ein Agent durch ein Netzwerk, muß sichergestellt sein, daß auf keinen Fall die Ausführung des
Agenten (unbemerkt) durch einen Rechnerausfall bzw. -fehler oder einen Netzwerkfehler abge-
36 Kapitel 2   Mobile Agentenbrochen wird und dabei der Agent, d.h. sein kompletter Zustand, zerstört wird. Zusätzlich sollte
verhindert werden, daß die Ausführung eines Agenten durch einen Systemfehler bis zur Behe-
bung des Fehlers blockiert werden kann. Mechanismen zur Sicherung der fehlertoleranten Aus-
führung mobiler Agenten gibt es bisher nur ansatzweise in einigen wenigen Agentenplattfor-
men. Einen Überblick über die bisher existierenden Ansätze bietet Abschnitt 4.8. Der Rest
dieser Arbeit wird sich intensiv mit dieser Problemstellung auseinandersetzen.
2.1.2 Stärken
Die Stärken der Technologie der mobilen Agenten sind sehr vielfältig. CHESS ET AL. (1997) bie-
ten eine ausführliche Diskussion der positiven Eigenschaften der mobilen Agenten und stellen
fest, daß zwar jede einzelne dieser Eigenschaften auch mittels anderer Technologien erreicht
werden kann, die Synergieeffekte durch die Vereinigung aller dieser Eigenschaften in der Tech-
nologie der mobilen Agenten den Einsatz dieser Technologie allerdings sehr attraktiv machen.
Hier an dieser Stelle seien nur die wichtigsten Vorteile kurz erwähnt:
Optimierung von Kommunikationskosten. Unter gewissen Voraussetzungen erlaubt die An-
wendung mobiler Agenten eine wesentliche Reduktion von Kommunikationskosten. Empfängt
ein Agent sehr viele Daten von einer entfernten Ressource und produziert daraus ein vergleichs-
weise kleines Ergebnis, dann kann es im Sinne der über das Netzwerk zu übertragenden Daten-
menge günstiger sein, daß der Agent zur Ressource migriert, die Daten dort lokal verarbeitet
und das Ergebnis zurückschickt. Dies ist dann der Fall, wenn die Summe der für die Migration
und das Ergebnis zu übertragenden Datenmenge kleiner ist als die von der Ressource zum Agent
übertragene Menge an Daten. Hat ein Agent sehr viele Kommunikationsschritte mit einer ent-
fernten Ressource oder einem anderen Agenten durchzuführen, dann kann es im Sinne der für
die Kommunikation benötigten Zeit günstiger sein, zu der Ressource oder zu dem Agenten zu
migrieren um die Kommunikationsverzögerungen einzusparen, obwohl dadurch bei einem sehr
großen Agent eventuell mehr Daten über das Netzwerk transportiert werden. Eine von vielen
Autoren zitierte Anwendung, welche von diesen Optimierungen profitieren kann, ist die verteil-
te Informationssuche. THEILMANN UND ROTHERMEL (1999) und THEILMANN (2000) skizzieren
den Einsatz mobiler Agenten zur Realisierung effizienter, intelligenter Suchmaschinen. Vorteile
zeitlicher Natur ergeben sich natürlich auch, wenn der Agent schnell auf Ereignisse reagieren
soll. Soll beispielsweise ein Agent Aktienkurse überwachen und bei Kursschwankungen entwe-
der neue Aktien kaufen oder alte Aktien abstoßen, dann kann er auf dem Rechner des Brokers,
der sowohl die aktuellen Kurse liefert als auch Kauf- und Verkaufverträge entgegennimmt, we-
sentlich schneller reagieren als wenn er von einem entfernten Rechner aus arbeitet. Diskussio-
nen dieses Aspektes findet man unter anderem in CARZANIGA, PICCO UND VIGNA (1997),
STRASSER UND SCHWEHM (1997), VOIGT (1996), PINDONIS (1996) und PULIAFITO, RICCOBENE
UND SCARPA (1999).
2.1 Einführung in mobile Agenten 37Verteilung aufwendiger Berechnungen. Wie STRASSER, BAUMANN UND SCHWEHM (1999)
zeigen, kann die Verteilung aufwendiger Berechnungen mittels mobiler Agenten sehr einfach
bewerkstelligt werden. Um jedoch auf Agenten-Plattformen mit Platzkonzept zu verhindern,
daß einem Rechner mit mehreren Plätzen überproportional viel Arbeit zugeteilt wird, müssen
Mechanismen existieren, welche der Anwendung die Zuordnung von Plätzen zu Rechnern er-
lauben.
Unterstützung asynchroner Operationen und mobiler Endgeräte. Nachdem ein mobiler
Agent seinen Heimatrechner (den Rechner, auf dem er gestartet wurde) verlassen hat, benötigt
er normalerweise keine Verbindung mehr zu diesem Rechner. Nur für eventuelle Rückfragen
bzw. das Zurückmelden des Ergebnisses (falls notwendig) ist eine kurze Verbindung zum Hei-
matrechner notwendig. Es ist also möglich, sowohl die Kommunikationsverbindung des Hei-
matrechners zu unterbrechen als auch den Heimatrechner auszuschalten. Beides ist für Mobil-
geräte der heutigen Generation essentiell, da einerseits die Kommunikation normalerweise über
teure und unstabile GSM-Wählverbindungen realisiert wird und andererseits die Kapazität der
Stromversorgung mobiler Endgeräte nur für eine relativ kurze Betriebsdauer ausreicht. Da au-
ßerdem die Anbindung mobiler Endgeräte an stationäre Netze zum momentanen Zeitpunkt nur
über sehr geringe Bandbreiten verfügt (GSM zur Zeit ca. 10kBit/s) kommt hier der weiter oben
erwähnte Effekt des beschleunigten Zugriffes auf entfernte Daten besonders zum Tragen.
Dynamische Installation von Funktionalität. Durch Migration auf einen Platz kann ein
Agent beliebige Funktionalität auf diesen Platz bringen, die dann von Dritten genutzt werden
kann. Beispiele hierfür sind Mehrwertdienste und Protokolle. Ein Agent kann zum Beispiel auf
einen Rechner migrieren und dort zu einem bereits angebotenen, einfachen Dienst eine Schnitt-
stelle mit wesentlich ausgefeilteren Zugriffsmethoden zur Verfügung stellen. Dieser Agent nutzt
dann die einfache Schnittstelle des schon vorhandenen Dienstes, um darauf aufbauend den hö-
herwertigen Dienst (Mehrwertdienst) anzubieten. Möchte ein Benutzer auf entfernte Daten zu-
greifen, welche aber nur mittels eines nicht auf dem Benutzerrechner installierten Protokolls zu-
greifbar sind, kann ein Agent auf den Rechner des Benutzers migrieren, der die benötigte
Protokollfunktionalität mitbringt.
2.1.3 Herausforderungen
Zum Entstehungszeitpunkt dieser Arbeit finden mobile Agenten nur in sehr wenigen Anwen-
dung praktischen Einsatz. Der Grund hierfür sind einige Probleme bei der Anwendung mobiler
Agenten, die vor einem breiten Einsatz mobiler Agenten gelöst werden müssen:
Sicherheit. Wie schon weiter oben erwähnt gibt es vor allem im Bereich des Schutzes mobiler
Agenten vor bösartigen Ausführungsumgebungen noch Forschungsbedarf. Momentan in Ent-
wicklung befindliche Ansätze beschreibt HOHL (2001).
38 Kapitel 2   Mobile AgentenKontrolle der Agenten. Kontrollmechanismen wie das Auffinden von Agenten, das Terminie-
ren von Agenten und die Waisenerkennung existieren zwar (vgl. BAUMANN (1999)), sind aber
in den meisten Agentenplattformen nicht realisiert.
Fehlertoleranz. Mechanismen zur fehlertoleranten Ausführung mobiler Agenten existieren nur
in Ansätzen. Die vorliegende Arbeit wird ihren Beitrag zur Lösung dieses Problems leisten.
“Henne-Ei-Problematik”. Die Entwicklung agentenbasierter Anwendungen lohnt sich nur
dann, wenn weitverbreitet Installationen von Agentenplattformen zur Verfügung stehen. Der
weitverbreiteten Installation stehen jedoch zwei Gründe entgegen. Einerseits gibt es (auch auf-
grund der nicht-existierenden Anwendungen) nur sehr wenige Argumente, warum ein Betreiber
eines Rechners auf diesem eine Agentenplattform installieren sollte. Andererseits gibt es so vie-
le verschiedene Agentenplattformen, daß selbst bei vielen Installationen auf jeden einzelnen
Plattformtyp nur wenige Installationen entfallen (eine Besserung dieses Problems erhoffen sich
die Standardisierungsversuche in FIPA (1999) und in MILOJICIC ET AL. (1998)).
2.2 Agentenmodell
Um eine möglichst breite Anwendbarkeit der in dieser Arbeit entwickelten Mechanismen in den
existierenden Agentenplattformen zu gewährleisten, ist das in dieser Arbeit verwendete Agen-
ten-Modell, das in diesem Unterkapitel vorgestellt wird, bewußt generisch gehalten. 
Ein mobiler Agent bewegt sich zur Erfüllung seiner Aufgabe durch ein Netzwerk von Rechnern
und nutzt die lokal auf den Rechnern vorhandenen Ressourcen. Um die Beschreibung der in die-
ser Arbeit entwickelten Mechanismen zu vereinfachen, existiert auf jedem Rechner – in Über-
einstimmung mit der im Bereich der Rechnernetze gebräuchlichen Nomenklatur hier auch (Re-
chen-)Knoten (engl.: node) genannt – genau eine Ausführungsplattform für Agenten; ein Platz-
Konzept existiert nicht. Die Mechanismen sind in leicht abgewandelter Form jedoch auch an-
wendbar, wenn mehrere Ausführungsplattformen auf einem Rechner existieren können. Mobile
Agenten können nicht miteinander kommunizieren und können auch keine neuen Agenten star-
ten.
Agenten sind mittels eines global eindeutigen Namens identifizierbar, der den Agenten bei der
Erzeugung zugewiesen wird und der sich während der Laufzeit des Agenten nicht ändert. Ein
Mechanismus zum Auffinden von Agenten wird nicht vorausgesetzt.
Die Aufgabe eines Agenten ist in Teilaufgaben unterteilt, welche vom Agent sequentiell ausge-
führt werden. Die Ausführung einer Teilaufgabe wird als Schritt (engl.: step) bezeichnet. Eine
Teilaufgabe kann während der Ausführungszeit eines Agenten mehrmals ausgeführt werden.
Hat ein Einkaufsagent beispielsweise die Aufgabe, zuerst nach dem günstigsten Preis zu suchen
und erst dann die gewünschten Artikel zu kaufen, wird die Teilaufgabe DurchsuchePreisliste bei
jedem Händler durchgeführt. 
2.2 Agentenmodell 39Ein Schritt wird jeweils vollständig auf einem Knoten abgearbeitet. Auf einem Knoten können
mehrere Schritte ausgeführt werden, wobei diese Schritte nicht direkt aufeinanderfolgen müs-
sen (aber können). Abbildung 2-1 zeigt die Ausführung eines Einkaufsagenten. Der Agent kon-
sultiert zuerst die Preislisten der Händler Händler1, Händler2,..., Händlern, indem er auf jedem
Händler-Rechner DurchsuchePreisliste ausführt. Beim zuletzt besuchten Händler Händlern be-
schließt er (noch in DurchsuchePreisliste), daß der Einkauf hier am günstigsten ist und führt die
Teilaufgabe Einkauf aus.
Die letztendliche Zuordnung von einzelnen Schritten zu Knoten läßt sich durch die Zuord-
nungsfunktion z beschreiben:
(2-1)
Hierbei ist S die Menge {S1, S2, ...,Sn} der Schritte eines Agenten und K die Menge der verfüg-
baren Knoten. Die Schritte des Agenten werden in der Reihenfolge S1, S2, ..., Sn ausgeführt. Im
obigen Beispiel haben die Schritte S1 bis Sn dieselbe Teilaufgabe DurchsuchePreisliste, Schritt
Sn+1 tätigt den Einkauf. Es ist zu beachten, daß diese Funktion nur die tatsächliche Ausfüh-
rungsreihenfolge und die tatsächlichen Ausführungsknoten der Schritte eines Agenten wider-
spiegelt. Die Funktion muß bei Beginn der Ausführung eines Agenten noch nicht bekannt sein.
Im folgenden Kapitel wird eine Möglichkeit der Definition einer flexiblen Reiseroute einge-
führt, welche Alternativen in der Definition der Ausführungsreihenfolge und der Ausführungs-
knoten von Schritten ermöglicht. Die Zuordnungsfunktion z beschreibt die bei der Ausführung
des Agenten tatsächlich gewählte Reiseroute.
Die Fortbewegung des Agenten geschieht mittels schwacher Migration, d.h. es werden der Pro-
gramm-Code und der Datenzustand des Agenten (z.B. globale Variablen) migriert. Der Ausfüh-
rungszustand (Stack, Programmzähler etc.) wird nicht migriert. Ein auf einem Knoten ankom-
mender Agent wird gestartet, indem der Datenzustand des Agenten auf dem Knoten instantiiert
und der den nächsten auszuführenden Schritt realisierende Code des Agenten ausgeführt wird.
Abbildung 2-1. Ausführung eines Einkaufsagenten in Schritten
Händler1 Händler2 Händlern
t t t
DurchsuchePreisliste
DurchsuchePreisliste
DurchsuchePreisliste
Einkauf
z: S K→
40 Kapitel 2   Mobile AgentenWährend der Ausführung eines Schrittes auf einem Knoten ändern sich sowohl der Datenzu-
stand des Agenten als auch der Zustand der Ressourcen, auf die der Agent (direkt oder indirekt)
zugreift; der Code des Agenten ändert sich nicht. Um dies in einer etwas formaleren Notation
fassen zu können, werden zuerst einige Abkürzungen eingeführt:
Definition 2-1: Knoten Ki
bezeichnet den Knoten, auf dem der i-te Schritt Si eines Agenten A ausgeführt wird.
Die Zuordnungsfunktion z bildet also Si auf Ki ab.
Definition 2-2: Agentenzustand Ai
beschreibt den Datenzustand des Agenten A vor der Ausführung des i-ten Schrittes.
A1 ist der Startzustand des Agenten.
Definition 2-3: Ressourcenzustände 
beschreiben die Zustände der Ressourcen von Knoten Ki vor ( ) bzw. nach ( )
der Ausführung des i-ten Schrittes des Agenten.
Die Schrittfunktion si beschreibt die Änderung des Agenten- und Ressourcenzustandes durch
einen Schritt i:
(2-2)
Diskussion. Das hier vorgestellte Agentenmodell ermöglicht ein breites Spektrum von An-
wendungen mobiler Agenten, deckt jedoch durch seine Einschränkungen hinsichtlich der Kom-
munikation zwischen Agenten und der Erzeugung neuer Agenten nicht das gesamte Spektrum
der möglichen Anwendungen mobiler Agenten ab. Bei der Beschreibung der in dieser Arbeit
entwickelten Mechanismen wird ausführlich darauf eingegangen, weshalb die Einschränkun-
gen im Modell gemacht wurden und welche Implikationen sich durch die Aufhebung der Ein-
schränkungen ergeben würden.
Ri
1
 Ri
2
,
Ri
1 Ri
2
si: Ai Ri
1( , ) | Ai 1+ Ri
2( , )→
Kapitel 3
Reiserouten
Die Ausführung der Teilaufgaben eines mobilen Agenten geschieht im allgemeinen auf unter-
schiedlichen Rechnern um dort auf lokale Dienste und Ressourcen zuzugreifen. Oftmals sind
einige (oder alle) dieser vom Agent zu besuchenden Knoten schon beim Start des Agenten be-
kannt oder können durch den Agent viele Schritte im voraus bestimmt werden. Wie im realen
Leben existiert häufig jedoch keine strikte Reihenfolge, in der die Knoten besucht werden müs-
sen. Durchsucht beispielsweise ein Agent zuerst die Artikellisten verschiedener Händler auf
verschiedenen Knoten, um sich dann für den Kauf bei einem Händler zu entscheiden, dann ist
aus Anwendungssicht die Besuchsreihenfolge der Händler-Knoten zum Durchsuchen der Li-
sten irrelevant. Muß ein Agent eine Karte für das Theater und eine CD bestellen, dann ist die
Reihenfolge dieser beiden Aktionen ebenfalls beliebig. Darüberhinaus besteht oftmals die Mög-
lichkeit, frei zwischen mehreren Knoten zu wählen, falls alle diese Knoten denselben Service
(zu denselben Konditionen) anbieten. Sowohl durch die flexible Besuchsreihenfolge als auch
durch alternativ zu besuchende Knoten können dem Agent also zum Zeitpunkt einer Migration
potentiell mehrere Migrationsziele zur Verfügung stehen.
Wenn man diese Freiheiten im Reiseplan der Agentenplattform in geeigneter Form sichtbar
macht, kann man diese Information in vielerlei Hinsicht benutzen. Eine mögliche Verwendung
ist die Optimierung der Reiseroute durch die Berechnung des kürzest möglichen Pfades für den
Agenten. Eine andere, im Kontext dieser Arbeit wesentlich wichtigere Verwendung dieser In-
formation ist die Erhöhung der Fehlertoleranz im Agentensystem. Stehen zum Zeitpunkt der
Migration laut Reiseplan mehrere alternative Migrationsziele zur Verfügung, dann führt die
(kurzfristige) Nichtverfügbarkeit eines dieser Knoten nicht zur Blockierung der Ausführung des
Agenten. Vielmehr besteht in diesem Falle die Möglichkeit, den ausgefallenen Knoten zu einem
späteren Zeitpunkt zu besuchen oder, falls der Knoten einer von mehreren alternativ zu besu-
chenden Knoten ist, einen der Alternativknoten zu besuchen. 
Um einerseits die Agentenplattform mit den notwendigen Informationen zu versorgen und an-
dererseits aber auch dem Entwickler von Mobile-Agenten-Anwendungen ein mächtiges Werk-
42 Kapitel 3   Reiseroutenzeug in die Hand zu geben, werden in diesem Kapitel zwei Reiseroutenkonzepte (engl.: itinerary
concepts) vorgestellt. Beide Konzepte erlauben sowohl die Spezifikation eines flexiblen Reise-
plans für mobile Agenten als auch die dynamische Anpassung und Erweiterung des Reiseplans
während der Ausführung des Agenten. Das zuerst dargestellte, einfache Reiseroutenkonzept ist
sehr einfach in die Agentenplattform integrierbar und intuitiv verständlich, jedoch ist es in sei-
ner Flexibilität eingeschränkt. Das zweite, komplexere Reiseroutenkonzept hingegen erlaubt
die Spezifikation sehr flexibler Reiserouten. Zur einfachen Verwendung können bei diesem
komplexeren Konzept ähnliche Abstraktionen wie beim einfachen Reiseroutenkonzept angebo-
ten werden, die vollständige Ausnutzung der Flexibilität dieses Konzeptes erfordert jedoch die
Spezifikation der Reiseroute mittels boolescher Ausdrücke. Beide Konzepte wurden erstmals in
STRASSER UND ROTHERMEL (1998) veröffentlicht.
3.1 Ein einfaches Reiseroutenkonzept
Die einfache Reiseroute setzt sich aus verschiedenen Typen von Reiserouteneinträgen zusam-
men. Die einfachste, erstmals in WONG ET AL. (1997) eingeführte Form eines Eintrages ist ein
einfacher (Knoten, Methode)-Eintrag, der die auszuführende Teilaufgabe (definiert durch Me-
thode) und den Knoten, auf dem die Teilaufgabe auszuführen ist, angibt. Diese Form des Rei-
serouteneintrages wird Schritteintrag genannt. Andere mögliche Einträge sind die Sequenz, die
Menge und die Alternative. Diese Einträge enthalten (rekursiv) weitere Reiserouteneinträge. 
Eine Sequenz ist eine Liste [e1, ..., en] von n Einträgen (n≥1). Sie legt fest, daß die durch den
Eintrag ei (1≤i<n) spezifizierten Schritteinträge ausgeführt sein müssen bevor die durch ei+1
spezifizierten Schritteinträge ausgeführt werden. Ist also beispielsweise der Eintrag ei auch eine
Liste und ei+1 ein Schritteintrag, so müssen alle Einträge der Liste ei ausgeführt worden sein be-
vor der Schritteintrag ei+1 ausgeführt wird. 
Eine Menge {e1, ..., en} von Reiserouteneinträgen legt fest, daß die Einträge e1, ..., en in belie-
biger Reihenfolge abgehandelt werden können. Da jeder Eintrag selbst wieder (rekursiv) andere
Einträge enthalten kann ist zu beachten, daß die durch ei spezifizierten Einträge entweder alle
vor oder alle nach ej auszuführen sind (1≤i,j≤n; i≠j). Sind beispielsweise ei={ei1, ...,eik}und
ej={ej1, ..., ejm} selbst wieder Mengen, dann ist zwar die Reihenfolge, in der ei und ej ausgeführt
werden beliebig, eine gemischte (verschränkte) Ausführung der beiden Mengen {ei1, ...,eik} und
{ej1, ..., ejm} ist jedoch nicht erlaubt, d.h. die Einträge ei1, ...,eik müssen entweder komplett vor
oder komplett nach den Einträgen ej1, ..., ejm ausgeführt werden. 
Die Alternative <e1, ..., en> spezifiziert, daß genau einer der Einträge e1, ..., en ausgewählt wer-
den muß. 
Das folgende Szenario soll helfen, diese Definition besser zu verstehen: Paul plant, einen ro-
mantischen Abend mit seiner Freundin zu verbringen. Hierzu beauftragt er seinen persönlichen
Butler-Agenten, Blumen zu bestellen, eine Eintrittskarte für den aktuell in zwei Kinos der Stadt
3.1 Ein einfaches Reiseroutenkonzept 43laufenden Liebesfilm zu kaufen und einen Tisch in einem dem Kino nahegelegenen Restaurant
zu reservieren. Um den Auftrag auszuführen, muß der Agent den Fleurop-Rechner besuchen,
weiterhin einen der beiden für die jeweiligen Kinos zuständigen Rechner und schließlich den
Knoten jenes Restaurants, das dem tatsächlich gewählten Kino näher ist. 
Die nachfolgend mit Hilfe der oben definierten Notation dargestellte Reiseroute i (von engl.: iti-
nerary) spezifiziert den Reiseplan des Butler-Agenten:
i = {(Fleurop, kaufeBlumen),
<[ (Luna, kaufeEintrittskarte), (Rößle, reserviereTisch) ],
[ (Planie, kaufeEintrittskarte), (Linde, reserviereTisch) ]
>
}.
Eine graphische Repräsentation der Reiseroute zeigt Abbildung 3-1. Auf oberster Ebene spezi-
fiziert ein Menge-Eintrag, daß der Agent auf dem Knoten “Fleurop” mittels der Methode “kau-
feBlumen” Blumen einkaufen soll und daß der spezifizierte Alternative-Eintrag ausgeführt wer-
den muß. Hierbei kann er zuerst die Blumen kaufen und dann den Alternative-Eintrag ausführen
oder umgekehrt. Die Alternative spezifiziert zwei Möglichkeiten, die Eintrittskarte zu kaufen
und einen Tisch zu reservieren. Jede dieser Möglichkeiten ist mittels einer Sequenz spezifiziert,
in der festgelegt wird, daß zuerst das Ticket gekauft und anschließend im dazu passenden Re-
staurant ein Tisch reserviert wird. Die Sequenz ist hierbei notwendig, da der Agent die zur Re-
servierung notwendige Uhrzeit (“wann endet der Film?”) erst beim Kauf der Eintrittskarte er-
fährt.
Anhand dieser Reiseroute kann das System bestimmen, welche Knoten der Agent als nächstes
besuchen kann. Für den ersten Schritt stehen hier entweder der Blumenladen oder eines der bei-
den Kinos zur Auswahl. Der zweite und die darauffolgenden Schritte hängen jeweils von der
Wahl der vorhergehenden Schritte ab. Anhand der in einer Reiseroute enthaltenen Informatio-
nen kann ein Baum erstellt werden, welcher alle möglichen Ausführungspfade des Agenten ent-
Abbildung 3-1. Reiseroute des Butler-Agenten
Menge
(Fleurop, kaufeBlumen)
(Luna, kaufeEintrittskarte)
(Planie, kaufeEintrittskarte)
(Rößle, reserviereTisch)
(Linde, reserviereTisch)
Alternative
Sequenz
44 Kapitel 3   Reiseroutenhält. Der Baum in Abbildung 3-2 zeigt alle möglichen Ausführungspfade von Pauls Agent. Der
Pfad, bei dem der Agent zuerst Blumen kauft, danach Karten für die Planie kauft und einen
Tisch in der Linde reserviert ist in der Abbildung hervorgehoben.
Die Reiseroute stellt Abfrage- und Änderungsoperationen zur Verfügung. Die Abfrageoperatio-
nen erlauben die Navigation durch die Einträge einer Reiseroute, ermöglichen abzufragen, wel-
che Einträge schon abgearbeitet wurden und welche Knoten als nächstes besucht werden kön-
nen. Die Änderungsoperationen erlauben das Einfügen und Löschen von Einträgen in jene Teile
der Reiseroute, welche noch nicht abgearbeitet wurden. Dies erlaubt dem Agent einerseits, ei-
nen Überblick über seine bisherige Ausführung zu gewinnen und andererseits, seine Reiseroute
während der Ausführung dynamisch an die jeweiligen Gegebenheiten anzupassen.
3.2 Ein flexibleres Reiseroutenkonzept
Obwohl das im vorherigen Unterkapitel vorgestellte Reiseroutenkonzept schon ein recht mäch-
tiges Werkzeug zur Spezifikation von Reiseplänen bereitstellt, bietet es doch nur eingeschränkte
Flexibilität sowohl hinsichtlich der Mächtigkeit der Definitionsmöglichkeiten bei der Erstellung
der Reiseroute als auch hinsichtlich der sich aus einer Reiseroute ergebenden Wahlmöglichkei-
ten während der Ausführung. Die folgenden Ausführungsreihenfolgebeziehungen können bei-
spielsweise nicht (oder nur mit sehr viel Aufwand) mittels dieses Konzeptes spezifiziert werden:
• Knoten Ni muß vor Knoten Nj besucht werden, dazwischen dürfen jedoch beliebige andere
Knoten besucht werden. Im Beispiel aus dem letzten Unterkapitel ist beispielsweise die An-
gabe, daß der Blumenladen auch zwischen dem Kauf der Eintrittskarte und dem Reservieren
des Tisches besucht werden kann, nur schwerlich zu spezifizieren.
• Prioritäten zwischen Einträgen (z.B. das Kino Planie gegenüber dem Luna bevorzugen).
• Mindestens i Knoten aus einer Menge von j Knoten (j≥i) besuchen bevor man einen anderen
Knoten besucht (z.B. vor einem Einkauf mindestens i Angebote einholen).
• Den Besuch eines Knotens vom Zustand des Agenten abhängig machen, z.B. einen Knoten
nur dann besuchen, wenn noch nicht genügend Informationen gesammelt wurden.
Abbildung 3-2. Baum der möglichen Pfade des Butler-Agenten
Fleurop
Rößle
Linde
Luna
Planie
Luna
Planie
Rößle Fleurop
FleuropLinde
3.2 Ein flexibleres Reiseroutenkonzept 45Das in diesem Unterkapitel vorgestellte, sehr flexible Reiseroutenkonzept hingegen unterstützt
die Spezifikation solcher Reihenfolgebeziehungen beinahe vollständig. Lediglich die Einfüh-
rung von Reihenfolgebeziehungen basierend auf dem Zustand des Agenten wird aus semanti-
schen Gründen nicht unterstützt werden.
Eine Implementierung des Reiseroutenkonzeptes und dessen Integration in das Agentensystem
Mole (BAUMANN ET AL. (1998A)) findet man in BUSCHLE (1999).
3.2.1 Die flache Reiseroute
Die Grundidee für das flexible Reiseroutenkonzept basiert auf der Beobachtung, daß die beim
einfachen Reiseroutenkonzept mittels Sequenz und Alternative spezifizierten Reihenfolgebezie-
hungen aus der Sicht eines einzelnen Schritteintrages implizit aussagen, welche Bedingungen
für die Ausführung des Schrittes erfüllt sein müssen. Die Sequenzen der Reiseroute aus Ab-
schnitt 3.1 spezifizieren beispielsweise, daß vor der Reservierung eines Tisches zuerst die Ein-
trittskarte gekauft werden muß (d.h. der Schritt kaufeEintrittskarte muß auf dem Kino-Knoten
ausgeführt worden sein). Die Alternative spezifiziert, daß der Kauf einer Eintrittskarte beim
Luna-Theater nur erfolgen darf, wenn beim Planie-Theater noch keine Karte gekauft wurde
(und umgekehrt). In dem flexiblen Reiseroutenkonzept wird daher der Ansatz gewählt, daß für
jeden Eintrag einer Reiseroute explizit eine (boolesche) Bedingung spezifiziert wird. Nur wenn
diese (Vor-)Bedingung wahr wird, kann der Eintrag ausgeführt werden. Zusätzlich wird die Spe-
zifikation von Präferenzen zwischen Einträgen ermöglicht.
Definition 3-1: Reiseroute ℜ
Eine Reiseroute ℜ=(E, P) besteht aus einer Menge E={e1, e2, ..., en} von Reiserou-
teneinträgen und einer Prioritätsrelation P
 
⊂ ExE zwischen diesen Einträgen. 
Definition 3-2: Reiserouteneintrag e
Ein (Reiserouten-)Eintrag e ist ein Tripel (Vorbedingung, Knoten, Methode). Das
Tripel spezifiziert, daß der Agent zu Knoten migrieren und die durch Methode im-
plementierte Teilaufgabe ausführen kann (kurz: den Eintrag ausführen), falls die
Vorbedingung zur Migrationszeit erfüllt ist und der Eintrag noch nicht ausgeführt
wurde.
Um nach der Durchführung eines Schrittes (oder zu Beginn der Ausführung des Agenten) den
nächsten auszuführenden Schritt zu bestimmen, werden die Vorbedingungen der noch nicht aus-
geführten Reiserouteneinträge ausgewertet und unter Berücksichtigung der Prioritätsrelation P
wird einer der Einträge ausgewählt, dessen Vorbedingung zu wahr ausgewertet wurde. Wird
keine der ausgewerteten Vorbedingungen wahr, ist die Bearbeitung des Agenten beendet. Im
fehlerfreien Fall wird jeder Eintrag höchstens einmal ausgeführt.
46 Kapitel 3   ReiseroutenVorbedingung(e) bezeichnet die Vorbedingung eines Eintrages e. Eine Vorbedingung, welche
ein boolescher Ausdruck p(e1, e2, ..., en) ist, wird als erfüllt bezeichnet, wenn sie zur Migrati-
onszeit zu wahr ausgewertet werden kann. Hat ein Eintrag die triviale Vorbedingung wahr, dann
bedeutet dies, daß er jederzeit ausgeführt werden kann. Ein Eintrag kann die triviale Vorbedin-
gung falsch haben, wird dann aber nie ausgeführt (und ist deshalb sinnlos). Um sich in der Vor-
bedingung auf andere Einträge der Reiseroute zu beziehen, wird das Prädikat D(e) (von engl.:
done) verwendet. Eine vorläufige Definition von D(e) ist gegeben durch
Definition 3-3: Prädikat D(e)
D(e)≡wahr ⇔ Eintrag e wurde schon ausgeführt
Prioritäten zwischen Einträgen einer Reiseroute werden durch die Prioritätsrelation P spezifi-
ziert:
Definition 3-4: Prioritätsrelation P ⊂ SxS
(ei, ej)∈P ⇔ Eintrag ei hat höhere Priorität als Eintrag ej
Die Priorität (ei, ej)∈P zwischen zwei Einträgen ei und ej spezifiziert nur, daß, falls die beiden
Einträge zu einem Zeitpunkt alternativ ausgeführt werden können (d.h. die Vorbedingungen der
beiden Einträge sind erfüllt und beide Einträge wurden noch nicht ausgeführt), die Ausführung
des Eintrages ei bevorzugt wird. Ist die Ausführung von ei aus technischen Gründen nicht mög-
lich (z.B. da der durch ei spezifizierte Ausführungsknoten nicht erreichbar ist) oder ist die Vor-
bedingung von ei nicht erfüllt, kann ej ausgeführt werden falls dessen Vorbedingung erfüllt ist.
Aus Konsistenzgründen darf die Relation P keine Zyklen (z.B. (ei,ej), (ej,ek), ..., (el,em), (em,ei))
enthalten.
Das folgende Beispiel illustriert die durch die bisher beschriebenen Teile des Konzept gegebe-
nen Möglichkeiten:
Beispiel 3-1. Reiseroute ℜ=({e1, e2, e3, e4, e5}, P) für das Szenario aus Abschnitt 3.1:
e1 = (wahr, Fleurop, kaufeBlumen)
e2 = (¬D(e4), Luna, kaufeEintrittskarte)
e3 = (D(e2), Rößle, reserviereTisch)
e4 = (¬D(e2), Planie, kaufeEintrittskarte)
e5 = (D(e4), Linde, reserviereTisch)
P = {(e2, e4)}
Die hiermit spezifizierte Reiseroute ist flexibler als die in Abschnitt 3.1 spezifizierte Rei-
seroute, da bei dieser Definition der Einkauf der Blumen jederzeit möglich ist, und da-
durch während der Ausführung des Agenten bei der Auswahl des nächsten durchzufüh-
renden Schrittes im Durchschnitt mehr Alternativen zur Verfügung stehen als bei der
einfachen Reiseroute. Die Bevorzugung der Kombination Luna/Rößle gegenüber der
3.2 Ein flexibleres Reiseroutenkonzept 47Kombination Planie/Linde stellt zumindest hinsichtlich der Fehlertoleranz keine (wesent-
liche) Einschränkung der Flexibilität dar, da sie nur in dem Fall eine Rolle spielt, wenn
beide Kino-Knoten verfügbar sind. Der Anwender erhält damit jedoch die zusätzliche
Möglichkeit, seine Präferenzen zwischen Alternativen auszudrücken. Die Möglichkeit,
jederzeit Blumen zu kaufen, ergibt sich daraus, daß der Eintrag e1, welcher das Kaufen
der Blumen spezifiziert, die triviale Vorbedingung wahr hat und die anderen Einträge in
keiner Weise von ihm abhängen. Die Einträge e2 und e4 beschreiben das Kaufen der Ein-
trittskarte, wobei die Vorbedingungen sicherstellen, daß nur einer der Einträge ausgeführt
werden kann: e2 kann nur ausgeführt werden, falls e4 (noch) nicht ausgeführt wurde (aus-
gedrückt durch ¬D(e4)) und umgekehrt. Die Vorbedingungen e3 und e5 der Schritte zum
Reservieren des Tisches stellen sicher, daß in einem der Restaurants nur dann reserviert
wird, wenn im entsprechenden Kino die Karte gekauft wurde: Z.B. garantiert die Vorbe-
dingung D(e2) von e3, daß nur dann im Rößle ein Tisch reserviert wird, falls in e2 im Luna
die Eintrittskarte gekauft wurde. Die Bevorzugung der Kombination Luna/Rößle ergibt
sich aus der Spezifikation der Prioritätsrelation P.
Um die Semantik der in Abschnitt 3.1 spezifizierten Reiseroute zu erhalten, muß die Spe-
zifikation der Prioritätsrelation in P=∅ geändert werden und die Vorbedingung von e1 we-
sentlich komplexer ausfallen:
e1 = ( (¬D(e2) ∧ ¬D(e4)) ∨ (D(e3) ∨ D(e5)), Fleurop, kaufeBlumen)
Hiermit wird spezifiziert, daß die Blumen entweder vor dem Kauf der Eintrittskarten
(¬D(e2) ∧ ¬D(e4), d.h. in keinem der Kinos darf eine Karte gekauft worden sein) oder
nach der Reservierung des Tisches (D(e3) ∨ D(e5), d.h. in einem der Restaurants muß ein
Tisch reserviert worden sein) gekauft werden müssen.
Mit den bisher vorgestellten, recht einfachen Mitteln ist es sogar möglich zu spezifizieren, daß
i Einträge aus einer Menge von j Einträgen e1, ..., ej (i≤j) ausgeführt werden müssen. Hierbei
werden jedoch die Vorbedingungen der Einträge sehr komplex, solange nur das Prädikat D(e)
verwendet werden kann:
Beispiel 3-2. Ein Agent soll von zwei Anbietern je ein Angebot für einen Artikel einholen.
Es stehen insgesamt 4 Anbieter zur Verfügung. Der Eintrag ek beschreibt das Abholen ei-
nes Angebotes von Anbieter k auf dessen Knoten nk (k = 1...4):
e1 = ( ¬((D(e2) ∧ (D(e3) ∨ D(e4))) ∨ (D(e3) ∧ D(e4))), n1, holeAngebot)
e2 = ( ¬((D(e1) ∧ (D(e3) ∨ D(e4))) ∨ (D(e3) ∧ D(e4))), n2, holeAngebot)
e3 und e4 analog
Sollen hierbei Anbieter bevorzugt werden, dann kann dies zusätzlich mittels Prioritäten ge-
schehen.
48 Kapitel 3   ReiseroutenOffensichtlich werden die Vorbedingungen für größere Mengen von Einträgen wesentlich kom-
plexer. Aus diesem Grunde werden in den Vorbedingungen zusätzlich boolesche Terme der
Form 
(Zahl Vergleichsoperator Ausdruck) 
zugelassen. Ein Ausdruck ist eine Summe in der Form
d(ea) + d(eb) + ... + d(ez)
Die Funktion d(e) ist definiert durch
Definition 3-5: Funktion d(e)
d: e → {0,1}
d(e)≡1 ⇔ D(e)≡wahr
Die Vergleichsoperator kann aus der Menge {<, ≤, =, ≥, >} entnommen werden. Wie die zwei
folgenden Beispiele zeigen, lassen sich hiermit einfach Beziehungen wie “i Einträge aus j Ein-
trägen ausführen” oder “mindestens i Einträge aus j Einträge ausführen bevor ...” spezifizieren.
Beispiel 3-3. Analog zum vorherigen Beispiel soll ein Agent von i Anbietern Angebote
einholen. Es stehen insgesamt j (i≤j) Anbieter zur Verfügung. Der Eintrag ek beschreibt
das Abholen eines Angebotes von Anbieter k auf dessen Knoten nk (k = 1...j):
ek = ((i > d(e1)+d(e2)+ ... +d(ej)), nk, holeAngebot) für k = 1 ... j
Die Vorbedingungen werden falsch, sobald i Einträge ausgeführt wurden.
Beispiel 3-4. Ein Agent soll von j Anbietern Angebote einholen und diese auf seinem Hei-
matknoten abliefern. Sind von den j Anbietern momentan nicht alle erreichbar (Knoten-
ausfall o.ä.), so kann der Agent auch weniger als j Angebote abliefern, er muß jedoch min-
destens i (i≤j) Angebote eingeholt haben. Die Einträge ek, k=1...j beschreiben das
Einholen von Angeboten, ej+1 das Abliefern der Angebote: 
ek = (¬D(ej+1), nk, holeAngebot) für k = 1 ... j
ej+1 = ((i ≤ d(e1)+d(e2)+ ... +d(ej)), Heimatknoten, liefereAngeboteAb)
P = {(e1, ej+1), (e2, ej+1), ..., (ej, ej+1), }
Die Vorbedingung von ej+1 wird wahr, sobald mindestens i Einträge aus e1, ..., ej ausge-
führt wurden. Ab diesem Zeitpunkt können die Angebote auf dem Heimatknoten abgelie-
fert werden. Die Prioritäten legen jedoch fest, daß das Einholen von Angeboten Vorrang
vor dem Abliefern hat, so daß der Agent nur bei Nichtverfügbarkeit eines Anbieter-Kno-
tens die Angebote vorzeitig abliefert. Die Vorbedingungen der Einträge e1,..., ej stellen si-
cher, daß nach dem Abliefern der Angebote keine neuen Angebote mehr eingeholt wer-
den.
3.2 Ein flexibleres Reiseroutenkonzept 49Abbildung 3-3 zeigt eine bis auf die Definition der Syntax von Reiserouteneinträgen vollstän-
dige Zusammenfassung der Syntax von Vorbedingungen in Erweiterter Backus-Naur-Form
(EBNF):
Hiermit werden die am Anfang von Abschnitt 3.2 aufgeführten Anforderungen an die Reiserou-
te schon weitestgehend erfüllt. Ausnahme ist die Anforderung, daß der Besuch eines Knotens
(im Endeffekt die Ausführung eines Reiserouteneintrages) vom Zustand des Agenten abhängig
gemacht werden kann. Diese Anforderung könnte durch die Verwendung anwendungsspezifi-
scher Prädikate in den Vorbedingungen der Reiserouteneinträge erfüllt werden. Soll ein Agent
beispielsweise einen Eintrag der Reiseroute nur dann ausführen, nachdem er genügend Infor-
mation gesammelt hat, dann könnte ein vom Agentenentwickler implementiertes Prädikat
hatGenugInformation(...), welches genau dann wahr liefert, sobald genug Informationen im
Agent enthalten sind, in der Vorbedingung zu dem betreffenden Eintrag verwendet werden. Es
gibt jedoch mehrere Gründe, diesen Typ von Prädikat nicht in das Reiseroutenkonzept zu über-
nehmen. Einer der Gründe ist, daß das Reiseroutenkonzept durch solche Prädikate wesentlich
komplexer würde: Einerseits würden Reiserouten dadurch schwerer verständlich, da hiermit
Entscheidungen, die der Agent selbst aktiv treffen sollte, in die Reiseroute verschoben würden.
Andererseits müßten alle diese Prädikate bei jeder Migration neu ausgewertet werden, was bei
komplex zu berechnenden Prädikaten sehr viel Mehraufwand für die Ausführung eines Agenten
bedeuten würde. Der Hauptgrund gegen die Einführung dieses Typs von Prädikaten wird jedoch
erst im Laufe des nächsten Abschnittes klar.
Abbildung 3-3. Syntax einer Vorbedingung in EBNF
Vorbedingung=( "(" Vorbedingung ")" | "¬" Vorbedingung |
 Vorbedingung "∧" Vorbedingung | 
 Vorbedingung "∨" Vorbedingung | Lit ).
Lit = ( Prädikat | Gleichung | "wahr" | "falsch" ).
Prädikat = "D(" Eintrag ")".
Gleichung= "(" Zahl Operator Ausdruck ")".
Operator = ( "<" | "≤" | "=" | "≥" | ">" ).
Ausdruck = ( Ausdruck "+" Ausdruck | Funktion ).
Funktion = "d(" Eintrag ")".
Zahl = ( “0” | ZifferON { ( "0" | ZifferON ) } ).
ZifferON = ( "1" | "2" | "3" | "4" | "5" | "6" | "7" | "8" | "9" ).
50 Kapitel 3   Reiserouten3.2.2 Geschachtelte Reiserouten
Ein Nachteil der flachen Reiseroute besteht darin, daß es hiermit nicht möglich ist, eine Menge
von Reiserouteneinträgen als eine logische Einheit zu behandeln:
Beispiel 3-5. Ein Agent soll von i Anbietern Angebote für ein Produkt in 2 Runden ein-
holen. In der ersten Runde wird zuerst von jedem Anbieter ein Angebot eingeholt:
ek = (wahr, nk, holeAngebot) für k = 1 ... i
Basierend auf dem Ergebnis der ersten Runde wird dann in der zweiten Runde versucht,
bessere Angebote auszuhandeln. Die Einträge für die zweite Runde dürfen erst dann aus-
geführt werden, wenn die Einträge für die erste Runde komplett ausgeführt wurden:
ei+k = (e1 ∧ e2 ∧ ... ∧ ei, nk, verhandleAngebot) für k = 1 ... i
Die Reiseroute des Agenten ergibt sich hieraus zu
ℜ = ( {e1, e2, ..., e2i}, ∅ ) 
Dies (oder noch komplexere Szenarien) zu spezifizieren ist nicht nur mühsam und fehleranfäl-
lig, es müssen darüberhinaus auch bei jeder Migration die Vorbedingungen zumindest teilweise
neu berechnet werden. Kommt im Beispiel noch ein weiterer Anbieter nachträglich hinzu, müs-
sen zudem noch alle Vorbedingungen der Einträge für die zweite Runde geändert werden.
Um diese Nachteile zu überwinden, wird das Konzept der geschachtelten Reiserouten einge-
führt. Geschachtelte Reiserouten erweitern die flachen Reiserouten um die Möglichkeit, zusätz-
lich komplette Reiserouten als Einträge in einer Reiseroute zu spezifizieren. Hierdurch ergeben
sich für viele komplexe Szenarien wesentliche Vereinfachungen bei der Spezifikation von Rei-
serouten. Für jede geschachtelte Reiseroute läßt sich jedoch auch eine flache Reiseroute ange-
ben, deren Einträge dann wesentlich komplexere Vorbedingungen enthalten als die Einträge der
geschachtelten Reiseroute.
Die folgenden Definitionen legen die Struktur geschachtelter Reiserouten und dabei verwendete
Begriffe fest:
Definition 3-6: Eintrag e einer geschachtelten Reiseroute
Ein Eintrag e einer geschachtelten Reiseroute ist entweder ein Basis-Eintrag (B-
Eintrag) oder eine Reiserouten-Eintrag (R-Eintrag).
Definition 3-7: Basis-Eintrag (B-Eintrag) einer geschachtelten Reiseroute
Ein Basis-Eintrag entspricht dem in Definition 3-2 definierten Tripel (Vorbedin-
gung, Knoten, Methode).
3.2 Ein flexibleres Reiseroutenkonzept 51Definition 3-8: Reiserouten-Eintrag (R-Eintrag) einer geschachtelten Reiseroute
Ein R-Eintrag e ist ein Quadrupel (Vorbedingung, E, P, Typ), welches eine komplet-
te (Teil-)Reiseroute beschreibt. E={e1, e2, ..., en} ist die Menge der in dem Reise-
routen-Eintrag direkt enthaltenen Einträge; die Einträge e1, e2, ..., en dürfen in kei-
nem anderen R-Eintrag direkt enthalten sein. Um mit der Ausführung der in dem R-
Eintrag e enthaltenen Einträge (d.h. mit der Ausführung der durch e beschriebenen
Reiseroute) zu beginnen, muß die Vorbedingung erfüllt sein. P spezifiziert gemäß
Definition 3-4 die Prioritätsrelation zwischen den Einträgen e1, e2, ..., en. Die Defi-
nition des Typs eines R-Eintrages erfolgt weiter unten.
Definition 3-9: Menge Einträge(e) der in einem R-Eintrag direkt enthaltenen Einträge 
e = (Vorbedingung, {e1, e2, ..., en}, P, Typ) ⇒ Einträge(e) ≡ {e1, e2, ..., en}
Da ein R-Eintrag e eine vollständige Reiseroute spezifiziert, dürfen die Vorbedingungen der di-
rekten Einträge von e jeweils nur von den direkten Einträgen von e (d.h. von Einträge(e)) ab-
hängen, d.h. Vorbedingung(ei)=pi(e1, e2,..., en) für alle ei ∈ Einträge(e).
Definition 3-10: (Geschachtelte) Reiseroute ℜ eines Agenten
Die Reiseroute ℜ eines Agenten ist ein Spezialfall eines R-Eintrages mit dem Typ
r (“Reiseroute”) und der Vorbedingung wahr:
ℜ= (wahr, {e1, e2, ..., en}, P, r)
vereinfacht (analog zu Definition 3-1):
ℜ= ({e1, e2, ..., en}, P)
Eine Reiseroute ℜ bildet einen Baum mit ℜ als Wurzel und den in der Reiseroute enthaltenen
B-Einträgen als Blättern. Es ist daher möglich, die bei Bäumen üblichen Bezeichnungen Knoten
für R-Einträge, Blätter für B-Einträge, Kinder eines R-Eintrages für die in einem R-Eintrag (di-
rekt) enthaltenen Einträge, Nachfahren eines R-Eintrages für die rekursive Hülle der Kinder, Va-
ter eines Eintrages für den R-Eintrag, in dem der Eintrag enthalten ist, Vorfahren für alle R-Ein-
träge auf dem Weg zur Wurzel und Geschwister eines Eintrages e für die Einträge, die
denselben Vater wie e haben, zu verwenden.
Das folgende Beispiel verdeutlicht diese Definitionen.
Beispiel 3-6. Spezifikation der Reiseroute ℜ aus dem vorherigen Beispiel mittels einer ge-
schachtelten Reiseroute. Die B-Einträge ei+1, ..., e2i, welche die Verhandlungsrunde be-
schreiben, müssen nach den B-Einträgen e1, ..., ei, die das anfängliche Einholen der An-
gebote beschreiben, ausgeführt werden:
ek = (wahr, nk, holeAngebot) für k = 1 ... i
ei+k = (wahr, nk, verhandleAngebot) für k = 1 ... i
e2i+1 = (D(e1) ∧ D(e2) ∧ ... ∧ D(ei), {ei+1, ei+2, ..., e2i}, ∅, Typ)
52 Kapitel 3   Reiseroutenℜ = (wahr, {e1, ..., ei, e2i+1}, ∅, r) bzw. ℜ = ({e1, ..., ei, e2i+1}, ∅)
Der R-Eintrag e2i+1 spezifiziert, daß mit der Ausführung der in ihm enthaltenen B-Ein-
träge ei+1, ..., e2i erst begonnen werden darf, nachdem die Einträge e1, ..., ei alle ausge-
führt wurden. Der Einsatz des R-Eintrages ermöglicht es also, die komplexe Vorbedin-
gung “zentral” an einer Stelle zu spezifizieren mit der Folge, daß alle B-Einträge nur die
triviale Vorbedingung wahr besitzen. Bemerkenswert ist, daß die Einträge ei+1, ..., e2i
durch die Verwendung des eingeschachtelten R-Eintrages e2i+1 gar nicht mehr direkt son-
dern nur noch indirekt in der Reiseroute ℜ enthalten sind (d.h. Einträge(ℜ) ∩ {ei+1, ei+2,
..., e2i} = ∅).
Für die Ausführung einer geschachtelten Reiseroute sind prinzipiell zwei verschiedene Seman-
tiken denkbar: Wenn in der Reiseroute in Beispiel 3-6 ein weiterer B-Eintrag e2i+2 mit der tri-
vialen Vorbedingung wahr existieren würde (zum Beispiel ein Eintrag zum Ausführen einer
Geldüberweisung auf einer Bank), könnte dieser Eintrag dann verschränkt mit der Ausführung
des R-Eintrages e2i+1 erfolgen (d.h. nachdem mit der Verhandlung der Angebote begonnen wur-
de jedoch bevor das Nachverhandeln der Angebote in der zweiten Runde beendet ist)? In diesem
Beispiel und in vielen anderen Anwendungen ist dies sicher möglich, in wiederum anderen An-
wendungen jedoch nicht. Wenn die Ausführung der Einträge von e2i+1 beispielsweise innerhalb
einer einzigen Transaktion geschehen müßten, dann wäre es im Sinne einer möglichst kurzen
Blockierung der betroffenen Ressourcen wünschenswert, daß alle diese Einträge an einem
Stück ausgeführt werden. Um diese beiden Semantiken zu unterstützen, werden zwei weitere
Typen von R-Einträgen unterschieden:
Definition 3-11: Offener R-Eintrag e=(Vorbedingung, {e1, ..., en}, P, o)
Die Ausführung eines solchen R-Eintrages e darf mit der Ausführung von B-Einträ-
gen, welche nicht zu den Nachfahren von e gehören (aber durchaus zu anderen R-
Einträgen gehören dürfen), verschränkt werden. 
Hierbei kann theoretisch der – auf semantisch unsaubere Spezifikation der Vorbedingungen zu-
rückzuführende – Fall auftreten, daß die Vorbedingung des R-Eintrages e oder die Vorbedin-
gung eines seiner Vorfahren während der Ausführung des R-Eintrages zu falsch wird (durch die
Ausführung von B-Einträgen, welche nicht zu den Nachfahren von e gehören). Die Ausführung
von e wird dadurch jedoch nicht gestoppt, da die Vorbedingung nur zum Start der Ausführung
von e relevant ist. Das folgende abstrakte Beispiel illustriert kurz die Problematik:
Beispiel 3-7. Die Ausführung zweier Mengen e1, e2, ..., em und em+1, ..., en von Basis-Ein-
trägen kann beliebig überlappen, mit der Ausführung der Menge e1, e2, ..., em soll jedoch
nur begonnen werden, wenn der Basis-Eintrag en+1 noch nicht ausgeführt wurde:
ei = ( wahr, ni, mi ) für i = 1 ... n+1
en+2 = ( ¬D(en+1), {e1, e2, ..., em}, ∅, o)
en+3 = ( wahr, {em+1, em+2, ..., en}, ∅, o)
3.2 Ein flexibleres Reiseroutenkonzept 53ℜ = (wahr, {en+1, en+2, en+3}, ∅, r) 
Mit der Ausführung der B-Einträge e1, e2, ..., em darf nur begonnen werden, solange en+1
noch nicht ausgeführt wurde. Da en+2 ein offener R-Eintrag ist, kann en+1 ausgeführt wer-
den nachdem mit der Ausführung der Einträge in en+2 begonnen wurde aber bevor der
letzte Eintrag von en+2 ausgeführt wurde. Obwohl hierdurch die Vorbedingung von en+2
zu falsch wird, werden die noch nicht ausgeführten Einträge von en+2 vollends ausgeführt.
Da sowohl en+2 als auch en+3 offene R-Einträge sind, ist die Ausführungsreihenfolge der
B-Einträge e1, ..., en beliebig.
Definition 3-12: Geschlossener R-Eintrag e=(Vorbedingung, {e1, ..., en}, P, g)
Während der Ausführung eines solchen R-Eintrages dürfen nur dessen Nachfahren
ausgeführt werden. 
Sobald also der erste B-Eintrag, welcher zu den Nachfahren von e gehört, ausgeführt wurde,
dürfen nur noch Nachfahren von e ausgeführt werden, bis für alle B-Einträge, welche Nachfah-
ren von e sind, gilt, daß sie entweder ausgeführt worden sind oder daß sie nicht mehr ausgeführt
werden können (genauere Definition erfolgt weiter unten).
Beispiel 3-8. Ein Agent soll eine Reise buchen und Informationen zum Urlaubsort sam-
meln. Da gute Erfahrungen mit der Fluggesellschaft American Airlines und dem Autover-
mieter Avis gemacht wurden, sollen bei diesen Firmen Flug und Mietauto gebucht wer-
den. Das Hotel für den Urlaubsort kann bei einer Hotelagentur gebucht werden. 
Der Flug wird zuerst gebucht, damit die Termine der Reise feststehen. Danach können
Hotel und Auto in beliebiger Reihenfolge gebucht werden:
Flug = (wahr, AmericanAirlines, bucheFlug)
Auto = (D(Flug), Avis, bucheAuto)
Hotel = (D(Flug), HotelAgentur, bucheHotel)
Um sicherzustellen, daß entweder alle drei oder keine der Buchungen erfolgreich sind, er-
folgen die Buchungen innerhalb einer Transaktion. 
Um genauere Information über den Urlaubsort und die nähere Umgebung zu erlangen,
soll der Agent noch bei 3 Tourismusinformationen Informationsmaterial besorgen:
ti1 = (wahr, TourismusInformation1, holeInfos)
ti2 = (wahr, TourismusInformation2, holeInfos)
ti3 = (wahr, TourismusInformation3, holeInfos)
Um die bei der Buchungstransaktion verwendeten Ressourcen nicht unnötig lange zu
blockieren muß verhindert werden, daß während der Transaktion eine Tourismusinforma-
tion besucht wird. Dies geschieht am einfachsten dadurch, daß die komplette Transaktion
in einen geschlossenen R-Eintrag verlagert wird:
Buchungen = (wahr, {Flug, Auto, Hotel}, ∅, g)
54 Kapitel 3   ReiseroutenDie komplette Reiseroute ergibt sich dann zu
ℜ = ( wahr, {Buchungen, ti1, ti2, ti3}, ∅, r) 
Speziell durch die Einführung der offenen R-Einträge ist das Prädikat D(e) (mit der Bedeutung
Eintrag e komplett ausgeführt) alleine nicht mehr ausreichend zur Spezifikation von Vorbedin-
gungen, wie das folgende Szenario veranschaulicht: Eine Reiseroute enthält unter anderem zwei
R-Einträge e1 und e2 die nicht verschränkt ausgeführt werden dürfen. Andere Einträge der Rei-
seroute dürfen jedoch verschränkt mit e1 bzw. e2 ausgeführt werden. Dies bedeutet, daß e1 und
e2 offen sein müssen und die sequentielle Ausführung von e1 und e2 durch die Vorbedingungen
erzwungen werden muß. Die Vorbedingungen müssen daher festlegen, daß mit der Ausführung
von e1 begonnen werden darf, falls e2 entweder schon komplett ausgeführt wurde oder falls
noch keiner der Nachfahren von e2 ausgeführt wurde (und umgekehrt). Aus diesem Grunde wird
ein weiteres Prädikat S(e) (von engl.: started) benötigt, welches angibt, ob mit der Ausführung
eines Eintrages bereits begonnen wurde. Die rekursive Definition von S(e) ist gegeben durch
Definition 3-13: Prädikat S(e)
S(e)≡wahr⇔
((e ist B-Eintrag) ∧ (e wurde schon ausgeführt)) ∨
((e ist R-Eintrag) ∧ (∃ei ∈ Einträge(e): S(ei)))
Die Definition sagt aus, daß S(e) genau dann wahr ist, wenn entweder e ein B-Eintrag ist und e
schon ausgeführt wurde oder e ein R-Eintrag ist und mit der Ausführung einer der Einträge aus
Einträge(e) bereits begonnen wurde. Der Fall, daß ein B-Eintrag im Moment der Prädikataus-
wertung ausgeführt wird, muß hierbei nicht beachtet werden, da die Auswertung der Vorbedin-
gungen (und dadurch der Prädikate) immer nur zum Migrationszeitpunkt (d.h. zwischen den
Ausführungen von B-Einträgen) stattfindet. Analog zu d(e) wird die Funktion s(e) definiert:
Definition 3-14: Funktion s(e)
s: e → {0,1}
s(e)≡1 ⇔ S(e)≡wahr
Jetzt kann auch die endgültige Definition des Prädikates D(e) gegeben werden:
Definition 3-15: Prädikat D(e)
D(e)≡wahr⇔
((e ist B-Eintrag) ∧ (e wurde schon ausgeführt)) ∨
((e ist R-Eintrag) ∧ 
(∀ei ∈ Einträge(e): (D(ei) ∨ (¬S(ei) ∧ (Vorbedingung(ei)=falsch)))))
3.2 Ein flexibleres Reiseroutenkonzept 55Während der erste Teil der Definition, welcher D(e) für einen B-Eintrag e definiert, mit Defini-
tion 3-3 übereinstimmt, bedarf der zweite Teil, welcher D(e) für einen R-Eintrag e definiert, der
Erläuterung. Um für einen R-Eintrag die Entscheidung treffen zu können, daß er komplett aus-
geführt wurde, müssen dessen einzelne Einträge die Bedingung erfüllen, daß sie entweder kom-
plett ausgeführt wurden (wird rekursiv getestet) oder daß sie nicht mehr ausgeführt werden kön-
nen. Notwendige Bedingung für die Entscheidung, daß keiner dieser noch nicht ausgeführten
Einträge noch ausgeführt werden kann ist, daß deren Vorbedingungen alle zu falsch ausgewertet
werden. Dies ist für B-Einträge auch die hinreichende Bedingung. Bei R-Einträgen existiert je-
doch noch die Möglichkeit, daß deren Ausführung schon begonnen hat und (trotz nicht erfüllter
Vorbedingung, siehe oben) noch nicht beendet ist. Deshalb muß hier zusätzlich auch noch gel-
ten, daß mit der Ausführung des Eintrages noch nicht begonnen wurde.
Da die Vorbedingung eines Eintrages nur von seinen Geschwistern abhängt, kann das Prädikat
D(e) immer “lokal” und eindeutig berechnet werden. Die Anforderung, D(e) immer lokal und
vor allem eindeutig berechnen zu können ist auch der Grund, weshalb keine anwendungsspezi-
fischen Prädikate in den Vorbedingungen erlaubt sind. Wären solche anwendungsspezifischen
Prädikate erlaubt, könnte bei einem offenen R-Eintrag e nur dann auf D(e)=wahr entschieden
werden, wenn alle B-Einträge seiner Nachkommen ausgeführt wurden. Hätte nämlich einer die-
ser B-Einträge ein anwendungsspezifisches Prädikat als Vorbedingung und wäre er noch nicht
ausgeführt worden, könnte diese Vorbedingung jederzeit durch Änderungen im Agentenzustand
erfüllt werden (somit wäre die Entscheidung D(e)=wahr nur am Ende der Ausführung des
Agenten möglich).
Die notwendigen Änderungen an der EBNF der Vorbedingungen zeigt Abbildung 3-4:
Mit diesen Definitionen kann nun schließlich auch definiert werden, unter welchen Bedingun-
gen ein B-Eintrag einer Reiseroute ausgeführt werden kann:
Definition 3-16: Ausführbarkeit eines B-Eintrages e∈Nachfahren(ℜ)
Ein B-Eintrag e, welcher in einer Reiseroute ℜ enthalten ist, kann ausgeführt wer-
den wenn gilt:
(Vorbedingung(e)=wahr) ∧ 
(∀Vorfahren ei von e: ((Vorbedingung(ei)=wahr) ∨ (S(ei)=wahr))) ∧
(∀geschlossenen Einträge ej aus der Menge der Nachfahren von ℜ: 
((S(ej) ∧ ¬D(ej)) ⇒ ej ist Vorfahr von e))
Abbildung 3-4. Änderungen an der Syntax einer Vorbedingung in EBNF
Prädikat = ( "D(" Eintrag ")" | "S(" Eintrag ")" ).
Funktion = ( "d(" Eintrag ")" | "s(" Eintrag ")" ).
56 Kapitel 3   ReiseroutenUm einen B-Eintrag ausführen zu können muß nicht nur dessen Vorbedingung erfüllt sein (er-
ster Teil der Bedingung aus Definition 3-16), sondern der Zustand der Reiseroute muß mit in
Betracht gezogen werden. Offensichtlich ist, daß die Ausführbarkeit vom Zustand der Vorfahren
des B-Eintrages abhängt: entweder muß deren Vorbedingung erfüllt sein oder es muß schon mit
ihrer Ausführung begonnen worden sein (zweiter Teil der Bedingung aus Definition 3-16). We-
niger offensichtlich ist, daß beachtet werden muß, ob momentan geschlossene R-Einträge aus-
geführt werden (ein (geschlossener) R-Eintrag e wird dann momentan ausgeführt, falls S(e) ∧
¬D(e) zu wahr ausgewertet wird). Ist dies der Fall, dann müssen alle momentan ausgeführten
geschlossenen R-Einträge Vorfahren des B-Eintrages sein (dritter Teil der Bedingung aus Defi-
nition 3-16).
Die Flexibilität und Mächtigkeit des vorgestellten Konzeptes demonstriert das folgende Bei-
spiel.
3.2.3 Beispiel einer komplexen Reiseroute
Das in dem Beispiel betrachtete Szenario ist die Organisation einer Konferenzreise. Der hierfür
zuständige Agent muß dazu seinen Auftraggeber bei der Konferenz als Teilnehmer registrieren,
einen Flug, ein Auto und die Unterbringung buchen, bei Touristeninformationen allgemeine In-
formationen über touristische Attraktionen und Veranstaltungen am Konferenzort sammeln und
letztendlich das Ergebnis seiner Tätigkeit beim Auftraggeber abliefern. Um die Reiseroute zu-
sammenzustellen, benötigt der Agent auftragsspezifische Informationen von seinem Auftragge-
ber (welche Konferenz, wo muß registriert werden, Aufenthaltszeit am Konferenzort, etc.), all-
gemeine Informationen aus dem Benutzerprofil des Auftraggebers (welche Fluggesellschaften
werden bevorzugt, etc.) und andere Informationen, welche über Informationsdienste bereitge-
stellt werden (wo können Flüge gebucht werden, etc.). Nachdem die Informationen vorliegen,
kann in diesem Fall die Reiseroute auch schon komplett spezifiziert werden.
Da die Konferenzgebühren bei der Registrierung per (elektronischem) Bankscheck bezahlt wer-
den müssen, muß der Agent zuerst einen Scheck bei einer der Banken des Benutzers abholen,
bevor er die Registrierung bei der Konferenz durchführen kann. Bei den Banken hat er die Aus-
wahl zwischen der Barclays Bank oder der CityBank. Das Abholen des Schecks und die Regi-
strierung spezifizieren die folgenden Einträge:
bank1 = (¬D(bank2), Barclays, holeScheck)
bank2 = (¬D(bank1), CityBank, holeScheck)
Konferenz = (D(bank1) ∨ D(bank2), IEEE, RegistriereFürTeilnahme)
Der Auftraggeber bevorzugt die Barclays Bank. Deshalb wird (bank1, bank2) in die Prioritäts-
relation des R-Eintrages aufgenommen, der bank1 und bank2 enthält. 
Um das Beispiel in überschaubaren Grenzen zu halten werden hier nur zwei Fluggesellschaften
und zwei Autovermieter verwendet. Hierbei bestehen jeweils zwischen einer Fluggesellschaft
3.2 Ein flexibleres Reiseroutenkonzept 57und einem Autovermieter Verträge, die den Kunden Rabatte gewähren, wenn beim jeweils an-
deren Vertragspartner der Flug gebucht bzw. das Auto gemietet wird. Aus diesem Grund werden
Buchungen nur in den Kombinationen AmericanAirlines/Avis (was die bevorzugte Kombinati-
on ist) und AirCanada/Hertz gemacht. Für jede dieser Firmen gibt es mehrere Geschäftsstellen,
welche alternativ besucht werden können. Der Einfachheit halber werden das Buchen des Flu-
ges und des Autos in einem R-Eintrag “versteckt”:
FlugAuto= (wahr, {AmericanAvis, CanadaHertz}, 
{(AmericanAvis, CanadaHertz)}, o)
Da bei der ersten Alternative AmericanAirlines/Avis die Flugbuchung und die Reservierung des
Autos in einer Transaktion durchgeführt werden muß, wird hierfür ein geschlossener R-Eintrag
verwendet. AmericanAirlines hat drei Niederlassungen, Avis hat deren zwei. Um den Rabatt ge-
währt zu bekommen, muß der Flug vor dem Auto gebucht werden:
AmericanAvis = (¬S(CanadaHertz), {American1, American2, American3, Avis1,
Avis2},∅, g)
American1 = (¬(D(American2) ∨ D(American3)), AmericanAirlines1, bucheFlug)
American2 = (¬(D(American1) ∨ D(American3)), AmericanAirlines2, bucheFlug)
American3 = (¬(D(American1) ∨ D(American2)), AmericanAirlines3, bucheFlug)
Avis1 = ((D(American1)∨D(American2)∨D(American3))∧¬D(Avis2),
AvisNode1, bucheAuto)
Avis2 = ((D(American1)∨D(American2)∨D(American3))∧¬D(Avis1),
AvisNode2, bucheAuto)
Da CanadaHertz ein offener R-Eintrag ist (siehe weiter unten), muß in der Vorbedingung von
AmericanAvis mit dem Prädikat S(...) gearbeitet werden, um ein gleichzeitiges Buchen bei bei-
den Gesellschaften zu verhindern. Sollte es noch mehr alternative Fluggesellschafts- oder Au-
tovermietungsniederlassungen geben, ist natürlich auch hier die Verwendung zusätzlicher R-
Einträge sowohl für die Fluggesellschaften als auch die Autovermieter ratsam. Bei AirCanada
und Hertz gibt es jeweils nur zwei Niederlassungen. Auch hier muß der Flug zuerst gebucht
werden:
CanadaHertz= (¬D(AmericanAvis), {Canada1, Canada2, Hertz1, Hertz2}, ∅, o)
Canada1 = (¬D(Canada2), AirCanada1, bucheFlug)
Canada2 = (¬D(Canada1), AirCanada2, bucheFlug)
Hertz1 = ((D(Canada1)∨D(Canada2))∧¬D(Hertz2), HertzNode1, bucheAuto)
Hertz2 = ((D(Canada1)∨D(Canada2))∧¬D(Hertz1), HertzNode2, bucheAuto)
In diesem Falle reicht es, daß CanadaHertz in der Vorbedingung mit dem Prädikat D(...) arbei-
tet, da AmericanAvis ein geschlossener R-Eintrag ist. Wird zuerst ein Eintrag von AmericanAvis
ausgeführt, dann wird dieser R-Eintrag zuerst komplett fertig ausgeführt bevor mit irgend einem
anderen Eintrag weitergemacht wird. Für CanadaHertz ist damit die Vorbedingung falsch. Wird
jedoch zuerst ein Eintrag von CanadaHertz ausgeführt, dann wird sofort die Vorbedingung für
58 Kapitel 3   ReiseroutenAmericanAvis falsch. Somit ist sichergestellt, daß nur einer dieser beiden R-Einträge abgearbei-
tet wird.
Um das Hotel zu buchen, muß der Agent die genauen Daten für die Übernachtung wissen. Aus
diesem Grund kann das Buchen des Zimmers erst geschehen, nachdem der Flug bereits gebucht
wurde. Aus Gründen der Übersichtlichkeit wurden auch hier nur zwei Agenturen zum Buchen
des Hotels berücksichtigt:
Hotel = (D(FlugAuto), {hotelAgentur1, hotelAgentur2}, ∅, o)
hotelAgentur1 = (¬D(hotelAgentur2), HotelAgentur1, bucheZimmer)
hotelAgentur2 = (¬D(hotelAgentur1), HotelAgentur2, bucheZimmer)
Es gibt insgesamt fünf verschiedene Touristik-Zentren, welche verschiedene Arten an Informa-
tionen bieten. Bevor der Agent diese Zentren besucht, muß er zuerst den Flug gebucht haben,
um die genaue Zeitspanne zu kennen, für welche er Informationen sammeln muß:
ti1 = (D(FlugAuto)∧¬D(home), TourismusInformation1, holeInfos)
ti2 = (D(FlugAuto)∧¬D(home), TourismusInformation2, holeInfos)
ti3 = (D(FlugAuto)∧¬D(home), TourismusInformation3, holeInfos)
ti4 = (D(FlugAuto)∧¬D(home), TourismusInformation4, holeInfos)
ti5 = (D(FlugAuto)∧¬D(home), TourismusInformation5, holeInfos)
Bevor der Agent zu seinem Heimatort zurückkommt, um seinem Auftraggeber die Ergebnisse
zu übergeben, muß er alle aufgeführten Arbeiten erledigen. Ausnahme hierbei ist der Besuch
der Touristik-Informationen. Sollten hier nicht alle erreichbar sein (z.B. wegen Rechner-/Netz-
werkausfällen) ist es ausreichend, wenn der Agent mindestens drei davon besucht. Dies wird im
R-Eintrag home spezifiziert:
home = (D(Konferenz)∧D(Hotel)∧(3≤d(ti1)+d(ti2)+d(ti3)+ d(ti4)+d(ti5)), 
BenutzerRechner, berichteErgebnisse)
Um jedoch festzulegen, daß der Agent nach Möglichkeit trotzdem alle 5 Touristik-Informatio-
nen besucht, kann die Prioritätsrelation verwendet werden: wird den Touristik-Informationen
eine größere Priorität als dem home-Eintrag zugeordnet, so werden diese auch – sofern möglich
– alle besucht, bevor der home-Eintrag ausgeführt wird. Der zweite Teil der Vorbedingungen der
Touristik-Informationen-Einträge stellt sicher, daß der Agent nach Beendigung seiner eigentli-
chen Aufgabe nicht noch den Besuch bei einer Touristik-Information nachholt, falls er diese vor
dem Abliefern seiner Ergebnisse nicht besuchen konnte.
Die komplette Reiseroute wird spezifiziert mit
ℜ = (wahr, {bank1, bank2, Konferenz, FlugAuto, Hotel, ti1, ti2, ti3, ti4, ti5, home},
{(bank1, bank2), (ti1, home), (ti2, home), (ti3, home), (ti4, home),(ti5, home)}, r)
Die erste Ebene und einen Teil der zweiten Ebene des Baums der möglichen Pfade, welche der
Agent laut der spezifizierten Reiseroute durchlaufen kann, zeigt Abbildung 3-5. Die riesige An-
zahl der Knoten im gesamten Baum zeigt die Mächtigkeit und Flexibilität des Reiseroutenkon-
zeptes: Wenn der Agent alle Touristik-Informationen besucht, muß er insgesamt lediglich 11
3.2 Ein flexibleres Reiseroutenkonzept 59Knoten besuchen. Der Baum hat folglich 11 Ebenen. Während es in der ersten Ebene nur sieben
und in der zweiten nur 26 Knoten gibt, umfaßt die dritte Ebene 136 und die vierte Ebene bereits
über 900 Knoten. Der Agent hat also bei der Wahl des ersten Zielortes 7 Wahlmöglichkeiten,
bei der Wahl des zweiten Zielortes im Durchschnitt ca. 4 Wahlmöglichkeiten, bei der Wahl des
dritten Zielortes ca. 5 Wahlmöglichkeiten und bei der Wahl des vierten Zielortes durchschnitt-
lich ca. 7 Wahlmöglichkeiten. Im weiteren Verlauf reduziert sich dies jedoch wieder, bis letzt-
endlich beim letzten zu besuchenden Knoten nur noch der Heimatknoten zur Auswahl steht.
3.2.4 Diskussion
Wie vor allem das Beispiel des vorhergehenden Abschnittes zeigt, ist das in diesem Kapitel vor-
gestellte Reiseroutenkonzept der geschachtelten Reiseroute sehr flexibel und mächtig. Inwie-
weit das Ziel, bei der Migration mehrere alternative Migrationsziele zur Auswahl zu haben, er-
reicht werden kann hängt jedoch letztendlich von der Anwendung selbst ab. Je weniger die
Aufgabe die Reihenfolge der notwendigen Schritte impliziert, desto stärker kann mittels dem
hier vorgestellten Reiseroutenkonzept daraus Vorteil gezogen werden. Ist die Reihenfolge der
notwendigen Schritte von der Aufgabenstellung jedoch fest vorgegeben, kann auch das Reise-
routenkonzept keine alternativen Migrationsziele zur Auswahl stellen.
Die Beispiele des Kapitels haben gezeigt, daß die manuelle Spezifikation einer Reiseroute und
hierbei vor allem die Spezifikation der Vorbedingungen sehr aufwendig sein kann.
BUSCHLE (1999) beschreibt eine Implementierung des Reiseroutenkonzeptes, welche den An-
wendungsprogrammierer hierbei sehr stark unterstützt.
Abbildung 3-5. Baum der möglichen Pfade des Konferenzplanungsagenten
AmericanAirlines1
AmericanAirlines2
AmericanAirlines3
AirCanada1
AirCanada2
IEEE
Avis1
Avis2
Barclays
CityBank
Hertz1
Hertz2
Barclays
CityBank
AmericanAirlines1
AmericanAirlines2
AmericanAirlines3
AirCanada1
AirCanada2
60 Kapitel 3   Reiserouten
Kapitel 4
Genau-einmal Ausführung
Die zuverlässige, fehlertolerante Ausführung mobiler Agenten ist Voraussetzung für deren Ein-
satz in kommerziellen Anwendungen. In diesem Kapitel wird ein Protokoll entwickelt, welches
die blockierungsfreie genau-einmal Ausführung mobiler Agenten garantiert.
Voraussetzung für die Entwicklung fehlertoleranter Anwendungen ist die Kenntnis der zu tole-
rierenden Fehler. Der folgende Abschnitt führt deshalb zuerst die den Algorithmen zugrunde
liegenden System- und Fehlermodelle ein. Anschließend wird der Begriff der “genau-einmal
Ausführung” im Kontext mobiler Agenten definiert. Das eigentliche Protokoll wird daraufhin
in zwei Schritten entwickelt. Zuerst wird ein Basisprotokoll entwickelt, welches die genau-ein-
mal Ausführung von Agenten realisiert. Da dieses Protokoll jedoch noch anfällig für die Blok-
kierung eines Agenten durch Rechner- und Netzwerkausfälle ist, wird es dann um eine Über-
wachungskomponente ergänzt. Hierbei überwachen mehrere Beobachterknoten, welche
zusammen mit dem ausführenden Knoten eine Stufe (engl.: stage) bilden, die Ausführung des
Agenten. Fällt der ausführende Knoten aus, kann einer der Beobachter die Ausführung des
Agenten übernehmen. Daran anschließend wird die Nachrichtenkomplexität des entwickelten
Protokolles untersucht und ein Algorithmus entwickelt, welcher durch geschickte Auswahl der
Knoten einer Stufe die Nachrichtenkomplexität reduziert. Eine ausführliche analytische Bewer-
tung des Protokolls und Leistungsmessungen einer in die Agentenplattform Mole integrierten
Implementierung des Protokolls schließen das Kapitel.
Die in diesem Kapitel vorgestellten Protokolle und Mechanismen wurden erstmals in ROTHER-
MEL UND STRASSER (1997), ROTHERMEL UND STRASSER (1998) und STRASSER, ROTHERMEL
UND MAIHÖFER (1998) veröffentlicht. Teilaspekte dieses Kapitels wurden in Diplomarbeiten
von MAIHÖFER (1997), FRIEDEL (1998) und PAPOULIDIS (1999) erarbeitet.
62 Kapitel 4   Genau-einmal Ausführung4.1 System- und Fehlermodell
Um fehlertolerante verteilte Systeme zu entwickeln ist es notwendig, die Bestandteile des Sy-
stems und deren Fehler zu kennen. Einen detaillierten Überblick über Fehlertoleranz in verteil-
ten Systemen gibt JALOTE (1994), dessen Terminologie und Klassifikationen weitestgehend (in
deutscher Übersetzung) in der vorliegenden Arbeit übernommen wurden. Um das Verständnis
zu erleichtern, wird auf die relevanten Begriffe an dieser Stelle kurz eingegangen.
Ein Systemmodell beschreibt die relevanten Bestandteile eines Systems, das Fehlermodell die
im System möglichen Fehler. Ein (verteiltes) System kann hierbei aus zwei verschiedenen
Blickwinkeln betrachtet werden. Die eine Sicht ist die der physischen Komponenten, aus denen
das System besteht. Dies wird auch das physische Systemmodell genannt. Die andere Sicht ist
die der Verarbeitung, d.h. die Sicht des Benutzers auf das System und die vom System angebo-
tenen Dienste. Diese Sicht wird auch als das logische Systemmodell bezeichnet. Fehlertoleranz,
vor allem in verteilten Systemen, beschäftigt sich häufig damit, die Eigenschaften bzw. Dienste
des logischen Modells trotz Ausfällen (engl.: failure) in den Komponenten des physischen Sy-
stems sicherzustellen. 
4.1.1 Fehlerklassifikation
Ein Ansatz der Klassifikation von Fehlern in verteilten Systemen beruht darauf, wie sich die
physischen Komponenten des Systems bei einem Ausfall verhalten. Die Ausfälle (engl.: failure)
der physischen Komponenten sind hierbei aus Sicht der Anwendung Fehler (engl.: fault) des
Systems. CRISTIAN, AGHILI UND STRONG (1986) schlagen eine Klassifikation in die 4 Katego-
rien Crash, Omission, Zeit und byzantinisch vor:
Crash. Bei einem Crash hält eine Komponente sofort an. Sie macht keine falschen Zustands-
übergänge und produziert keine falschen Ausgaben. In diesem Modell verhält sich eine
Komponente also entweder gemäß Spezifikation oder hält an. Oftmals ist es nicht einfach
festzustellen, ob eine Komponente ausgefallen ist. Aus diesem Grunde gibt es eine von
SCHNEIDER (1984) vorgestellte Variante dieses Fehlertyps, bei welcher der Ausfall einer
Komponente festgestellt werden kann. Die von Schneider vorgestellte Version eines Pro-
zessors mit diesem Fehlertyp wird fail stop processor genannt.
Omission. Durch einen Fehler dieser Art reagiert eine Komponente sporadisch nicht auf Ein-/
Ausgaben. Hier kann man unterscheiden zwischen einer Receive-Omission, bei der eine
Komponente eine Nachricht nicht empfängt, und einer Send-Omission, bei der eine Kom-
ponente eine Nachricht nicht sendet.
Zeitfehler (engl.: timing fault). Ein Fehler dieser Art veranlaßt eine Komponente, zu früh oder
zu spät zu reagieren.
4.1  System- und Fehlermodell 63Byzantinischer Fehler (engl.: byzantine fault). Ein Fehler, bei dem das Verhalten einer Kompo-
nente vollkommen zufällig von der Spezifikation abweicht (und dabei auch unerwartete/
falsche Ausgaben liefern kann). 
Diese Fehler bilden eine Hierarchie. Hierbei ist der Crash-Fehler der einfachste, aber auch spe-
ziellste der Fehler, der byzantinische Fehler der allgemeinste der Fehler. Die aus
SCHNEIDER (1984) übernommene Abbildung 4-1 zeigt, daß die allgemeineren Fehler die spezi-
elleren Fehler als echte Teilmenge enthalten.
4.1.2 Verwendetes Systemmodell
In diesem Abschnitt wird das in der vorliegenden Arbeit durchgängig verwendete Systemmo-
dell vorgestellt. Ein verteiltes System besteht aus mehreren autonomen Knoten (d.h. Rechnern)
und einem diese Knoten verbindenden Netzwerk.
Ein Knoten besteht aus einem Prozessor und privatem flüchtigen und stabilen Speicher. Pro
Knoten können mehrere Programme ausgeführt werden. Ein Programm wird innerhalb eines
Prozesses ausgeführt. Innerhalb eines Prozesses ist die nebenläufige Ausführung mehrerer
Threads möglich. Prozesse auf einem Knoten können miteinander nur über Nachrichten kom-
munizieren. Um Alarme (z.B. Timeouts) verwalten zu können, besitzt jeder Knoten eine kor-
rekte Uhr. 
Die Kommunikation zwischen den Knoten erfolgt mittels Nachrichtenaustausch über das Netz-
werk. Die Kommunikation erfolgt über Kommunikationskanäle. Zwischen je zwei Rechnern
des Systems existiert ein Kommunikationskanal.
Alle Komponenten des Systems arbeiten asynchron, d.h. es existiert keine obere Zeitschranke
für die Ausführung einer Sequenz von Anweisungen oder für die Übertragung einer Nachricht.
Die in dieser Arbeit entwickelten Algorithmen funktionieren jedoch auch in synchronen Syste-
men, d.h. wenn obere Zeitschranken für das Ausführen von Anweisungen und die Nachrichten-
übertragung existieren.
Abbildung 4-1. Fehlerklassifikation
Crash Omission Timing Byzantinisch
64 Kapitel 4   Genau-einmal Ausführung4.1.3 Verwendetes Fehlermodell
Analog zum Systemmodell wird im Fehlermodell zwischen Knotenfehlern und Netzfehlern un-
terschieden.
Knoten unterliegen lediglich Crash-Fehlern. Bei einem Knotenfehler hält der Knoten die Aus-
führung aller Programme an; der systembedingte Ausfall einer echten Teilmenge der Prozesse
eines Knotens ist ausgeschlossen. Alle im flüchtigen Speicher liegenden Informationen (Aus-
führungszustand der laufenden Prozesse, Daten der Prozesse) gehen hierbei verloren. Auf sta-
bilem Speicher abgelegte Daten gehen bei einem Knotenzusammenbruch nicht verloren. Der
stabile Speicher selbst ist fehlerfrei (vgl. LAMPSON (1981)). Die Kommunikation zwischen Pro-
zessen eines Knotens ist fehlerfrei.
Auch das Netzwerk unterliegt nur Crash-Fehlern. Hierbei treten jedoch nur Netzwerkpartitio-
nierungen auf. Knoten innerhalb einer Partition können kommunizieren, Knoten unterschiedli-
cher Partitionen nicht. Die Kommunikation zwischen Knoten innerhalb einer Partition ist feh-
lerfrei.
Alle Komponenten des Systems arbeiten asynchron (d.h. es gibt keine obere Zeitschranke für
die Ausführung von Operationen). Knoten- und Netzwerkausfall sind nicht unmittelbar erkenn-
bar. Insbesondere sind Knoten- und Netzwerkausfall nicht unterscheidbar, da Kommunikation
über das Netzwerk die einzige Möglichkeit der Kontaktaufnahme zu anderen Knoten ist. Dies
bedeutet letztendlich, daß der Ausfall einer Komponente lediglich vermutet werden kann, Ge-
wißheit besteht jedoch nicht.
Gängige Praxis in realen Systemen ist, daß eine Komponente bei einem Fehler repariert wird.
Aus diesem Grunde wird angenommen, daß die obigen Fehler jeweils nur vorübergehend sind
und die Komponenten nach Reparatur und/oder Neustart wieder zur Verfügung stehen. Der Pro-
grammzustand und der Zustand des flüchtigen Speichers eines Knotens wird nach Reparatur
bzw. Neustart des Knotens nicht automatisch wieder hergestellt. Dieser Fehlertyp wird in AGUI-
LERA, CHEN UND TOUEG (1998) vorgeschlagen und Crash-Recovery Model genannt.
4.2 Definition “Genau-einmal Ausführung”
Die Eigenschaft der genau-einmal Ausführung von Operationen in verteilten Systemen wurde
erstmalig im Bereich der Client/Server-Interaktion definiert. SPECTOR (1982) spezifizierte die
nur-einmal-Typ-2 Fehlersemantik (engl.: only-once-type-2), nach SCHILL (1992A) später auch
unter dem Begriff genau-einmal Fehlersemantik (engl.: exactly-once) bekannt, für die Ausfüh-
rung eines einzelnen Aufrufes einer entfernten Prozedur. Im Kontext mobiler Agenten ist diese
Definition jedoch nicht ausreichend. Anstatt der Ausführung einer einzelnen Prozedur muß hier
die Ausführung der gesamten (in der Reiseroute spezifizierten) Aufgabe des Agenten, welcher
die Ausführung einer ganzen Sequenz von Schritten des Agenten entspricht, betrachtet werden. 
4.3  Basisprotokoll 65Sei P={P1, P2, ..., Pn} die Menge der durch eine gegebene Reiseroute spezifizierten möglichen
Pfade eines Agenten, sei L(Pi) die Anzahl der Knoten in Pfad Pi=[Ni,1, Ni,2, ..., Ni,L(Pi)] und sei
Si,j der auf dem j-ten Knoten Ni,j des Pfades Pi auszuführende Schritt (1≤i≤n, 1≤j≤L(Pi)). Die
genau-einmal Ausführung ist dann wie folgt definiert:
Definition 4-1: Genau-einmal Ausführung eines mobilen Agenten
Ein Agent wird genau einmal ausgeführt ⇔ 
((der Agent führt ausschließlich die zu einem Pfad Pi∈P gehörigen Schritte 
Si,1, ..., Si,L(Pi) auf den ihnen zugewiesenen Knoten Ni,1, ..., Ni,L(Pi) aus) ∧ 
(der Agent führt Schritt Si,j vor Schritt Si,j+1 aus (1≤j<L(Pi))) ∧ 
(jeder Schritt Si,j (1≤j≤L(Pi)) wird genau einmal vollständig ausgeführt))
In dem in Abschnitt 3.1 vorgestellten Szenario würde eine Agentenplattform, welche die genau-
einmal Ausführung mobiler Agenten garantiert, sicherstellen, daß der Butler-Agent letztendlich
nur den Blumenladen, einen der Kino-Knoten und den dazugehörigen Restaurant-Knoten in ei-
ner der durch Abbildung 3-2 spezifizierten Reihenfolgen besucht und die dort auszuführenden
Schritte genau einmal ausführt. 
Es ist durch diese Definition jedoch nicht ausgeschlossen, daß der Agent beispielsweise zuerst
auf einen der beiden Kino-Knoten transportiert wird, um die Karten zu kaufen, und erst beim
Fehlschlagen dieser Aktion (z.B. wegen Rechnerausfalls) dann auf den anderen Kino-Knoten
transportiert wird, um letztendlich dort die Karten zu kaufen. Die Agentenplattform muß in die-
sem Falle nur sicherstellen, daß der Agent wieder in den korrekten Zustand versetzt wird und
daß auf dem Knoten, auf dem der Kartenkauf fehlschlug, die durch den Agenten verursachten
Änderungen rückgängig gemacht werden.
Ebenfalls wird durch diese Definition nicht ausgeschlossen, daß der Agent die Reiseroute im
Laufe seiner Ausführung ändert bzw. ergänzt, wobei schon abgearbeitete Teile nicht mehr ver-
ändert werden dürfen. Eine Agentenplattform, welche die genau-einmal Ausführung mobiler
Agenten garantiert, stellt in diesem Fall sicher, daß nach Beendigung der Ausführung des Agen-
ten (erst dann sind alle möglichen Pfade endgültig bekannt) die Definition 4-1 zutrifft.
4.3 Basisprotokoll
Die im vorangegangenen Abschnitt definierte genau-einmal Ausführung von mobilen Agenten
kann auf einfache Weise durch den Einsatz von Transaktionen und stabilem (transaktionalem)
Speicher erreicht werden. Die zugrundeliegende Idee veranschaulicht Abbildung 4-2. 
Der mobile Agent wird zwischen der Ausführung zweier Schritte auf stabilem, transaktionalem
Speicher gespeichert. Hierfür besitzt jeder Knoten eine Eingangswarteschlange (in der Abbil-
dung mit Qi bezeichnet), welche auf transaktionalem, stabilen Speicher gespeichert wird. Zur
66 Kapitel 4   Genau-einmal AusführungAusführung des Agenten wird dieser aus der Eingangswarteschlange entnommen (d.h. gelesen
und gelöscht), der auszuführende Schritt wird ausgeführt und der Agent schließlich in die Ein-
gangswarteschlange jenes Knoten gestellt, auf dem der nächste Schritt auszuführen ist. Alle die-
se Aktionen werden im Kontext einer ACID-Transaktion (vgl. z.B. GRAY UND REUTER (1993))
ausgeführt, die vor dem Lesen des Agenten aus der Eingangswarteschlange begonnen und nach
dem Schreiben in die Warteschlange des folgenden Knoten beendet wird. Hierdurch bilden die
drei Aktionen (lesen, ausführen, schreiben) eine atomare Einheit. Da die Transaktion der Aus-
führung eines Schrittes dient, wird sie im folgenden auch als Schritt-Transaktion bezeichnet.
Unter der Voraussetzung, daß die durch den Agenten genutzten Dienste und Ressourcen trans-
aktional sind, ist damit die genau-einmal Ausführung eines Schrittes garantiert. Ist die Transak-
tion erfolgreich, stellt das Transaktionsmanagement sicher, daß alle in der Transaktion durch-
geführten Änderungen an den Ressourcen dauerhaft sind. Dies gilt nicht nur für die von dem
mobilen Agenten genutzten Ressourcen und Dienste, sondern auch für das Löschen des Agen-
ten aus der Eingangswarteschlange des lokalen Knotens und das Schreiben des Agenten in die
Eingangswarteschlange des nächsten Knotens. Das Resultat einer erfolgreichen Schritt-Trans-
aktion ist also, daß die Ressourcen und Dienste des den Schritt ausführenden Knotens die durch
die Schrittausführung erzeugten Änderungen widerspiegeln und daß der Agent in dem durch
den gerade ausgeführten Schritt erzeugten Zustand in der Eingangswarteschlange des Knotens
liegt, auf dem der nächste Schritt auszuführen ist.
Schlägt die Ausführung einer Schritt-Transaktion fehl (z.B. durch Abbruch der Transaktion
durch das Transaktionsmanagement oder durch Ausfall des den Schritt ausführenden Knotens),
so sorgt das Transaktionsmanagement dafür, daß die durch die Schritt-Transaktion erzeugten
Änderungen komplett rückgängig gemacht werden. In diesem Falle befindet sich also der Agent
nach wie vor in der Eingangswarteschlange des ausführenden Knotens; die vom Agenten be-
nutzten Ressourcen und Dienste befinden sich in demselben Zustand wie vor dem Beginn der
Abbildung 4-2. Genau-einmal Ausführung eines einzelnen 
Schrittes innerhalb einer Schritt-Transaktion
Ai
R2
Ni Ni
Qi Qi+1 Qi Qi+1
Ai+1
commit
abort
iR1i
Zustand
- vor Beginn der Schritt-Transaktion
- nach Abbruch der Schritt-Transaktion
Zustand nach erfolgreichem 
Abschluß der Schritt-Transaktion
4.3  Basisprotokoll 67Schritt-Transaktion. Die Ausführung des Agenten wird fortgesetzt, indem die Schritt-Transak-
tion (bei Knotenausfall erst nach Neustart des Knotens) erneut gestartet wird.
Eine einfache Möglichkeit, dieses Protokoll zu implementieren, ist die Verwendung transaktio-
naler Nachrichtenwarteschlangen (engl.: message queue, vgl. z.B. GRAY UND REUTER (1993))
zur Realisierung der Eingangswarteschlangen der Knoten. Nachrichtenwarteschlangen bieten
die Möglichkeit der asynchronen Kommunikation zwischen Prozessen, welche sich sowohl auf
dem selben als auch auf unterschiedlichen Knoten befinden können. Der Sender einer Nachricht
schreibt diese mittels einer Put-Operation in die Nachrichtenwarteschlange. Der Empfänger der
Nachricht kann diese dann zu einem beliebigen späteren Zeitpunkt mittels einer Get-Operation
aus der Nachrichtenwarteschlange lesen, wobei die Nachricht wahlweise aus der Nachrichten-
warteschlange entfernt wird oder für weiteres Lesen darin verbleibt. Wird bei transaktionalen
Nachrichtenwarteschlangen, die gespeicherte Nachrichten auf stabilem Speicher ablegen, die
Nachricht beim Lesen entfernt, dann garantieren transaktionale Warteschlangen unabhängig
von auftretenden Fehlern die genau-einmal Auslieferung von Nachrichten an exakt einen Emp-
fänger. Hierzu müssen die Put- und Get-Operationen innerhalb des Kontextes einer ACID-
Transaktion aufgerufen werden.
Abbildung 4-3 zeigt ein Beispiel für die genau-einmal Ausführung eines mobilen Agenten an-
hand einer Realisierung des Basisprotokolls mittels transaktionaler Nachrichtenwarteschlangen
(Qi ist die Eingangswarteschlange des Knoten Ni). In diesem Beispiel bewegt sich der Agent
entlang des Pfades N1, N2, ..., Nk (auf dem einzelne Knoten auch mehrfach besucht werden kön-
nen), welcher einer der durch die Reiseroute des Agenten gegebenen möglichen Pfade ist. So-
bald der Agent in der ersten Eingangswarteschlange gespeichert ist (Q1 in der Abbildung), ist
garantiert, daß der Agent letztendlich genau einmal ausgeführt wird. 
Algorithmus 4-1 zeigt die Pseudo-Code-Implementierung des Basisprotokolls, welches auf je-
der Agentenplattform ausgeführt wird. Nach dem Start einer Schritt-Transaktion wird ein Agent
aus der transaktionalen Nachrichtenwarteschlange gelesen und entfernt. Der durch den Agent
auf dem Knoten auszuführende Schritt wird dann mittels Execute ausgeführt. Anschließend
werden anhand der Reiseroute des Agenten die nächstmöglichen Schritte des Agenten be-
Abbildung 4-3. Genau-einmal Ausführung eines Agenten mit dem Basisprotokoll.
Q1 Q2N1
Execute
PutGet
T1
N2
Execute
PutGet
T2
Qk Nk
Execute
Get
Tk
Launch
68 Kapitel 4   Genau-einmal Ausführungstimmt. Sind keine weiteren Schritte auszuführen, wird die Transaktion sofort mit Commit be-
endet und damit die Bearbeitung des Agenten abgeschlossen. Sind weitere Schritte auszufüh-
ren, wird der Agent mittels Write in die Eingangswarteschlange des Knotens, auf dem der
nächste Schritt ausgeführt werden soll, geschrieben, bevor die Transaktion mittels Commit be-
endet wird. Stehen mehrere Schritte als mögliche nächste Schritte zur Auswahl, wird einer die-
ser Schritte ausgewählt. Mögliche Auswahlkriterien hierbei sind beispielsweise die momentane
Erreichbarkeit der Zielknoten, Effizienz (kürzeste Route wählen,...) oder in der Reiseroute de-
finierte Prioritäten.
Hiermit stellt der Basisalgorithmus sicher, daß Agenten genau-einmal gemäß Definition 4-1
ausgeführt werden: Die Ausführung der richtigen Schritte in der richtigen Reihenfolge wird
durch das Auswahlverfahren des nächsten auszuführenden Schrittes sichergestellt. Die Ausfüh-
rung innerhalb der Schritt-Transaktion stellt sicher, daß ein Schritt genau einmal ausgeführt
wird und daß nach der Ausführung des Schrittes der Agent in die Eingangswarteschlange des
den nächsten Schritt ausführenden Knotens geschrieben wird. Durch die Annahmen, daß alle
ausgefallenen Komponenten wieder neu gestartet werden und stabiler Speicher seinen Inhalt
nicht verliert, ist gesichert, daß letztendlich auch alle auszuführenden Schritte eines mobilen
Agenten durch das Protokoll (genau einmal) ausgeführt werden.
Das vorgestellte Basisprotokoll hat zwei Nachteile, die nicht verschwiegen werden sollen. Das
erste Problem ist, daß durch lang andauernde Schritte alle Ressourcen, auf die der Agent wäh-
rend des Schrittes zugreift, bis zum Ende des Schrittes blockiert sind. Abhilfe kann hier vom
Entwickler eines Agenten geschaffen werden, indem lang andauernde Schritte möglichst in
mehrere Schritte unterteilt werden. 
Das zweite Problem ist, daß ein Agent durch den Ausfall von Komponenten beliebig lange blok-
kiert werden kann. Während beispielsweise beim Aufruf eines Servers durch einen Client der
Client den Server überwachen und bei Ausfall des Servers gegebenenfalls geeignete Maßnah-
men treffen kann, geschieht die Ausführung eines Agenten autonom – es gibt keine “natürliche”
ForEach Agent a in NodeInputQueue q{
Begin Transaction{ // step transaction
q.ReadAndDestroy(Agent a)
Execute(Agent a)
nextPossibleSteps = QueryItinerary()
if (nextPossibleSteps.notEmpty()){
// execution not yet finished
nextStep = ChooseOneOf(nextPossibleSteps)
Write(Agent a) to NodeInputQueue of node on which nextStep takes place
if (not successful){
Abort Transaction
} }
}Commit Transaction
}
Algorithmus 4-1. Basisprotokoll zur genau-einmal Ausführung mobiler Agenten
4.4  Blockierungsfreies Protokoll 69Instanz, welche die Ausführung des Agenten überwacht. Fällt also ein Knoten aus, so werden
alle Agenten, die in der Eingangswarteschlange des Knoten liegen, erst dann weiter ausgeführt,
wenn der Knoten neu gestartet wurde. Dies ist jedoch für viele Anwendungsgebiete, vor allem
im Bereich des elektronischen Handels, nicht akzeptabel. Im folgenden Abschnitt wird daher
das Basisprotokoll so erweitert, daß die Wahrscheinlichkeit, daß ein Agent durch ausgefallene
Komponenten blockiert wird, drastisch reduziert wird.
4.4 Blockierungsfreies Protokoll
Das in diesem Abschnitt beschriebene Protokoll zur (annähernd) blockierungsfreien Ausfüh-
rung mobiler Agenten ist komplex. Aus diesem Grund wird die Beschreibung in mehrere Teile
untergliedert. Im ersten Teil wird ein Überblick über das gesamte Protokoll gegeben. In den dar-
auf folgenden Teilen werden zuerst die einzelnen Komponenten des Protokolles sehr detailliert
beschrieben und schließlich die Korrektheit des Protokolles diskutiert.
4.4.1 Überblick über das Protokoll
Um die Wahrscheinlichkeit, daß ein Agent durch den Ausfall von Komponenten in seiner Aus-
führung blockiert wird, zu verringern, wird das Basisprotokoll um das Konzept der Stufen
(engl.: stages) erweitert. Analog zu SCHNEIDER (1997A) existiert für jeden auszuführenden
Schritt eine (nicht-leere) Menge von Knoten, welche Stufe genannt wird. Im Gegensatz zu
SCHNEIDER (1997A) wird der Agent jedoch nicht auf allen Knoten der Stufe ausgeführt. Ein
Knoten einer Stufe, Arbeiter (engl.: worker) genannt, beginnt mit der Ausführung des Agenten.
Die anderen Knoten der Stufe, Beobachter (engl.: observer) genannt, sind dafür zuständig, die
Ausführung des Agenten durch den Arbeiter zu beobachten. Fällt der Arbeiter aus, wird dies
von den Beobachtern entdeckt und ein neuer Arbeiter aus der Menge der Beobachter bestimmt.
Die Bestimmung des initialen Arbeiters und – bei dessen Ausfall – von weiteren Arbeitern ge-
schieht mittels einer Priorität, die jedem Knoten einer Stufe zugewiesen wird und die innerhalb
der Stufe eindeutig sein muß. Neben der Wahl des Arbeiter mittels des Auswahl-Protokolles
wird diese Priorität auch für das Votier-Protokoll (vgl. weiter unten) benötigt. Der Knoten mit
der höchsten Priorität wird initialer Arbeiter der Stufe. Abbildung 4-4 zeigt die Ausführung ei-
nes Agenten in 2 Stufen. In der ersten Stufe S1 führt der Knoten mit der höchsten Priorität den
Agenten aus, die anderen 4 Knoten sind die Beobachter. In der zweiten Stufe S2 fällt der Knoten
mit der höchsten Priorität während der Ausführung des Agenten aus, so daß der Knoten mit der
zweithöchsten Priorität die Ausführung übernehmen muß (und deshalb nur noch ein intakter
Beobachter zur Verfügung steht). 
Um im Falle des Ausfalles eines Arbeiters die Ausführung des Agenten übernehmen zu können,
müssen auf allen Knoten einer Stufe die zwei folgenden Voraussetzungen erfüllt sein. Erstens
muß der Agent (Daten, Code) von allen Knoten der Stufe aus zugreifbar sein. Dies wird sicher-
70 Kapitel 4   Genau-einmal Ausführunggestellt, indem der Agent inklusive der Information über den Aufbau der Stufe (Knoten der Stu-
fe und deren Prioritäten) in die Eingangswarteschlangen aller Knoten der Stufe geschrieben
wird. Anhand der Informationen über den Aufbau der Stufe kann dann der Knoten mit der höch-
sten Priorität autonom feststellen, daß er der initiale Arbeiter ist und folglich mit der Ausfüh-
rung des Agenten beginnen. Ebenso können die restlichen Knoten der Stufe autonom feststellen
(indem sie die Informationen über die Stufe aus der Eingangswarteschlange lesen ohne sie zu
löschen), daß sie Beobachter sind. 
Die zweite Voraussetzung ist, daß alle Knoten der Stufe in der Lage sein müssen, den Agent aus-
zuführen. Hierzu muß auf jeden Fall auf den Knoten der Stufe eine Agentenplattform installiert
sein. Man kann dann zwei verschiedene Arten von Knoten in einer Stufe unterscheiden. Regu-
läre Knoten sind Knoten, auf welchen laut Reiseplan des Agenten zum momentanen Zeitpunkt
eine Teilaufgabe ausgeführt werden kann. Diese Knoten bieten also die Möglichkeit, einen re-
gulären Schritt des Agenten auszuführen. Hierbei sind die Teilaufgaben auf den verschiedenen
Knoten im allgemeinen nicht dieselben. Ausnahmebehandlungs-Knoten sind Knoten, auf denen
momentan keine Teilaufgabe des Agenten ausgeführt werden kann. Auf diesen Knoten wird der
Agent nur dann ausgeführt, wenn keine regulären Knoten verfügbar sind. In diesem Fall hat der
Agent die Möglichkeit, auf die Ausnahmesituation zu reagieren (Reiseroute ändern; auf Verfüg-
barkeit der regulären Knoten warten; u.s.w). Wird ein Agent auf einem Ausnahmebehandlungs-
Knoten ausgeführt, wird dies in die Reiseroute als zusätzlicher Schritt eingefügt. Hierdurch
wird die Ausnahmebehandlung einerseits in der Ausführungsgeschichte des Agenten dokumen-
tiert und andererseits bleibt dadurch Definition 4-1 auch bei Ausführung auf Ausnahmebehand-
lungs-Knoten erfüllt. 
Anhand des Szenariums aus Abschnitt 3.2.3, in dem der Agent eine Konferenzreise organisieren
soll, kann man die zwei unterschiedlichen Knotentypen illustrieren. Da die Ausführung der
Aufgabe dem Eigentümer sehr wichtig ist, soll die Blockierwahrscheinlichkeit des Agenten sehr
gering sein. Das System entscheidet daher, daß pro Stufe 5 Knoten zur Verfügung stehen sollen
(den Zusammenhang zwischen Anzahl der Knoten und der Blockierwahrscheinlichkeit erläutert
Abschnitt 4.6). Aus dem in Abbildung 4-5 nochmals abgebildeten Baum der möglichen Pfade
Abbildung 4-4. Ausführung eines Agenten in 2 Stufen.
4
3
2
1
5
3
2
1
S1 S2
4.4  Blockierungsfreies Protokoll 71des Agenten ergibt sich, daß für den ersten Schritt des Agenten – und damit zur Bildung der er-
sten Stufe – 7 reguläre Knoten zur Auswahl stehen. Aus diesen 7 Knoten können also 5 ausge-
wählt werden. Wird der erste Schritt bei einer der beiden Banken (Barclays oder CityBank) aus-
geführt, stehen auch für die Bildung der 2. Stufe ausreichend reguläre Knoten zur Verfügung.
Wird der erste Schritt jedoch auf einem der Knoten von AmericanAirlines ausgeführt, dann ste-
hen zur Bildung der zweiten Stufe nur zwei reguläre Knoten (Avis1 und Avis2) zur Verfügung.
Um auf die gewünschten 5 Knoten pro Stufe zu kommen, müssen nun noch drei beliebige Aus-
nahmebehandlungs-Knoten ausgewählt werden. Einen Algorithmus zur Bestimmung der Kno-
ten einer Stufe stellt Abschnitt 4.5 vor.
Die Ausführung des Agenten durch den Arbeiter geschieht analog zur Ausführung des Agenten
im Basisprotokoll. Algorithmus 4-2 und Abbildung 4-6 zeigen die Ausführung eines Agenten
Abbildung 4-5. Baum der möglichen Pfade des Konferenzplanungsagenten
Begin Transaction{ // step transaction
inputQueue.ReadAndDestroy(Agent a, StageInfo S)
Execute(Agent a)
nextStage = computeNextStageUsingItinerary()
if (nextStage.notEmpty()){
// execution not yet finished
Write(Agent a, StageInfo nextStage) to all 
inputQueues of nodes of next stage
if (not successful for all nodes of next stage){
try to correct or Abort Transaction
} }
}Commit Transaction
Algorithmus 4-2. Ausführung eines Agenten durch einen Arbeiter
AmericanAirlines1
AmericanAirlines2
AmericanAirlines3
AirCanada1
AirCanada2
IEEE
Avis1
Avis2
Barclays
CityBank
Hertz1
Hertz2
Barclays
CityBank
AmericanAirlines1
AmericanAirlines2
AmericanAirlines3
AirCanada1
AirCanada2
72 Kapitel 4   Genau-einmal Ausführungdurch einen Arbeiter. Der Agent und die Stufeninformation werden nach dem Start der Schritt-
Transaktion von stabilem Speicher gelesen und gelöscht und der Agent ausgeführt. Danach wer-
den die Knoten der nächsten Stufe und deren Priorität berechnet und der Agent inklusive der
Informationen über die nächste Stufe in die Eingangswarteschlangen der Knoten der nächsten
Stufe geschrieben. Ist das Schreiben in diese Eingangswarteschlangen nicht auf allen Knoten
erfolgreich – beispielsweise weil einer dieser Knoten ausgefallen oder durch eine Partitionie-
rung nicht erreichbar ist – so gibt es zwei Korrekturmöglichkeiten. Eine Möglichkeit ist, die aus-
gefallenen bzw. nicht erreichbaren Knoten durch andere Knoten zu ersetzen. In dem Fall werden
Agent und Stufeninformation auf diese zusätzlichen Knoten neu übertragen und die Stufenin-
formationen auf den anderen Knoten der nachfolgenden Stufe werden auf den neuen Stand ge-
bracht. Falls dies nicht möglich ist oder falls nicht festgestellt werden kann, ob Daten auf einem
Knoten angekommen sind oder nicht, muß die Transaktion abgebrochen werden. Ist der Trans-
port jedoch erfolgreich, wird die Schritt-Transaktion mit Commit() beendet. Wichtig hinsicht-
lich der Blockierwahrscheinlichkeit des Agenten ist die Feststellung, daß die Zugriffe auf den
stabilen Speicher durch die Beobachter einer Stufe (zum Lesen der Informationen zum Aufbau
der Stufe) nicht innerhalb der Schritt-Transaktion geschieht. Würde dies innerhalb dieser Trans-
aktion geschehen, würde dadurch die Wahrscheinlichkeit, daß die Beendigung der Transaktion
durch einen Knotenausfall verzögert bzw. unmöglich wird, wesentlich erhöht. Die Einbezie-
hung aller Knoten der darauffolgenden Stufe in die Transaktion durch die Schreiboperation in
deren Eingangswarteschlangen erhöht hingegen diese Wahrscheinlichkeit nur sehr unwesent-
lich, da die Verfügbarkeit der Knoten kurz vor dem Schreiben des Agenten in die Eingangswar-
teschlangen geprüft werden kann.
Der Start des Agenten geschieht innerhalb einer Starttransaktion, welche auf dem Knoten des
Agentenbesitzers bzw. der Anwendung, welche den Agenten startet, ausgeführt wird. In dieser
Starttransaktion hat der Agent die Möglichkeit, sich zu initialisieren und beispielsweise seine
Reiseroute (partiell) aufzustellen. Nach der Initialisierungsphase werden die Knoten der ersten
Stufe bestimmt, der Agent auf diese Knoten transportiert und die Starttransaktion beendet. Al-
gorithmus 4-3 zeigt den Ablauf der Starttransaktion im Überblick. Sobald diese Starttransaktion
Abbildung 4-6. Transaktionale Ausführung eines mobilen Agenten in einer Stufe.
3
2
1
3
2
1
Write
Write
Write
Read Read
Read
Read
S
i
T
i
S
i+1
Execute
4.4  Blockierungsfreies Protokoll 73erfolgreich beendet ist, kann sich der Benutzer bzw. die den Agenten startende Anwendung si-
cher sein, daß der Agent blockierungsfrei genau einmal ausgeführt wird.
Im Gegensatz zum Basisprotokoll ist bei dem erweiterten Protokoll wichtig, daß sich der Agent
zum Zeitpunkt des erfolgreichen Abschlusses der Transaktion tatsächlich auf den Knoten der
nächsten Stufe befindet. Bei der Kommunikation mittels gängiger Nachrichtenwarteschlangen-
Produkte (z.B. IBM MQSeries) ist beispielsweise nur garantiert, daß eine innerhalb einer Trans-
aktion verschickte Nachricht auf jeden Fall ausgeliefert werden wird. Die Nachricht befindet
sich nach dem Commit der Transaktion jedoch meist noch in einer lokalen Warteschlange des
sendenden Knotens und wird asynchron zum Zielknoten transportiert. Fällt daher der Knoten
zwischen Transaktionsende und Weiterbeförderung der Nachricht aus, wird die Nachricht erst
nach Wiederanlauf des Knotens weitergeleitet. Für das Protokoll würde dies bedeuten, daß der
Agent in diesem Falle ebenfalls bis zum Wiederanlauf des Knotens blockiert wäre. Aus diesem
Grund ist die Verwendung gängiger Nachrichtenwarteschlangen-Produkte für die Implementie-
rung dieses Protokolles nicht möglich. Die Implementierung des Protokolles hat auf jeden Fall
sicherzustellen, daß vor dem Beenden der Schritt-Transaktion der Agent allen Eingangswarte-
schlangen der Knoten der nächsten Stufe (welche sich direkt auf den entsprechenden Knoten
befinden und als Ressourcenmanager, d.h. als transaktionale Ressourcen, implementiert sind)
übergeben wurde.
Um den Ausfall eines Arbeiters zu erkennen, wird ein Beobachtungsprotokoll verwendet. So-
bald einer der Beobachter den Ausfall des Arbeiters feststellt, bestimmen die Beobachter der
Stufe mittels des Auswahlprotokolles einen neuen Arbeiter. Da nach einem Knotenausfall die
auf dem Knoten nicht vollständig ausgeführte Schritt-Transaktion zurückgesetzt wird, kann nun
der neu bestimmte Arbeiter damit beginnen, den auf ihm auszuführenden Schritt wie oben be-
schrieben auszuführen. Beobachtungs- und Auswahlprotokoll werden detailliert in Abschnitt
4.4.3.1 und Abschnitt 4.4.3.2 beschrieben
startAgent(Agent a, parameters){
Begin Transaction{ // start transaction
instantiate Agent a(parameters)
ExecuteInitialisation(a)
nextStage = computeNextStageUsingItinerary()
if (nextStage.notEmpty()){
// execution not yet finished
Write(Agent a, StageInfo nextStage) to all 
inputQueues of nodes of next stage
if (not successful for all nodes of next stage){
try to correct or Abort Transaction
} }
}Commit Transaction
return completion state of transaction
}
Algorithmus 4-3. Starttransaktion
74 Kapitel 4   Genau-einmal AusführungDiese Lösung ist jedoch aus zwei recht offensichtlichen Gründen noch nicht vollständig: Er-
stens kann bisher nicht sicher festgestellt werden, ob die Schritt-Transaktion des Arbeiters nicht
schon vor dessen Ausfall beendet war. Zweitens ist es nach unserem Fehlermodell und auch in
der Realität nicht möglich, sicher zwischen Knoten- und Netzwerkausfall zu unterscheiden. Da-
her kann auch nicht sicher festgestellt werden, ob der aktuelle Arbeiter nun tatsächlich ausge-
fallen ist oder ob er zwar nicht mehr erreichbar ist, der Agent jedoch nach wie vor noch dort
ausgeführt wird. Deshalb ist es möglich, daß innerhalb einer Stufe zwei oder mehr Arbeiter exi-
stieren, welche beide innerhalb einer Schritt-Transaktion einen Schritt des Agenten oder eine
Ausnahmebehandlungsprozedur ausführen. Da dies der genau-einmal Ausführung widerspricht
muß sichergestellt werden, daß nur eine dieser Schritt-Transaktionen erfolgreich abgeschlossen
werden kann. Dies wird erreicht, indem ein Votierprotokoll in das 2-Phasen-Commit-Protokoll
(kurz: 2PC-Protokoll) der Schritt-Transaktionen integriert wird. Dieses Protokoll stellt sicher,
daß nur bei Zustimmung der Mehrheit der Knoten einer Stufe die Schritt-Transaktion erfolg-
reich beendet werden kann. Außerdem wird mittels dieses Votierprotokolles auch dafür gesorgt,
daß die Beobachter nach Abschluß einer Stufe alle die Stufe betreffenden Informationen – z.B.
auch den Agent in ihrer Eingangswarteschlange – löschen können. Das Votierprotokoll wird in
Abschnitt 4.4.2 detailliert beschrieben. 
Eine wichtige Eigenschaft des Protokolles ist, daß es sich problemlos in gängige Transaktions-
systeme mit 2PC-Protokoll integrieren läßt. Die hierbei zugrunde gelegte Architektur lehnt sich
stark an die X/Open Distributed Transaction Processing Architektur (vgl. XOPEN (1991)) an.
Für die Ausführung des 2PC-Protokolles sind in dieser Architektur Transaktionsmanager zu-
ständig. Die durch den Transaktionskontext geschützten Daten (engl.: recoverable data) werden
durch Ressourcenmanager verwaltet.
Die für den Abschluß einer Schritt-Transaktion (und daher den Abschluß einer Stufe) wichtigen
Komponenten und Interaktionen zeigt Abbildung 4-7. Nachdem der Arbeiter der Stufe Si für die
Schritt-Transaktion das Commit() aufruft, initiiert der lokale Transaktionsmanager (kurz: TM)
das 2PC-Protokoll, welches den Arbeiter und alle Knoten der nachfolgenden Stufe Si+1 betrifft.
Während des 2PC-Protokolles interagieren die betroffenen TMs mit den Ressourcenmanagern
(kurz: RMs), welche bei der Bearbeitung der Stufe beteiligt waren. Neben den Ressourcen, auf
die der Agent während der Ausführung des Schrittes zugegriffen hat, sind dies vor allem die
Eingangswarteschlangen der Knoten der nachfolgenden Stufe Si+1. Zusätzlich interagiert der
TM des Arbeiters mit einem weiteren RM, welcher Orchestrator genannt wird. Der Orchestra-
tor ist dafür zuständig, das Votierprotokoll zu orchestrieren. Hierfür existiert auf jedem Knoten
der Stufe ein Votierer, welcher vom Orchestrator zur Stimmabgabe aufgefordert wird. Die vor-
geschlagene Integration des Votierprotokolles hält die Schnittstelle zwischen Votierprotokoll
und 2PC-Protokoll minimal. Der Orchestrator ist aus der Sicht des Transaktionsmanagers nur
ein weiterer RM, welcher gegenüber dem TM dieselbe Schnittstelle wie alle anderen RMs (z.B.
ein XA-Interface, vgl. BERNSTEIN UND NEWCOMER (1997), XOPEN (1991)) bietet. Dies ermög-
licht eine einfache Integration des Votierprotokolles in gängige Middleware-Systeme.
4.4  Blockierungsfreies Protokoll 75Details zu den einzelnen Teilprotokollen werden in den beiden folgenden Abschnitten präsen-
tiert.
4.4.2 Votierprotokoll
Dieser Abschnitt konzentriert sich auf die Beschreibung des Votierprotokolles und dessen Inte-
gration in das 2PC-Protokoll. Hierbei wird auf die Funktionalität des 2PC-Protokoll nur soweit
eingegangen, wie es zum Verständnis des vorgestellten Votierprotokolles notwendig ist. Eine
detaillierte Beschreibung des 2PC-Protokoll findet man beispielsweise in BERNSTEIN UND
NEWCOMER (1997). Das vorgestellte Votierprotokoll basiert auf dem fehlertoleranten Votieren
mit Mehrheitsentscheidung (engl.: majority consensus). Eine genauere Beschreibung dieses Al-
gorithmus findet man in GIFFORD (1979) und THOMAS (1979). Da das Votierprotokoll prinzip-
bedingt parallel von mehreren Orchestratoren einer Stufe gestartet werden kann, wird der Algo-
rithmus um einen Mechanismus erweitert, welcher mittels Prioritäten die Bestimmung eines
eindeutigen Gewinners des Votierprotokolles erlaubt. 
Abbildung 4-7. Für den Abschluß einer Schritt-Transaktion
relevante Komponenten und Interaktionen.
TMQM
RM
O
V
V
TM QM
RM
Knoten der Stufe Si Knoten der Stufe Si+1
Legende:
QM: Queue-Manager
RM: Ressourcenmanager
TM: Transaktionsmanager
O: Orchestrator
V: Votierer
: 2-Phasen-Commit-Protokoll
: Abstimmungsprotokoll
76 Kapitel 4   Genau-einmal Ausführung4.4.2.1 Integration in das 2-Phasen-Commit-Protokoll
Wie bereits im letzten Abschnitt beschrieben, ist der Orchestrator aus der Sicht des TM ein nor-
maler RM. Für unser Protokoll-Design nehmen wir an, daß jeder RM eine XA-ähnliche Schnitt-
stelle mit den folgenden Operationen anbietet: rm_prepare, rm_commit und rm_rollback. Ab-
bildung 4-8 zeigt das Zusammenspiel von TM und RM beim 2PC-Protokoll. Wie der Name
schon sagt, besteht das 2PC-Protokoll aus zwei Phasen. Die erste Phase beginnt, indem der TM
bei den RMs rm_prepare aufruft. Jeder RM entscheidet dann für die von ihm verwalteten Daten,
ob er die Transaktion erfolgreich abschließen kann. Ist dies der Fall, schreibt er die zum Ab-
schluß der Transaktion notwendigen Daten auf stabilen Speicher und gibt als Antwort ein
rm_yes zurück. Ist es dem RM nicht möglich, die Transaktion erfolgreich abzuschließen – bei-
spielsweise wegen einer entdeckten Verklemmung (engl.: deadlock) oder wegen anderer Fehler
– dann wird rm_no als Antwort zurückgegeben. Hat der TM von allen betroffenen RM eine Ant-
wort bekommen, entscheidet er, ob die Transaktion erfolgreich abgeschlossen (nur rm_yes als
Antworten erhalten) oder abgebrochen wird (mindestens ein rm_no erhalten). Diese Entschei-
dung wird auf stabilen Speicher geschrieben. 
In der zweiten Phase werden die RMs vom Ausgang der Transaktion informiert. Mit rm_commit
wird ein erfolgreicher Ausgang der Transaktion signalisiert, mit rm_rollback ein Abbruch der
Transaktion. Eine Optimierung überträgt bei Abbruch der Transaktion wie in unserem Beispiel
in Abbildung 4-8 b) gezeigt, die Entscheidung nur zu jenen RMs, welche rm_yes votiert haben
(die anderen RMs wissen bereits, daß die Transaktion abgebrochen wird). Die RMs machen nun
entweder die Änderungen an den Daten dauerhaft (bei rm_commit) bzw. verwerfen die Ände-
Abbildung 4-8. 2PC-Protokoll
a) Transaktion erfolgreich beendet; b) Transaktion abgebrochen
RM1 RM2TM
rm_prepare
rm_yes rm_no
rm_commit
a)
rm_prepare
rm_yes
rm_commit
rm_ack rm_ack
RM1 RM2TM
rm_prepare rm_prepare
rm_yes
rm_rollback
rm_ack
b)
Phase I
Phase II
4.4  Blockierungsfreies Protokoll 77rungen an den Daten (bei rm_rollback). Anschließend wird der TM mittels rm_ack informiert,
daß die zur Transaktionsbeendigung notwendigen Aktionen vom RM ausgeführt wurden. So-
bald der TM von allen RM eine Antwort erhalten hat, kann er die mit der Transaktion assoziier-
ten Daten vergessen.
Die Integration des Votierprotokolles in das 2PC-Protokoll geschieht dadurch, daß der Orche-
strator die beiden Phasen des Votierprotokolles durchführt, wenn der TM bei ihm rm_prepare
(Phase I) bzw. rm_commit/rm_rollback (Phase II) aufruft. Wenn beim Orchestrator rm_prepare
aufgerufen wird, sendet jener eine Votieranforderung zu den Votierern der Stufe und sammelt
die eingegangenen Voten. Nur wenn er eine Mehrheit von positiven Antworten (YES-Voten) be-
kommt, gibt der Orchestrator rm_yes an den TM zurück. Gibt es keine Mehrheit, wird rm_no
zum TM zurückgeliefert. Hierdurch wird erreicht, daß die Schritt-Transaktion nur dann erfolg-
reich beendet werden kann, wenn eine Mehrheit von Votierern mit YES votiert. Um sicherzu-
stellen, daß dies pro Stufe nur bei genau einer Transaktion geschehen kann, wird von dem hier
beschriebenen Protokoll sichergestellt, daß ein Votierer letztendlich jeweils nur für einen Orche-
strator einer Stufe ein YES-Votum abgibt. Eine detaillierte Beschreibung der beiden Phasen er-
folgt in Abschnitt 4.4.2.3.
4.4.2.2 Stabile Zustände des Protokolles
Für die Realisierung des Protokolles werden zwei verschiedene Typen stabiler Zustände benö-
tigt, welche auf stabilem Speicher gespeichert werden und daher Knotenfehler überleben. 
Der Transaktionsstatus beschreibt den Status der Schritt-Transaktion und wird durch den Or-
chestrator verwaltet. Eine Schritt-Transaktion kann sich in den Zuständen “Unknown” (unbe-
kannt), “Ready” (bereit zum Beenden der Transaktion) und “Committed” (Transaktion erfolg-
reich abgeschlossen) befinden. Im “Unknown”-Zustand liegen analog zur “Presumed Abort”-
Optimierung des 2PC-Protokoll (vgl. beispielsweise BERNSTEIN UND NEWCOMER (1997)) keine
Informationen auf stabilem Speicher vor.
Der Stufenstatus beschreibt den Status einer Stufe. Eine Stufe kann sich in den Zuständen
“Unknown” (unbekannt) und “Active” (aktiv) befinden. Im Gegensatz zum Transaktionsstatus
wird der Stufenstatus auf jedem Knoten der Stufe gehalten. Die Verwaltung dieses Status ge-
schieht auf dem Arbeiter-Knoten der Stufe im Kontext der Ausführung des Agenten, und auf
den Beobachterknoten durch die Votierer der Stufe. Die Zustandsinformation einer aktiven Stu-
fe wird in einem Stufen-Record (engl.: stage record) auf stabilem Speicher abgelegt. 
Der Stufen-Record setzt sich aus den folgenden Informationen zusammen:
• Ein Stufenbezeichner (engl.: stage identifier, kurz StufenId), welcher sich aus dem Agenten-
namen und einem Schrittzähler zusammensetzt. Der Agentenname identifiziert den Agent
global eindeutig. Der Schrittzähler zählt die Anzahl der durch den Agenten bereits ausge-
führten Schritte. 
78 Kapitel 4   Genau-einmal Ausführung• Die Liste der Knoten der Stufe. Hierbei ist für jeden Knoten neben dessen (eindeutigem)
Knotennamen auch die Priorität enthalten.
Wenn ein Agent zur nächsten Stufe “migriert”, wird nicht nur der Agent sondern auch der Stu-
fen-Record in die Eingangswarteschlangen der Knoten der nächsten Stufe geschrieben. Sobald
der Stufen-Record in der Eingangswarteschlange eines Knoten steht, ist die Stufe auf diesem
Knoten “Active”. Da das Schreiben aller Stufen-Records einer Stufe innerhalb der Schritt-
Transaktion der vorherigen Stufe geschieht, sind entweder alle Knoten einer Stufe “Active” oder
keiner. Die Knoten der Stufe lesen diesen Stufen-Record dann, ohne ihn aus der Eingangswar-
teschlange zu entfernen, und entscheiden anhand der Prioritäten, ob sie initial Arbeiter oder Be-
obachter sind.
4.4.2.3 Phasen des Votierprotokolles
Das Protokoll besteht analog zum 2PC-Protokoll aus zwei Phasen. In der ersten Phase werden
die Voten von den Votierern der Stufe gesammelt. In der zweiten Phase wird das Ergebnis der
Schritt-Transaktion den Votierern der Stufe bekannt gemacht. Ist die Stufe abgeschlossen, ent-
fernen die Votierer der Stufe die mit der Stufe assoziierten, auf stabilem Speicher liegenden In-
formationen (Stufen-Record und Agent). 
Pro Knoten gibt es jeweils nur einen Orchestrator und einen Votierer. Diese sind für die Bear-
beitung sämtlicher auf dem Knoten aktiven Stufen zuständig. Zur Identifikation des Orchestra-
tors und des Votierers eines Knotens wird der (eindeutige) Knoten-Bezeichner des Knotens ver-
wendet. Der Empfänger einer Nachricht (Orchestrator, Votierer) ergibt sich jeweils aus dem Typ
der Nachricht, die zugehörige Stufe wird jeweils mittels dem in der Nachricht mitübertragenen
Stufenbezeichner identifiziert. Um die Lesbarkeit zu erleichtern, werden in den folgenden Ab-
schnitten, abhängig vom Kontext, die Begriffe Votierer-Bezeichner (kurz: VotiererId) und Or-
chestrator-Bezeichner (kurz: OrchId) anstatt Knoten-Bezeichner (kurz: KnotenId) verwendet. 
Phase I. Algorithmus 4-4 und Algorithmus 4-5 zeigen Phase I des Votierprotokolles von Or-
chestrator und Votierer in einer Pseudo-Code-Notation. Die meisten der im Code verwendeten
Variablen hängen von der StufenId ab. Um den Code möglichst kompakt zu halten, werden die-
se Variablen jedoch nur als x anstatt x[StufenId] geschrieben.
Phase I des Votierprotokolles wird gestartet, wenn ein Orchestrator rm_prepare vom TM emp-
fängt. Der Orchestrator versendet dann zuerst eine VOTE-Aufforderung an jeden Votierer der
zur Stufe gehörenden Knoten (einschließlich dem sich auf dem Knoten des Orchestrators be-
findlichen Votierers). Die Aufforderung enthält den Stufenbezeichner, den Bezeichner des Or-
chestrators und den (lokalen) Zeitstempel des Beginns der Phase I. Danach wartet der Orche-
strator auf die Voten. Dabei versendet er die VOTE-Aufforderungen periodisch an jene Votierer,
die noch nicht geantwortet haben. Der Zeitstempel wird benötigt, um die Voten den VOTE-Auf-
forderungen zuzuordnen, da es beispielsweise durch Knotenfehler vorkommen kann, daß ein
4.4  Blockierungsfreies Protokoll 79Votierer mehrere Votierrunden startet und in diesem Fall das Votum einer “alten” Votierrunde
ignoriert werden muß. Anstatt des Zeitstempels kann auch – falls verfügbar – der Transaktions-
bezeichner der aktuellen Schritt-Transaktion verwendet werden. Der Zeitstempel ermöglicht es
allerdings, auch Reihenfolgefehler bei Nachrichten zu tolerieren.
Die Votierer merken sich die von ihnen für eine Stufe abgegebenen Voten in einer Menge na-
mens OrchSet. Für jede momentan auf seinem Knoten aktive Stufe verwaltet der Votierer ein
OrchSet. Die OrchSets werden auf stabilem Speicher abgelegt. Immer wenn der Votierer eine
YES-Votum oder COND_YES-Votum für einen Orchestrator einer Stufe abgibt, fügt er dessen
Bezeichner in das entsprechende OrchSet ein. Solange keine Fehler auftreten und deshalb der
Agent auch nur auf einem Knoten ausgeführt wird, enthält ein OrchSet beim Beenden der Stufe
nur einen Orchestrator-Bezeichner. Treten jedoch Fehler auf, kann das OrchSet mehrere Be-
zeichner enthalten.
Algorithmus 4-4. Votierprotokoll Phase I des Orchestrators
Receive rm_prepare(transactionId){ // from TM
stageVoters = set of voterIds in stage
YV=NV=CYV={}// set of received votes
voteStart = timestamp() // unique timestamp
Repeat{ //periodic sending of vote request
Send VOTE (stageId, orchId, voteStart)
To stageVoters\(YV+NV+CYV)
Wait(timeout)
} Until (voteResult is set)
Send voteResult(transactionId) To TM
}
Receive YES(stId, voterId, time){
If (stId==stageId and timeStamp==voteStart){
YV = YV + voterId
}
If (YV contains majority){
transactionState = Ready
set voteResult = rm_yes
} }
Receive COND_YES(stId, voterId, orchSet, time){
If (stId==stageId and timeStamp==voteStart){
CYV = CYV + (voterId, orchSet)
CheckCondYes(CYV, YV)
}
If (YV contains majority){
transactionState = Ready
set voteResult = rm_yes
} }
Receive GIVE_UP(StageId){
abort local transaction
}
Receive NO(stId, voterId, time){
If (stId==stageId and time==voteStart){
NV = NV + voterId
}
If (NV contains majority){
set voteResult = rm_no
Send UN_VOTE(stageId, orchId, voteStart)
To voters in YV+CYV
} }
Receive HIGHER_PRIO(StageId){
If (transactionState==Unknown)
set voteResult = rm_no
Send UN_VOTE(stageId, orchId, voteStart)
To voters in YV+CYV
Reply GAVE_UP
}Else{
Reply ALREADY_DONE
} }
Procedure CheckCondYes(CYV, YV){
Do{
changes=false
ForEach (vId, orchSet) in CYV Do{
If (orchSet\YV == {}){
CYV = CYV\(vId, orchSet)
YV = YV + vId
changes=true
} }
} While (changes == true)
} 
80 Kapitel 4   Genau-einmal AusführungSobald ein Votierer eine VOTE(StufenId, OrchId, Zeitstempel)-Aufforderung erhält, bestimmt er
seine Antwort anhand des zur Stufe gehörigen OrchSets. Ist das OrchSet leer (1)1, hat der Vo-
tierer für diese Stufe entweder noch keine Stimme abgegeben oder die von ihm abgegebenen
Stimmen wurden von den Orchestratoren zurückgegeben (wird weiter unten erläutert). In die-
sem Fall wird OrchId zum OrchSet der Stufe StufenId hinzugefügt und ein YES(StufenId, Votie-
rerId, Zeitstempel)-Votum an den Orchestrator OrchId verschickt. Der Zeitstempel entspricht
dem in der VOTE(...)-Aufforderung empfangenen. Abbildung 4-9 zeigt ein Szenario, in dem nur
ein Orchestrator das Votierprotokoll initiiert. Weder Votierer V1 noch Votierer V2 haben schon
ein Votum abgegeben und können daher Orchestrator O1 jeweils ein YES(...)-Votum schicken.
Ist das OrchSet nicht leer (2), konkurrieren offensichtlich mehrere Orchestratoren um die Stim-
me. Um sicherzustellen, daß letztendlich nur einer der Orchestratoren die notwendige Mehrheit
erhält, bevorzugt das Votierprotokoll den Orchestrator des Knotens mit der höchsten Priorität.
Sei N der Orchestrator im OrchSet, dessen Knoten im Vergleich mit den Knoten der anderen Or-
chestratoren im OrchSet die höchste Priorität hat. Wenn OrchSet nicht leer ist und der Knoten
von N eine höhere Priorität hat als der Knoten von OrchId (3), dann hat der Votierer schon für
Algorithmus 4-5. Votierprotokoll Phase I des Votierers
1. Die Zahlen in Klammern beziehen sich auf die Fall-Numerierungen in Algorithmus 4-5
Receive VOTE(stageId, orchId, time){
If (orchSet=={}){ (1)
orchSet = orchSet + orchId
Send YES(stageId, voterId, time) To orchId
}Else (2) If(orchId ∉ orchSet){ 
N = node with highest priority in orchSet
If (prio(orchId) < prio(N)){ (3)
Send NO(stageId, voterId, time) To orchId
}Else{(4) // orchId has highest priority in set
If (N ≠ voterId){(5)
Send COND_YES(stageId, voterId,
orchSet, time) To orchId
orchSet = orchSet + voterId
} Else{(6)
Send HIGHER_PRIO(stageId) To
local orchestrator
Receive ANSWER from local
orchestrator
If (ANSWER == GAVE_UP){ (7)
orchSet = orchSet\{N}
If (orchSet == {}){ (8)
Send YES(stageId, voterId,
time) To orchId
}Else{(9)
Send COND_YES(stageId, 
voterId, orchSet, time) 
To orchId
}
orchSet = orchSet + orchId
}Else{ (10)// ALREADY_DONE
Send NO(stageId, voterId, time) To
orchId
} } } 
} Else (11) // orchId already in orchSet
N = node with highest priority in orchSet
If (orchId==N){(12)
Send COND_YES(stageId, voterId, 
orchSet, time) To orchId
}Else{(13)
Send NO(stageId, voterId, time) To orchId
orchSet = orchSet\{orchId}
}
}
If (voted YES or COND_YES){
DoInquiry( stageId, orchId) 
// see recovery section
}
}
Receive UN_VOTE(stId, orchId, time){
orchSet = orchSet \ orchId
}
4.4  Blockierungsfreies Protokoll 81einen Knoten mit höherer Priorität mit YES(...) votiert. In diesem Fall sendet der Votierer ein
NO(StufenId, VotiererId, Zeitstempel)-Votum an den Orchestrator OrchId zurück – OrchId be-
kommt von diesem Votierer keine Stimme. Abbildung 4-10 zeigt ein Szenario, in dem zwei Or-
chestratoren zur beinahe selben Zeit das Votierprotokoll initiieren. Votierer V1 hat seine Stimme
bereits an Orchestrator O1, dessen Knoten eine höhere Priorität besitzt als der Knoten des Or-
chestrators O2, vergeben. Aus diesem Grunde sendet V1 ein NO-Votum an O2.
Wenn OrchSet nicht leer ist und der Knoten von N eine niedrigere Priorität hat als der Knoten
des Orchestrators OrchId (4), dann hat der Votierer zwar schon für die Stufe votiert – jedoch nur
für einen (oder mehrere) Knoten mit niedrigerer Priorität. Ist N nicht der Orchestrator des eige-
nen Knotens (5), sendet der Votierer ein COND_YES(StufenId, VotiererId, OrchSet, Zeitstem-
pel)-Votum an den Orchestrator OrchId zurück und fügt OrchId zum OrchSet hinzu. Die Seman-
tik dieses Votums ist, daß der Votierer mit YES votiert – vorausgesetzt, daß die Votierer der
Knoten, deren Orchestratoren in OrchSet enthalten sind, zustimmen. Im Szenario in Abbildung
4-10 hat der Votierer V3 bereits dem Orchestrator O2 ein YES-Votum geschickt als vom Orche-
strator O1 eine Votieraufforderung ankommt. Da der Knoten von O1 eine höhere Priorität hat als
Abbildung 4-9. Phase I: Ein Orchestrator initiiert das Votieren
Abbildung 4-10. Phase I: Zwei Orchestratoren initiieren das Votieren parallel
V1 O1 V2
VOTE VOTE
rm_prepare
YESYES
rm_yes
O1 V1 V2 O2V3
UN_VOTE
rm_prepare
rm_yes
VOTE
YES
COND_YES(O2)
YES
NO
YES
VOTE
YES
H_PRIO
GAVE_UP
rm_prepare
rm_no
82 Kapitel 4   Genau-einmal Ausführungder Knoten von O2, informiert V3 den Orchestrator O1 mittels des COND_YES-Votums, daß er
zustimmt, falls V2 (der Votierer auf Knoten von O2) ebenfalls zustimmt. Da V2 letztendlich (vgl.
nächster Absatz) auch ein YES-Votum zu O1 schickt, verwandelt sich damit das konditionelle
COND_YES-Votum von V3 in ein YES-Votum.
Ist allerdings im letzten Falle N der Orchestrator auf dem Knoten des Votierers (6), dann hat der
Orchestrator auf dem Knoten des Votierers ebenfalls schon mit dem Votierprotokoll begonnen.
Da der Knoten des Orchestrators OrchId eine höhere Priorität hat, sollte sich der lokale Orche-
strator möglichst geschlagen geben und dem Orchestrator OrchId den Vorrang lassen. Hierzu
sendet der Votierer VoterId dem lokalen Orchestrator eine HIGHER_PRIO(StufenId)-Anforde-
rung und gibt dem Orchestrator damit bekannt, daß ein Knoten mit höherer Priorität ebenfalls
die Stufe abschließen möchte. Ist der Transaktionsstatus der Stufentransaktion noch
“Unknown”, antwortet der Orchestrator mit GAVE_UP um anzuzeigen, daß er die Stufentrans-
aktion abbricht. Ist die Transaktion schon in einem der Zustände “Ready” oder “Committed”,
dann antwortet der Orchestrator mit ALREADY_DONE. Antwortet der Orchestrator mit
ALREADY_DONE (10), sendet der Votierer VoterId ein NO(StufenId, VotiererId, Zeitstempel)-
Votum an den Orchestrator OrchId. Ansonsten (7) sendet er ein COND_YES(StufenId, Votiere-
rId, OrchSet-{N}, Zeitstempel)-Votum und entfernt N aus dem OrchSet (9). Ist OrchSet-{N} die
leere Menge, kann hierbei aufgrund der Semantik von COND_YES ein YES-Votum anstatt des
COND_YES-Votums geschickt werden (8). 
Im Szenario in Abbildung 4-10 erhält der Votierer V2 eine VOTE-Aufforderung von O1 nach-
dem er schon ein YES-Votum an den lokalen Orchestrator O2 vergeben hat. Da der Knoten von
O1 die höhere Priorität hat, sendet V2 eine HIGHER_PRIO(StufenId)-Anforderung an O2, wel-
cher, da das Votierprotokoll (und daher die Schritt-Transaktion) bei ihm noch nicht abgeschlos-
sen ist, mit GAVE_UP antwortet. Das ermöglicht V2, ein YES-Votum an O1 zu schicken.
Bisher nicht betrachtet wurde der Fall, daß der Orchestrator OrchId schon im OrchSet enthalten
ist (11). Dies kann beispielsweise dann passieren, wenn die Antwort des Votierers an den Or-
chestrator wegen einer kurzfristigen Netzwerkpartitionierung verloren ging (und der Orchestra-
tor die VOTE-Aufforderung erneut verschickt) oder wenn der Knoten des Orchestrators kurz-
zeitig ausgefallen war (Zusammenbruch während der ersten Phase des Votierprotokolles) und
nach dem Neustart den Agent erneut ausgeführt hat. Hier muß man nur zwei Fälle beachten. Ist
OrchId der Orchestrator im OrchSet, dessen Knoten die höchste Priorität in der Stufe hat (12),
dann schickt der Votierer ein COND_YES(StufenId, VotiererId, OrchSet-{OrchId}, Zeitstem-
pel)-Votum (bzw. YES-Votum, wenn OrchSet-{OrchId} die leere Menge ist). Ansonsten (13)
wird ein NO-Votum verschickt und OrchId aus OrchSet entfernt. 
Zur Verwaltung der gerade im Orchestrator aktuell ablaufenden Votierrunden unterhält der Or-
chestrator für jede Votierrunde, welche durch die StufenId des Agenten und den Zeitstempel des
Votierbeginns (bzw. alternativ den Transaktionsbezeichner der Schritt-Transaktion) gekenn-
zeichnet ist, drei Mengen im flüchtigen Speicher: YesVoten, NoVoten und CondYesVoten (in Al-
4.4  Blockierungsfreies Protokoll 83gorithmus 4-4 abgekürzt mit YV, NV und CYV). Erhält der Orchestrator nun ein Votum von ei-
nem Votierer, kann er anhand der StufenId und des Zeitstempels feststellen, ob es sich hierbei
um eine Antwort auf eine gerade laufende Votierrunde handelt. Ist das Votum ein aktuelles YES-
bzw. NO-Votum, so wird die in dem Votum enthaltene VotiererId in die YesVotes- bzw. NoVotes-
Menge eingefügt. Bei einem COND_YES-Votum wird das in dem Votum enthaltene (VotiererId,
OrchSet)-Paar in die CondYesVoten-Menge eingefügt. Sobald alle Votierer der Knoten, deren
Orchestratoren in OrchSet enthalten sind, in der YesVoten-Menge enthalten sind, wird das (Vo-
tiererId, OrchSet)-Paar aus der CondYesVoten-Menge entfernt und VotiererId in die YesVoten-
Menge eingefügt (d.h. aus dem COND_YES-Votum wird ein YES-Votum). Anders ausgedrückt:
gilt für ein (VotiererId, OrchSet)-Paar aus der CondYesVoten-Menge, daß OrchSet-YesVoten die
leere Menge ist, kann das (VotiererId, OrchSet)-Paar aus der CondYesVoten-Menge entfernt und
VotiererId in die YesVoten-Menge eingefügt werden.
Sobald die YesVoten-Menge eine Mehrheit der Voten (d.h. mehr als die Hälfte der Votierer der
Stufe müssen letztendlich mit YES gestimmt haben) enthält, geht der Orchestrator in den “Rea-
dy”-Zustand über (auf stabilem Speicher!) und antwortet dem lokalen TM mit rm_yes (vgl. Or-
chestrator O1 in den obigen Szenarien). Dann wartet der Orchestrator auf die Commit- bzw. Ab-
bruch-Entscheidung des TM. Wird jedoch eine Mehrheit an Voten unmöglich (d.h. NoVoten
enthält mindestens die Hälfte der Votierer der Stufe), antwortet der Orchestrator dem lokalen
TM mit rm_no, sendet eine UN_VOTE(StufenId, OrchId)-Aufforderung an alle Votierer, welche
in YesVoten und CondYesVoten enthalten sind und vergißt dann die Transaktion (vgl. beispiels-
weise Orchestrator O2 in Abbildung 4-10). Zu beachten ist, daß durch ein rm_no der TM die
Schritt-Transaktion abbricht. Hierdurch wechselt die Rolle des Knotens vom Arbeiter zum Be-
obachter (vgl. auch Abschnitt 4.4.3.1).
Wenn der Orchestrator eine HIGHER_PRIO(StufenId)-Anforderung bekommt, antwortet er mit
ALREADY_DONE wenn sich die Schritt-Transaktion schon im Zustand “Ready” oder “Com-
mitted” befindet. Befindet sich die Transaktion jedoch noch im “Unknown”-Zustand, antwortet
er mit GAVE_UP, gibt rm_no an den lokalen TM zurück, sendet UN_VOTE-Aufforderungen an
alle Votierer in YesVoten und CondYesVoten und vergißt die Transaktion. Analog zu oben wech-
selt dann die Rolle des Knotens vom Arbeiter zum Beobachter.
Ein Orchestrator bekommt von seinem lokalen Votierer eine GIVE_UP-Aufforderung, wenn ein
anderer Knoten die Schritt-Transaktion bereits erfolgreich abgeschlossen hat, auf dem lokalen
Knoten eine Schritt-Transaktion läuft und der Votierer vom Orchestrator noch keine VOTE-Auf-
forderung bekommen hat. In diesem Falle kann die lokale Schritt-Transaktion abgebrochen und
vergessen werden.
Phase II. Algorithmus 4-6 zeigt Phase II des Votierprotokolles von Orchestrator und Votierer.
Wenn der TM die Transaktion erfolgreich abschließt (d.h. Commitment durchführt), verschickt
er an alle teilnehmenden Ressourcenmanager rm_commit. Wenn den Orchestrator ein solches
rm_commit erreicht, geht der Orchestrator in den “Committed”-Zustand über (auf stabilem
84 Kapitel 4   Genau-einmal AusführungSpeicher!) und antwortet dem lokalen TM mit rm_ack. Anschließend sendet er allen Votierern
der Stufe eine FORGET(StufenId, OrchId)-Nachricht und wartet auf deren Empfangsbestäti-
gungen. Hierbei versendet der Orchestrator die FORGET-Nachrichten periodisch, bis er ein
ACK(StufenId) (von engl.: acknowledgement, (Empfangs-)Bestätigung) von allen Votierern der
Stufe erhalten hat. Sobald alle ACKs angekommen sind, geht der Orchestrator in den
“Unknown”-Zustand über, d.h. er löscht die Zustandsinformation vom stabilen Speicher, und
vergißt die Transaktion. 
Sobald ein Votierer eine FORGET(StufenId, OrchId)-Nachricht erhält, entfernt er alle vorhan-
denen Informationen über die Stufe. Trifft die Nachricht von einem anderen Knoten ein, so wird
dazu der Stufenstatus des Knotens atomar in den “Unknown”-Zustand überführt, d.h. der Stu-
fen-Record inklusive des Agenten wird atomar aus der Knoteneingangswarteschlange entfernt.
Dies ist auf dem Knoten, auf dem die Schritt-Transaktion beendet wurde, nicht notwendig, da
diese Aktion schon Teil der Schritt-Transaktion ist. Auf jeden Fall muß dann der Votierer aber
noch das OrchSet vom stabilen Speicher löschen und an OrchId eine ACK(StufenId)-Nachricht
senden. Sollte der lokale Orchestrator zu diesem Zeitpunkt ebenfalls an einer Schritt-Transak-
tion für die gerade beendete Stufe StufenId beteiligt sein, wird diesem eine GIVE_UP(StufenId)-
Nachricht geschickt, worauf die lokale Schritt-Transaktion abgebrochen wird.
Abbildung 4-11 zeigt die Fortführung des Beispieles aus Abbildung 4-10. Nachdem sich Orche-
strator O1 in der Phase I gegen Orchestrator O2 durchgesetzt hat, tritt er in Phase II ein nachdem
Algorithmus 4-6. Votierprotokoll Phase II
Receive rm_commit(transactionId){ // from TM
transactionState = Committed
Send rm_ack(transactionId) To TM
Repeat{
Send FORGET(stageId, orchId) To 
stageVoters
Wait(timeout)
}Until (all ACKs received)
transactionState = Unknown
}
Receive rm_abort(transactionId){
transactionState = Unknown
Send UN_VOTE(stageId, orchId, voteStart) To
voters in YV+CYV
}
a. Orchestrator
Receive FORGET(stageId, orchId, voteStart){
If (orchId not local orchestrator){
remove stage record
}
remove orchSet
Send ACK(stageId) To orchId
Send GIVE_UP(stageId) to local orchestrator
}
b. Votierer
4.4  Blockierungsfreies Protokoll 85er vom Transaktionsmanager das rm_commit erhält. Er schickt eine FORGET-Nachricht an die
beteiligten Votierer und erwartet deren ACK-Nachricht.
Wenn jedoch der Orchestrator vom TM anstatt des rm_commit ein rm_abort empfängt, geht er
in den Transaktionsstatus “Unknown” über und sendet dann UN_VOTE(StufenId, OrchId)-Auf-
forderungen an alle Votierer in YesVoten und CondYesVoten. Danach wird der Agent erneut (in
einer Schritt-Transaktion) ausgeführt.
Votierer, welche eine UN_VOTE(StufenId, OrchId)-Aufforderung erhalten, entfernen OrchId
aus dem zur Stufe StufenId gehörigen OrchSet. Dieser UN_VOTE-Mechanismus, welcher es ei-
nem Orchestrator erlaubt, ein von einem Votierer erhaltenes Votum “zurückzugeben” ist not-
wendig, damit Knoten mit einer niedrigeren Priorität eine Voten-Mehrheit erhalten können,
nachdem ein Orchestrator auf einem Knoten mit höherer Priorität aufgegeben hat.
4.4.2.4 Fehlerbehandlung
Gemäß dem in Abschnitt 4.1.3 vorgestellten Fehlermodell muß das Protokoll mit Knotenausfäl-
len und mit Nachrichtenverlusten im Falle von Netzwerkpartitionierungen zurechtkommen.
Abbildung 4-11. Phasen I + II des Votierprotokolles
O1 V1 V2 O2V3
UN_VOTE
rm_prepare
rm_yes
rm_commit
rm_ack
VOTE
YES
COND_YES(O2)
FORGET
ACK
ACK
ACK
YES
NO
YES
VOTE
YES
H_PRIO
GAVE_UP
rm_prepare
rm_no
Phase I
Phase II
86 Kapitel 4   Genau-einmal AusführungDrei Mechanismen zur Behandlung solcher Fehler sind in das in den letzten Abschnitten be-
schriebene Votierprotokoll eingebaut. Der Orchestrator versendet seine VOTE-Aufforderungen
periodisch bis er eine Stimmenmehrheit erhalten hat (vgl. Algorithmus 4-4). Hierdurch wird das
Protokoll sowohl gegen den Verlust des VOTE-Aufrufes als auch gegen kurzfristigen Ausfall ei-
nes Votierers (durch Knotenausfall) immun. Der Verlust des Votums eines Votierers wird durch
das erneute Versenden des VOTE-Aufrufes ebenfalls kompensiert. Dabei spielt dann auch der
zweite eingebaute Mechanismus eine Rolle. Trifft beim Votierer ein VOTE-Aufruf von einem
Orchestrator ein, der sich schon im entsprechenden OrchSet befindet, erfährt dieser VOTE-Auf-
ruf die weiter oben vorgestellte Sonderbehandlung (vgl. Algorithmus 4-5 Fall (11)). Hierdurch
werden noch zwei weitere Fehlerfälle behandelt: Ausfall des Knotens des Orchestrators wäh-
rend der ersten Phase des Votierprotokolles mit anschließendem Neustart der Schritt-Transakti-
on nach Wiederanlauf des Knotens und Verlust einer UN_VOTE-Nachricht durch Netzwerkpar-
titionierung. Der dritte eingebaute Mechanismus ist das periodische Versenden der FORGET-
Nachrichten (vgl. Algorithmus 4-6 a.). Dieser dient ebenso dazu, sowohl den Verlust der FOR-
GET- und ACK-Nachrichten als auch den (temporären) Ausfall anderer Knoten der Stufe zu
kompensieren.
Wie Abbildung 4-12 zeigt, ist es jedoch trotz dieser Mechanismen nach wie vor möglich, daß
in einem OrchSet Einträge verbleiben, welche nicht zu aktuell stattfindenden Abstimmungen
gehören. In Abbildung 4-12 empfängt der Orchestrator in der zweiten Phase des Votierprotokol-
les ein rm_abort vom Transaktionsmanager und verschickt daraufhin UN_VOTE-Nachrichten
an die Votierer. Die für Votierer V2 bestimmte Nachricht geht jedoch wegen einer Netzwerkpar-
titionierung verloren und V2 entfernt deshalb Orchestrator O1 nicht aus seinem OrchSet. Um
auch solche Einträge entfernen zu können, wird jeder OrchSet-Eintrag mit einem Timeout ver-
sehen. Läuft der Timeout ab, bevor vom zugehörigen Orchestrator eine FORGET-, eine
Abbildung 4-12. Verlust von UN_VOTE- und INQUIRY-Nachrichten
V1 O1 V2
VOTE VOTE
rm_prepare
YESYES
rm_yes
rm_abort
UN_VOTE UN_VOTE
UN_VOTE
INQUIRY
INQUIRY
timeout
timeout
4.4  Blockierungsfreies Protokoll 87UN_VOTE- oder eine VOTE-Nachricht empfangen wird, schickt der Votierer periodisch eine
INQUIRY(StageId, VotiererId)-Nachricht an diesen Orchestrator, bis dieser entweder mit einer
UN_VOTE-Nachricht antwortet oder eine weitere VOTE-Aufforderung schickt oder bis einer
der Orchestratoren der Stufe eine FORGET-Nachricht schickt (vgl. Algorithmus 4-7b,
DoInquiry(..)). Im Beispiel in Abbildung 4-12 muß der Votierer zwei INQUIRY-Nachrichten an
den Orchestrator schicken, da die erste INQUIRY-Nachricht durch die noch anhaltende Netz-
werkpartitionierung verloren geht. Ist das Ziel der INQUIRY-Nachrichten der lokale Orchestra-
tor, wird das Senden dieser Nachrichten auch beendet, sobald der Orchestrator auf eine HIGH-
ER-PRIO-Anforderung mit einem GAVE_UP antwortet (in Algorithmus 4-7 nicht
berücksichtigt).
Die Antwort eines Orchestrators auf eine eintreffende INQUIRY(StufenId, VotiererId)-Nach-
richt hängt vom aktuellen Status der Schritt-Transaktion ab (vgl. Algorithmus 4-7a). Ist diese
im Zustand “Ready” – der Fall kann beispielsweise durch eine lang andauernde erste Phase des
2PC-Protokolles eintreten – fügt der Orchestrator VotiererId zu YesVotes hinzu (sofern nicht
Algorithmus 4-7. Fehlerbehandlung
Receive INQUIRY(stId, voterId){
If (transactionState==Ready){
YV = YV + voterId
} Else If (transactionState==Committed){
Send FORGET(stId, orchId) To voterId
} Else { // state is Unknown
If (local transaction for stageId is active){
// ignore INQUIRY
} Else{
Send UN_VOTE(stId, orchId, time)
} } }
Procedure Recovery(){
ForEach (transaction ta with 
transactionState(ta)==Committed) Do{
determine stageId and stageVoters of ta
Repeat{
Send FORGET(stageId, orchId) To
stageVoters
Wait(timeout)
} Until (all ACKs received)
} }
a. Orchestrator
Procedur DoInquiry(stageId, orchId){
finished=false
Repeat{
Wait(timeout)
finished = received
FORGET(stageId,...) from 
any orchestrator in stage or
UN_VOTE(stageId, orchId, time) or
VOTE(stageId, orchId, time)
If (not finished){
Send INQUIRY(stageId, voterId) To
orchId
}
} Until (finished)
}
Procedure Recovery(){
ForEach (stageId, orchSet) Do{
finished=false
Repeat{
Send INQUIRY(stageId, voterId) to
orchIds in orchSet
Wait(timeout)
finished = received
FORGET (stageId,...) from
any orchestrator or
(UN_VOTE(stageId,...) or 
 VOTE(stageId,...) ) from 
all orchIds in orchSet
} Until (finished)
} 
b. Votierer
88 Kapitel 4   Genau-einmal Ausführungschon enthalten). Dies stellt sicher, daß der Votierer benachrichtigt wird, sobald der Orchestra-
tor entweder rm_commit oder rm_abort vom Transaktionsmanager empfängt. 
Geht die FORGET-Nachricht verloren oder kommt zu spät an, dann ist die Schritt-Transaktion
beim Eintreffen der INQUIRY-Nachricht im Transaktionsstatus “Committed”. In diesem Fall
antwortet der Orchestrator mit einer FORGET-Nachricht.
Ist der Transaktionsstatus der Schritt-Transaktion jedoch “Unknown”, müssen zwei Fälle unter-
schieden werden: Findet auf dem Knoten des Orchestrators keine zur Stufe StufenId gehörende
Schritt-Transaktion statt, dann antwortet der Orchestrator mit einer UN_VOTE-Nachricht. Dies
ist im Beispiel in Abbildung 4-12 der Fall. Ist jedoch eine Schritt-Transaktion aktiv, dann kann
die INQUIRY-Nachricht ignoriert werden. Dies begründet sich wie folgt: Ist eine Schritt-Trans-
aktion aktiv, aber noch im Zustand “Unknown” bedeutet dies, daß entweder das Votierprotokoll
noch gar nicht gestartet wurde oder es noch nicht beendet ist. Ist das Votierprotokoll noch nicht
gestartet, dann gehört die INQUIRY-Nachricht zu einer zuvor ausgeführten Schritt-Transaktion.
In diesem Fall erhält der Votierer von der aktuellen Schritt-Transaktion eine neue VOTE-Auf-
forderung, sobald das Votierprotokoll startet. Befindet sich das Votierprotokoll bei Ankunft der
INQUIRY-Nachricht in der ersten Phase, dann kann die Nachricht entweder noch zu einer alten
Schritt-Transaktion oder zur aktuellen gehören. Gehört sie zur alten Schritt-Transaktion, ist
zwischenzeitlich eine VOTE-Aufforderung entweder beim Votierer angekommen oder zum Vo-
tierer unterwegs. Gehört die INQUIRY zur aktuellen Schritt-Transaktion, dann ist entweder die
Antwort des Votierers verloren gegangen oder die erste Phase wird demnächst abgeschlossen.
Ist die Antwort des Votierers nicht verloren gegangen, erhält er in der zweiten Phase auf jeden
Fall entweder ein FORGET oder UN_VOTE. Abbildung 4-13 zeigt eine solche Situation, bei der
Phase I des Votierprotokolles durch wiederholten Verlust der VOTE-Anforderung an Votierer V2
lange dauert. Die INQUIRY von V1 kann ignoriert werden, da V1 in der zweiten Phase eine
Abbildung 4-13. FORGET als implizite Antwort auf INQUIRY
V1 O1 V2
VOTEVOTE
rm_prepare
YES
YES
rm_yes
rm_commit
FORGET
INQUIRY
ACK
VOTE
VOTE
FORGET
ACK
4.4  Blockierungsfreies Protokoll 89FORGET-Nachricht erhält und damit die INQUIRY implizit beantwortet wird. Ist die Antwort
des Votierers auf die VOTE-Aufforderung verloren gegangen, wird dies im Normalfall durch das
periodische Versenden der VOTE-Aufforderungen abgefangen. Es ist jedoch möglich, daß
schon vor dem erneuten Versenden dieser Aufforderungen (aber nach der Ankunft der IN-
QUIRY) eine Mehrheit der Stimmen erreicht wird. Dann empfängt der Votierer entweder das
FORGET vom Orchestrator oder der Votierer schickt ein erneutes INQUIRY, welches den Or-
chestrator dann in einem anderen Zustand vorfindet. Abbildung 4-14 zeigt eine solche Situation
mit drei Votierern. Votierer V1 erhält die Votieranforderung und schickt ein YES-Votum an den
Orchestrator. Votierer V3 erhält zwar die Votieranforderung, sein YES-Votum geht jedoch durch
eine in diesem Moment erst aufgetretene, kurzfristige Netzwerkpartitionierung verloren. Votie-
rer V2 erhält durch Netzwerkpartitionierung erst die dritte Votieranforderung. Wegen der langen
Verzögerung schicken V1 und V3 INQUIRY-Nachrichten. Da der Orchestrator im Zustand
“Unknown” ist, werden diese Nachrichten ignoriert. Nachdem V2 letztendlich das YES-Votum
schickt, hat der Orchestrator eine Mehrheit und schickt ein rm_yes. Der Transaktionsmanager
veranlaßt jedoch den Abbruch der Transaktion. Da der Orchestrator nur von V1 und V2 YES-
Voten bekommen hat, schickt er auch nur diesen ein UN_VOTE. V3 schickt nach einem weiteren
Timeout nochmals eine INQUIRY. Da auf dem Knoten des Orchestrators jetzt keine Schritt-
Transaktion aktiv ist, sendet der Orchestrator wie oben beschrieben eine UN_VOTE-Nachricht. 
Wenn ein Knoten nach einem Zusammenbruch neu startet und einen konsistenten Zustand her-
stellt, liest er die Transaktionszustände und die Stufenzustände vom stabilen Speicher. Beim Or-
chestrator sind zur Herstellung des konsistenten Zustandes einer Stufe nur dann Aktivitäten not-
wendig, wenn sich der Transaktionsstatus der Stufe in einem der Zustände “Ready” oder
“Committed” befindet (vgl. Algorithmus 4-7a, Recovery()). Ist der Transaktionsstatus im Zu-
Abbildung 4-14. INQUIRY bei Verlust eines YES-Votums
V1 O1 V2
VOTEVOTE
rm_prepare
YES
YESrm_yes
rm_abort
UN_VOTE
INQUIRY
VOTE
VOTE
UN_VOTE
V3
YES
INQUIRY
INQUIRY
UN_VOTE
90 Kapitel 4   Genau-einmal Ausführungstand “Ready”, wartet der Orchestrator darauf, vom TM das Ergebnis der Transaktion mitgeteilt
zu bekommen. Danach verfährt er wie oben beschrieben. Ist der Transaktionsstatus schon im
Zustand “Committed”, dann sendet der Orchestrator analog zu oben zu allen Votierern der Stufe
periodisch FORGET, bis er von allen Votierern ein ACK erhalten hat. Danach geht er in den Zu-
stand “Unknown” über und vergißt die Transaktion.
Bei einem Votierer sind zur Herstellung des konsistenten Zustandes einer Stufe nur dann Akti-
vitäten notwendig, wenn sich der Stufenstatus der Stufe im Zustand “Active” befindet. In die-
sem Falle muß sowohl das Votierprotokoll in einen konsistenten Zustand gebracht werden als
auch die Verarbeitung des Agenten sichergestellt werden. Um das Votierprotokoll in einen kon-
sistenten Zustand zu bringen, sendet der Votierer periodisch zu allen Orchestratoren der Stufe,
die sich im OrchSet der Stufe befinden, INQUIRY-Nachrichten, bis er entweder von allen diesen
Orchestratoren eine UN_VOTE- bzw. VOTE-Aufforderung erhalten hat oder einer der Orche-
stratoren der Stufe eine FORGET-Nachricht geschickt hat (vgl. Algorithmus 4-7b, Recovery()).
Auf diese Nachrichten reagiert er wie oben beschrieben. 
Zu klären bleibt noch die Frage, was nach dem Wiederanlauf eines Knotens mit jenen Agenten
in seiner Eingangswarteschlange geschehen soll, deren Transaktionsstatus “Unknown” ist. Man
kann annehmen, daß während des Knotenausfalles andere Knoten die Ausführung dieser Agen-
ten übernommen und eventuell auch weitestgehend oder komplett abgeschlossen haben. Dies
bedeutet für den einzelnen Agenten, daß er nun – im Vergleich zu dem wieder angelaufenen
Knoten – entweder auf einem Knoten mit niedrigerer oder höherer Priorität ausgeführt wird.
Will man erreichen, daß, wenn auch nur irgendwie möglich, immer ein Knoten der Stufe mit
möglichst hoher Priorität die Schritt-Transaktion abschließt, dann startet der wieder angelaufe-
ne Knoten für alle Agenten mit Transaktionsstatus “Unknown” das Auswahlprotokoll und ver-
fährt dann, wie in Abschnitt 4.4.3.2 beschrieben. Ist dies jedoch nicht so wichtig, nimmt der
Knoten die Rolle des Beobachters an. Entscheidet man sich für den Start des Auswahlprotokolls
bedeutet dies, daß die ganze Arbeit, die der Agent auf einem Knoten mit niedrigerer Priorität
bisher in der Stufe erledigt hat, rückgängig gemacht wird (falls die Schritt-Transaktion dort
noch nicht abgeschlossen ist). Dies bedeutet nicht nur einen erhöhten Bedarf an Rechenzeit,
sondern verzögert die Ausführung des Agenten eventuell auch unnötig da in vielen Fällen die
Priorität der Knoten innerhalb einer Stufe willkürlich festgesetzt wird (vgl. auch Abschnitt 4.5).
Bei der Entscheidung für die Rolle des Beobachters spart man den Mehrbedarf an Rechenzeit
und Ausführungszeit für den Agenten ein, erzwingt aber nicht, daß ein Knoten mit möglichst
hoher Priorität den Agent ausführt. Enthält eine Stufe eine oder mehrere Ausnahmebehand-
lungsknoten (vgl. Abschnitt 4.4.1), kann bei dieser Strategie der Fall eintreten, daß eine Aus-
nahmebehandlung durchgeführt wird, obwohl ein regulärer Knoten verfügbar gewesen wäre.
4.4  Blockierungsfreies Protokoll 914.4.2.5 Adaption an Fehlermodell mit Nachrichtenüberholung
Soll das Protokoll in Systemen eingesetzt werden, in denen Nachrichtenüberholungen im Feh-
lermodell enthalten sind, sind einige Modifikationen am Votierprotokoll durchzuführen. Kri-
tischster Fall hierbei ist, wenn eine VOTE-Aufforderung eines Orchestrators eine UN_VOTE-
Aufforderung des selben Orchestrators überholt. In diesem Falle erhält der Votierer diese VOTE-
Aufforderung noch während der sendende Orchestrator in seinem OrchSet enthalten ist und rea-
giert entsprechend. Dies ist dann kritisch, wenn er als Antwort hierauf dann ein YES- oder
COND_YES-Votum schickt. In diesem Falle löscht die zu spät ankommende UN_VOTE-Auffor-
derung den Orchestrator aus dem OrchSet obwohl der Votierer eine Stimme für den Orchestrator
abgegeben hat. Abhilfe kann geschaffen werden, indem der mit der VOTE-Aufforderung über-
mittelte Zeitstempel mit im OrchSet abgespeichert wird. Eine UN_VOTE-Aufforderung muß
dann zusätzlich jeweils noch den Zeitstempel der Votierrunde mitführen, in der sie abgeschickt
wurde (womit sie eindeutig der VOTE-Aufforderung zugeordnet werden kann).
4.4.2.6 Alternativen zum Mehrheitsentscheid
Der im Votierprotokoll verwendete Mehrheitsentscheid hat zwei kleinere Schwächen. Eine
Schwäche ist, daß bei dem gewählten Entscheidungsmechanismus immer alle Knoten einer Stu-
fe gleich gewichtet werden. Hierdurch hat ein Knoten mit geringer Verfügbarkeit dasselbe Ge-
wicht wie Knoten mit sehr hoher Verfügbarkeit bzw. ein Knoten mit hoher Priorität in der Stufe
dasselbe Gewicht wie ein Ausnahmebehandlungs-Knoten (mit niedriger Priorität). Hier kann
Abhilfe geschaffen werden, indem wie beim gewichteten Votieren (vgl. GIFFORD (1979)) einem
Knoten mit höherer Priorität/Zuverlässigkeit mehr Stimmen zugeordnet werden als einem Kno-
ten mit niedrigerer Priorität/Zuverlässigkeit. Eine andere Möglichkeit ist die Verwendung von
Coterien wie in GARCIA-MOLINA UND BARBARA (1985) beschrieben. Die andere Schwäche ist,
daß bei zunehmender Anzahl von Netzwerkpartitionen die Wahrscheinlichkeit wesentlich zu-
nimmt, daß in keiner Partition die zum Abschluß der Stufe notwendige Anzahl an Stimmen er-
langbar ist. Abhilfe bei lang andauernden Partitionierungen kann hier eine Erweiterung des Al-
gorithmus schaffen, bei der im Falle einer Partitionierung in einer Partition mit einer
Stimmenmehrheit dynamisch neu Stimmen zugewiesen werden, so daß nach erneuter Teilung
dieser Partition auf jeden Fall in einer der beiden neu entstehenden Partitionen wieder eine Stim-
menmehrheit vorhanden ist. BARBARA, GARCIA-MOLINA UND SPAUSTER (1989) und TANG (90)
stellen solche Techniken zum dynamischen Zuweisen von Stimmen vor.
4.4.3 Beobachtungs- und Auswahlprotokoll
Die Kombination aus Beobachtungs- und Auswahlprotokoll stellt sicher, daß ein Agent auf ei-
nem anderen Knoten der aktuellen Stufe zur Ausführung gelangt, falls der momentane Arbei-
terknoten nicht mehr verfügbar ist. Sobald das Beobachtungsprotokoll feststellt, daß der aktu-
92 Kapitel 4   Genau-einmal Ausführungelle Arbeiter nicht mehr verfügbar ist, wird das Auswahlprotokoll gestartet. Dieses wählt einen
der verbleibenden Knoten der Stufe aus und macht ihn zum neuen Arbeiter.
Algorithmus 4-8 zeigt die beiden miteinander eng verwobenen Protokolle in einer Pseudo-
Code-Notation. Um die notwendigen zeitlichen Abläufe des Protokolls zu modellieren, wird ein
Zeitmesser verwendet. Mit der Prozedur startTimer(t) wird der Zeitmesser gestartet. Sobald die
Zeit t verstrichen ist, wird die Prozedur Timer() aufgerufen. Die Prozedur resetTimer(t) initiali-
siert den Zeitmesser neu sodaß der nächste Aufruf von Timer() erst stattfindet, nachdem nach
dem Aufruf von resetTimer(t) wiederum die Zeit t vergangen ist. Die Prozedur stopTimer() hält
den Zeitmesser an. Die detaillierte Beschreibung der Protokolle erfolgt in den folgenden beiden
Abschnitten.
4.4.3.1 Beobachtungsprotokoll
Sobald eine Stufe aktiv wird, d.h. die Schritt-Transaktion der vorhergehenden Stufe erfolgreich
abgeschlossen ist und der Agent inklusive Stufen-Record in den Eingangswarteschlangen der
Knoten der Stufe erscheint, lesen alle Knoten der Stufe den Stufen-Record ohne ihn aus der Ein-
gangswarteschlange zu entfernen (1)1 und entscheiden, welche initiale Rolle (Arbeiter bzw. Be-
obachter) sie in der Stufe haben. Der Knoten mit der höchsten Priorität wird zum Arbeiter der
Stufe und führt den Agent wie in Abschnitt 4.4.1 beschrieben aus (2). Alle anderen Knoten der
Stufe agieren als Beobachter (3).
Den Ablauf des Beobachtungsprotokolles zeigt Abbildung 4-15. Der Arbeiter W (engl: worker)
sendet periodisch I_AM_ALIVE(StufenId, KnotenId)-Nachrichten an alle anderen Knoten der
Stufe (9). Die Beobachter einer Stufe überwachen den Arbeiter, indem sie überprüfen, ob dieser
regelmäßig I_AM_ALIVE(..)-Nachrichten versendet (6). Sobald bei einem Beobachter die seit
dem letzten Empfang einer I_AM_ALIVE(..)-Nachricht verstrichene Zeit die bekannte Peri-
1. Die Zahlen in Klammern beziehen sich auf die Numerierung in Algorithmus 4-8
Abbildung 4-15. Beobachtungsprotokoll.
W
B
B
I_AM_ALIVE(StufenId)
I_AM_ALIVE(StufenId)
4.4  Blockierungsfreies Protokoll 93Algorithmus 4-8. Beobachtungs- und Auswahlprotokoll
new agent arrived in node input queue{
read stage record from input queue (1)
if (node has highest priority in stage){ (2)
executeAgent()
}else{ (3)
mode = observing
startTimer(taliveMax)
} }
Procedure executeAgent(){
mode = working
startTimer(tp)
start agent execution (see algorithm 4-2)
}
Receive I_AM_ALIVE(stageId, nId){
if (mode == working) (4){
if (node nId has higher priority in stage){ (5)
higherPrioProcessing()
}
} else if (mode == observing){ (6)
resetTimer(taliveMax)
} else if (mode == selecting){
if (node nId has higher priority in stage){ (7)
mode == observing
resetTimer(taliveMax)
}
} }
Procedure higherPrioProcessing(){
Send HIGHER_PRIO(stageId) To
local orchestrator
Receive ANSWER From local
orchestrator
If (ANSWER == GAVE_UP){ (8)
mode = observing
resetTimer(taliveMax)
} }
stage transaction commits{ // on worker
stopTimer()
}
stage transaction aborts{ // on worker
startSelection()
}
stage state becomes “Unknown”{
stopTimer()
}
Procedure Timer(){
if (mode == working){ (9)
Send I_AM_ALIVE(stageId, nodeId) To
all other nodes in stage
resetTimer(tp)
} else if (mode == observing){ (10)
startSelection()
} else if (mode == selecting){ (11)
Send I_AM_SELECTED(stageId) To
nodes with lower priority in stage
stopTimer()
executeAgent()
} }
Procedure startSelection(){
stopTimer()
mode = selecting
if (node has highest priority in stage){ (12)
Send I_AM_SELECTED(stageId) To 
other nodes in stage
executeAgent()
}else{ (13)
Send ARE_YOU_THERE(stageId, nodeId)
To nodes with higher priority in stage
startTimer(tselection)
} }
Receive I_AM_THERE(stageId){
if (mode == selecting){ (14)
mode=observing
resetTimer(taliveMax)
} }
Receive ARE_YOU_THERE(stageId, nId){ (15)
Send I_AM_THERE(stageId) To nId
if (mode == observing){ (16)
startSelection()
} }
Receive I_AM_SELECTED(stageId){
if (mode==working){ (17)
higherPrioProcessing()
}else{ (18)
node == observing
resetTimer(taliveMax)
} }
94 Kapitel 4   Genau-einmal Ausführungodendauer zwischen zwei solchen Nachrichten deutlich übersteigt, nimmt der Beobachter an,
daß der Arbeiter nicht mehr verfügbar ist und initiiert das Auswahlprotokoll (10). 
Empfängt der Arbeiter W von einem anderen Knoten der Stufe eine I_AM_ALIVE(StufenId)-
Nachricht (4) oder eine I_AM_SELECTED(StufenId)-Nachricht (17) (vgl. Abschnitt 4.4.3.2)
gibt es offensichtlich einen weiteren, konkurrierenden Arbeiter W’ in der Stufe. Hat W’ eine hö-
here Priorität als W (5), sendet W eine HIGHER_PRIO(StufenId)-Anforderung zum lokalen Or-
chestrator, um dem Knoten mit der höheren Priorität den Vorrang zu gewähren. Antwortet der
Orchestrator mit GAVE_UP (8), wird W zum Beobachter und beobachtet W’. Analog zu der in
Abschnitt 4.4.2.4 geführten Diskussion kann diese Strategie dazu führen, daß in unserem Bei-
spiel bei Arbeiter W die Ausführung des Agenten abgebrochen wird, obwohl dort die Ausfüh-
rung schon beinahe beendet ist, wohingegen W’ erst vor kurzem während einer kurzfristigen
Partitionierung in einer anderen Partition zum Arbeiter gewählt wurde und daher die Ausfüh-
rung auf W’ gerade erst begonnen hat. Hierdurch verlängert sich auf jeden Fall die Ausführungs-
zeit des Agenten. Eine Alternative ist, auf beiden Arbeitern die Ausführung des Agenten wei-
terlaufen zu lassen und erst durch das Votierprotokoll zu entscheiden, auf welchem Knoten die
Ausführung erfolgreich beendet wird. Diese Strategie benötigt jedoch möglicherweise insge-
samt mehr Rechenleistung zur Ausführung des Agenten (vor allem, wenn die Ausführung auf
beiden Arbeitern noch annähernd gleich lange dauert).
Da in einem asynchronen System keine oberen Zeitschranken für die Nachrichtenlaufzeit und
die Ausführung des Codes, welcher das Protokoll implementiert, existieren, kann es zu einer In-
itiierung des Auswahlprotokolles kommen, obwohl der Arbeiter die I_AM_ALIVE(...)-Nach-
richt verschickt hat. Wie sich in Abschnitt 4.4.3.2 zeigen wird, kann dies im Extremfall dazu
führen, daß selbst innerhalb einer Netzwerkpartition ein zweiter Arbeiter gewählt wird. Um die
Wahrscheinlichkeit für das Auftreten dieses Falles zu minimieren, müssen Annahmen über die
minimalen und maximalen Nachrichtenlaufzeiten und die maximale Verzögerung eines Absen-
deereignisses beim Arbeiter getroffen werden. Sei tp die gewünschte Periodendauer zwischen
dem Versenden der I_AM_ALIVE(..)-Nachrichten, tpv die angenommene maximale Zeit, um die
sich das Absenden dieser Nachrichten verzögert, tnmin die minimale Laufzeit einer Nachricht im
Netz und tnmax die angenommene maximale Laufzeit einer Nachricht im Netzwerk. Zwischen
den Absendeereignissen zweier I_AM_ALIVE(..)-Nachrichten ergibt sich damit eine Maximal-
zeit von tp + tpv. Im Extremfall verstreicht damit zwischen der Ankunft zweier I_AM_ALIVE(..)-
Nachrichten die Zeit taliveMax = tp + tpv + tnmax - tnmin (vgl. Abbildung 4-16). Es kann daher erst
nach dem Verstreichen der Zeit taliveMax seit dem Empfang der letzten I_AM_ALIVE(..)-Nach-
richt angenommen werden, daß der Arbeiter nicht mehr verfügbar bzw. wegen einer Netzwerk-
partitionierung nicht erreichbar ist. Nimmt man für tpv und tnmax eher kleine Werte an, wird auf
den Ausfall eines Arbeiters bzw. eine Netzwerkpartitionierung schneller reagiert, die Wahr-
scheinlichkeit einer nicht notwendigen Initiierung des Auswahlprotokolles steigt jedoch an. Es
sei jedoch nochmals betont, daß auch bei der konservativen Annahme großer Werte für tpv und
tnmax eine unnötige Initiierung des Auswahlprotokolles nicht ausgeschlossen werden kann. 
4.4  Blockierungsfreies Protokoll 95Neben der Wahl der Werte für tpv und tnmax ist vor allem die Wahl der Periodendauer tp aus-
schlaggebend dafür, wie schnell ein nicht mehr verfügbarer Arbeiter von den Beobachtern er-
kannt wird. Wird hierfür ein sehr kleiner Wert festgelegt, wird sehr schnell festgestellt, daß der
Arbeiter nicht mehr verfügbar ist. Dafür ist jedoch der Nachrichtenaufwand sehr hoch. Bei gro-
ßen Werten hingegen dauert diese Feststellung entsprechend länger, es müssen jedoch wesent-
lich weniger Nachrichten verschickt werden. Ist beispielsweise tp größer als die Verweildauer
des Agenten auf einem Knoten, müssen im fehlerfreien Fall eventuell überhaupt keine
I_AM_ALIVE(..)-Nachrichten für diesen Agent verschickt werden. Bei der Festlegung des Wer-
tes von tp muß also zwischen Schnelligkeit der Erkennung und Nachrichtenaufwand abgewogen
werden. Da die Anforderung der Anwendungen daran, wie schnell auf eine Blockierung des
Agenten reagiert werden soll, sehr unterschiedlich sind, besteht daher die Möglichkeit, tp an die-
se Anforderungen der Anwendungen anzupassen.
4.4.3.2 Auswahlprotokoll
Das Auswahlprotokoll lehnt sich an die Grundideen des in GARCIA-MOLINA (1982) vorgestell-
ten Bully-Algorithmus an. Ein Beobachter, der das Auswahlprotokoll startet, verschickt eine
ARE_YOU_THERE(StufenId, KnotenId)-Anforderung an alle Knoten der Stufe mit höherer
Priorität (13)1. Verfügbare Knoten (sowohl Beobachter als auch Arbeiter) antworten hierauf mit
einer I_AM_THERE(StufenId)-Nachricht (15) und starten, falls nicht schon geschehen, selbst
das Auswahlprotokoll (16). Erhält der Initiator innerhalb einer gewissen Zeit keine Antwort, so
ist er damit zum neuen Arbeiter erwählt (11). Er schickt daraufhin eine I_AM_SELECTED(Stu-
fenId)-Nachricht zu allen anderen Knoten der Stufe und beginnt mit der Ausführung des Agen-
ten wie oben beschrieben. Ist der Initiator der Knoten mit der höchsten Priorität in der Stufe
Abbildung 4-16. Maximale Zeit zwischen der Ankunft von I_AM_ALIVE(...)
1. Die Zahlen in Klammern beziehen sich auf die Numerierungen in Algorithmus 4-8
Arbeiter Beobachter
I_AM_ALIVE
I_AM_ALIVE
tnmin
tnmax
tp
tpv
tp+tpv-tnmin
96 Kapitel 4   Genau-einmal Ausführung(12), entfällt das Versenden der I_AM_THERE(..)-Nachrichten und es können sofort die
I_AM_SELECTED(..)-Nachrichten verschickt werden.
Die Zeit tauswahl, nach der ein Knoten sich als “gewählt” deklarieren kann, kann analog zu Ab-
schnitt 4.4.3.1 berechnet werden mit tauswahl = 2 * tnmax + tr , wobei tr die angenommene Ma-
ximalzeit ist, die ein Knoten benötigt um auf ARE_YOU_THERE(..) zu antworten, und tnmax die
angenommene maximale Laufzeit einer Nachricht im Netzwerk ist. Erhält der Initiator jedoch
während dieser Zeit eine I_AM_THERE(..)-Nachricht (14), so ist für ihn das Auswahlprotokoll
beendet und er wartet auf eine I_AM_SELECTED(..)-Nachricht. Sobald diese ankommt, beob-
achtet er (und alle anderen Beobachter) den neu ausgewählten Arbeiter (18).
Erhält der Initiator eine I_AM_ALIVE(..)-Nachricht von einem Knoten mit höherer Priorität (7),
dann bricht er das Auswahlprotokoll ab. Dieser Fall kann beispielsweise auftreten, wenn die
Nachrichtenlaufzeit der I_AM_ALIVE(..)-Nachricht tnmax überschreitet. 
Abbildung 4-17 zeigt zwei verschiedene mögliche Abläufe des Auswahlprotokolles in einer
Stufe mit 4 Knoten. Im Ausgangszustand ist der Knoten mit der Priorität 1, der Arbeiter der Stu-
fe, ausgefallen. In Abbildung 4-17a entdeckt der Knoten mit der Priorität 2 als erster durch das
Beobachtungsprotokoll, daß der Arbeiter nicht mehr erreichbar ist und startet das Auswahlpro-
tokoll. Hierzu schickt er an alle Knoten mit höherer Priorität – hier nur der Knoten mit der Prio-
rität 1 – eine ARE_YOU_THERE(..)-Nachricht. Nachdem er keine Antwort erhält, erklärt er sich
mittels einer I_AM_SELECTED(..)-Nachricht zum Arbeiter. In Abbildung 4-17b entdeckt zu-
Abbildung 4-17. Ablauf des Auswahlprotokolles
W
B
Prio=3
Prio=1
B
Prio=2
B
Prio=4
W
B
Prio=3
Prio=1
W
Prio=2
B
Prio=4
W
B
Prio=3
Prio=1
B
Prio=2
B
Prio=4
AYT
IAS
W
B
Prio=3
Prio=1
B
Prio=2
B
Prio=4
W
B
Prio=3
Prio=1
W
Prio=2
B
Prio=4
AYT
IAS
IAS AYT
IAT
IAS
a) b)
AYT - ARE YOU THERE  IAT - I AM THERE  IAS - I AM SELECTED
4.4  Blockierungsfreies Protokoll 97erst der Knoten mit der Priorität 3, daß der Arbeiter nicht mehr erreichbar ist, und startet das
Auswahlprotokoll. Hierzu schickt er den Knoten mit Priorität 1 und 2 eine
ARE_YOU_THERE(..)-Nachricht. Der Knoten mit der Priorität 2 antwortet hierauf mit einer
I_AM_THERE(..)-Nachricht, was den Knoten mit der Priorität 3 veranlaßt, das Auswahlproto-
koll einzustellen. Der Knoten mit Priorität 2 startet dann selbst analog zu a) das Auswahlproto-
koll und wird schließlich zum neuen Arbeiter.
Während einer bestehenden Netzwerkpartitionierung bestimmt dieses Protokoll einen Arbeiter
für jede Partition. Hierin unterscheidet es sich von gängigen Election-Protokollen, welche ge-
nau einen Führer wählen, hierbei aber meistens keine Netzwerkpartitionierungen betrachten.
Wie schon weiter oben erwähnt gibt es Fälle, bei denen in einer Netzwerkpartition mehrere Ar-
beiter einer Stufe existieren. Existieren beispielsweise in zwei (allgemein: n) Partitionen jeweils
ein Arbeiter derselben Stufe, kann die nach Vereinigung von Partitionen entstehende größere
Partition 2 oder mehr (maximal n) Arbeiter enthalten. Durch die Asynchronität des Systems
kann es sogar vorkommen, daß selbst innerhalb einer Netzwerkpartition ein zweiter Arbeiter ge-
wählt wird. Verschickt der aktive Arbeiter beispielsweise wegen extremer Überlastung längere
Zeit keine I_AM_ALIVE(..)-Nachricht und reagiert wegen dieser Überlastung auch zu lange
nicht auf die Nachrichten des Auswahlprotokolles, dann kann einer der Beobachter zum Arbei-
ter gewählt werden. Existieren mehrere Arbeiter einer Stufe parallel in einer Partition, sorgt spä-
testens das Votierprotokoll dafür, daß maximal einer der Arbeiter seine Schritt-Transaktion ab-
schließen kann. Je nach gewählter Strategie (siehe weiter oben) geben aber auch alle Arbeiter
bis auf den mit der höchsten Priorität auf, nachdem sie von diesem eine I_AM_ALIVE(..)-Nach-
richt erhalten haben.
Die Wahl des Bully-Algorithmus als Vorlage für das Auswahlprotokoll erfolgte wegen seiner
Einfachheit und seiner attraktiven Zeitkomplexität (O(1)). Der Nachteil des Algorithmus ist sei-
ne Nachrichtenkomplexität von O(n2) im Worst Case (n ist hier die Anzahl der Knoten der Stu-
fe). Diese ist jedoch in gängigen Stufengrößen (maximal 5 bis 7 Knoten) kein größeres Problem,
vor allem da das Auswahlprotokoll ausschließlich im Fehlerfalle verwendet wird. Ergibt sich
jedoch die Notwendigkeit, die Anzahl der Nachrichten im Auswahlprotokoll zu minimieren,
können beliebige andere Election-Algorithmen (z.B. ABU-AMARA (1988), MASUZAWA ET
AL. (1989) oder SINGH (1996)) als Vorlage verwendet werden. Hierbei wird jedoch i.a. die
Nachrichtenkomplexität zu Lasten der Zeitkomplexität verbessert.
4.4.4 Korrektheit
In diesem Abschnitt, der auf MAIHÖFER (1997) basiert, wird nachgewiesen, daß mittels des in
diesem Kapitel vorgestellten Protokolles Agenten genau-einmal im Sinne von Definition 4-1
ausgeführt werden. Hierzu wird zuerst darauf eingegangen, wie die Korrektheit eines Protokol-
les nachgewiesen werden kann, bevor der Nachweis selbst geführt wird. In diesem Abschnitt
98 Kapitel 4   Genau-einmal Ausführungwird nicht nachgewiesen, daß das Protokoll die Wahrscheinlichkeit der Blockierung des Agen-
ten durch Systemfehler reduziert. Dieser Nachweis wird in Abschnitt 4.6 geführt.
4.4.4.1 Korrektheit eines Protokolles
Um die Korrektheit eines für ein Problem entwickelten verteilten Algorithmus’ nachzuweisen
ist es notwendig zu zeigen, daß der Algorithmus eine korrekte Lösung für das Problem ist (vgl.
beispielsweise TEL (1994)). Hierzu muß nachgewiesen werden, daß der Algorithmus die von
dem Problem spezifizierten Eigenschaften besitzt. Da ein Protokoll letztendlich ein verteilter
Algorithmus ist, treffen die hier gemachten Aussagen auch auf Protokolle zu.
Viele der geforderten Eigenschaften fallen in eine der zwei essentiellen Kategorien Sicherheits-
anforderungen (engl.: safety requirements) und Lebendigkeitsanforderungen (engl.: liveness re-
quirements). Um die Korrektheit des Algorithmus’ nachzuweisen, muß gezeigt werden, daß die-
se beiden Anforderungskategorien eingehalten werden.
Eine Sicherheitsanforderung betrifft Eigenschaften, die immer erfüllt sein müssen. Während der
Ausführung des Protokolles dürfen diese Eigenschaften zu keinem Zeitpunkt verletzt werden.
Lebendigkeitsanforderungen betreffen Eigenschaften P, die letztendlich erfüllt werden müssen,
d.h. die während der Ausführung des Algorithmus zumindest einmal zutreffen. Terminiert der
Algorithmus (d.h. hält der Algorithmus an) und die Eigenschaften P wurden während der Aus-
führung erfüllt, so spricht man von korrekter Terminierung. Terminiert der Algorithmus ohne
daß P erfüllt war, spricht man von einer Verklemmung.
Ein formaler Beweis der Korrektheit eines Algorithmus ist möglich, indem man den Algorith-
mus als Transitionssystem formuliert. Der Beweis der Korrektheit des Protokolles würde die Er-
stellung eines sehr großen Transitionssystems erfordern und würde dementsprechend wenig an-
schaulich. Daher erfolgt der Beweis informal.
4.4.4.2 Informaler Korrektheitsbeweis
Die Definition der genau-einmal Ausführung von mobilen Agenten (Definition 4-1) fordert, daß
der Agent eine laut Reiseroute mögliche, vollständige Folge von Schritten auf den den Schritten
zugewiesenen Knoten in der richtigen Reihenfolge ausführt und daß jeder dieser Schritte genau
einmal ausgeführt wird. In diesem Abschnitt wird nachgewiesen, daß das in diesem Kapitel vor-
gestellte Protokoll die genau-einmal Ausführung mobiler Agenten nach dieser Definition si-
cherstellt. Hierbei wird davon ausgegangen, daß die Programmierung der mobilen Agenten und
die Zusammenstellung der Reiseroute korrekt sind, sodaß der Agent bei fehlerfreiem System
jede der in der Reiseroute spezifizierten Schrittreihenfolgen tatsächlich ausführen könnte.
Um die genau-einmal Ausführung mobiler Agenten zu gewährleisten, muß das Protokoll den
folgenden fünf Anforderungen genügen:
4.4  Blockierungsfreies Protokoll 99(B1) Der Agent führt innerhalb einer Stufe höchstens einen Schritt einmal aus.
(B2) Innerhalb einer Stufe führt der Agent schließlich in endlicher Zeit einen 
Schritt aus.
(B3) Der Agent führt in einer Stufe nur laut Reiseroute ausführbare Schritte aus.
(B4) Die Übertragung des Agenten in die nächste Stufe ist fehlerfrei.
(B5) Der Agent durchläuft schließlich alle Stufen.
Die Anforderungen (B1), (B3) und (B4) sind Sicherheitsanforderungen, (B2) und (B5) sind Le-
bendigkeitsanforderungen.
(B1) Der Agent führt innerhalb einer Stufe höchstens einen Schritt einmal aus. 
Diese Anforderung ist eine Sicherheitsanforderung und muß daher zu jedem Zeitpunkt der Aus-
führung des Agenten zutreffen. Da die Ausführung eines Schrittes des Agenten auf den einzel-
nen Knoten der Stufen innerhalb von (Schritt-)Transaktionen erfolgt und die Ausführung eines
Schrittes des Agenten nur bei erfolgreichem Abschluß einer solchen Schritt-Transaktion Aus-
wirkungen auf den Agent und seine Umgebung (Ressourcen) hat, reicht es aus nachzuweisen,
daß in jeder Stufe maximal eine Schritt-Transaktion mit Commit erfolgreich abgeschlossen wer-
den kann.
Um eine Schritt-Transaktion auf einem Knoten erfolgreich abzuschließen, muß der sich auf die-
sem Knoten befindliche Orchestrator an der Transaktion teilnehmen. Für den Fall, daß ein
Agent in einer Stufe zwei mal ausgeführt wird, müßte also mindestens zwei mal pro Stufe ein
Orchestrator an einer (erfolgreich abgeschlossenen) Schritt-Transaktion teilnehmen. Im folgen-
den wird zuerst der Spezialfall gezeigt, daß ein Agent nicht auf demselben Knoten einer Stufe
zwei mal erfolgreich eine Schritt-Transaktion beenden kann. Danach wird der allgemeinere Fall
gezeigt, daß der Agent nicht auf zwei verschiedenen Knoten der Stufe erfolgreich eine Schritt-
Transaktion beenden kann. Der Fall, daß der Agent nicht erfolgreich auf mehr als zwei Knoten
der Stufe ausgeführt werden kann, läßt sich dann einfach auf den Fall zurückführen, daß der
Agent nicht auf zwei verschiedenen Knoten erfolgreich ausgeführt werden kann, und wird daher
nicht gesondert betrachtet.
Der Nachweis, daß ein Agent innerhalb einer Stufe nicht mehrfach erfolgreich eine Schritt-
Transaktion auf demselben Knoten beenden kann, ist vergleichsweise einfach. Bestandteil einer
Schritt-Transaktion ist, daß zu Beginn der Transaktion der Agent und der Stufen-Record der
Eingangswarteschlange des ausführenden Knoten entnommen werden. Die Isolationseigen-
schaft der Transaktionen garantiert nun, daß nachdem eine Schritt-Transaktion T1 auf den Agent
und den Stufen-Record zugegriffen hat eine weitere Transaktion T2 erst nach dem Abschluß von
T1 wieder auf Agent und Stufen-Record zugreifen kann. Wird T1 erfolgreich abgeschlossen,
dann existieren Agent und Stufen-Record jedoch nicht mehr in der Eingangswarteschlange (sie
werden durch T1 entfernt und die Stufe ist dadurch auf dem Knoten nicht mehr “active”), T2
kann also den Agent nicht mehr ausführen. Nur wenn T1 erfolglos abbricht, verbleiben Agent
100 Kapitel 4   Genau-einmal Ausführungund Stufen-Record in der Eingangswarteschlange und können von einer weiteren Transaktion
T2 gelesen werden.
Der Nachweis, daß ein Agent nicht auf zwei verschiedenen Knoten der Stufe erfolgreich eine
Schritt-Transaktion beenden kann, ist um einiges komplexer. Voraussetzung für das erfolgreiche
Abschließen einer Schritt-Transaktion ist, daß der Orchestrator eine Mehrheit an YES-Voten er-
hält. Der Fall, daß auf zwei Knoten einer Stufe die Schritt-Transaktion erfolgreich abgeschlos-
sen wird, kann nur dann eintreten, wenn die Orchestratoren auf beiden Knoten jeweils eine
Mehrheit an YES-Voten erhalten haben. Dies ist jedoch nur dann möglich, wenn mindestens ein
Votierer der Stufe für beide Orchestratoren mit YES votiert. Es muß also gezeigt werden, daß
ein Votierer immer nur für einen Orchestrator der Stufe mit YES votiert.
Seien O1 und O2 die Orchestratoren der Knoten, auf denen jeweils eine Schritt-Transaktion der
Stufe beendet werden soll. Ohne Beschränkung der Allgemeinheit sei der Knoten des Votierers
O1 der Knoten mit der höheren Priorität. Anhand des Votierers Vx der Stufe wird gezeigt, daß
ein Votierer letztendlich nur für einen der beiden Orchestratoren ein YES-Votum vergibt.
Zuerst wird der Fall betrachtet, daß Vx die VOTE-Aufforderung zuerst von O1 erhält und mit ei-
nem YES-Votum antwortet. Erhält nun Vx von O2 eine VOTE-Aufforderung, antwortet Vx laut
Protokoll mit einem NO-Votum, da entweder O1 sich im OrchSet von Vx befindet und O2 eine
niedrigere Priorität hat als O1 oder die Stufe auf dem Knoten von Vx schon nicht mehr aktiv ist.
Es bekommt also nur O1 ein YES-Votum. Gibt O1 das von Vx erhaltene Votum mittels einer
UN_VOTE-Nachricht zurück, bevor die VOTE-Anforderung von O2 ankommt, kann Vx an O2
ein YES-Votum verschicken. Letztendlich hat in diesem Falle nur O2 ein YES-Votum bekom-
men. Gibt O1 das von Vx erhaltene Votum zurück, nachdem die VOTE-Anforderung von O2 an-
kam (und folglich mit einem NO-Votum beschieden wurde), hat in dieser “Runde” letztendlich
keiner der beiden Orchestratoren von Vx ein Votum erhalten.
Abbildung 4-18 veranschaulicht den Fall, daß zuerst die VOTE-Aufforderung von O2 bei Vx an-
kommt und diese mit einem YES-Votum beschieden wird. Kommt danach die VOTE-Aufforde-
rung von O1 bei Vx an, dann antwortet Vx mit einem COND_YES(O2)-Votum, d.h. das Votum
von Vx für O1 hängt davon ab, wie der Votierer V2 auf dem Knoten von O2 für O1 stimmt.
Kommt die VOTE-Aufforderung von O1 bei V2 an bevor sich O2 im Ready-Zustand befindet, so
gibt O2 seine Voten mittels UN_VOTE zurück und V2 vergibt ein YES-Votum für O1. Damit
wandelt sich das COND_YES(O2)-Votum in ein YES-Votum. Somit hat also letztendlich nur O1
ein YES-Votum erhalten. Kommt die VOTE-Aufforderung von O1 jedoch bei V2 an, nachdem
O2 in den Ready-Zustand überging, so vergibt V2 ein NO-Votum für O1. Damit wandelt sich das
COND_YES(O2)-Votum in ein NO-Votum. Somit hat also letztendlich nur O2 ein YES-Votum
erhalten.
Gehen Nachrichten verloren, werden diese durch die in Abschnitt 4.4.2.4 vorgestellten Mecha-
nismen zu einem späteren Zeitpunkt erneut versandt. Dies hat auf die Korrektheit der hier ge-
machten Aussagen keinen Einfluß. Nachrichtenvertauschungen werden durch das Fehlermodell
4.4  Blockierungsfreies Protokoll 101ausgeschlossen, lassen sich jedoch durch die ebenfalls in Abschnitt 4.4.2.4 angedachten Mecha-
nismen so behandeln, daß auch hierdurch die Korrektheit der getroffenen Aussagen nicht ge-
fährdet ist.
Die Beleuchtung der möglichen Fälle bei zwei konkurrierenden Orchestratoren zeigt, daß ein
Votierer letztendlich nur einem der beiden ein YES-Votum gibt. Hierdurch wird ausgeschlossen,
daß beide Orchestratoren eine Stimmenmehrheit erhalten. Somit gibt auch nur maximal einer
der beiden Orchestratoren rm_yes an den Transaktionsmanager weiter. Es ist also sichergestellt,
daß in dem Fall maximal eine der beiden Schritt-Transaktionen erfolgreich beendet wird.
(B2) Innerhalb einer Stufe führt der Agent schließlich in endlicher Zeit einen
Schritt aus. 
Diese Anforderung ist eine Lebendigkeitsanforderung. Der Nachweis, daß die Anforderung er-
füll wird, geschieht in zwei Teilen. Da die Ausführung des Agenten durch den Arbeiter der Stufe
geschieht, muß zuerst gezeigt werden, daß das Protokoll immer in einen Zustand übergeht, in
dem mindestens ein Arbeiter in der Stufe existiert und somit auf jeden Fall mit der Ausführung
des Agenten begonnen wird (I). Die Ausführung des Agenten auf dem Arbeiter geschieht in ei-
ner Schritt-Transaktion. Es ist also weiterhin zu zeigen, daß letztendlich ein Arbeiter die auf ihm
ausgeführte Schritt-Transaktion erfolgreich beendet (II).
(I) Das Protokoll geht immer in einen Zustand über, in dem (mindestens) ein Arbeiter in
der Stufe existiert: Um dies zu zeigen, wird von einem Zustand ausgegangen, in dem kein Ar-
beiter in der Stufe existiert. Dieser Zustand tritt in zwei verschiedenen Situationen ein – am An-
Abbildung 4-18. Auflösung eines COND_YES-Votums
O2
V2
Knoten 2
O1
V1
Knoten 1
Vx
Knoten x
1. VOTE-Aufforderung
2. YES-Votum
3. VOTE-Aufforderung
4. COND_YES(O2)-Votum
5. VOTE-Aufforderung6. YES- | NO - Votum
102 Kapitel 4   Genau-einmal Ausführungfang jeder Stufe, d.h. nachdem die Stufe in den Zustand “Active” übergeht, und beim Ausfall
des einzigen Arbeiters der Stufe. 
Nachdem die Stufe in den Zustand “Active” übergeht, liest im Normalfall nach kurzer Zeit der
Knoten der Stufe mit der höchsten Priorität den Stufen-Record aus der Eingangswarteschlange,
stellt fest, daß er initialer Arbeiter der Stufe ist und startet die Schritt-Transaktion. Ist dieser
Knoten jedoch ausgefallen, verfährt das Protokoll wie beim Ausfall eines Arbeiters. 
Die Situation, daß ein Arbeiter ausfällt, wird im Protokoll im Rahmen der Situation “der Arbei-
ter ist nicht erreichbar” abgehandelt. Dies schließt neben dem Ausfall des Arbeiters auch den
Fall der Netzwerkpartitionierung mit ein. Existiert kein Arbeiter in der Stufe, dann existiert zu-
mindest eine Netzwerkpartition in der mindestens ein Beobachter der Stufe vorhanden ist. Dies
kann angenommen werden, da nach dem Fehlermodell Knotenausfälle nur temporär sind und
daher nach dem Neustart eines Knotens der Stufe dieser sich als Beobachter in einer Netzwerk-
partition befindet (die im Extremfall nur aus diesem Knoten besteht). Sobald einer der in der
Partition vorhandenen Beobachter feststellt, daß keine I_AM_ALIVE-Benachrichtigungen bei
ihm ankommen, startet dieser Beobachter O das Auswahlprotokoll. O verschickt dazu an alle
Knoten der Stufe mit höherer Priorität eine ARE_YOU_THERE-Nachricht. Existiert ein solcher
Knoten O’ in der Netzwerkpartition von O, so antwortet dieser und startet selbst das Auswahl-
protokoll. O beendet in diesem Fall für sich das Auswahlprotokoll. Letztendlich wird von den
(funktionstüchtigen) Knoten, die sich in der Partition befinden, derjenige mit der höchsten Prio-
rität das Auswahlprotokoll gestartet haben und keine Antwort auf seine verschickten
ARE_YOU_THERE-Nachrichten erhalten. Darufhin erklärt er sich zum Arbeiter und beginnt
mit der Ausführung der Schritt-Transaktion. Das Protokoll stellt also sogar sicher, daß in jeder
Netzwerkpartition, die Knoten der Stufe enthält, letztendlich ein Arbeiter existiert.
(II) Mindestens ein Arbeiter beendet letztendlich erfolgreich die durch ihn ausgeführte
Schritt-Transaktion: Um dies nachzuweisen, müssen die Gründe für den Abbruch einer Trans-
aktion betrachtet werden, und es muß gezeigt werden, daß dadurch die Vollendung einer Schritt-
Transaktion innerhalb einer Stufe höchstens verzögert, nicht aber verhindert wird. Man kann ge-
nerell drei verschiedene Gründe unterscheiden: der Knoten fällt während der Ausführung der
Transaktion aus (a), der Agent selbst bricht die Transaktion ab (b) oder die Transaktion wird
von der Transaktionsverwaltung abgebrochen (c).
(II a) Knotenausfall während der Transaktion: Fällt der Arbeiter während der Ausführung des
Agenten aus, dann wird wie oben gezeigt ein neuer Arbeiter bestimmt, der erneut eine Schritt-
Transaktion startet. Fällt der Arbeiter hierbei aus nachdem im Votierprotokoll eine Stimmen-
mehrheit gesammelt wurde, so ist der Agent blockiert, bis der Arbeiter neu startet (siehe weiter
unten). Um jedoch das (erfolgreiche) Beenden einer Schritt-Transaktion in einer Stufe durch
Ausfall der Arbeiter unmöglich (bzw. beliebig unwahrscheinlich) zu machen, müßte die Zeit,
die zur Ausführung einer Schritt-Transaktion benötigt wird, deutlich über der mittleren Zeit
zwischen zwei Ausfällen eines Knotens liegen. Wie jedoch schon in Abschnitt 4.3 erwähnt soll-
4.4  Blockierungsfreies Protokoll 103te bei Verwendung des blockierungsfreien Protokolles ein einzelner Schritt eines Agenten von
eher kurzer Dauer sein, da sonst die von ihm verwendeten Ressourcen zu lange blockiert wer-
den. Daher kann davon ausgegangen werden, daß die Ausführungszeit eines Schrittes eines
Agenten relativ zum mittleren Zeitraum zwischen zwei Ausfällen eines Knotens eher gering ist
und deshalb die Ausführung des Agenten durch wiederholten Knotenausfall nicht unendlich
verzögert wird.
(II b) Der Agent bricht die Transaktion ab: Laut der weiter oben getroffenen Annahme ist die
Programmierung des Agenten korrekt, sodaß der Agent die in der Reiseroute spezifizierten
Schritte auch letztendlich ausführen kann. Der Agent selbst bricht also die Ausführung eines
Schrittes im Normalfall nicht selbst ab. Lediglich in dem Fall, daß eine Ressource kurzfristig
nicht verfügbar ist, kann der Agent die Ausführung eines Schrittes abbrechen, um die Ausfüh-
rung eines (anderen) Schrittes auf einem anderen Knoten der Stufe zu ermöglichen. Da davon
ausgegangen wird, daß die benötigten Ressourcen letztendlich jedoch zur Verfügung stehen,
kann der Agent letztendlich auch aus seiner Sicht die Schritt-Transaktion beenden.
(II c) Abbruch der Transaktion durch das Transaktionsmanagement: Der Abbruch der Schritt-
Transaktion durch das Transaktionsmanagement erfolgt, wenn die Transaktion aus technischen
Gründen zum momentanen Zeitpunkt nicht erfolgreich beendet werden kann. Dies kann bei-
spielsweise durch eine Verklemmung verursacht werden. Eine andere mögliche Ursache ist, daß
einer der an der Transaktion beteiligten Ressourcenmanager die Transaktion nicht erfolgreich
abschließen kann. Hierbei kann es sich um eine der Ressourcen handeln, auf die der Agent wäh-
rend der Ausführung des Schrittes zugreift oder aber um eine der durch das Protokoll verwen-
deten Ressourcen (Eingangswarteschlangen, Orchestrator). Man kann die Gründe für den Ab-
bruch einer Transaktion durch das Transaktionsmanagement folglich in zwei Gruppen gliedern. 
Auf der einen Seite stehen die Abbruchgründe, die auch ohne das hier untersuchte Protokoll auf-
treten würden, beispielsweise Verklemmungen und vom Agenten genutzte Ressourcen können
die Transaktion nicht beenden. Nach den oben getroffenen Annahmen – der Agent kann im feh-
lerfreien System seine Ausführung beenden, Fehler sind nur temporär – verhindern diese aber
die erfolgreiche Ausführung einer Schritt-Transaktion nicht dauerhaft. 
Auf der anderen Seite stehen die durch das Protokoll zusätzlich eingeführten Abbruchgründe:
Orchestrator und/oder Eingangswarteschlange können die Transaktion nicht abschließen. Es
muß also noch nachgewiesen werden, daß trotz diesen Abbruchgründen die Schritt-Transaktion
letztendlich erfolgreich abgeschlossen werden kann. Die Eingangswarteschlange des Knotens,
der die Schritt-Transaktion ausführt, kann die Schritt-Transaktion normalerweise problemlos
abschließen, da es keinerlei Zugriffskonflikte mit anderen Transaktionen gibt, ebenso die Ein-
gangswarteschlangen der Knoten der nächsten Stufe. Der Ausfall eines der Knoten der nächsten
Stufe vor Abschluß der Schritt-Transaktion kann allenfalls den Abbruch der gerade ablaufenden
Schritt-Transaktion verursachen. Die daraufhin neu gestartete Schritt-Transaktion wird dann
104 Kapitel 4   Genau-einmal Ausführungden ausgefallenen Knoten nicht mehr in die nächste Stufe aufnehmen, da die Verfügbarkeit die-
ser Knoten im voraus getestet wird. 
Hiermit bleibt nur noch zu zeigen, daß auch durch die Orchestratoren die erfolgreiche Ausfüh-
rung der Schritt-Transaktion nicht verhindert wird. Ein Orchestrator verhindert den erfolgrei-
chen Abschluß einer Schritt-Transaktion, d.h. er sendet ein rm_no an den Transaktionsmanager,
nur dann, wenn er keine Mehrheit an Stimmen im Votierprotokoll mehr erhalten kann, d.h. wenn
er von mindestens der Hälfte der Votierer ein NO-Votum erhalten hat. Es ist also zu zeigen, daß
schließlich ein Orchestrator in einer Stufe eine Stimmenmehrheit erhält. Zur Durchführung des
Nachweises kann man zwei Fälle unterscheiden:
Fall 1: In der Stufe ist nur ein Arbeiter aktiv. Ist innerhalb einer Stufe nur ein einzelner Arbeiter
aktiv, dann erhält dessen Orchestrator O die Stimmen aller in seiner Netzwerkpartition vorhan-
denen Votierer. Ergibt sich daraus keine Mehrheit, kann dies zwei Gründe haben. Eine Möglich-
keit ist, daß die Mehrzahl der Knoten der Stufe entweder ausgefallen ist oder sich in einer an-
deren Netzwerkpartition befindet. Netzwerkpartitionierung und Knotenausfall sind laut
Fehlermodell nur temporäre Fehler, sodaß nach der Behebung der Fehler in endlicher Zeit eine
Mehrheit zustande kommt. Wird während des Bestehens der Netzwerkpartitionierung ein wei-
terer Arbeiter bestimmt, gelten die Ausführungen des zweiten Falls. 
Die andere Möglichkeit ist, daß es zu einem früheren Zeitpunkt der Stufe einen Arbeiter gab,
bei dem entweder der Abschluß der Schritt-Transaktion nicht erfolgreich war und dessen Or-
chestrator O’ zum Beispiel wegen Knotenausfall oder Netzwerkpartitionierung die erhaltenen
Stimmen nicht zurückgeben konnte oder bei dem nach erfolgreichem Abschluß der ersten Stufe
des Votierprotokolles (d.h. er befindet sich im Zustand “Ready”) und der ersten Phase des 2PC-
Protokolles (d.h. der Transaktionsmanager der Transaktion befindet sich im Zustand Commit-
ted) der Knoten zusammengebrochen ist. Auch hier gilt, daß der verursachende Fehler nach
endlicher Zeit behoben wird. Das Protokoll ist in diesen Fällen jedoch blockiert, bis der Ausfall
des Knotens von O’ wieder behoben ist. Wurde die Schritt-Transaktion nicht erfolgreich been-
det, so gibt O’ – veranlaßt durch die von den Votierern versandten INQUIRY-Aufforderungen –
die erhaltenen Voten mittels UN_VOTE zurück. Hat O zu diesem Zeitpunkt jedoch schon von
mindestens der Hälfte der Orchestratoren ein NO-Votum erhalten (weil der Knoten von O’ die
höhere Priorität hat), so hat er die Schritt-Transaktion abgebrochen und die erhaltenen Voten zu-
rückgegeben. In diesem Falle sorgen Überwachungs- und Auswahlprotokoll für die Bestim-
mung eines neuen Arbeiters. Wurde die Schritt-Transaktion von O’ jedoch erfolgreich beendet,
so wird O’ in der zweiten Phase des Votierprotokolles die Stufe vollends beenden. 
Fall 2: In der Stufe sind mehrere Arbeiter aktiv. Gibt es in einer Stufe zwar mehr als einen Ar-
beiter, versucht jedoch nur einer der Arbeiter, die Stufe zum momentanen Zeitpunkt abzuschlie-
ßen (d.h. nur einer der Orchestratoren führt momentan das Votierprotokoll durch), dann gelten
hierfür sinngemäß die Aussagen aus Fall 1.
4.4  Blockierungsfreies Protokoll 105Interessant ist der Fall, daß mehr als ein Orchestrator in einer Stufe aktiv ist (d.h. es gibt mehr
als einen Arbeiter, dessen Orchestrator zum momentanen Zeitpunkt das Votierprotokoll durch-
führt). In diesem Fall muß sichergestellt sein, daß letztendlich einer der aktiven Orchestratoren
eine Mehrheit erhält. Ob ein Orchestrator eine Stimmenmehrheit bekommt, hängt nicht unbe-
dingt davon ab, daß er sich in einer Netzwerkpartition befindet, welche genug (d.h. eine Mehr-
heit) funktionstüchtiger Knoten der Stufe des Orchestrators enthält. Dies verdeutlicht man sich
am besten mit dem folgenden zwar unwahrscheinlichen, aber möglichen Szenario: Eine Stufe
enthält 7 Knoten K1, K2, ..., K7. K1 ist der initiale Arbeiter mit Orchestrator O1. Nach einer Netz-
werkpartitionierung in zwei Partitionen existieren zwei Arbeiter. Hierbei sei K1 der Arbeiter in
der Partition, die die Knoten K1, K2, K3 und K4 enthält, und K5 der neu gewählte Arbeiter (mit
Orchestrator O5) der Partition mit den Knoten K5, K6 und K7. O5 startet das Votierprotokoll zu-
erst (der Schritt auf K5 ist wesentlich weniger aufwendig) und erhält die Stimmen der Votierer
der Knoten K5, K6 und K7. Dies alleine ergibt noch keine Mehrheit. Bevor O1 mit dem Votier-
protokoll beginnt, teilen sich beide Partitionen nochmals, sodaß nun vier Partitionen entstehen:
eine Partition mit den Knoten K1, K2 und K3, eine Partition mit dem Knoten K4, eine Partition
mit dem Knoten K5 und eine Partition mit den Knoten K6 und K7. Bevor das Beobachtungspro-
tokoll in den Partitionen ohne Arbeiter nun das Auswahlprotokoll startet, vereinigen sich jeweils
zwei Partitionen, sodaß sich die folgende Partitionierung ergibt: eine Partition mit den Knoten
K1, K2, K3, K6 und K7 und eine Partition mit den Knoten K4 und K5. O5 erhält nun auch noch
die Stimme von dem Votierer auf K4 und hat damit eine Stimmenmehrheit gesammelt. Hierbei
war K5 niemals in einer Partition, in welcher eine Mehrheit der Knoten der Stufe enthalten war.
K1 hingegen befindet sich am Schluß zwar in einer Partition, die eine große Mehrheit der Kno-
ten der Stufe enthält, kann aber dort die Mehrheit der Stimmen nicht bekommen. Hat K1 eine
höhere Priorität, dann bekommt O1 zwar von den Votierern der Knoten K6 und K7 jeweils ein
COND_YES(O5)-Votum, kann diese Voten jedoch in keine YES-Voten umwandeln, da O5 schon
eine Mehrheit und damit die Schritt-Transaktion abgeschlossen hat.
Dieses Beispiel zeigt, daß nachgewiesen werden muß, daß bei wechselnden Partitionierungen
schließlich ein Orchestrator eine Stimmenmehrheit erhält. Um die Komplexität der Betrachtung
in Grenzen zu halten, wird dies in einem ersten Schritt anhand zweier aktiver Orchestratoren
illustriert und danach in einem zweiten Schritt auf beliebig viele Orchestratoren verallgemei-
nert.
Schritt 1: Zwei Orchestratoren führen das Votierprotokoll zur selben Zeit durch. Seien die zu
betrachtenden Orchestratoren die Orchestratoren O1 und O2, wobei der Knoten von O1 die hö-
here Priorität hat. Seien ohne Beschränkung der Allgemeinheit die beiden Orchestratoren nicht
in derselben Partition, wenn bei einem der Orchestratoren das Votierprotokoll startet. Sobald O1
das Votierprotokoll beginnt, kontaktiert er erfolgreich alle Knoten der Stufe in seiner Partition.
Jeder der kontaktierten Knoten antworten entweder mit einem YES-Votum (wenn er noch kein
Votum an O2 geschickt hat) oder mit einem COND_YES(O2)-Votum, falls er schon ein Votum
an O2 vergeben hat. Dasselbe geschieht, wenn O2 das Votierprotokoll startet, jedoch antworten
106 Kapitel 4   Genau-einmal Ausführunghier die Knoten der Partition, die schon ein YES-Votum an O1 vergeben haben mit einem NO-
Votum (da der Knoten von O2 eine niedrigere Priorität hat). Kommen neue Knoten (außer dem
Knoten von O2) der Stufe zur Partition von O1 dazu, die noch kein Votum für O1 abgegeben ha-
ben, erhöht sich dadurch die Anzahl der YES-Voten bzw. COND_YES(O2)-Voten von O1. Ver-
lassen Knoten der Stufe die Partition von O1, ändert sich an der Stimmenzahl von O1 nichts. Bei
O2 hingegen erhöht sich in dem Fall, daß neue Knoten (d.h. Knoten der Stufe, die noch kein Vo-
tum für O2 abgegeben haben) außer dem Knoten von O1 zu der Partition hinzukommen, entwe-
der die Anzahl der YES-Voten oder die Anzahl der NO-Voten. Auch hier ändert sich die Stim-
menanzahl von O2 nicht, wenn ein Knoten der Stufe die Partition verläßt. Erreicht hierbei schon
einer der Orchestratoren O1 oder O2 eine Stimmenmehrheit, so ist das Ziel erreicht. Erreicht O2
eine ausreichende Zahl an NO-Voten (halbe Knotenzahl der Stufe), dann kann O2 keine Mehr-
heit mehr erreichen, beendet das Votierprotokoll und gibt die erhaltenen Stimmen zurück. Die
Knoten, die von O2 die Stimme zurückbekommen haben und die noch kein COND_YES an O1
geschickt haben, können auf eine VOTE-Aufforderung gleich mit einem YES antworten. Er-
reicht keiner der beiden Orchestratoren auf diese Art eine Mehrheit – beispielsweise könnten
beide Orchestratoren genau die Hälfte der Stimmen der Stufe besitzen – dann tritt irgendwann,
da alle Fehler und folglich auch Netzwerkpartitionen nur temporär sind, der Zustand ein, daß
sich O1 und O2 in derselben Partition befinden. In diesem Fall bekommt O2 von O1 ein NO-Vo-
tum (da der Knoten von O1 die höhere Priorität hat). Erreicht die VOTE-Anfrage von O1 den
Votierer des Knotens von O2 bevor O2 eine Stimmenmehrheit gesammelt hat, so gibt O2 auf,
gibt sämtliche erhaltenen YES-Voten zurück und der Votierer des Knotens von O2 schickt ein
YES-Votum an O1. Damit werden alle COND_YES(O2)-Voten zu YES-Voten. Es existiert jetzt
nur noch ein Orchestrator, der letztendlich auch eine Mehrheit der Stimmen erhalten wird.
Schritt 2: Mehr als 2 Orchestratoren führen das Votierprotokoll zur selben Zeit durch. Die Ver-
allgemeinerung auf mehrere Orchestratoren in einer Stufe ist offensichtlich: Sei Omax der Or-
chestrator des funktionstüchtigen Knotens mit der höchsten Priorität der Stufe. Die Anzahl der
YES- und COND_YES-Voten von Omax nimmt monoton zu, da es keinen höher priorisierten
Knoten gibt, wegen dem er das Votierprotokoll aufgeben muß. Erreicht keiner der Orchestrato-
ren der Knoten mit niedrigerer Priorität eine Mehrheit der Stimmen, dann geben diese alle das
Votierprotokoll zu Gunsten von Omax auf, sobald sie sich mit ihm in einer Partition befinden. Da
Partitionierungen nur von kurzer Dauer sind, werden sich alle Orchestratoren und alle Knoten
der Stufe schließlich zu irgend einem Zeitpunkt nach Beginn des Votierprotokolles bei Omax in
derselben Partition wie Omax befunden haben. Die Orchestratoren haben dabei zu Gunsten von
Omax das Votierprotokoll beendet (sofern sie nicht selbst schon eine Stimmenmehrheit hatten),
die Votierer der Knoten haben dabei jeweils ein YES- oder COND_YES-Votum für Omax abge-
geben. Dies ermöglicht Omax, schließlich eine Mehrheit der Stimmen zu erlangen.
Es hat sich also gezeigt, daß in jeder Stufe schließlich (mindestens) einer der Orchestratoren
eine Stimmenmehrheit erlangt. Es folgt also, daß keiner der Gründe für einen Transaktionsab-
bruch die Schritt-Transaktion nachhaltig am erfolgreichen Transaktionsabschluß hindert. In
4.4  Blockierungsfreies Protokoll 107Kombination mit dem Nachweis, daß das Protokoll schließlich immer in einen Zustand über-
geht, in dem mindestens ein Arbeiter in der Stufe existiert, ist damit erwiesen, daß das Protokoll
der Anforderung (B2) genügt.
(B3) Der Agent führt in einer Stufe nur laut Reiseroute ausführbare Schritte aus. 
Diese Anforderung ist eine Sicherheitsanforderung und muß daher zu jedem Zeitpunkt der Aus-
führung des Agenten zutreffen. Wie in Abschnitt 4.4.1 beschrieben besteht eine Stufe aus regu-
lären Knoten und Ausnahmebehandlungs-Knoten. Reguläre Knoten der Stufe sind Knoten, auf
denen der Agent zum Zeitpunkt der Ausführung der Stufe laut Reiseroute einen Schritt ausfüh-
ren kann. In Abschnitt 4.5 wird beschrieben werden, wie die Knoten einer Stufe Si+1 ermittelt
werden. Das Grundprinzip besteht darin, daß nach Ausführung eines Schrittes in der Stufe Si
ermittelt wird, welche Schritte auf welchen Knoten laut Reiseroute in Si+1 ausgeführt werden
können. Ergeben sich hierbei ausreichend (momentan erreichbare) Knoten zur Bildung der Stu-
fe, so besitzt die Stufe nur reguläre Knoten. Für den Fall, daß sich nicht genügend Knoten erge-
ben, werden beliebige (erreichbare) Knoten, die einen Agent ausführen können, mit in die Stufe
als Ausnahmebehandlungs-Knoten aufgenommen. Der Agent wird von der Schritt-Transaktion
in Si nur auf die so ermittelten Knoten transportiert.
Wird die Schritt-Transaktion in Si+1 auf einem regulären Knoten ausgeführt, so führt dieser den
laut Reiseroute auf ihm auszuführenden Schritt aus. Da nur ein Knoten die Schritt-Transaktion
erfolgreich beenden kann (vgl. (B1)), ist in diesem Fall die Anforderung (B3) erfüllt.
Wird die Schritt-Transaktion jedoch auf einem Ausnahmebehandlungs-Knoten ausgeführt, so
ist dies kein ursprünglich in der Reiseroute spezifizierter Schritt. Wie in Abschnitt 4.4.1 be-
schrieben wird jedoch die Ausführung der Ausnahmebehandlung auf diesem Knoten in die Rei-
seroute eingefügt, sodaß auch in diesem Fall letztendlich die Anforderung (B3) erfüllt ist.
(B4) Die Übertragung des Agenten in die nächste Stufe ist fehlerfrei. 
Diese Anforderung ist eine Sicherheitsanforderung und muß daher zu jedem Zeitpunkt der Aus-
führung des Agenten zutreffen. Unter fehlerfreier Übertragung in die nächste Stufe wird ver-
standen, daß die korrekten Daten zum korrekten Zeitpunkt auf die korrekten Knoten übertragen
werden. 
Der korrekte Zeitpunkt der Übertragung des Agenten in die Stufe Si+1 ist, wenn in Stufe Si ein
Schritt erfolgreich ausgeführt worden ist und der Agent noch weitere Schritte auszuführen hat.
Hat der Agent keine weiteren Schritte zu erledigen, ist seine Ausführung beendet; ein Transport
in eine nachfolgende Stufe ist nicht notwendig. Es muß sichergestellt werden, daß die erfolgrei-
che Ausführung des Schrittes in Si und der Transport zu den Knoten von Si+1 atomar ist. Dies
bedeutet einerseits, daß sichergestellt sein muß, daß bei erfolgreicher Ausführung des Schrittes
in Si der Agent auf alle Knoten der folgenden Stufe Si+1 transportiert wird (sofern die Ausfüh-
rung des Agenten nicht beendet ist). Es muß jedoch ebenfalls sichergestellt werden, daß wenn
der Agent auf die Knoten der Stufe Si+1 transportiert wird, daß dann der Schritt in Si tatsächlich
108 Kapitel 4   Genau-einmal Ausführungerfolgreich ausgeführt wurde. Das Protokoll erfüllt diese beiden Bedingungen, indem das
Schreiben in die Eingangswarteschlangen der Knoten der Stufe Si+1 innerhalb der Schritt-Trans-
aktion der Stufe Si erfolgt. Ist die Schritt-Transaktion erfolgreich, so ist durch die Transaktions-
eigenschaften sichergestellt, daß die Resultate der Aktionen des Agenten während des Schrittes
in Stufe Si dauerhaft nach außen sichtbar werden und daß der Agent auf allen Knoten der Stufe
Si+1 angekommen ist. Daß in Stufe Si in diesem Fall kein weiterer Schritt ausgeführt wird, wur-
de schon beim Beweis der Anforderung (B1) ausgeführt. Schlägt die Schritt-Transaktion jedoch
fehl, so ist sichergestellt, daß alle Auswirkungen der Transaktion – insbesondere die Resultate
der Aktionen des Agenten in Stufe Si und dessen Transport in Stufe Si+1 – rückgängig gemacht
werden und nach außen nicht sichtbar werden.
Übertragung der korrekten Daten von Stufe Si auf die (korrekten) Knoten der Stufe Si+1 bedeutet
sowohl, daß die korrekten Daten in Richtung der korrekten Knoten abgeschickt werden als auch
daß die korrekten Daten bei den Knoten von Si+1 ankommen. Die zu verschickenden Daten sind
der Code und der Datenzustand des Agenten nach der Ausführung des Schrittes in Stufe Si und
der Stufen-Record der Stufe Si+1. Hier muß angenommen werden, daß die Implementierung so-
wohl den Code und den Datenzustand des Agenten als auch den Stufen-Record der nachfolgen-
den Stufe korrekt ermittelt und diese Daten in Richtung der im Stufen-Record aufgeführten
Knoten abschickt. Sowohl Veränderung der Daten auf dem Transport als auch Transport zu fal-
schen Zielknoten schließt das zugrundeliegende Fehlermodell aus. Ein Verlust der versendeten
Daten kann laut Fehlermodell nur durch Netzwerkpartitionierung entstehen. Kann in diesem
Fall nicht sicher festgestellt werden, ob die Daten verloren gingen, bricht das Protokoll die
Transaktion vorsichtshalber ab, ansonsten werden die Knoten der Stufe Si+1 neu ermittelt und
die entsprechenden Informationen neu verteilt (vgl. auch Abschnitt 4.4.1).
Das Protokoll stellt also immer sicher, daß die Übertragung des Agenten in die nächste Stufe
fehlerfrei ist.
(B5) Der Agent durchläuft schließlich alle Stufen. 
Diese Anforderung ist eine Lebendigkeitsanforderung. Der Nachweis basiert auf den Argumen-
tationen zu den Anforderungen (B2) und (B4). In (B2) wurde gezeigt, daß das Protokoll die
Ausführung des Agenten in einer Stufe auf jeden Fall beginnt und letztendlich in der Stufe min-
destens einen Schritt innerhalb einer Schritt-Transaktion durchführt (in Kombination mit (B1):
genau einen Schritt). In (B4) wurde gezeigt, daß der Agent, sofern noch weitere Schritte durch-
zuführen sind, noch innerhalb der Schritt-Transaktion einer Stufe jeweils in die nächste Stufe
transportiert wird. Somit wird also in jeder Stufe garantiert, daß ein Schritt des Agenten ausge-
führt wird und der Agent schließlich in die nächste Stufe übertragen wird, solange noch weitere
Schritte auszuführen sind. Sobald der Agent also in den Eingangswarteschlangen der Knoten
der ersten Stufe liegt, sorgt das Protokoll dafür, daß wiederholt ein Schritt ausgeführt und der
Agent in die nächste Stufe übertragen wird, bis der Agent keine weiteren Schritte mehr auszu-
führen hat.
4.5  Kommunikationsaufwand und Stufenkonstruktion 1094.5 Kommunikationsaufwand und Stufenkonstruktion
In diesem Abschnitt soll der durch die Protokolle eingeführte Kommunikationsaufwand über
das die Knoten verbindende Netzwerk betrachtet werden. Zuerst wird der Kommunikationsauf-
wand ermittelt, wenn keine genau-einmal Ausführung des Agenten sichergestellt wird. Danach
wird jeweils der Aufwand für das Basisprotokoll und das erweiterte blockierungsfreie Protokoll
ermittelt. Eine Diskussion einiger Möglichkeiten zur Reduktion des Kommunikationsmehrauf-
wandes wird zeigen, daß der Kommunikationsaufwand des blockierungsfreien Protokolles von
der Zusammensetzung einer Stufe abhängt. Diese Erkenntnis wird dann schließlich in einem
Algorithmus zur Bestimmung der Knoten einer Stufe verwertet, der den notwendigen Kommu-
nikationsaufwand verringert. 
4.5.1 Kommunikationsaufwand der Protokolle
Gängige Kriterien zur Beurteilung verteilter Algorithmen hinsichtlich des Kommunikationsauf-
wandes sind die Anzahl der zu übertragenden Nachrichten und die Menge der zu übertragenden
Daten. Die folgenden Betrachtungen konzentrieren sich auf die Ermittlung der Anzahl zu über-
tragender Nachrichten. Die Menge der zu übertragenden Daten wird nur insofern berücksich-
tigt, als daß im Laufe der Ermittlung der Nachrichtenanzahl (nicht bei den resultierenden Ge-
samtzahlen) und beim Vergleich zwischen den Protokollen zwischen “kurzen” Nachrichten (bis
wenige 100 Bytes) und “langen” Nachrichten bzw. Nachrichtentypen (z.B. Migrationsnachrich-
ten, Bestätigungsnachrichten,...) unterschieden wird. Bei der Ermittlung des Kommunikations-
aufwandes wird von dem ungünstigeren Fall ausgegangen, daß der Agent zur Ausführung des
ersten Schrittes zuerst auf den ausführenden Knoten transportiert werden muß und daß ein
Agent niemals zwei planmäßige Schritte nacheinander auf demselben Knoten ausführt, d.h. die
ermittelten Werte sind eine obere Grenze.
Kommunikationsaufwand bei ungesicherter Ausführung des Agenten. 
Bei ungesicherter Ausführung des Agenten beschränkt sich die Kommunikation auf die zur Mi-
gration notwendigen Nachrichten. Für die Migration von einem Knoten auf einen anderen sind
minimal zwei Nachrichten notwendig: der Ausgangsknoten verschickt eine (umfangreiche) Mi-
grationsnachricht zur Übertragung des Agentencodes und des Datenzustandes des Agenten (in-
klusive Reiseroute) zum Zielknoten der Migration, und der Zielknoten bestätigt die Ankunft des
Agenten mit einer (kurzen) Bestätigungsnachricht. Treten keine Fehler auf, so werden also für
die Ausführung eines Schrittes eine Migrationsnachricht und eine Bestätigungsnachricht benö-
tigt. Geht eine dieser Nachrichten verloren, sind zusätzliche Nachrichten zur Übertragung des
Agenten notwendig.
110 Kapitel 4   Genau-einmal AusführungBei fehlerfreier Ausführung des Agenten berechnet sich die Gesamtzahl nnormal der zur Ausfüh-
rung des Agenten notwendigen Nachrichten bei einer Anzahl nS von Schritten mittels
(4-1)
Kommunikationsaufwand beim Basisprotokoll. 
Wie bei der ungesicherten Ausführung des Agenten muß auch beim Basisprotokoll der Agent
nur zum jeweils nächsten Knoten (bzw. auf den ersten Knoten für den ersten Schritt) mittels ei-
ner Migrationsnachricht übertragen werden. Diese Migrationsnachricht enthält zusätzlich zu
Agentencode und Datenzustand des Agenten einen Transaktionskontext. Da der Agent auf dem
Zielknoten innerhalb des Schritt-Transaktionskontexts (bzw. der Transaktion, in der der Agent
auf den ersten Knoten transportiert wird) in die Eingangswarteschlange geschrieben wird, kom-
men in diesem Fall zusätzlich noch die 4 (kurzen) Nachrichten des 2PC-Protokolles zwischen
Ausgangsknoten und Zielknoten hinzu. Wichtig in diesem Zusammenhang ist die Feststellung,
daß die Bestätigungsnachricht, welche die Ankunft des Agenten auf dem Zielknoten bestätigt,
nicht weggelassen werden kann, da ein Verlust der Nachricht, die den Agenten transportiert,
nicht bemerkt werden würde. Treten keine Fehler auf, so werden also für die Ausführung eines
Schrittes mittels des Basisprotokolles eine Migrationsnachricht, eine Bestätigungsnachricht und
4 Nachrichten des 2PC-Protokolles benötigt. Geht die Nachricht mit dem Agent oder die Bestä-
tigungsnachricht verloren, sind zusätzliche Nachrichten notwendig um sicherzustellen, daß der
Agent auf dem Zielknoten in die Eingangswarteschlange geschrieben wurde. Schlägt die Trans-
aktion fehl, muß der Schritt inklusive des Transports des Agenten auf den nächsten Knoten wie-
derholt werden.
Bei fehlerfreier Ausführung des Agenten berechnet sich die Gesamtzahl nBasis der zur Ausfüh-
rung des Agenten notwendigen Nachrichten bei einer Anzahl nS von Schritten mittels
(4-2)
Bietet das verwendete Transaktionssystem die Möglichkeit, daß mit der den Agenten enthalten-
den Nachricht gleich das rm_prepare vom Transaktionsmanager an die Eingangswarteschlange
des Nachfolgeknoten verschickt werden kann und mit der Bestätigungsnachricht gleich das
rm_yes bzw. rm_no der Eingangswarteschlange an den Transaktionsmanager zurückübermittelt
werden kann, so verringert sich die im letzten Absatz ermittelte Anzahl von 2PC-Protokoll-
Nachrichten auf 2 Nachrichten. In diesem Falle reduziert sich die Gesamtzahl der zur Ausfüh-
rung notwendigen Nachrichten auf
(4-3)
nnormal 2 nS⋅=
nBasis 6 nS⋅=
nBasis opt, 4 nS⋅=
4.5  Kommunikationsaufwand und Stufenkonstruktion 111Bei fehlerfreier Ausführung führt das Basisprotokoll im Vergleich zur ungesicherten Ausfüh-
rung des Agenten also durch das 2PC-Protokoll einen Mehraufwand von 4 (kurzen) Nachrichten
pro Schritt ein (die Vergrößerung der Migrationsnachricht durch den Transaktionskontext ist
minimal und kann vernachlässigt werden). Kann die im letzten Absatz beschriebene Optimie-
rung eingesetzt werden, verringert sich der Mehraufwand auf 2 Nachrichten pro Schritt. 
Kommunikationsaufwand des blockierungsfreien Protokolles. 
Die blockierungsfreie Variante des Protokolles führt selbst für den Fall, daß während der Aus-
führung des Agenten keine Fehler auftreten, einigen Mehraufwand ein. Abbildung 4-19 zeigt
die zur Durchführung einer Stufe Si notwendigen Interaktionen für den Fall, daß keine Fehler
auftreten. 
Während der Agent ausgeführt wird, werden vom Arbeiter regelmäßig (kurze)
I_AM_ALIVE(..)-Nachrichten an die anderen Knoten der Stufe verschickt. Die Anzahl der hier-
bei verschickten Nachrichten hängt von der Anzahl nK,i der Knoten der Stufe i und vor allem
vom Verhältnis der Dauer der Schritt-Transaktion tST,i zu der Periodendauer tp zwischen dem
Versenden der I_AM_ALIVE(..)-Nachrichten ab (vgl. Abschnitt 4.4.3.1). Die Anzahl nB,i der in
der Stufe Si für das Beobachtungsprotokoll erzeugten I_AM_ALIVE(..)-Nachrichten berechnet
sich zu
(4-4)
Ist in der Stufe Si die Dauer tST,i der Schritt-Transaktion kleiner als die Periodendauer tp zwi-
schen zwei I_AM_ALIVE(..) -Nachrichten, so wird  zu Null, d.h. es müssen in diesem
Fall gar keine I_AM-ALIVE-Nachrichten verschickt werden. 
Nachdem die Ausführung des Agenten beendet ist, werden der Code des Agenten, der aktuelle
Datenzustand des Agenten, der Stufen-Record der nachfolgenden Stufe Si+1 und der Transakti-
onskontext in einer Migrationsnachricht auf die Knoten von Si+1 transportiert und der Empfang
Abbildung 4-19. Interaktionen während Ausführung einer Schritt-Transaktion
nB i, nK i, 1–( )
tST i,
tp
--------
⋅=
tST i, tp⁄
Si Si+1
Beobachten
Votieren/
Beenden
Agenten, Bestätigungen
2-Phasen-Commit
112 Kapitel 4   Genau-einmal Ausführungdurch die Knoten der nachfolgenden Stufe bestätigt. Hierdurch entstehen also nK,i+1 (lange) Mi-
grationsnachrichten und nK,i+1 (kurze) Bestätigungsnachrichten (nK,i+1 = Anzahl Knoten der
Stufe Si+1).
Beim Abschluß der Schritt-Transaktion entstehen Nachrichten durch das 2PC-Protokoll und
durch das Votierprotokoll. Für das 2PC-Protokoll werden pro Knoten der nachfolgenden Stufe
Si+1 insgesamt 4 (kurze) Nachrichten verschickt. Besteht die Möglichkeit der oben erwähnten
Optimierung, so reduziert sich dies auf 2 Nachrichten pro Knoten. Durch das 2-Phasen-Commit
entstehen also in der Stufe Si 4*nK,i+1 Nachrichten bzw. 2*nK,i+1 Nachrichten bei Anwendung
der Optimierung. 
Für das Votierprotokoll tauscht der Orchestrator des Arbeiters mit den anderen Knoten der Stufe
jeweils 4 (kurze) Nachrichten aus. Hierbei entfallen 2 Nachrichten auf das Einsammeln der Vo-
ten und 2 Nachrichten auf die Benachrichtigung der anderen Knoten über das Ende der Stufe.
Durch das Votierprotokoll ergibt sich also in der Stufe Si ein Aufwand von 4*(nK,i-1) Nachrich-
ten.
Bis auf die letzte Stufe ergibt sich insgesamt für die Anzahl ni der Nachrichten pro Stufe Si:
(4-5)
beziehungsweise bei Anwendung der oben genannten Optimierung im 2-Phasen-Commit:
(4-6)
Unter der Annahme, daß für die Ausführung eines Agenten in allen Stufen dieselbe Anzahl nK
von Knoten verwendet wird, vereinfacht sich Gleichung (4-6) auf
(4-7)
beziehungsweise bei Anwendung der Optimierung im 2-Phasen-Commit:
(4-8)
ni nB i, nK i 1+, nK i 1+,+( ) 4 nK i 1+,⋅ 4 nK i, 1–( )⋅+ + +
 6 nK i 1+, 4
tST i,
tp
--------
+   nK i, 1–( )⋅+⋅=
=
ni 4 nK i 1+, 4
tST i,
tp
--------
+   nK i, 1–( )⋅+⋅=
ni 10
tST i,
tp
--------
+   nK 1–( ) 6+⋅=
ni 8
tST i,
tp
--------
+   nK 1–( ) 4+⋅=
4.5  Kommunikationsaufwand und Stufenkonstruktion 113Unter der Annahme tp > tST,i ergibt sich für Stufengrößen von 3 bzw. 5 Knoten pro Stufe eine
Nachrichtenanzahl von 26 bzw. 46 Nachrichten im Normalfall und 20 bzw. 36 Nachrichten bei
Anwendung der Optimierung im 2-Phasen-Commit.
In der Schritt-Transaktion der letzten Stufe entfällt der Transport des Agenten auf die Knoten
der nachfolgenden Stufe. Jedoch muß vor der Durchführung der Schritt-Transaktion in der er-
sten Stufe der Agent auch innerhalb einer Transaktion auf die Knoten der ersten Stufe transpor-
tiert werden, wobei hierzu (bei konstanter Knotenanzahl pro Stufe) derselbe Aufwand notwen-
dig ist wie der, der in der letzten Stufe entfällt. 
Bei fehlerfreier Ausführung des Agenten berechnet sich die Gesamtzahl nFT der zur Ausfüh-
rung des Agenten notwendigen Nachrichten bei einer Anzahl nS von Stufen mittels
(4-9)
beziehungsweise bei Anwendung der oben genannten Optimierung im 2-Phasen-Commit
(4-10)
Unter der Annahme, daß für die Ausführung eines Agenten in allen Stufen dieselbe Anzahl nK
von Knoten verwendet wird, vereinfacht sich dies auf
(4-11)
beziehungsweise bei Anwendung der Optimierung im 2-Phasen-Commit
(4-12)
Treten während der Ausführung des Agenten Fehler auf, versucht das Protokoll, diese zu elimi-
nieren. Dabei werden weitere Nachrichten erzeugt. Sind während des Votierprotokolles Knoten
der Stufe nicht erreichbar, werden Nachrichten des Votierprotokolles an diese Knoten mehrfach
nFT 6 nK 1, 6 nK i 1+, 4
tST i,
tp
--------
+   nK i, 1–( )⋅+⋅  
i 1=
nS 1–
∑
4
tST nS,
tp
-----------
+   nK nS, 1–( )⋅
+
+
⋅=
nFT opt, 4 nK 1, 4 nK i 1+, 4
tST i,
tp
--------
+   nK i, 1–( )⋅+⋅  
i 1=
nS 1–
∑
4
tST nS,
tp
-----------
+   nK nS, 1–( )⋅
+
+
⋅=
nFT 10 nK 4–⋅( ) ns⋅ nK 1–( )
tST i,
tp
--------
i 1=
nS
∑⋅+=
nFT opt, 8 nK 4–⋅( ) ns⋅ nK 1–( )
tST i,
tp
--------
i 1=
nS
∑⋅+=
114 Kapitel 4   Genau-einmal Ausführungverschickt. Fallen Knoten der nächsten Stufe während der Phase des Transports des Agenten zu
diesen Knoten aus, so muß entweder die Zusammensetzung der Stufe neu ermittelt werden und
diese Informationen neu mittels einiger weniger Nachrichten an die Knoten der nächsten Stufe
verteilt werden oder, falls nicht eindeutig festgestellt werden kann, ob der Agent bei einem Kno-
ten ankam oder nicht, die gesamte Schritt-Transaktion abgebrochen und wiederholt werden.
Fällt während der Ausführung des Agenten der Arbeiter aus bzw. ist der Arbeiter nicht mehr
erreichbar, so wird das Auswahlprotokoll gestartet. Ist der nicht mehr erreichbare Arbeiter der
Knoten mit der höchsten Priorität, so starten im ungünstigsten Falle bei nK Knoten in der Stufe
nK-1 Knoten gleichzeitig das Auswahlprotokoll. Hierbei verschickt jeder Knoten ARE_YOU-
THERE(..)-Nachrichten an die Knoten mit höherer Priorität. Da aber im ungünstigsten Fall dies
alle Knoten zur selben Zeit tun, bekommt jeder Knoten von allen Knoten mit geringerer Priorität
eine ARE_YOU_THERE(..)-Nachricht, auf die er mit einer I_AM_THERE(..)-Nachricht ant-
worten muß. Es verschickt also jeder der nK-1Knoten Nachrichten an alle anderen Knoten der
Stufe außer an sich selbst – eine ARE_YOU_THERE(..)-Nachricht an die Knoten mit höherer
Priorität und eine I_AM_THERE(..)-Nachricht an die Knoten mit niedrigerer Priorität – insge-
samt also nK-1 Nachrichten pro Knoten. Inklusive der nK-1 I_AM_SELECTED(..)-Nachrichten
des Gewinners ergeben sich also im ungünstigsten Fall nK*(nK-1) Nachrichten.
Vergleicht man den Kommunikationsaufwand für einen Schritt des Basisprotokolls mit dem
blockierungsfreien Protokoll, so ergibt sich bei fehlerfreier Ausführung des/der i-ten Schrittes/
Stufe für das blockierungsfreie Protokoll mit konstanter Anzahl nK von Knoten pro Stufe ein
Mehraufwand von
(4-13)
beziehungsweise bei Anwendung der Optimierung im 2-Phasen-Commit
(4-14)
Der Mehraufwand setzt sich zusammen aus  (kurzen) I_AM_ALIVE(..)-
Nachrichten,  (kurzen) Nachrichten des Votierprotokolles,  Migrationsnach-
richten,  (kurzen) Bestätigungsnachrichten und  (kurzen) Nachrichten des
2PC-Protokolles (bzw.  Nachrichten bei der optimierten Version). Auch hier kann
man, zumindest bei “größeren” Agenten, die durch den zusätzlich transportierten Stufen-
Record verursachte Zunahme der Größe der Migrationsnachricht vernachlässigen, da der Stu-
fen-Record für sinnvolle Stufengrößen von 3-7 Knoten im Vergleich zu Code und Datenzustand
des Agenten vergleichsweise klein ist.
noverhead i, 10
tST i,
tp
--------
+   nK 1–( )⋅=
noverhead i opt, , 8
tST i,
tp
--------
+   nK 1–( )⋅=
tST i, tp⁄ nK 1–( )⋅
4 nK 1–( )⋅ nK 1–
nK 1– 4 nK 1–( )⋅
2 nK 1–( )⋅
4.5  Kommunikationsaufwand und Stufenkonstruktion 1154.5.2 Möglichkeiten zur Reduktion des Kommunikationsaufwandes
Eine sehr offensichtliche Möglichkeit zur Reduktion des Kommunikationsaufwandes des blok-
kierungsfreien Protokolles ergibt sich direkt aus Gleichung (4-13) bzw. Gleichung (4-14): je
weniger Knoten eine Stufe besitzt, desto geringer ist der Nachrichtenmehraufwand. Für eine
Stufe mit nur einem Knoten entspricht das blockierungsfreie Protokoll weitgehend dem Basis-
protokoll und besitzt in diesem Fall auch keinen Nachrichtenmehraufwand im Vergleich zum
Basisprotokoll. Wie sich allerdings in Abschnitt 4.6 zeigen wird, bedeutet eine Verringerung der
Anzahl von Knoten pro Stufe (präziser: die Verringerung der Knotenanzahl pro Stufe um 2) eine
Erhöhung der Wahrscheinlichkeit, daß der Agent blockiert wird – und widerspricht somit der
Zielsetzung des Protokolles. Ebenfalls offensichtlich ergibt sich aus den genannten Gleichun-
gen, daß sich die Anzahl der Nachrichten durch die Wahl einer langen Periodendauer tp zwi-
schen zwei I_AM_ALIVE(..)-Nachrichten in gewissem Umfang reduzieren läßt – wodurch aller-
dings die Zeit erhöht wird, bis auf einen Fehler reagiert wird. Der Anwender hat jedoch die
Möglichkeit, durch Adaption der beiden Parameter “Anzahl der Knoten pro Stufe” und “Peri-
odendauer tp” den gewünschten Grad der Fehlertoleranz für seine Anwendung anzupassen: Be-
nötigt eine Anwendung nur einen geringen Grad an Fehlertoleranz, so wird der Anwender kei-
nen zu großen Mehraufwand akzeptieren und deshalb sollte in diesem Fall vom Agent bzw. der
Anwendung eine kleine Anzahl Knoten pro Stufe (eventuell nur ein Knoten) und eine lange Pe-
riodendauer tp gewählt werden. Ist dem Benutzer jedoch für die Ausführung einer Anwendung
ein hoher Grad an Fehlertoleranz wichtig, so wird er dafür auch einen größeren Mehraufwand
akzeptieren (den er eventuell zu bezahlen hat), wodurch der Agent bzw. die Anwendung die
Möglichkeit besitzt, eine größere Anzahl an Knoten pro Stufe und eine kurze Periodendauer tp
zu wählen.
Steht die Anzahl der Knoten pro Stufe und die Periodendauer tp fest, kann beim Beobachtungs-
protokoll und beim Votierprotokoll der Aufwand nicht weiter reduziert werden. Es besteht je-
doch die Möglichkeit, durch entsprechende Auswahl der Knoten einer Stufe den für die Migra-
tion des Agenten notwendigen Kommunikationsaufwand zu reduzieren. Ist beispielsweise wie
in Abbildung 4-20 ein Knoten K2 Mitglied zweier aufeinanderfolgender Stufen Si und Si+1, so
kann offensichtlich bei der Versendung des Agenten auf die Knoten der Stufe Si+1 bei der zu K2
versendeten Migrationsnachricht auf den Code des Agenten verzichtet werden, da dieser ja noch
aus Stufe Si dort vorhanden ist. Hierdurch reduziert sich allerdings nur die Menge der zu ver-
sendenden Daten, nicht jedoch die Anzahl der zu versendenden Nachrichten. 
Eine Reduzierung der zu versendenden Nachrichten kann erreicht werden, wenn der Arbeiter
der Stufe Si auch Mitglied der Stufe Si+1 ist. Besitzt die Stufe Si+1 insgesamt nK,i+1 Knoten, so
muß der Agent in diesem Fall nur auf nK,i+1-1 Knoten übertragen werden, wodurch eine Migra-
tionsnachricht, deren Bestätigung und 4 (bzw. 2) Nachrichten des 2PC-Protokolles wegfallen.
Abbildung 4-21 zeigt ein Szenario, in dem der Knoten K1 in Stufen Si und Si+1 teilnimmt und
in der Stufe Si den Agenten ausführt. Um den Agent für Stufe Si+1 in die Eingangswarteschlange
116 Kapitel 4   Genau-einmal Ausführungvon K1 zu schreiben müssen in diesem Fall keine Nachrichten über das Netzwerk verschickt
werden – die Kommunikation geschieht nur lokal. Der Kommunikationsmehraufwand im Ver-
gleich zum Basisprotokoll wird jedoch nur bedingt verringert. Der genannte Fall, daß der Ar-
beiter der Stufe Si auch Mitglied der Stufe Si+1 ist, kann nämlich in zwei Situationen auftreten,
von denen nur eine eine tatsächliche Reduktion des Kommunikationsmehraufwandes darstellt.
In der ersten Situation verfügt die Stufe Si+1 nicht über genügend reguläre Knoten. In diesem
Falle wird der Arbeiter der Stufe Si als Ausnahmebehandlungsknoten in die Stufe Si+1 aufge-
nommen, wodurch eine tatsächliche Reduktion des Kommunikationsmehraufwandes erreicht
wird. In der zweiten Situation ist der Arbeiter der Stufe Si regulärer Knoten der Stufe Si+1. Die-
ser Fall – der Agent führt zwei Schritte hintereinander auf demselben Knoten aus – wurde bei
Abbildung 4-20. Einsparung von Code-Transport durch Teil-
nahme desselben Knotens in zwei aufeinanderfolgenden Stufen
Abbildung 4-21. Einsparung von Nachrichten durch Teil-
nahme des Arbeiters einer Stufe in der darauffolgenden Stufe
Si Si+1
Agent (Code+Daten), Bestätigungen, 2-Phasen-CommitK1
K2
K3 K5
K2
K4
Agen
t (Code
+Date
n), Bes
tätigu
ngen
, 2-P
hase
n-Co
mmi
t
Agent (Daten
), Bestätigung
en, 2-Pha
sen-Com
mit
Si Si+1
Agent, Bestätigungen, 2-Phasen-CommitK1
K2
K3 K5
K1
K4
Agen
t, Bes
tätigu
ngen
, 2-P
hase
n-Co
mmi
t
Agent, Bes
tätigunge
n, 2-Phas
en-Comm
it
globale Kommunikation
zwischen verschiedenen Knoten
lokale Kommunikation
innerhalb eines Knotens
4.5  Kommunikationsaufwand und Stufenkonstruktion 117den obigen Betrachtungen explizit ausgeschlossen. Wird der Agent mittels des Basisprotokolles
ausgeführt, werden in diesem Falle natürlich auch beide Schritte hintereinander auf demselben
Knoten ausgeführt. Insofern ergibt sich in diesem Fall keine Reduktion des durch das blockie-
rungsfreie Protokoll eingeführten Kommunikationsmehraufwandes. 
Weitere Reduktionen des Kommunikationsaufwandes sind nur durch Abänderung des Protokol-
les zu erreichen. So könnte beispielsweise das Votierprotokoll dahingehend geändert werden,
daß in einem ersten Schritt nur von so vielen Knoten Voten angefordert werden, daß, unter der
Voraussetzung, daß diese alle mit YES antworten, schon eine Mehrheit an Voten erreicht würde.
Nur wenn nicht genug YES-Voten ankommen (z.B. weil einige dieser Knoten ausgefallen sind),
müßten von weiteren Knoten der Stufe Voten angefordert werden. Treten keine Fehler auf, wür-
de hierdurch für die knappe Hälfte der Knoten einer Stufe die erste Stufe des Votierprotokolles
entfallen. Bei nK Knoten in einer Stufe würde dies einer Einsparung von  (kurzer)
Votiernachrichten pro Stufe entsprechen. Allerdings verzögert sich hierdurch jedoch auch der
Abschluß der Transaktion, falls nicht alle zur Abgabe einer Stimme aufgeforderten Knoten ihre
Stimme abgeben. Wie schon in Abschnitt 4.4.3.2 erwähnt ist es weiterhin möglich, durch Wahl
eines anderen Algorithmus den Nachrichtenaufwand für das Auswahlprotokoll zu reduzieren –
allerdings auch auf Kosten der Zeit.
4.5.3 Algorithmus zur Stufenkonstruktion
Der in diesem Abschnitt beschriebene Algorithmus hat zum Ziel, die Knoten einer Stufe derart
auszuwählen, daß der Kommunikationsmehraufwand so weit wie möglich reduziert wird. Dabei
wird auf die im letzten Abschnitt erlangten Erkenntnisse zurückgegriffen. Die grundlegende
Idee des Algorithmus ist, so viele reguläre Knoten wie möglich zur Konstruktion der Stufe zu
verwenden und dabei – sofern Freiheiten in der Wahl der Knoten bestehen – sicherzustellen, daß
aufeinanderfolgende Stufen möglichst viele Knoten gemeinsam haben. Als Eingabeparameter
erhält der Algorithmus die Anzahl n der Knoten, aus denen die nächste Stufe Si+1 bestehen soll,
die Reiseroute des Agenten und die Menge der Knoten der aktuellen Stufe Si. Der Algorithmus
wird auf dem Arbeiter Wi der Stufe Si ausgeführt und bestimmt die Knoten der Stufe Si+1 nebst
deren Priorität. Zur Vereinfachung bezeichnen im folgenden Si und Si+1 jeweils auch die Menge
der Knoten der Stufen Si und Si+1 (aus Kontext ersichtlich).
In einem ersten Schritt (1)1 bestimmt der Algorithmus mittels der Reiseroute die Menge Nexti.
Nexti enthält jene Knoten, auf denen der Agent laut Reiseroute als nächstes einen Schritt aus-
führen kann. Die hierzu notwendige Funktionalität hat die Reiseroute zur Verfügung zu stellen.
Der Inhalt dieser Menge ist im allgemeinen davon abhängig, welcher Knoten der Stufe (hier
der Arbeiter Wi) den Agent (und damit den Algorithmus zur Stufenkonstruktion der folgenden
Stufe) ausführt. Sowohl die Menge Nexti als auch Si kann Knoten enthalten, von denen Wi weiß,
1. Die Zahlen in Klammern beziehen sich auf die Numerierung in Algorithmus 4-9
nK 1–( ) 2⁄
118 Kapitel 4   Genau-einmal Ausführungdaß sie momentan nicht verfügbar sind – z.B. weil die Migration eines anderen Agenten dorthin
gerade fehlschlug. Ist dies der Fall, so werden diese Knoten aus Nexti und Si vor der Ausführung
der weiteren Schritte des Algorithmus entfernt (2).
Im zweiten Schritt werden dann die Knoten in Si+1 bestimmt. Hierbei kann man drei verschie-
dene Fälle unterscheiden. In den ersten beiden Fällen enthält Nexti ausreichend Knoten, sodaß
alle Knoten in Si+1 reguläre Knoten sind. Während im ersten Fall die Anzahl der Knoten in Nexti
genau der Anzahl der Knoten in der nächsten Stufe entspricht und somit die Knoten der näch-
sten Stufe feststehen, muß im zweiten Fall (mehr Knoten in Nexti als für nächste Stufe notwen-
dig) aus Nexti eine Untermenge bestimmt werden. Dies geschieht, indem man versucht, die
Schnittmenge zwischen aktueller Stufe und der nächsten möglichst groß zu machen (kein Code-
Transport auf die Knoten der aktuellen Stufe notwendig) und vor allem möglichst den aktuellen
Arbeiter mit einzubeziehen (kein Transport des Agenten notwendig). Im dritten Fall enthält
Nexti zu wenig Knoten für die nächste Stufe und man muß Ausnahmebehandlungsknoten su-
chen. Hier werden aus den oben genannten Gründen bevorzugt der momentane Arbeiter und die
Knoten der aktuellen Stufe verwendet, bevor auf andere Knoten zurückgegriffen wird. Die fol-
genden Absätze beschreiben diese drei Fälle detailliert:
Fall 1: (3) Im einfachsten Fall ist die Kardinalität von Nexti (|Nexti|) gleich der gewünschten An-
zahl von Knoten in Si+1. In diesem Fall können die Knoten in Nexti direkt als Knoten in Si+1
Algorithmus 4-9. Stufenkonstruktion
buildStage(stageSize, Si, itinerary){
next = itinerary.getNextPossibleNodes() (1)
remove non-available nodes from Si 
and next (2)
Si+1 = {}
W = current worker
if (|next| == stageSize){ (3)
Si+1 = next
} else if (|next| > stageSize){ (4)
Si+1 = Si ∩ next
if (Si+1 > stageSize){ (5)
determine priority of nodes in Si+1
remove |Si+1|-stageSize nodes with
lowest priorities from Si+1
if (W ∈ next AND W ∉ Si+1){ (6)
remove node with lowest priority 
from Si+1
add W to Si+1
}
} else if (Si+1 < stageSize){ (7)
determine priority of nodes in next\Si+1
add stageSize-|Si+1| nodes with
highest priorities from next\Si+1 to
Si+1
} }
else { // |next| < stageSize (8)
Si+1 = next (9)
if (W ∉ Si+1){
add W to Si+1 (10)
}
m = stageSize - |Si+1|
if (m≤|Si\Si+1|){ (11)
determine priorities of nodes in Si\Si+1
add m nodes from Si\Si+1 with highest
priorities to Si+1
}else{ (12)
add Si\Si+1 to Si+1
add stageSize-|Si+1| arbitrary available 
nodes to Si+1
}
determine priorities of nodes in Si+1
}
4.5  Kommunikationsaufwand und Stufenkonstruktion 119verwendet werden, d.h. Si+1=Nexti. Somit enthält Si+1 nur reguläre Knoten. Die Zuordnung von
Prioritäten zu diesen Knoten wird weiter unten beschrieben.
Fall 2: (4) Ist die Kardinalität von Nexti größer als die gewünschte Anzahl n von Knoten in Si+1,
so besteht auch hier die resultierende Stufe nur aus regulären Knoten. Um die aus Nexti für die
Bildung von Si+1 zu verwendenden Knoten zu bestimmen, wird zuerst Si+1=Si∩Nexti berechnet.
Hierdurch wird sichergestellt, daß Si und Si+1 möglichst viel gemeinsame Knoten enthalten, wo-
durch der Transport vom Agentencode auf diese Knoten eingespart werden kann. Falls Si+1 da-
nach noch zu viele Knoten enthält (5), d.h. falls |Si+1|>n, werden die Prioritäten der Knoten be-
stimmt (siehe weiter unten) und die n Knoten mit der höchsten Priorität verbleiben dann in Si+1.
Ist jedoch |Si+1|<n (7), müssen aus den verbleibenden Knoten Nexti\Si noch die n-|Si+1| Knoten
mit der höchsten Priorität (siehe unten) zu Si+1 hinzugefügt werden. Falls die Menge Nexti auch
den Knoten Wi enthält, ist es wünschenswert, daß Wi in Si+1 enthalten ist, da dadurch Nachrich-
ten eingespart werden. Es ist also zu beachten, daß Wi ungeachtet der errechneten Priorität auf
jeden Fall Si+1 angehören muß. Für den Fall |Si∩Nexti|>n bedeutet dies, daß nur die n-1 Knoten
mit der höchsten Priorität und zusätzlich Wi in Si+1 aufgenommen werden, falls Wi nicht in den
n Knoten mit der höchsten Priorität enthalten ist (6). Die letztendliche Zuordnung der Prioritä-
ten zu den Knoten wird weiter unten beschrieben. 
Fall 3: (8) Ist die Kardinalität von Nexti kleiner als n (d.h. |Nexti|<n), dann enthält die Stufe Si+1
neben den (regulären) Knoten aus Nexti (9) noch zusätzlich m=n-|Nexti| Ausnahmebehandlungs-
knoten. Gute Kandidaten für die Auswahl der Ausnahmebehandlungsknoten sind – soweit sie
nicht bereits in Nexti enthalten sind – die Knoten der Stufe Si im allgemeinen und der Arbeiter
der Stufe Si im besonderen, da durch ihre Auswahl wie schon weiter oben dargelegt sowohl die
Anzahl der notwendigen Agentencode-Transporte (wenn Knoten aus Stufe Si auch in Stufe Si+1
sind) als auch die Anzahl der notwendigen Nachrichten (wenn der Arbeiter aus Stufe Si auch in
Stufe Si+1 ist) reduziert werden kann.
Ist m≤|Si\Nexti| (11), dann können die Ausnahmebehandlungsknoten komplett aus Si\Nexti ent-
nommen werden, wobei der Arbeiter Wi (falls nicht schon in Nexti enthalten) auf jeden Fall einer
jener Ausnahmebehandlungsknoten wird (10). Kann den Knoten aus Si\Nexti dabei nach einer
der weiter unten beschriebenen Strategien eine Priorität zugeordnet werden, so nimmt man als
Ausnahmebehandlungsknoten neben Wi (falls dieser nicht in Nexti schon enthalten ist) m-1
Knoten aus Si\Nexti\Wi. Ist m>|Si\Nexti| (12), werden alle Knoten aus Si\Nexti als Ausnahmebe-
handlungsknoten verwendet. Für die Auswahl der jetzt noch fehlenden m-|Si\Nexti| Ausnahme-
behandlungsknoten können entweder beliebige Knoten oder Knoten, die als zukünftige (poten-
tielle) Ziele des Agenten in der Reiseroute stehen, verwendet werden. Insgesamt enthält die
Stufe Si+1 im Falle |Nexti|<m also die Knoten aus Nexti als reguläre Knoten und die wie gerade
beschrieben ausgewählten Ausnahmebehandlungsknoten. Die letztendliche Zuordnung der
Prioritäten zu den Knoten wird weiter unten beschrieben. Es ist in diesem Falle jedoch zu be-
achten, daß die Ausnahmebehandlungsknoten eine geringere Priorität als die regulären Knoten
erhalten.
120 Kapitel 4   Genau-einmal AusführungDas weiter oben beschriebene Vorgehen für den Fall 2 (Nexti>n) reduziert zwar möglicherweise
die Anzahl der Nachrichten und die Menge der zu übertragenden Daten, es sorgt aber dafür, daß
die in einer Reiseroute möglicherweise definierten Prioritäten nicht eingehalten werden. Um die
Prioritäten der Reiseroute möglichst einzuhalten, müßten für diesen Fall die n Knoten mit der
höchsten Priorität aus Nexti für Si+1 genommen werden – ohne Rücksicht auf Si. Sollte die Ein-
haltung der Prioritäten wichtiger sein als die Reduktion des Kommunikationsaufwandes, so darf
also für den Fall Nexti>n nicht nach der oben beschriebenen Weise vorgegangen werden, son-
dern es müssen für die Bildung der Stufe die n Knoten mit der höchsten Priorität aus Nexti ver-
wendet werden. 
In einem letzten Schritt werden die Prioritäten für die Knoten der Stufe Si+1 endgültig festge-
legt. Hierbei wird prinzipiell so vorgegangen, daß zuerst die Prioritäten der Ausnahmebehand-
lungsknoten festgelegt werden und danach die Prioritäten der regulären Knoten so festgelegt
werden, daß die Priorität der regulären Knoten höher ist als die Priorität der Ausnahmebehand-
lungsknoten. Es muß hierbei auf jeden Fall darauf geachtet werden, daß jeder Knoten der Stufe
eine eindeutige Priorität besitzt (d.h. es darf keine 2 Knoten mit derselben Priorität in einer Stufe
geben). Bei der Festlegung von Prioritäten sind im Kontext dieses Algorithmus mehrere Strate-
gien möglich. Legt die Reiseroute Prioritäten zwischen den regulären Knoten der Stufe fest, so
muß sich dies in den Stufenprioritäten der regulären Knoten widerspiegeln, d.h. sind Knoten x
und Knoten y reguläre Knoten der Stufe und spezifiziert die Reiseroute, daß x eine höhere Prio-
rität als y besitzt, so muß x in der Stufe eine höhere Priorität haben als y. Spezifiziert die Reise-
route zwischen zwei Knoten keine Priorität bzw. für zwei Knoten dieselbe Priorität, so kann
man die Priorität der beiden Knoten mit einer der folgenden Strategien festlegen.
Eine mögliche Strategie zur Festlegung der Prioritäten der Ausnahmebehandlungsknoten bzw.
der Prioritäten von regulären Knoten, zwischen denen die Reiseroute keine Prioritäten festlegt,
ist die Verwendung zufälliger Prioritäten. Eine effizientere Strategie ist möglich, wenn Wissen
über die Zuverlässigkeit von Knoten verfügbar ist. In diesem Falle bekommen Knoten mit hö-
herer Verfügbarkeit eine höhere Priorität (die Priorität zwischen Knoten mit gleicher Zuverläs-
sigkeit kann dann wieder zufällig festgelegt werden). Bei Verwendung dieser Heuristik werden
Knoten mit höherer Zuverlässigkeit für die Ausführung des Agenten bevorzugt. 
Die durch den Algorithmus erreichbare Reduktion des Kommunikationsmehraufwandes zeigt
Tabelle 4-1. Bei einer Stufengröße von n=3 Knoten reduziert sich beispielsweise bei der Ver-
wendung von nur einem Knoten der aktuellen Stufe als Knoten der nächsten Stufe die Anzahl
der notwendigen Agentencode-Transporte um ein Drittel. 
Die in Abbildung 4-22 abgebildete (einfache) Beispielreiseroute, welche mit einer konstanten
Stufengröße von n=3 Knoten abgearbeitet werden soll, zeigt einen optimalen Fall für den Algo-
rithmus zur Stufenkonstruktion. Die erste Stufe enthält die Knoten N1 bis N3 als reguläre Knoten
sortiert nach ihrer Priorität. Zum Start des Agenten wird der Stufen-Record, der Code des Agen-
ten und eventuell Datenzustand mittels 3 Migrationsnachrichten und 3 Bestätigungen auf die
4.5  Kommunikationsaufwand und Stufenkonstruktion 121Knoten der ersten Stufe transportiert. Für den Abschluß der Starttransaktion werden 4*3 Nach-
richten für das 2PC-Protokoll benötigt. In der zweiten Stufe wird der Arbeiter der ersten Stufe
(z.B. N1) als Ausnahmebehandlungsknoten verwendet, N2 und N3 sind reguläre Knoten. In die-
sem Fall sind nur zwei Migrationsnachrichten (auf N2 und N3) und deren Bestätigung notwen-
dig, wobei hier jedoch kein Transport des Agentencodes mehr notwendig ist. Auch die zur Be-
endigung der Schritt-Transaktion der ersten Stufe notwendigen Nachrichten des 2PC-
Protokolles reduzieren sich auf 4*2. In der dritten Stufe werden N1 und der Arbeiter der zweiten
Stufe (z.B. N2) als Ausnahmebehandlungsknoten verwendet, N3 ist der (einzige) reguläre Kno-
ten. Auch hier fallen wieder nur zwei Migrationsnachrichten (auf N1 und N3) und deren Bestä-
tigung sowie 4*2 Nachrichten des 2PC-Protokolles an. Insgesamt ergibt sich für Migration und
2PC-Protokoll also ein Aufwand von 7 Migrationsnachrichten, davon nur 3 Nachrichten mit
Agentencode, 7 Bestätigungsnachrichten und 4*7=28 Nachrichten für das 2PC-Protokoll. Im
Vergleich zum Basisprotokoll ist das ein Mehraufwand von 4 Migrationsnachrichten, deren 4
Bestätigungen und 16 Nachrichten für das 2PC-Protokoll. Da die 4 zusätzlichen Migrations-
nachrichten jeweils keinen Agentencode enthalten, entsteht kein überflüssiger Code-Transport.
Ohne die Flexibilität in der Reiseroute und ohne die Optimierung des Algorithmus zur Stufen-
konstruktion würde sich (bei Auswahl von jeweils 2 beliebigen Ausnahmebehandlungsknoten
pro Stufe) für die Migration und das 2PC-Protokoll ein Aufwand von 9 Migrationsnachrichten
(jeweils inklusive Agentencode), deren 9 Bestätigungen und 36 Nachrichten für das 2PC-Pro-
tokoll ergeben.
Auch für das in Abbildung 4-23 nochmals abgebildete Beispiel aus Abschnitt 3.1 liefert der Al-
gorithmus gute Ergebnisse. Die erste Stufe (n=3) besteht aus den zwei für die Kinos zuständigen
Code-Transporte Migrationsnachrichten
+ Bestätigungen
Nachrichten für 2PC
Si ∩ Si+1 = ∅ n 2n 4n
Si ∩ Si+1 ≠ ∅ ∧ Wi∉Si+1 n-|Si ∩ Si+1| 2n 4n
Si ∩ Si+1 ≠ ∅ ∧ Wi∈Si+1 n-|Si ∩ Si+1| 2(n-1) 4(n-1)
Tabelle 4-1. Reduktion des Kommunikationsaufwandes 
durch den Algorithmus zur Stufenkonstruktion
Abbildung 4-22. Einfache Beispielreiseroute
Menge
(N3, m)
(N1, m)
(N2, m)
122 Kapitel 4   Genau-einmal AusführungKnoten und dem Fleurop-Knoten (3 Migrationsnachrichten, 3 Bestätigungen, 4*3 2PC-Nach-
richten). Wird der Agent in der ersten Stufe auf dem Knoten des Blumenladen ausgeführt, so
besteht die zweite Stufe aus den zwei für die Kinos zuständigen Knoten (reguläre Knoten) und
dem Fleurop-Knoten als Ausnahmebehandlungsknoten (zwei Migrationsnachrichten ohne
Agentencode, 3 Bestätigungen, 4*2 2PC-Nachrichten). Die dritte Stufe besteht dann aus einem
der Restaurant-Knoten (abhängig davon, welcher der Kino-Knoten verwendet wurde), dem Ar-
beiter der zweiten Stufe und einem weiteren Knoten der zweiten Stufe (zwei Migrationsnach-
richten, davon eine ohne Agentencode, 2 Bestätigungen, 4*2 2PC-Nachrichten). Dies ergibt ei-
nen Gesamtaufwand von 7 Migrationsnachrichten (Mehraufwand im Vergleich zum
Basisprotokoll: 4 Nachrichten), 7 Bestätigungen (Mehraufwand: 4 Nachrichten) und 28 2PC-
Nachrichten (Mehraufwand: 16 Nachrichten). Im Gegensatz zum vorhergehenden Beispiel ent-
hielten hier jedoch nur 3 Migrationsnachrichten keinen Agentencode, sodaß hier ein Mehrauf-
wand von einem Codetransport entstand. Wird der Agent in der ersten Stufe anstatt auf dem
Fleurop-Rechner auf einem der Restaurant-Knoten ausgeführt, so kann es einen zusätzlichen
Code-Transport geben, wenn der Fleurop-Knoten nicht in der zweiten Stufe enthalten ist, da
Next2 nur einen Restaurant-Knoten enthält und daher der Algorithmus eventuell die zwei Kino-
Knoten als Ausnahmebehandlungsknoten verwendet. In diesem Falle muß der Agentencode in
der dritten Stufe erneut auf den Fleurop-Knoten transportiert werden. 
Es zeigt sich also, daß die intelligente Zusammensetzung der Knoten einer Stufe den Kommu-
nikationsmehraufwand deutlich senken kann. Eine Implementation des Algorithmus in Kombi-
nation mit der von BUSCHLE (1999) entwickelten Reiseroute findet man in PAPOULIDIS (1999).
4.6 Analytische Bewertung der Fehlertoleranz
Die Bewertung der durch ein Protokoll gewonnenen Fehlertoleranz kann prinzipiell auf zwei
Arten geschehen: durch Messung aufgrund der Implementierung (entweder in einer realen Um-
gebung oder einer Simulationsumgebung) des Protokolles oder durch analytische Bewertung.
Da in der analytischen Bewertung der Zusammenhang zwischen den Elementen des Protokolles
und deren Auswirkung auf die Fehlertoleranz offensichtlicher zu Tage tritt als in der Bewertung
mittels Messungen, wird in diesem Abschnitt der analytische Ansatz verfolgt. Der Abschnitt 4.7
Abbildung 4-23. Beispiel aus Abschnitt 3.1
Menge
(Fleurop, kaufeBlumen)
(Luna, kaufeEintrittskarte)
(Planie, kaufeEintrittskarte)
(Rößle, reserviereTisch)
(Linde, reserviereTisch)
Alternative
Sequenz
4.6  Analytische Bewertung der Fehlertoleranz 123befaßt sich dann mit der Messung des durch das Protokoll erzeugten Mehraufwandes.
Um die entwickelten Protokolle analytisch untersuchen zu können ist ein Verfahren notwendig,
das die Modellierung der Protokollausführung so exakt wie möglich erlaubt. Hierzu ist die ein-
fache Wahrscheinlichkeitsrechnung, welche i.a. die Unabhängigkeit der betrachteten Ereignisse
voraussetzt, nicht geeignet. Es ist daher notwendig, auf die Theorie der stochastischen Prozesse
zurückzugreifen. Für die Beschreibung technischer Probleme eignen sich bevorzugt Markov-
Modelle (vgl. z.B. SCHNEEWEISS (1992)). Der folgende Abschnitt bietet eine kurze Einführung
in die Grundlagen der Markov-Modelle. Anschließend erfolgt die Analyse der entwickelten
Protokolle. Die Analyse basiert auf der von FRIEDEL (1998) durchgeführten Diplomarbeit.
4.6.1 Markov-Modelle
Im Gegensatz zu booleschen Modellen, welche die Komponenten eines Systems nur mit den
Zuständen “intakt” und “defekt” beschreiben (vgl. SCHNEEWEISS (1973)), erlauben Markov-
Modelle die Beschreibung von Systemen mit beliebig großen diskreten oder kontinuierlichen
Zustandsmengen. Neben der Berechnung von Ausfallwahrscheinlichkeiten ermöglichen Mar-
kov-Modelle auch noch die Berechnung weiterer, für die vorzunehmende Analyse interessanter
Kenngrößen (z.B. die mittlere Aufenthaltsdauer in Zustandsmengen).
Eine Einschränkung in der Anwendbarkeit der Markov-Modelle ergibt sich aus der Grundvor-
aussetzung, daß die betrachteten Lebensdauern und Reparaturzeiten voneinander unabhängig
und exponentiell verteilt sein müssen. Eine exponentielle Verteilung der Lebensdauer einer
Komponente bedeutet, daß deren Ausfallwahrscheinlichkeit zu jedem Zeitpunkt gleich hoch ist.
Die betrachteten Zufallsgrößen besitzen also eine Verteilungsfunktion der Form
(4-15)
Für eine -exponentiell verteilte Zufallsgröße ergibt sich der Erwartungswert E(T) von T zu
(4-16)
Diese Voraussetzung trifft jedoch auf technische Systeme, also auch auf das hier betrachtete Sy-
stem, weitgehend zu und stellt deshalb keine wesentliche Einschränkung dar.
In diesem Abschnitt werden nun die Grundbegriffe und einige wesentliche Sätze aus dem Be-
reich der Markov-Modelle basierend auf GAEDE (1977) und HÖFLE-ISPHORDING (1978) einge-
führt. 
F t( )
0   für  t 0<
1 e
λt–
–    für  t 0 λ 0>,≥

=
λ
E T( ) 1λ--=
124 Kapitel 4   Genau-einmal AusführungDefinition 4-2: Markov Prozeß
Ein diskreter stochastischer Prozeß {X(t), t∈T} mit der Wertemenge E={0,1,2,...}
heißt ein (diskreter) Markov Prozeß, wenn für beliebige t1 < t2 < ... < tn ∈ T und für
beliebige Zahlen i1, i2, ..., in-2, i, j ∈ E folgende Bedingung erfüllt ist:
(4-17)
Die Gleichung (4-17) heißt Markov-Eigenschaft, die bedingten Wahrscheinlichkei-
ten heißen Übergangswahrscheinlichkeiten.
Anschaulich bedeutet die Markov-Eigenschaft, daß die Wahrscheinlichkeit, sich zum Zeitpunkt
tn in einem Zustand j zu befinden, nur davon abhängt, in welchem Zustand sich das System zum
Zeitpunkt tn-1 befunden hat (X(t) bezeichnet den Zustand des Systems zum Zeitpunkt t).
Definition 4-3: Homogenität von Markov Prozessen
Ein (diskreter) Markov Prozeß heißt homogener Markov Prozeß, wenn für ihn wei-
terhin die folgende Bedingung erfüllt ist:
(4-18)
Anschaulich bedeutet dies, daß bei einem homogenen Markov Prozeß die Übergangswahr-
scheinlichkeiten pij(t) nur von der Differenz tn-tn-1 (und nicht von der absoluten Zeit tn) abhän-
gen. In diesem Falle gilt dann für die Übergangswahrscheinlichkeiten auch die Beziehung
(4-19)
Definition 4-4: Absolute Wahrscheinlichkeit Pk(t)
Die absolute Wahrscheinlichkeit Pk(t) = p(X(t)=k) bezeichnet die Wahrscheinlich-
keit, daß sich das System zum Zeitpunkt t im Zustand k befindet.
p X tn( ) j X tn 1–( ) i X tn 2–( ) in 2– … X t1( ), i1=,=,==( )
p X tn( ) j X tn 1–( ) i==( )
=
p X t s+( ) j X t0 s+( ) i==( ) p X t( ) j X t0( ) i==( ) pij t( )= =
i j E s∀,∈, 0 t 0 t0 0≥,≥,≥∀
pij t( )
j E∈
∑ 1 i E t 0≥;∈( ),=
4.6  Analytische Bewertung der Fehlertoleranz 125Satz 4-1:
Ist {X(t), t∈T} ein diskreter homogener Markov Prozeß mit den Zuständen
1, 2, ..., n und sind die Übergangswahrscheinlichkeiten pij(t) stetig an der Stelle t=0
und differenzierbar für alle t≥0, dann gilt für die zeitlichen Ableitungen :
(4-20)
(4-21)
Hierbei ist aji die Ableitung von pij(t) an der Stelle t=0 und heißt Übergangsrate von Zustand i
nach Zustand j. Da die betrachteten Zufallsgrößen exponentiell verteilt sind, ergibt sich der Er-
wartungswert für die Übergangszeit von Zustand i in Zustand j zu 1/aji. Der Beweis für Glei-
chung (4-20) und Gleichung (4-21) findet man in HÖFLE-ISPHORDING (1978). Gleichung (4-21)
läßt sich mittels Vektoren und Matrizen einfacher darstellen:
(4-22)
(4-23)
Die Matrix A wird im weiteren auch als Übergangsmatrix bezeichnet.
Das Differentialgleichungssystem kann mittels der Laplace-Transformation einfach gelöst wer-
den.
Bezeichne  die Laplace-Transformierte von .
p· ik P
·
k,
p· ik t( ) akjpij t( )
j 1=
n
∑= i k,∀
P
·
k t( ) akiPi t( )
i 1=
n
∑= k∀
A
a11 a12 … a1n
a21 a22 …  
…    
an1   ann
= P t( )
P1 t( )
P2 t( )
…
Pn t( )
=,
P
·
t( ) A P t( )⋅=
P s( )
P 1 s( )
…
P n s( )
=
)
)
)
P t( )
P1 t( )
…
Pn t( )
=
126 Kapitel 4   Genau-einmal AusführungFür die Lösung des Gleichungssystems kann man weiterhin die folgende Eigenschaft der La-
place-Transformation für differenzierbare f(t) ausnutzen:
Damit läßt sich Gleichung (4-23) umformen zu
(4-24)
Nach  aufgelöst ergibt sich (mit n-reihiger quadratischer Einheitsmatrix I)
(4-25)
Für größere n wird die Berechnung der Lösung dieser Gleichung durch die aufwendige Matri-
zeninversion recht komplex.
Definition 4-5: Stationärer Zustand, stationäre Lösung
Existiert der Grenzwert , so existiert ein stationärer Zustand, dem der Pro-
zeß zustrebt. In diesem Fall wird  als stationäre Lösung bezeichnet.
Satz 4-2:
Ist für einen homogenen Markov Prozeß mit endlich vielen Zuständen die Bedin-
gung
, so daß gilt (4-26)
erfüllt, dann existieren die Grenzwerte  und es gilt
Den Beweis für diesen Satz findet man in LAHRES (1964). Vereinfacht sagt der Satz aus, daß es
einen stationären Zustand gibt, falls zu einem beliebigen Zeitpunkt t0 jeder Zustand von jedem
anderen Zustand aus erreichbar ist. Existiert ein stationärer Zustand, so gilt weiter
. Dadurch läßt sich Gleichung (4-23) im Grenzwert vereinfachen zu
(4-27)
L
td
d f t( )   s f s( ) f 0( )–⋅=
)
s P s( ) P 0( )–⋅ A P s( )⋅=
) )
P s( )
)
P s( ) s I A–⋅( ) 1– P 0( )⋅=
)
P t( )
t ∞→
lim
P t( )
t ∞→
lim P
˜
=
t0 T∈∃ pij t0( ) 0 i j,∀>
pij t( )
t ∞→
lim   und Pj t( )
t ∞→
lim
pij t( )
t ∞→
lim   = Pj t( )
t ∞→
lim
P
·
t( ) 0 für t ∞→=
0 A P
˜
⋅=
4.6  Analytische Bewertung der Fehlertoleranz 127Weiterhin gilt
(4-28)
Definition 4-6: absorbierender Zustand
Ein Zustand i heißt absorbierender Zustand wenn gilt 
Ein absorbierender Zustand wird also, sobald er einmal erreicht wird, nicht wieder verlassen.
Satz 4-3:
Ist I eine Zustandsmenge, und sind alle Elemente ∉I absorbierend und zum Zeit-
punkt t=0 liegt ein Zustand aus I vor, so ist
(4-29)
die Wahrscheinlichkeit, daß bis zum Zeitpunkt t ein Zustand aus I vorliegt. Bedeutet
weiter TI die Aufenthaltsdauer in der Zustandsmenge I, und existiert der Erwar-
tungswert  von TI, so gilt
(4-30)
Wegen der Additivität der Laplace-Transformation gilt damit auch:
(4-31)
Definition 4-7: Verfügbarkeit, Dauerverfügbarkeit
Die Wahrscheinlichkeit, ein System zum Zeitpunkt t im Zustand “intakt” anzutref-
fen wird als die Verfügbarkeit V(t) des Systems zum Zeitpunkt t bezeichnet:
V(t) = P[ System ist zum Zeitpunkt t intakt ]
Im allgemeinen interessiert man sich bei einem System vor allem für die Dauerver-
fügbarkeit V=  die angibt, mit welcher Wahrscheinlichkeit das System zu
einem beliebigen Zeitpunkt sich im Zustand “intakt” befindet.
P
˜
i
i 1=
n
∑ 1= für die Zustandsmenge E, 1 2 … n, ,{ , }=
pii t( ) 1 t 0≥∀,=
R t( ) Pi t( )
i I∈
∑=
µ1
µ1 R s( )
s 0→
lim=
)
µ1 P i s( )
s 0→
lim
i I∈
∑=
)
V t( )
t ∞→
lim
128 Kapitel 4   Genau-einmal Ausführung4.6.2 Einschränkung des Fehlermodells
Für die Modellierung der zu untersuchenden Protokolle muß das in Abschnitt 4.1.3 festgelegte
Fehlermodell eingeschränkt werden. Bei den Knoten ist keine Einschränkung des Fehlermo-
dells notwendig. Knoten unterliegen Crash-Fehlern, d.h. bei einem Knotenfehler hält der Kno-
ten die Ausführung aller Programme an; der Ausfall einer echten Teilmenge der Prozesse eines
Knotens ist ausgeschlossen. 
Netzwerkfehler, auch nicht eingeschränkt auf Netzwerkpartitionen, können bei der Untersu-
chung nicht berücksichtigt werden. Bei Markov-Modellen müssen die zu untersuchenden Zu-
fallsgrößen voneinander unabhängig sein. Dies trifft im Falle der Netzwerkpartitionierung (wel-
che laut Abschnitt 4.1.3 der einzige betrachtete Netzwerkfehler ist) jedoch weder in realen
Netzwerken noch in dem in Abschnitt 4.1.2 eingeführten Netzwerkmodell (je ein Kommunika-
tionskanal zwischen zwei Rechnern) zu: entsteht eine Netzwerkpartition, so müssen mehrere
Verbindungen gleichzeitig (d.h. abhängig) ausfallen. Neben den Markov-Modellen gibt es zwar
weitere, noch wesentlich komplexere Modelle, welche auch mit solchen Fällen zurecht kom-
men. Mathematisch ist dies aber bei einem derart komplexen Problem kaum noch erfaßbar. Au-
ßerdem könnte auch eine Anwendung dieser komplexeren Modelle keine allgemeingültigen Er-
gebnisse liefern, da die Wahrscheinlichkeiten für Netzwerkpartitionierungen – und damit die
Wahrscheinlichkeiten für den Ausfall der Kommunikationskanäle zwischen den Knoten – stark
von der Topologie des die Knoten verbindenden Netzwerkes abhängen. Es wäre also jeweils nur
eine Aussage für eine bestimmte Ausprägung der Netzwerktopologie möglich.
4.6.3 Verfügbarkeit eines Knotens
Die Verfügbarkeit eines einzelnen Knotens wird in den folgenden Abschnitten immer wieder
benötigt und daher an dieser Stelle berechnet. Laut Fehlermodell befindet sich ein Knoten in ex-
akt einem der Zustände “intakt” oder “defekt”.
Abbildung 4-24. Modell eines Knotens
0
1
f
r
intakt
defekt
4.6  Analytische Bewertung der Fehlertoleranz 129Die zwei Zustände des Knoten und die Übergänge zwischen diesen Zuständen zeigt Abbildung
4-24. Mit der Übergangsrate f (Ausfallrate) geht ein Knoten vom Zustand “intakt” in den Zu-
stand “defekt” über. Der Erwartungswert für diesen Übergang (d.h. die mittlere Zeit bis von Zu-
stand “intakt” in den Zustand “defekt” übergegangen wird) beträgt 1/f. Ist der Knoten im Zu-
stand “defekt”, so wird er repariert und geht mir der Übergangsrate r (Reparaturrate) in den
Zustand “intakt” über. Auch hier beträgt der Erwartungswert für diesen Übergang 1/r. Die bei-
den Erwartungswerte werden i.a. auch mit MTTF (Mean Time To Failure, mittlere Zeit bis zum
Ausfall) und MTTR (Mean Time To Repair, mittlere Reparaturzeit) bezeichnet: MTTF = 1/f,
MTTR = 1/r. Im weiteren wird davon ausgegangen, daß r und f für alle Knoten gleich sind.
Die Verfügbarkeit VK(t) des Knotens entspricht der Wahrscheinlichkeit, den Knoten im Zustand
0 (“intakt”) vorzufinden, d.h. VK(t) = P0(t). Die Übergangsmatrix für das System ergibt sich zu
(4-32)
Für diesen Fall trifft Satz 4-2 zu, somit kann VK durch lösen des Gleichungssystems (4-27) unter
Berücksichtigung von Gleichung (4-28) berechnet werden:
Hieraus ergibt sich für die Verfügbarkeit Vk:
(4-33)
Durch Einsetzen von MTTF = 1/f und MTTR = 1/r und anschließender Umformung erhält man
die bekanntere Formel
(4-34)
4.6.4 Systemverfügbarkeit und Blockierwahrscheinlichkeit
Ein wichtiges Maß bei der Untersuchung von Fehlertoleranz ist die Verfügbarkeit eines Sy-
stems. Bei den in diesem Kapitel vorgestellten Protokollen ist jedoch die Definition, was unter
Verfügbarkeit des Systems zu verstehen ist, nicht auf den ersten Blick klar. Die Unterteilung der
Verarbeitung des Agenten in abgeschlossene, innerhalb einer Schritt-Transaktion ausgeführte
A f– r
f r–
=
0 f– r
f r–
P
˜
⋅=
0 f P˜0 r P˜1⋅–⋅=
1 P
˜
0 P
˜
1+=
VK P
˜
0
r
r f+---------= =
VK
MTTF
MTTF MTTR+
--------------------------------------=
130 Kapitel 4   Genau-einmal AusführungSchritte legt jedoch die Festlegung nahe, daß das System genau dann verfügbar ist, wenn die
zum Abschluß einer Schritt-Transaktion notwendigen Knoten verfügbar sind.
4.6.4.1 Basisprotokoll
Bei der Ausführung eines mobilen Agenten mittels des in Abschnitt 4.3 vorgestellten Basispro-
tokolls sind während der Ausführung einer Schritt-Transaktion zwei Knoten beteiligt: der Kno-
ten, auf dem der aktuelle Schritt ausgeführt wird und, da der Agent noch innerhalb der Trans-
aktion migriert, der Knoten, auf dem der folgende Schritt ausgeführt werden soll. Der Beitrag
dieser beiden Knoten zum Gelingen einer Schritt-Transaktion ist jedoch sehr verschieden: Der
Knoten, auf dem der aktuelle Schritt ausgeführt wird ist unverzichtbar, d.h. wenn dieser ausfällt,
ist das System für den auszuführenden Agent auf jeden Fall nicht verfügbar. Unter der Annah-
me, daß für den nächsten auszuführenden Schritt ausreichend viele alternative Knoten zur Ver-
fügung stehen, kann noch vor der Migration getestet werden, welcher dieser Knoten momentan
verfügbar ist und einer der verfügbaren Knoten als Ziel der Migration verwendet werden. Den-
noch kann natürlich der gewählte Knoten nach diesem Test noch ausfallen. Dieser Ausfall kann
jedoch nur zum (verzögerten) Rücksetzen der Schritt-Transaktion (und nicht zum Blockieren)
führen, da der Koordinator des 2PC-Protokolles der Schritt-Transaktion auf dem Knoten sitzt,
auf dem der aktuelle Schritt ausgeführt wird. In diesem Fall kann die Schritt-Transaktion ein-
fach wiederholt werden – das System steht also immer noch zur Ausführung des Agenten zur
Verfügung. Daher läßt sich beim Basisprotokoll die Verfügbarkeit Vs des Systems auf die Ver-
fügbarkeit des Knotens, der den aktuellen Schritt ausführt, reduzieren:
(4-35)
Die Blockierwahrscheinlichkeit Bs bei der Ausführung eines Schrittes, d.h. die Wahrscheinlich-
keit daß der Agent während der Ausführung eines Schrittes blockiert wird, berechnet sich mit-
tels
(4-36)
4.6.4.2 Blockierungsfreies Protokoll
Bei der Ausführung eines mobilen Agenten mittels des in Abschnitt 4.4 vorgestellten blockie-
rungsfreien Protokolls sind während der Ausführung einer Schritt-Transaktion sowohl die Kno-
ten der aktuellen Stufe als auch die Knoten der nächsten Stufe beteiligt. Eine analog dem vor-
herigen Abschnitt geführte Argumentation erlaubt auch hier, die Betrachtung der Verfügbarkeit
auf die Knoten der aktuellen Stufe einzuschränken.
Vs Vk
r
r f+---------= =
Bs 1 V– s=
4.6  Analytische Bewertung der Fehlertoleranz 131Während für die Ausführung des Schrittes als solchem die Verfügbarkeit eines einzelnen Kno-
tens der Stufe ausreicht, ist für eine erfolgreiche Durchführung des Votierens (und damit den
Abschluß der Schritt-Transaktion) die Verfügbarkeit der Mehrheit der Knoten der Stufe zwin-
gend notwendig. Bei einer Stufengröße von n Knoten müssen also mindestens  Knoten
der Stufe verfügbar sein (die Gauß-Klammer  bedeutet hierbei, daß zur nächst größeren
ganzen Zahl aufgerundet wird). Abbildung 4-25 zeigt das Markov-Modell einer Stufe. Im Zu-
stand i der Stufe sind genau i Knoten der Stufe intakt. Da im Zustand i also i Knoten ausfallen
können, erfolgt der Übergang zum Zustand i-1 (ein weiterer Knoten ausgefallen) mit der i-fa-
chen Ausfallrate if. Analoges gilt für die Reparaturrate: im Zustand i sind n-i Knoten ausgefal-
len, also erfolgt der Übergang zum Zustand i+1 mit der Reparaturrate (n-i)r.
Aus dem Modell ergibt sich dann (nach Gleichung (4-21)) das dazugehörige Differentialglei-
chungssystem:
Da das vorliegende System die Bedingung (4-26) aus Satz 4-2 erfüllt, gilt Gleichung (4-27) und
man erhält zusammen mit Gleichung (4-28) für den stationären Fall
Abbildung 4-25. Modell zur Berechnung der Verfügbarkeit einer Stufe
n 1+
2
-----------
0 1
f
nr
2
2f
(n-1)r
n-1 n
nf
r
P
·
0 t( ) n r⋅– P0 t( ) f P1 t( )⋅+⋅=
P
·
i t( ) r n i– 1+( )Pi 1– t( ) i f⋅ r n i–( )+( )Pi t( ) i 1+( ) f Pi 1+ t( )⋅ ⋅+–=
i 1 2 …n 1–, ,{ }∈
P
·
n t( ) r Pn 1– t( ) n f Pn t( )⋅ ⋅–⋅=
0 n r⋅– P
˜
0 f P˜1⋅+⋅=
0 r n i– 1+( )P˜ i 1– i f⋅ r n i–( )+( )P˜ i i 1+( ) f P˜ i 1+⋅ ⋅+–=
i 1 2 …n 1–, ,{ }∈
0 r P
˜
n 1– n f P˜n⋅ ⋅–⋅=
P
˜
i
i 0=
n
∑ 1=
132 Kapitel 4   Genau-einmal AusführungDie Lösung dieser Gleichung ergibt für die Aufenthaltswahrscheinlichkeit im Zustand i (d.h.
Wahrscheinlichkeit, daß genau i Knoten der Stufe verfügbar sind)
(4-37)
Herleitung und Beweis dieser Lösung findet man in HÖFLE-ISPHORDING (1978). Diese Lösung
läßt sich unter Verwendung von Gleichung (4-33) umformen zu
(4-38)
Für p=(Wahrscheinlichkeit, daß ein Knoten verfügbar ist)=VK ist dies die Binomialverteilung
(vgl. HUGHES UND GRAWOIG (1971)) welche die Wahrscheinlichkeit berechnet, daß aus n Ele-
menten genau i Elemente gezogen werden.
Die Verfügbarkeit Vs,n eines Systems mit n Knoten pro Stufe ergibt sich dann zu
(4-39)
Für den Spezialfall n=1 ergibt sich aus dieser Formel erwartungsgemäß die Verfügbarkeit des
Basisprotokolles.
Die Blockierwahrscheinlichkeit Bs,n einer Stufe mit n Knoten berechnet sich zu
(4-40)
Die relative Blockierwahrscheinlichkeit Br,n einer Stufe mit n Knoten berechnet sich mittels 
(4-41)
Eine relative Blockierwahrscheinlichkeit Br,n=0.4 bedeutet beispielsweise, daß die Wahrschein-
lichkeit, daß ein Agent in einer Stufe mit n Knoten blockiert wird nur 40% der Wahrscheinlich-
keit beträgt, daß ein Agent bei der Ausführung mittels des Basisprotokolles blockiert wird.
P
˜
i
n
i  
r
f-  
i f
f r+---------  
n
i 0 1 …n, ,{ }∈,=
P
˜
i
n
i  
r
f r+---------  
i
1 rf r+---------–  
n i– n
i   VK( )
i 1 VK–( )
n i–
= =
Vs n, P ″System in einem der Zustände n 1+
2
-----------
…n″ P
˜
i
i n 1+
2
-----------
=
n
∑= =
Bs n, 1 V– s n,=
Br n,
Bs n,
Bs
---------=
4.6  Analytische Bewertung der Fehlertoleranz 133Tabelle 4-2 und Abbildung 4-26 zeigen die relative Blockierwahrscheinlichkeit Br abhängig von
der Anzahl der Knoten n und der Einzelverfügbarkeit Vk eines Knotens. Auf ersten Blick fällt
auf, daß der Wert für die Blockierwahrscheinlichkeit für ungerade n immer kleiner ist als der
Wert für das größere n+1, sich die Blockierwahrscheinlichkeit also bei der Erhöhung der Kno-
tenzahl von einem ungeraden n auf ein gerades n+1 erhöht. Dies ist jedoch verständlich, da für
eine Stufe mit einer ungeraden Knotenzahl n für das erfolgreiche Votieren relativ gesehen we-
niger Knoten ((n/2)+0.5) vorhanden sein müssen als bei einer Stufe mit einer geraden Knoten-
anzahl ((n/2)+1). Insgesamt zeigt sich, daß ab einer Knotenanzahl von 3 Knoten pro Stufe die
relative Blockierwahrscheinlichkeit wesentlich verringert wird und daß die Verwendung einer
ungeraden Anzahl von Knoten pro Stufe empfehlenswert ist.
4.6.5 Verweildauer in einer Stufe
Die Ergebnisse des letzten Abschnittes sind nur begrenzt aussagekräftig, da sie auf der Betrach-
tung von Dauerverfügbarkeiten basieren, die über den zeitlichen Verlauf der Verfügbarkeit we-
nig aussagen. Die Dauerverfügbarkeit hängt jedoch nur vom Verhältnis zwischen Ausfallrate
und Reparaturrate ab, d.h. ein Knoten hat auch dann eine hohe Dauerverfügbarkeit, wenn die
Ausfallrate zwar recht hoch ist, die Reparaturrate aber entsprechend kurz ausfällt. Bei hoher
Ausfallrate sinkt die Zeit zwischen Knotenausfällen. Wird diese Zeit kürzer als die durch-
schnittliche Zeit zur Ausführung eines Schrittes eines Agenten, so sinkt die Wahrscheinlichkeit,
daß ein Schritt eines Agenten vollständig ausgeführt werden kann gegen null – der Agent wird
trotz hoher Verfügbarkeit blockiert.
Ein besseres Maß zur Bewertung der gewonnenen Fehlertoleranz, welches auch die Problematik
des Verhältnisses zwischen Knotenausfallzeit und Zeit zur Ausführung eines Schrittes berück-
sichtigt, besteht darin, die durchschnittliche Verweildauer eines Agenten in einer Stufe zu be-
rechnen. Diese Zeit umfaßt den Zeitraum von der Ankunft des Agenten in der Stufe bis zum
Tabelle 4-2. Relative Blockier-
wahrscheinlichkeit einer Stufe
Abbildung 4-26. Relative Blockier-
wahrscheinlichkeit einer Stufe
n
Vk
0.75 0.9 0.99
1 100% 100% 100%
2 175% 190% 199%
3 62% 28% 3%
4 105% 52% 6%
5 41% 9% ~0%
6 68% 16% ~0%
7 28% 3% ~0%
1 3 5 7 9 0,7
0,8
0,9
0,95
0,99
0%
50%
100%
B
r
n
Vk
134 Kapitel 4   Genau-einmal AusführungCommit der Schritt-Transaktion und berücksichtigt auch zusätzliche Zeiten, die durch Ausfälle
von Knoten entstehen können.
Einen Ansatz zur Berechnung dieser durchschnittlichen Verweildauer bietet Satz 4-3. Während
der Verarbeitung eines Agenten in einer Stufe tritt nie ein absorbierender Zustand ein, nur der
Abschluß der Schritt-Transaktion mündet in einen absorbierenden Zustand. Da die bei der Be-
rechnung der Verweildauer des blockierungsfreien Protokolles entstehenden Übergangsmatri-
zen sehr groß werden, ist es sinnvoll, das Problem soweit als möglich in kleinere Teilprobleme
zu zerlegen. Die 2-Phasigkeit des Commit-Protokolles bietet eine einfache Möglichkeit der Un-
terteilung in 2 Abschnitte: Der erste Abschnitt beginnt mit dem Eintreffen des Agenten in der
Stufe und endet mit der Commit-Entscheidung des Koordinators. Sobald der Koordinator sich
für ein Commit entschieden hat, ist sichergestellt, daß die Transaktion und damit auch die Stufe
vollends beendet werden kann - ein Zurücksetzen der Transaktion (und somit ein Übergang in
den ersten Abschnitt) ist dann nicht mehr möglich. Der zweite Abschnitt umfaßt lediglich die
Verteilung der Commit-Entscheidung an die beteiligten Ressourcen.
Die gesamte Verweildauer TV,b eines Agenten in einer Stufe beim Basisprotokoll ist dann die
Summe der Verweildauer TW,b des ersten Abschnitts und der Verweildauer TC,b des zweiten Ab-
schnitts:
(4-42)
4.6.5.1 Basisprotokoll
Erster Abschnitt:
Bei der Ausführung des ersten Abschnittes sind insgesamt zwei Knoten beteiligt: Der den
Agenten ausführende Knoten und der Zielknoten der Migration. Um die Verweildauer zu be-
rechnen macht jedoch eine Modellierung, in der die Zustände direkt mit der Anzahl der verfüg-
baren Knoten korreliert sind (d.h. ein Modell des physischen Systems), wenig Sinn. Vielmehr
müssen Zustände des Protokolles selbst modelliert werden. Abbildung 4-27 zeigt das Modell
zur Berechnung der Verweildauer im ersten Abschnitt.
Die Verarbeitung des ersten Abschnittes gliedert sich in drei verschiedene Zustände und einen
zusätzlichen Endzustand. Sobald ein Agent bei einem Knoten eintrifft, befindet er sich im Zu-
stand “Ausführen”. Hier wird die Schritt-Transaktion begonnen und der auszuführende Schritt
abgearbeitet. Danach geht die Verarbeitung in den Zustand “Vorbereiten” über, in dem der
Agent in die Eingangswarteschlange des nächsten Knotens geschrieben wird und in dem der
Koordinator der Transaktion rm_prepare auf allen beteiligten Ressourcen aufruft. Neben der lo-
kalen Eingangswarteschlange und der Eingangswarteschlange des nächsten Knotens sind dies
noch jene lokalen Ressourcen, auf die der Agent während seiner Ausführung zugegriffen hat.
TV b, TW b, TC b,+=
4.6  Analytische Bewertung der Fehlertoleranz 135Fällt der ausführende Knoten aus während sich das System in den Zuständen “Ausführen” oder
“Vorbereiten” befindet, so ist die Ausführung des Agenten blockiert und geht in den Zustand
“Arbeiterausfall” über. Fällt der Zielknoten der Migration im Zustand “Vorbereiten” aus, so
wird die Transaktion abgebrochen und der Agent erneut im Zustand “Ausführen” ausgeführt.
Entscheidet der Transaktionskoordinator mit “Commit”, so wird in den 2. Abschnitt des Proto-
kolles übergegangen. Entscheidet der Transaktionskoordinator aus irgendwelchen Gründen mit
“Abort” (z.B. Probleme in Ressourcen, Deadlocks,...), so ist die Transaktion ebenfalls abgebro-
chen und es wird in den Zustand “Ausführen” übergegangen. 
Die Übergänge zum Zustand “Arbeiterausfall” finden mit der Ausfallrate f eines einzelnen Kno-
tens statt. Die Übergangsrate f1 vom Zustand “Vorbereiten” setzt sich zusammen aus der Aus-
fallrate f eines Knotens und einer Ausfallrate, welche sich aus der Wahrscheinlichkeit ergibt, mit
der eine Transaktion vom Koordinator abgebrochen wird. Da dies nur sehr selten geschieht und
quantitativ nur schlecht erfaßt werden kann (da abhängig von den Ressourcen, auf die der Agent
während seiner Ausführung zugreift), wird f1 durch f angenähert. Die mittlere Ausführungszeit
1/w setzt sich zusammen aus der Zeit 1/b zum Starten einer Transaktion, der mittleren Zeit 1/l
zum Lesen des Agenten aus der Eingangswarteschlange und der mittleren Zeit 1/e zur (fehler-
freien) Ausführung des auszuführenden Schrittes. Es gilt
.
Geht man davon aus, daß die Zeiten zum Start einer Transaktion und zum Lesen des Agenten
aus der Eingangswarteschlange wesentlich kleiner als die Zeit zur Ausführung des Schrittes
sind, so ist 1/w ungefähr die mittlere Dauer der Ausführung eines Schrittes. Die mittlere Aus-
führungszeit 1/vb setzt sich zusammen aus der mittleren Ausführungszeit 1/s zum Schreiben des
Agenten in die Warteschlange des nächsten Knotens und der mittleren Ausführungszeit 2*1/ps
Abbildung 4-27. Modell zur Berechnung der Verweildauer
des ersten Abschnitts des Basisprotokoll
0
1
2 3
f
f
f1
r
w
vb
Ausführen Vorbereiten
Arbeiterausfall
Abschnitt 2
1
w
---
1
b
--
1
l
--
1
e
--+ +=
136 Kapitel 4   Genau-einmal Ausführungder ersten Phase des 2PC-Protokolles (2*mittlere Zeit zum Aufruf von rm_prepare auf eine Ein-
gangswarteschlange). Hier gilt
.
Als Übergangsmatrix für das System erhält man
Die Laplace-Transformierte berechnet sich nach Gleichung (4-25) zu 
Da der Agent sich nach dem Eintreffen auf dem Knoten nur im Zustand “Ausführen” befinden
kann (im Zustand “Arbeiterausfall” hätte er gar nicht in die Eingangswarteschlange geschrieben
werden können), ist die Anfangsbedingung für die Aufenthaltswahrscheinlichkeiten
Nach Berechnung der Inversen der Laplace-Transformierten und dem Einsetzen von P(0) kann
man dann den Grenzwert von für  berechnen:
1
vb
----
1
s
-- 2
1
ps
----+=
A
f w+( )– r f 0
f r– f 0
w 0 2f vb+( )– 0
0 0 vb 0
=
P s( ) s I A–⋅( ) 1– P 0( )⋅
s f w+ + r– f– 0
f– s r+ f– 0
w– 0 s 2f vb+ + 0
0 0 vb– s
1–
P 0( )⋅= =
)
P 0( )
1
0
0
0
=
P s( )) s 0→
P s( )
s 0→
lim
2f vb+
vbw
---------------
f 2f vb w+ +( )
rvbw
---------------------------------
1
vb
----
∞
=
)
4.6  Analytische Bewertung der Fehlertoleranz 137Nach Satz 4-3, Gleichung (4-31) erhält man den Erwartungswert TW der Aufenthaltsdauer in der
Zustandsmenge {0,1,2}, und damit die Verweildauer in Abschnitt 1 des Basisprotokolles, mit-
tels
(4-43)
Zweiter Abschnitt:
Im zweiten Abschnitt des Basisprotokolles muß nur noch die zweite Phase des 2PC-Protokolles
abgehandelt werden, genauer gesagt es muß die Commit-Entscheidung des Transaktionskoor-
dinators an die beteiligten Ressourcen übermittelt werden (beim Abbruch der Transaktion wür-
de der erste Abschnitt nicht verlassen). Beteiligte Ressourcen sind die lokale Eingangswarte-
schlange, die Eingangswarteschlange des nachfolgenden Knotens und weitere lokale
Ressourcen, auf die der Agent während der Schritt-Transaktion zugegriffen hat.
Die Commit-Entscheidung kann den Ressourcen seriell oder parallel mitgeteilt werden. Bei der
seriellen Mitteilung wird einer Ressource die Commit-Entscheidung mitgeteilt und auf deren
Antwort gewartet, bevor einer weiteren Ressource die Commit-Entscheidung mitgeteilt wird.
Beim parallelen Fall werden an alle Ressourcen die Commit-Entscheidungen verschickt und
dann auf die Antworten gewartet. An dieser Stelle wird der zeitlich ungünstigere Fall, die seri-
elle Mitteilung, betrachtet. Es wird hierbei angenommen, daß, sobald eine Ressource die Com-
mit-Mitteilung bestätigt hat, die Ressource die Commit-Entscheidung auch bei auftretenden
Fehlern nicht erneut übermittelt bekommt. Somit kann man die Commit-Mitteilungen der ein-
zelnen Ressourcen getrennt betrachten.
Abhängig davon, wo der Koordinator der Transaktion sitzt und wo sich die zu benachrichtigen-
de Ressource befindet, müssen unterschiedliche Fehlermodelle betrachtet werden. Sitzen Koor-
dinator und Ressource auf demselben Knoten (lokale Ressource), so trifft das Modell aus Ab-
bildung 4-28 zu.
In diesem Falle kommt es nur darauf an, ob der Knoten, auf dem sich der Transaktionskoordi-
nator und die Ressource befinden, intakt ist oder nicht. Fällt der Knoten aus, während bei der
lokalen Ressource der Commit durchgeführt wird, so wird der Ressource nach Reparatur des
Knotens erneut die Commit-Entscheidung mitgeteilt. Die mittlere Commit-Dauer im fehlerfrei-
en Fall, und somit die mittlere Zeit bis zum Übergang in den (End-)Zustand 2, beträgt 1/cl.
Im hier betrachteten Basisprotokoll sitzt der Transaktionskoordinator i.a. auf dem Knoten, auf
dem die Schritt-Transaktion durchgeführt wird. Lokale Ressourcen sind in diesem Falle die Ein-
gangswarteschlange des Knotens und jene Ressourcen, auf die der Agent während der Ausfüh-
rung des Schrittes zugegriffen hat. Da diese für den allgemeinen Fall nicht bekannt sind, wird
hier nur die Zeit des lokalen Commit für die Eingangswarteschlange (mit mittlerer Commit-
Dauer 1/cl) betrachtet. Die Berechnung der Zeiten für weitere lokale Ressourcen erfolgt analog.
TW b, P 0( )
i 0=
2
∑ 2f w vb+ +( ) f r+( )wrvb----------------------------------------------= =
)
138 Kapitel 4   Genau-einmal AusführungDa für den Beginn dieser Phase der den Agenten ausführende Knoten intakt sein muß, ergibt
sich die Anfangsbedingung zu
Die Übergangsmatrix ergibt sich wie folgt:
Analog zum letzten Abschnitt wird die mittlere Aufenthaltsdauer Tcl,b in der Zustandsmenge
{0,1} berechnet:
Abbildung 4-28. Modell für lokales Commit
0
1
2
f
r
cl
Knoten Commit
Knoten
intakt erfolgreich
ausgefallen
P 0( )
1
0
0
=
A
f cl+( )– r 0
f r– 0
cl 0 0
=
P s( ) s I A–⋅( ) 1– P 0( )⋅
s f cl+ + r– 0
f– s r+ 0
cl– 0 s
1–
1
0
0
⋅= =
)
P s( )
s 0→
lim
1
cl
---
f
clr
------
∞
=
)
4.6  Analytische Bewertung der Fehlertoleranz 139(4-44)
Befinden sich der Koordinator der Transaktion und die Ressource (hier: Eingangswarteschlange
des Knotens, auf den Agent migriert) auf unterschiedlichen Knoten, so trifft das Modell aus Ab-
bildung 4-29 zu. Hier spielen sowohl der Knoten des Transaktionskoordinators als auch der
Knoten der Ressource eine Rolle.
Nur wenn diese beide Knoten intakt sind, kann die Commit-Entscheidung der Ressource mit-
geteilt und von der Ressource verarbeitet werden, daher ist ein Übergang in den (End-)Zustand
3 nur aus Zustand zwei möglich. Die Ausfallrate im Zustand “beide Knoten intakt” entspricht
dem doppelten der normalen Ausfallrate f, dasselbe gilt für die Reparaturrate, wenn beide Kno-
ten ausgefallen sind.
Die Anfangsbedingungen sind auch hier einfach zu bestimmen. Wird diese Phase des Protokol-
les erreicht, dann ist der Knoten des Transaktionskoordinators auf jeden Fall nicht ausgefallen.
Somit kann also nur ein Knoten (der Knoten der Zielwarteschlange) oder kein Knoten ausgefal-
len sein. Die Wahrscheinlichkeit, daß der Knoten der Zielwarteschlange verfügbar ist erhält man
analog Gleichung (4-33). Da sich das System anfangs nicht im Endzustand befinden kann, er-
hält man die Anfangsbedingungen
Abbildung 4-29. Modell für entferntes Commit
Tcl b, P 0( )
i 0=
1
∑ r f+clr---------= =
)
0 1
f
2r
beide Knoten ein Knoten
2
2f
r
3
cr
ausgefallen ausgefallen
beide Knoten
intakt
Commit
erfolgreich
P 0( )
0
1 r
r f+
---------–
r
r f+---------
0
0
f
r f+---------
r
r f+---------
0
= =
140 Kapitel 4   Genau-einmal AusführungDie Übergangsmatrix des Modells ergibt sich zu
Wie zuvor kann man hieraus nun Tcr als mittlere Aufenthaltsdauer in der Zustandsmenge
{0,1,2,3} berechnen:
(4-45)
Die Gesamtzeit TC,b für den Commit ergibt sich also zu
(4-46)
Zusammenfassung:
Als Verweildauer eines Agenten in einer Stufe ergibt sich beim Basisprotokoll der Wert
(4-47)
A
2r– f 0 0
2r f r+( )– 2f 0
0 r 2f cr+( )– 0
0 0 cr 0
=
P s( ) s I A–⋅( ) 1– P 0( )⋅
s 2r+ f– 0 0
2– r s– f r+ + 2–( )f 0
0 r– s 2f cr+ + 0
0 0 cr– s
1– 0
f
r f+---------
r
r f+---------
0
⋅= =
)
P s( )
s 0→
lim
1
2
--
f2 2f cr 2r+ +( )
r
2
cr r f+( )
------------------------------------
f 2f cr 2r+ +( )
rcr r f+( )
----------------------------------
1
cr
---
∞
=
)
Tcr b, P 0( )
i 0=
2
∑ 12--
f 2f cr 2r+ +( ) f 2r+( )
r
2
cr r f+( )
-----------------------------------------------------= =
)
TC b, Tcl b, Tcr b,+
r f+
clr
---------
1
2
--
f 2f cr 2r+ +( ) f 2r+( )
r
2
cr r f+( )
-----------------------------------------------------+= =
TV b, TW b, TC b,+
2f w vb+ +( ) f r+( )
wrvb
----------------------------------------------
1
2
--
f 2f cr 2r+ +( ) f 2r+( )
r
2
cr r f+( )
-----------------------------------------------------
r f+
clr
---------+ += =
4.6  Analytische Bewertung der Fehlertoleranz 1414.6.5.2 Blockierungsfreies Protokoll
Da das blockierungsfreie Protokoll wesentlich komplexer als das Basisprotokoll ist, wird auch
die Modellierung des Protokolles wesentlich komplexer. Um die Komplexität in einem akzep-
tablen Rahmen zu halten, werden deshalb an einigen Stellungen Abschätzungen nach oben vor-
genommen, d.h. es wird meist der jeweils schlechteste Fall angenommen. Für die Verweildauer
bedeutet dies, daß der reale Wert günstiger (d.h. kleiner) ausfällt als der hier berechnete Wert.
Auch hier wird wieder dieselbe Unterteilung wie beim Basisprotokoll in zwei Protokollab-
schnitte vorgenommen. Für die Berechnungen wird der ungünstigere Fall angenommen, daß die
Knotenmengen zweier aufeinanderfolgender Stufen disjunkt sind.
Erster Abschnitt:
Bei der Aufstellung des in Abbildung 4-30 dargestellten Modells wurde, wie schon im vorher-
gehenden Abschnitt, der “Verarbeitungszustand” einer Stufe als Basis für die Zustände des Mo-
dells genommen.
Nachdem der Agent in der Stufe angekommen ist, wird er vom Arbeiter (i.a. der Knoten mit der
höchsten Priorität) ausgeführt, befindet sich im Modell also im Zustand 0. Die Ausführung um-
faßt den Start der Schritt-Transaktion, das Lesen des Agenten aus der Eingangswarteschlange,
die Ausführung des Schrittes und die Bestimmung der Knoten der nachfolgenden Stufe. Hierbei
kann davon ausgegangen werden, daß immer genug Knoten vorhanden sind, um eine Stufe mit
n Knoten zu bilden. Danach geht das Modell mit der Übergangsrate w in den Zustand 3, “Schrei-
ben&Votieren”, über. Die mittlere Ausführungszeit 1/w setzt sich zusammen aus der Zeit 1/b
zum Starten einer Transaktion, der mittleren Zeit 1/l zum Lesen des Agenten aus der Eingangs-
warteschlange, der mittleren Zeit 1/e zur (fehlerfreien) Ausführung des auszuführenden Schrit-
Abbildung 4-30. Modell zur Berechnung der Verweildauer
des ersten Abschnitts des blockierungsfreien Protokolles
0
1
3 5
fw1
fv1
sel
w
vf
Ausführen Schreiben&Votieren
Selektion
Abschnitt 2
42
fv2
r
Nicht genügend
Voten verfügbar
Alle Knoten
defekt
fw2
nr
fd
142 Kapitel 4   Genau-einmal Ausführungtes (inklusive der Berechnung der Knoten der nächsten Stufe). Es gilt
.
Da die Zeit zur Ausführung eines Schrittes i.a. wesentlich höher ist als die Zeit zur Ermittlung
der Knoten der nächsten Stufe, kann für 1/e die mittlere Zeit zur Ausführung eines Schrittes an-
genommen werden.
Im Zustand “Schreiben&Votieren” wird zuerst der Agent in die Eingangswarteschlangen der
Knoten der nächsten Stufe geschrieben und dann die erste Phase des 2PC-Protokolles durchge-
führt. Diese schließt das Votieren ein, bei dem der Orchestrator von allen Votierern der Stufe ein
Votum eintreibt. Hat der Orchestrator eine Mehrheit der Voten erhalten und haben alle Ressour-
cen dem Abschluß der Transaktion zugestimmt, geht die Verarbeitung in den zweiten Abschnitt
über. Die Übergangsrate in den zweiten Abschnitt berechnet sich aus der für das Schreiben des
Agenten in die nächste Stufe benötigten Zeit n*1/s (für n Knoten in der nächsten Stufe) und der
für die Durchführung der ersten Phase des 2PC-Protokolles. In der ersten Phase des 2PC-Pro-
tokolles wird rm_prepare bei den beteiligten Ressourcenmanagern aufgerufen. Dies betrifft in
diesem Falle die Eingangswarteschlangen der Knoten der nächsten Stufe, die Eingangswarte-
schlange des Arbeiters, den Orchestrator und die Ressourcen, auf die der Agent während dem
Schritt zugegriffen hat. Nimmt man für den Aufruf von rm_prepare auf eine Eingangswarte-
schlange eine mittlere Ausführungszeit von 1/ps an, so ergibt sich eine mittlere Ausführungszeit
für die erste Phase des 2PC-Protokolles von
und damit gilt für die Übergangsrate von Zustand 3 in Zustand 5
(4-48)
Hierbei wird der ungünstigere Fall des sequentiellen Aufrufes von rm_prepare auf die Ein-
gangswarteschlangen angenommen. Tv bezeichnet die vom Orchestrator benötigte Zeit für den
rm_prepare-Aufruf und umfaßt vor allem die für das Votieren benötigte Zeit. Die Berechnung
von Tv hängt von der Verfügbarkeit der Knoten der aktuellen Stufe ab und ist ziemlich komplex.
Aus Gründen der Übersichtlichkeit erfolgt die Berechnung deshalb weiter unten.
Treten Knotenausfälle auf, so ist die Auswirkung des Ausfalls stark von dem Zustand abhängig,
in dem sich die Verarbeitung befindet. Im Zustand “Ausführen” wird das System nur dann be-
einflußt, wenn der Arbeiter, d.h. der den Agent ausführende Knoten, ausfällt. Fällt der Arbeiter
aus, sind zwei Alternativen denkbar. Solange noch mindestens ein Knoten der Stufe verfügbar
ist, geht das System in den Zustand “Selektion” über. War der Arbeiter der letzte verfügbare
Knoten der Stufe, so geht das System in den Zustand “Alle Knoten defekt” über. Die Ausfallrate
1
w
---
1
b
--
1
l
--
1
e
--+ +=
T2pc1 n 1+( )
1
ps
---- Tv+=
1
vf
--- n
1
s
-- n 1+( ) 1ps
---- Tv+ +=
4.6  Analytische Bewertung der Fehlertoleranz 143des Arbeiters ist f (Ausfall eines Knotens). Diese Rate muß nun aufgeteilt werden zwischen dem
Übergang in den Zustand “Selektion” und dem Übergang in “Alle Knoten defekt”. Fällt der Ar-
beiter aus, so ist die Wahrscheinlichkeit, daß er in den Zustand “Alle Knoten defekt” übergeht
gleich der Wahrscheinlichkeit Pw1, daß alle n-1 restlichen Knoten der Stufe ausgefallen sind.
Diese Wahrscheinlichkeit berechnet sich nach Gleichung (4-38) zu
(4-49)
Für die Übergangsrate fw1 vom Zustand “Ausführen” in den Zustand “Alle Knoten defekt” erhält
man dann
(4-50)
Die Übergangsrate fw2 vom Zustand “Ausführen” in den Zustand “Selektion” ergibt sich dann
zu
(4-51)
Im Zustand “Schreiben&Votieren” wirkt sich (beinahe) jeder Ausfall eines der an der Verarbei-
tung der Stufe beteiligten Knoten auf das System aus. Fällt einer der Knoten der nächsten Stufe
aus, so wird die Schritt-Transaktion zurückgesetzt und das System geht in den Zustand “Selek-
tion” über. Fallen Beobachter der Stufe aus, so kann das Auswirkungen auf die zum Votieren
benötigte Zeit Tv (siehe oben) haben, falls nicht genug Knoten für das Erlangen einer Voten-
Mehrheit verfügbar sind. Fällt der Arbeiter selbst aus, dann hat der Orchestrator zu diesem Zeit-
punkt schon von 0,...,n Knoten eine Stimme bekommen. Hat der Orchestrator schon die benö-
tigte Stimmenzahl erhalten, so kann kein weiterer Orchestrator die notwendige Anzahl an Stim-
men erhalten. In diesem Fall ist das System blockiert, bis der Arbeiter-Knoten neu startet (und
die erhaltenen Voten zurückgeben kann). Hat der Arbeiter jedoch noch nicht genug Stimmen be-
kommen, dann könnte das System entweder in den Zustand “Selektion” oder in den Zustand
“Alle Knoten defekt” übergehen. Problem hier ist, daß einerseits nur sehr schlecht eine Aussage
getroffen werden kann, mit welcher Wahrscheinlichkeit nach Ausfall eines Arbeiters noch ge-
nügend Stimmen vorhanden sind und andererseits umfaßt das Modell nicht die Möglichkeit, daß
eventuell mehrere “ehemalige” (d.h. während dem Votieren ausgefallene) Arbeiter Teile der
Stimmen blockieren. Aus diesem Grunde wird der für die Ausführungszeit ungünstigere Fall
angenommen, daß bei Ausfall des Arbeiters prinzipiell nicht mehr genügend Voten vorhanden
sind, sodaß hier immer in den Zustand “Nicht genügend Voten” übergegangen wird. Die Rate
fv1 für den Übergang vom Zustand “Votieren” in den Zustand “Selektion” hängt demnach nur
Pw1
f
f r+---------  
n 1–
=
fw1 Pw1 f⋅ f ff r+---------  
n 1–
= =
fw2 f fw1– f 1 ff r+---------  
n 1–
–  = =
144 Kapitel 4   Genau-einmal Ausführungvom Ausfall eines der Knoten der nachfolgenden Stufe ab und ergibt sich daher zu
(4-52)
Dabei wurde (der ungünstigere Fall) angenommen, daß der Ausfall eines Knotens der nächsten
Stufe auch dann den Abbruch der Transaktion bewirkt, wenn die Eingangswarteschlange bereits
mit rm_yes auf das rm_prepare geantwortet hat. Die Rate fv2 für den Übergang vom Zustand
“Votieren” in den Zustand “Nicht genügend Voten verfügbar” hängt nach obiger Festlegung nur
vom Ausfall des Arbeiters ab und ergibt sich deshalb zu
(4-53)
Befindet sich das System im Zustand “Nicht genügend Voten verfügbar”, dann wird in der Rea-
lität nach der Wahl eines neuen Arbeiters bereits mit der Ausführung des Agenten begonnen.Im
Modell wird jedoch (der ungünstigere Fall) angenommen, daß die Auswahl des neuen Arbeiters
erst dann beginnt, wenn der alte Arbeiterknoten wieder verfügbar ist. Die Übergangsrate von
“Nicht genügend Knoten verfügbar” in den Zustand “Selektion” entspricht daher der Repara-
turrate eines einzelnen Knotens r. 
Vom Zustand “Selektion” aus kann das System in zwei Nachfolgezustände übergehen. Wird ein
neuer Arbeiter gewählt, so geht das System in den Zustand “Ausführen” über. Die Übergangs-
rate hierfür sei sel. Bei der Wahl dieser Rate wird auch berücksichtigt, daß der Knoten mit der
höchsten Priorität verfügbar sein kann (und in diesem Fall die Selektionsphase sehr kurz ist).
Fällt im Zustand “Selektion” ein Knoten aus ändert dies nichts – es sei denn, alle anderen (n-1)
Knoten der Stufe sind schon ausgefallen. In diesem Falle geht das System in den Zustand “Alle
Knoten defekt” über. Da dies dieselbe Situation ist wie beim Übergang vom Zustand “Ausfüh-
ren” in den Zustand “Alle Knoten defekt” ergibt sich für den Übergang “Selektion” nach “Alle
Knoten defekt” die Übergangsrate analog zu Gleichung (4-50):
(4-54)
Der Zustand “Alle Knoten defekt” wird in Richtung “Selektion” verlassen, sobald einer der n
Knoten repariert ist. Die Übergangsrate für diesen Übergang ist nr (d.i. die n-fache Reparatur-
rate eines einzelnen Knotens).
Bevor nun die Verweildauer des Protokolles im ersten Abschnitt berechnet werden kann, muß
noch die mittlere Zeit ausgerechnet werden, die der Orchestrator zum Votieren benötigt. Sind
von der aktuellen Stufe ausreichend (d.h. ) Knoten verfügbar (blockierungsfreier
Fall), so bewegt sich die Dauer Tvn für das Votieren in der Größenordnung der Round-Trip-
fv1 nf=
fv2 f=
fd fw1 f ff r+---------  
n 1–
= =
n 1+( ) 2⁄
4.6  Analytische Bewertung der Fehlertoleranz 145Time (Zeit, um Datenpaket zu einem Knoten hin und wieder zurück zu transportieren) zwischen
den Knoten der Stufe. Sind jedoch nicht ausreichend Knoten vorhanden ist der Agent blockiert
und muß warten, bis ausreichend Knoten für eine Stimmenmehrheit verfügbar sind.
Die mittlere Dauer Tv des Votierens ergibt sich aus der mittleren Dauer Tvn im blockierungsfrei-
en Fall gewichtet mit dessen Wahrscheinlichkeit Pn und der mittleren Dauer Tvb im Fehlerfall
gewichtet mit dessen Wahrscheinlichkeit Pb:
(4-55)
Für die Berechnung von Pn und Pb kann davon ausgegangen werden, daß der Arbeiter immer
verfügbar ist (fällt der Arbeiter aus wird in einen Zustand übergegangen, der momentan nicht
Gegenstand der Betrachtung ist). Das Protokoll blockiert folglich nicht, wenn von den n-1 Be-
obachtern mindestens  Beobachter verfügbar sind. Der Wert für Pn ergibt sich di-
rekt analog zu Gleichung (4-39) und mit Gleichung (4-38) zu
(4-56)
Die Wahrscheinlichkeit Pb ergibt sich dann einfach zu
(4-57)
Die Berechnung der mittleren Zeit für das Votieren bei einer Blockierung hängt vor allem von
der Anzahl der Knoten in einer Stufe ab. Abbildung 4-31, welche Modelle für das Votieren für
unterschiedliche Anzahlen von Knoten pro Stufe zeigt, läßt vermuten, daß hier nur sehr schwer
eine geschlossene Form zur Berechnung der mittleren Zeit zu finden ist. Die Zustände im Mo-
dell modellieren jeweils die Anzahl der für ein vollständiges Votum noch fehlenden Stimmen.
In einer Stufe mit 5 Knoten werden neben der Stimme des Arbeiters (die in diesem Fall voraus-
gesetzt werden kann, siehe oben) noch die Stimmen von mindestens zwei Beobachtern benötigt
(also insgesamt drei Stimmen). Fehlen beide Beobachter-Stimmen bedeutet dies, daß von den 4
Beobachtern momentan keiner verfügbar ist. Fehlt nur eine Stimme, ist ein Beobachter verfüg-
bar. Die Übergangsrate von “2 Stimmen fehlen” nach “1 Stimme fehlt” ist demnach die 4-fache
Reparaturrate eines Knotens, die Gegenrichtung ist die Ausfallrate eines Knotens (des einen
verfügbaren Beobachters). Der Übergang von “1 Stimme fehlt” zu “Votieren erfolgreich” setzt
sich aus mehreren Komponenten zusammen. Für eine Stufe mit 5 Knoten ist dies zum einen die
3-fache Reparaturrate eines Knotens. Sind alle Knoten verfügbar muß jedoch erst die Aufforde-
rung zum Votieren bei den Knoten eintreffen. Diese wird periodisch vom Orchestrator ver-
schickt und trifft im Schnitt nach der halben Periodendauer bei den Votierern ein. Die Rate in
Tv PnTvn PbTvb+=
n 1–( ) 2⁄
Pn
r
f-  
i n 1–
i  
f
f r+---------  
n 1–
i n 1–
2
-----------
=
n 1–
∑ ff r+---------  
n 1– r
f-  
i n 1–
i  
i n 1–
2
-----------
=
n 1–
∑= =
Pb 1 Pn–=
146 Kapitel 4   Genau-einmal Ausführungden Zustand “Votieren erfolgreich” setzt sich bei einer Stufe mit fünf Knoten daher wie folgt
zusammen:
(4-58)
wobei Tresend die Zeit zwischen dem Verschicken von 2 Votier-Aufforderungen ist. Im Modell
wird hierbei vom ungünstigeren Fall ausgegangen, daß die Beobachter ihre Stimme erst dann
abgeben, wenn wirklich genug Beobachter vorhanden sind. 
Besitzt eine Stufe 6 oder 7 Knoten, so werden zusätzlich zur Stimme des Arbeiters noch 3 Stim-
men von Beobachtern benötigt, wodurch diese Modelle einen Zustand mehr haben als das Mo-
dell für 5 Knoten. Obwohl beide Modelle dieselbe Anzahl von Zuständen besitzen unterschei-
den sich die Übergangsraten zwischen den Zuständen. 
Die mittlere Dauer für das Votieren im Fall des Blockierens ergibt sich, indem die mittlere Auf-
enthaltsdauer in der Zustandsmenge {1, 2, ..., } berechnet wird. Da keine geschlos-
sene Form für diese Aufenthaltsdauer gefunden wurde, wird im folgenden die Berechnung des
Wertes anhand einer Stufe mit 5 Knoten demonstriert, Tabelle 4-3 zeigt die Werte für Stufen der
Größe 2 bis 7.
Abbildung 4-31. Modell des Votierens für Stufen
mit 5, 6 und 7 Knoten bei Blockierung
0 1
r1
Votieren 1 Stimme fehlt
2
4r
f
5 Knoten:
erfolgreich
2 Stimmen fehlen
0 1
r1
Votieren 1 Stimme fehlt
2
4r
2f
6 Knoten:
erfolgreich
2 Stimmen fehlen
3
5r
f
3 Stimmen fehlen
0 1
r1
Votieren 1 Stimme fehlt
2
5r
2f
7 Knoten:
erfolgreich
2 Stimmen fehlen
3
6r
f
3 Stimmen fehlen
r1
1
Tresend
2
----------------
1
3r
-----+
----------------------------=
n 1–( ) 2⁄
4.6  Analytische Bewertung der Fehlertoleranz 147Für eine Stufe mit 5 Knoten ergibt sich aus Abbildung 4-31 die folgende Übergangsmatrix
Die Laplace-Transformierte berechnet sich dann zu
Die Anfangsbedingung P(0) erhält man aus den folgenden Überlegungen: Da das Modell nur
für den Fall gilt, daß das Votieren tatsächlich blockiert, kann es sich am Anfang nicht im Zu-
stand 0 (“Votieren erfolgreich”) befinden:
(4-59)
Die Wahrscheinlichkeiten für die anderen Zustände sind bedingte Wahrscheinlichkeiten:
und
Mit Gleichung (4-38) und analog Gleichung (4-39) ergibt sich dann
(4-60)
(4-61)
Av
0 r1 0
0 r1 f+( )1– 4r
0 f 4r–
=
P s( ) s I Av–⋅( ) 1– P 0( )⋅
s r– 1 0
0 s r1 f+ + 4r–
0 f– s 4r+
1–
P 0( )⋅= =
)
P0 0( ) 0=
P1 0( ) P genau 1 Beobachter verfügbar | höchstens 1 von 4 Beobachtern verfügbar( )=
P genau 1 Beobachter verfügbar( )
P höchstens 1 von 4 Beobachtern verfügbar( )------------------------------------------------------------------------------------------------------------=
P2 0( ) P kein Beobachter verfügbar | höchstens 1 von 4 Beobachtern verfügbar( )=
P kein Beobachter verfügbar( )
P höchstens 1 von 4  Beobachtern verfügbar( )-------------------------------------------------------------------------------------------------------------=
P1 0( )
4
1   rf-  
1 f
f r+---------  
4
4
i   rf-  
i f
f r+---------  
4
i 0=
1
∑
---------------------------------------------- 4
r
4r f+-------------= =
P2 0( )
4
0   rf-  
0 f
f r+---------  
4
4
i   rf-  
i f
f r+---------  
4
i 0=
1
∑
----------------------------------------------
f
4r f+-------------= =
148 Kapitel 4   Genau-einmal AusführungNach Berechnung der Inversen der Laplace-Transformierten und dem Einsetzen von P(0) kann
man dann den Grenzwert von für  berechnen:
woraus sich dann direkt die gesuchte mittlere Aufenthaltsdauer Tvb in den Zuständen {1,2} er-
gibt:
(4-62)
Mit Gleichung (4-58) erhält man schließlich
(4-63)
Die Werte für Stufengrößen von 2 bis 7 Knoten zeigt Tabelle 4-3. 
Stufen-
größe
Tvb
2
3
4
5
Tabelle 4-3. Mittlere Dauer der Blockierung des Votierens für verschiedene Stufengrößen
P s( )) s 0→
P s( )
s 0→
lim
∞
1
r1
----
1
4
--
f 4r r1 f+ +( )
r1r f 4r+( )
-------------------------------
=
)
Tvb P 0( )
i 1=
2
∑ 1r1----
1
4
--
f 4r r1 f+ +( )
r1r f 4r+( )
-------------------------------+
1
4
--
16r2 8rf fr1 f
2
+ + +
r1r f 4r+( )
------------------------------------------------= = =
)
Tvb
32r2 48r3Tresend 22fr 24r
2
fTresend 2f
2 3f2rTresend+ + + + +
24 f 4r+( )r2
--------------------------------------------------------------------------------------------------------------------------------------------------=
2 rTresend+
2r
-----------------------------
1 rTresend+
2r
-----------------------------
9r2 9r3Tresend 8rf 6r
2fTresend f
2 f2rTresend+ + + + +
6 f 3r+( )r2
-----------------------------------------------------------------------------------------------------------------------------------
32r2 48r3Tresend 22fr 24r
2fTresend 2f
2 3f2rTresend+ + + + +
24 f 4r+( )r2
------------------------------------------------------------------------------------------------------------------------------------------------------
4.6  Analytische Bewertung der Fehlertoleranz 149Nachdem nun alle Übergangsraten für den ersten Abschnitt des blockierungsfreien Protokolles
bestimmt wurden, kann die Übergangsmatrix für das Modell aus Abbildung 4-30 aufgestellt
werden:
(4-64)
Da die Knoten der Stufe die Commit-Entscheidung der Schritt-Transaktion der vorherigen Stufe
sequentiell bekommen ist es möglich, daß der Transaktionskoordinator dieser Transaktion wäh-
rend dem Versenden der Commit-Entscheidung ausfällt und somit nur ein Teil der Knoten der
Stufe den Agent schon aus ihrer Eingangswarteschlange lesen können. Da der Zustand “Selek-
tion” auch schon den Fall beinhaltet, daß der Knoten mit der höchsten Priorität verfügbar ist,
wird daher die (für den fehlerfreien Fall ungünstigere) Annahme getroffen, daß sich das System
zu Beginn im Zustand “Selektion” befindet. Die Anfangsbedingung lautet demnach
(4-65)
6
7
Stufen-
größe
Tvb
Tabelle 4-3. Mittlere Dauer der Blockierung des Votierens für verschiedene Stufengrößen
300r4fTresend 135r
3f2Tresend 132r
2f2 3f4rTresend 30r
2f3Tresend+ + + +
60 r3 f2 5rf 10r2+ +( )( )
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- +
275r3f 300r5Tresend 200r
4 2f4 23rf3+ + + +
60 r3 f2 5rf 10r2+ +( )( )
------------------------------------------------------------------------------------------------------------
360r4fTresend 132r
3f2Tresend 100r
2f2 2f4rTresend 24r
2f3Tresend+ + + +
60 r3 f2 6rf 15r2+ +( )( )
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- +
252r3f 450r5Tresend 225r
4 f4 14rf3+ + + +
60 r3 f2 6rf 15r2+ +( )( )
---------------------------------------------------------------------------------------------------------
A
fw1 fw2 w+ +( )– sel 0 0 0 0
fw2 sel fd+( )– nr nf r 0
fw1 fd nr– 0 0 0
w 0 0 nf f vf+ +( )– 0 0
0 0 0 f r– 0
0 0 0 vf 0 0
=
P 0( )
0
1
0
0
0
0
=
150 Kapitel 4   Genau-einmal AusführungFür die Bestimmung der Aufenthaltsdauer muß nun zuerst wieder die Laplace-Transformierte
nach Gleichung (4-25) berechnet werden:
Nach Berechnung der Inversen der Laplace-Transformierten und dem Einsetzen von P(0) kann
man dann den Grenzwert von für  und daraus dann die mittlere Aufenthaltsdauer
TW,f in der Zustandsmenge {0,1,2,3,4} berechnen:
mit Gleichung (4-51) und Gleichung (4-54) ergibt sich
(4-66)
P s( )
s fw1 fw2 w+ + + sel– 0 0 0 0
f– w2 s sel fd+ + n– r n– f r– 0
f– w1 f– d s nr+ 0 0 0
w– 0 0 s nf f vf+ + + 0 0
0 0 0 f– s r+ 0
0 0 0 v– f 0 s
1–
P 0( )⋅=
)
P s( )) s 0→
P s( )
s 0→
lim
vf n 1+( )f+
vfw
-----------------------------
fw1 fw2 w+ +( ) n 1+( )f vf+( )
vfwsel
----------------------------------------------------------------------
fw1 fw2 w+ +( )fd fw1sel+( ) vf n 1+( )f+( )
nrvfwssel
----------------------------------------------------------------------------------------------------
1
vf
---
f
rvf
------
∞
=
)
TW f, P 0( )
i 0=
4
∑ vf n 1+( )f+ vfw-----------------------------
fw1 fw2 w+ +( ) n 1+( )f vf+( )
vfwsel
----------------------------------------------------------------------
1
vf
---
f
rvf
------+ + + += =
fw1 fw2 w+ +( )fd fw1sel+( ) vf n 1+( )f+( )
nrvfwsel
----------------------------------------------------------------------------------------------------
)
TW f, P 0( )
i 0=
4
∑ vf n 1+( )f+( ) sel w f+ +( ) nr fw1+( )( )nrvfwsel---------------------------------------------------------------------------------------------
1
vf
---
f
rvf
------+ += =
)
4.6  Analytische Bewertung der Fehlertoleranz 151Zweiter Abschnitt:
Im zweiten Abschnitt muß, wie auch beim Basisprotokoll, nur noch die zweite Phase des 2PC-
Protokolles abgehandelt werden, genauer gesagt es muß die Commit-Entscheidung des Trans-
aktionskoordinators an die beteiligten Ressourcen übermittelt werden (beim Abbruch der
Transaktion würde der erste Abschnitt nicht verlassen). Beteiligte Ressourcen sind die lokale
Eingangswarteschlange, der lokale Orchestrator, die Eingangswarteschlange der Knoten der
nächsten Stufe und weitere lokale Ressourcen, auf die der Agent während der Schritt-Transak-
tion zugegriffen hat.
Ziel der gesamten Betrachtung ist zu berechnen, wie lange ein Agent in einer Stufe benötigt.
Sobald irgend ein Knoten der nächsten Stufe die Commit-Entscheidung erhalten hat, beginnt für
den Agent schon die nächste Stufe (im Zustand “Selektion”). Dies bedeutet für diesen Abschnitt
zweierlei. Erstens wird beim Orchestrator die Zeit, die für Versand der FORGET-Nachrichten
und Empfang der Bestätigungen benötigt wird, hier nicht eingerechnet, da die FORGET-Phase
erst nach Zurücksenden der Bestätigung an den Transaktionskoordinator beginnt (und daher den
restlichen Verlauf der zweiten Phase des 2PC-Protokolles nicht beeinflußt). Zweitens muß nur
die Zeit eingerechnet werden, bis einer der Knoten der nächsten Stufe die Commit-Entschei-
dung erhalten hat.
Bei der Berechnung der Commit-Zeiten kann man auf die Ergebnisse aus Abschnitt 4.6.5.1 zu-
rückgreifen. Geht man davon aus, daß der Orchestrator für die zweite Phase des 2PC-Protokol-
les nicht länger braucht als die lokale Eingangswarteschlange (die Zeit ist sogar eher kürzer, da,
wie oben erwähnt, die FORGET-Phase hier nicht berücksichtigt werden muß) und daß die ent-
fernten Ressourcen erst nach den lokalen Ressourcen die Commit-Entscheidung erhalten, dann
berechnet sich die Zeit Tcl,f für den Commit der lokalen Ressourcen zu
(4-67)
Da die nächste Stufe bereits (im Zustand “Selektion”) beginnt, nachdem der erste Knoten der
nächsten Stufe die Commit-Entscheidung erfahren hat, ergibt sich 
(4-68)
Die mittlere Zeit TC,f für die zweite Phase berechnet sich also zu
(4-69)
Tcl f, 2Tcl b, 2
r f+
clr
---------= =
Tcr f, Tcr b,
f 2f cr 2r+ +( ) f 2r+( )
2r
2
cr r f+( )
-----------------------------------------------------= =
TC f, Tcl f, Tcr f,+ 2
r f+
clr
---------
f 2f cr 2r+ +( ) f 2r+( )
2r
2
cr r f+( )
-----------------------------------------------------+= =
152 Kapitel 4   Genau-einmal AusführungGesamtzeit:
Die mittlere Verweildauer TV,f eines Agenten in einer Stufe beim blockierungsfreien Protokoll
ergibt sich dann aus der Summe von Gleichung (4-66) und Gleichung (4-69):
(4-70)
4.6.5.3 Vergleich der Protokolle
Um die beiden Protokolle vergleichen zu können wird zunächst das Verhältnis QV zwischen
Verweildauer TV in einer Stufe und der Ausführungszeit 1/e des Agenten berechnet:
(4-71)
Der Wert (QV - 1)*100 gibt dann den Mehraufwand in Prozent an, der durch das Protokoll,
durch Knotenausfälle und durch die Mobilität des Agenten entsteht. Mit den Werten QV,b=eTV,b
für das Basisprotokoll und QV,f = eTV,f für das blockierungsfreie Protokoll kann man dann den
durch das blockierungsfreie Protokoll erreichten Gewinn G berechnen:
(4-72)
Der Gewinn G ist das Verhältnis von Mehraufwand Basisprotokoll zu Mehraufwand blockie-
rungsfreies Protokoll. Ist der Gewinn G größer 1.0, so ist der Mehraufwand des blockierungs-
freien Protokolles kleiner als der des Basisprotokolles. Ein Gewinn von G=2.0 bedeutet bei-
spielsweise, daß der Mehraufwand des Basisprotokolles doppelt so hoch ist wie der des
blockierungsfreien Protokolles.
Abbildung 4-32 zeigt Gewinn G des blockierungsfreien Protokolles in Abhängigkeit von der
Verfügbarkeit der Knoten und der Anzahl der Knoten pro Stufe. Für die Berechnung des Gewin-
nes wurden die Parameter verwendet, welche sich aus den Messungen in Abschnitt 4.7 ergeben:
Rate “Transaktionsstart” b=1/0.005 (5ms), Rate “Lesen aus Eingangswarteschlange” l=1/0.02
(20 ms), Rate “Schreiben in Eingangswarteschlange” s=1/0.04 (40ms), Rate “Prepare Ein-
gangswarteschlange” ps=1/0.07 (7ms), Rate “Commit lokal” cl = 1/0.005 (5ms), Rate “Commit
entfernt” cr=1/0.007 (7ms), Rate “Selektion” sel=1/.05 (50ms), Zeit zwischen wiederholtem
Versenden von Votier-Aufforderungen Tresend=50ms und Dauer des Votierens im fehlerfreien
TV f,
vf n 1+( )f+( ) sel w f+ +( ) nr fw1+( )( )
nrvfwsel
---------------------------------------------------------------------------------------------
1
vf
---
f
rvf
------+ + +=
2
r f+
clr
---------
f 2f cr 2r+ +( ) f 2r+( )
2r
2
cr r f+( )
-----------------------------------------------------+
QV TV
1
e
--⁄ eTV= =
G
QV b, 1–
QV f, 1–
--------------------=
4.6  Analytische Bewertung der Fehlertoleranz 153Fall Tvn=4ms. Für die Reparaturrate r wurde ein Wert von 1/120 gewählt, was einer mittleren
Reparaturdauer von 2 Minuten entspricht, die Ausfallrate f berechnet sich dann aus der Knoten-
verfügbarkeit und der Reparaturrate. Die mittlere Ausführungszeit eines Agenten beträgt 128
Sekunden.
Anhand der Graphik ergeben sich mehrere Beobachtungen. Aus demselben Grund wie schon in
Abschnitt 4.6.4 fällt auch bei der Verweildauer das Ergebnis für ungerade Knotenanzahlen n
(zumindest teilweise) schlechter aus als das Ergebnis bei der jeweilig zugehörigen geraden Kno-
tenzahl n-1. Allerdings zeigt die Abbildung auch, daß dies für höhere Knotenverfügbarkeiten
nicht mehr gilt, ja daß mit steigender Knotenverfügbarkeit der Gewinn mit zunehmender Anzahl
an Knoten pro Stufe sogar generell abnimmt. In Abbildung 4-32 beispielsweise ist bei einer
Knotenverfügbarkeit von 0,99 der Gewinn für 3 Knoten maximal und nimmt dann mit jedem
weiteren Knoten ab. Weiterhin zeigt sich, daß der Gewinn für einen gegebenen Satz an Ein-
gangsparametern ab einer bestimmten Einzelknotenverfügbarkeit mit steigender Einzelknoten-
verfügbarkeit wieder abnimmt. In Abbildung 4-32 beispielsweise ist der Gewinn bei einer Ver-
fügbarkeit von 0,99 niedriger als bei einer Verfügbarkeit von 0,95. Dieses Verhalten erklärt sich
durch die folgenden Überlegungen: Durch die konstante Reparaturrate werden Fehler eines ein-
zelnen Knotens mit steigender Verfügbarkeit eines Knotens sehr selten sodaß sich Knotenfehler
zunehmend weniger auf den Erwartungswert der Verweildauer beim Basisprotokoll auswirken.
Abbildung 4-32. Gewinn des blockierungsfreien Protokolles in Abhängigkeit von 
der Verfügbarkeit eines Knotens und der Anzahl der Knoten pro Stufe
0
0,2
0,4
0,6
0,8
1
1,2
1,4
1,6
1,8
2
G
ew
in
n
0,7 0,8 0,9 0,95 0,99
Zuverlässigkeit eines Knotens
2 Knoten 3 Knoten 4 Knoten 5 Knoten 6 Knoten 7 Knoten
154 Kapitel 4   Genau-einmal AusführungDa der durch das blockierungsfreie Protokoll eingeführte Mehraufwand (Verteilung auf mehre-
re Knoten, Votieren) nicht von der Verfügbarkeit eines Knotens sondern nur von der Anzahl der
Knoten pro Stufe abhängt, wirkt sich dieser konstante Mehraufwand zunehmend negativ auf den
Gewinn aus. 
Der geringere Gewinn bei geringerer Einzelknotenverfügbarkeit ergibt sich vor allem dadurch,
daß hier die Wahrscheinlichkeit einer Blockierung des Votierens höher ist und dadurch die Rate
vf relativ klein ausfällt (dies läßt sich zeigen, indem man bei der Berechnung von vf eine kon-
stante mittlere Zeit für das Votieren verwendet). Beide Faktoren zusammen bestimmen, wievie-
le Knoten pro Stufe bei gegebener Knotenverfügbarkeit den höchsten Gewinn ergeben. 
Eine weitere Eigenschaft des blockierungsfreien Protokolles zeigt Abbildung 4-33. Die Abbil-
dung zeigt den Gewinn abhängig von der Ausführungszeit des Agenten (in einer Stufe) und der
Anzahl der Knoten pro Stufe. Die Parameter wurden wie oben gewählt, für die Verfügbarkeit
eines einzelnen Knotens wurde ein Wert von 95% angenommen. Der Abbildung kann man ent-
nehmen, daß sich nennenswerte Gewinne nur bei langen Ausführungszeiten eines Agenten in
einer Stufe erreichen lassen. Wird die Zeit, die ein Agent zur Erledigung seiner Aufgabe auf ei-
nem Knoten braucht, sehr kurz, dann ist die mittlere Verweildauer in der Stufe beim blockie-
rungsfreien Protokoll länger als beim Basisprotokoll. Analog zu oben läßt sich dies dadurch er-
klären, daß die Wahrscheinlichkeit eines Knotenausfalls während der Ausführung bei kürzeren
Ausführungszeiten geringer ist und daher den Erwartungswert der Verweildauer beim Basispro-
Abbildung 4-33. Gewinn des blockierungsfreien Protokolles in Abhängigkeit von 
der Ausführungszeit eines Agenten und der Anzahl der Knoten pro Stufe
10
24
51
2
25
6
12
8
64 32 16 8
4
2 2
3
4
5
6
7
0
1
2
3
4
5
6
7
8
9
G
ew
in
n
Ausführungszeit  Agent [s] Anz
ahl 
Kno
ten
4.7  Leistungsmessungen 155tokoll weniger beeinflußt während der Protokoll-Mehraufwand beim blockierungsfreien Proto-
koll konstant ist.
Es zeigt sich also, daß mit dem blockierungsfreien Protokoll unter realen Bedingungen – Ver-
fügbarkeit eines einzelnen Knotens mindestens 99% bei administrierten Systemen (vgl. z.B.
GRAY UND REUTER (1993)) und Ausführungszeiten eines Agenten auf einem Knoten im Be-
reich von mehreren hundert Millisekunden bis wenigen Sekunden – ein Gewinn laut obiger De-
finition nicht zu erreichen ist, d.h. die mittlere Verweildauer in einer Stufe und damit die mittlere
Ausführungszeit eines Agenten steigt durch die Verwendung des blockierungsfreien Protokol-
les. 
Aus diesen Beobachtungen zu schließen, daß der Einsatz des blockierungsfreien Protokolles
nutzlos ist, wäre allerdings falsch, da in diesem Abschnitt Mittelwerte betrachtet wurden. Ziel
des Protokolles ist jedoch nicht, den Agenten im Mittel so schnell wie möglich auszuführen son-
dern den Agenten zuverlässig auszuführen und Blockierungen der Ausführung durch System-
fehler zu vermeiden. Abschnitt 4.4.4.2 zeigt, daß das Protokoll den Agenten zuverlässig aus-
führt und Abschnitt 4.6.4 zeigt, daß die Blockierwahrscheinlichkeit des Agenten durch das
Protokoll drastisch verringert wird. Für Anwendungen, bei denen eine blockierungsfreie, zuver-
lässige Ausführung des Agenten notwendig ist, ist die Verwendung des Protokolles – auf Kosten
der durchschnittlichen Ausführungszeit – unumgänglich. Ist für eine Anwendung jedoch eine
zuverlässige, im Durchschnitt möglichst schnelle Ausführung notwendig, bei der auch seltene,
längerandauernde Blockierungen toleriert werden können, dann empfiehlt sich für diese An-
wendung die Verwendung des Basisprotokolles.
4.7 Leistungsmessungen
In diesem Abschnitt wird untersucht, wieviel Mehraufwand durch den Einsatz des in diesem
Kapitel entwickelten blockierungsfreien Protokolles entsteht. Hierzu wird zuerst ein sehr grober
Überblick über die Protokollimplementation gegeben, der vor allem die Verteilung der Kompo-
nenten des Protokolles auf verschiedene Prozesse und die Kommunikationsmechanismen zwi-
schen diesen Prozessen beschreibt. Nach Einführung der Messmethodik werden die Messergeb-
nisse präsentiert und diskutiert.
4.7.1 Protokollimplementation
Für die Implementation des Protokolles wurde der am Institut verwendete CORBA-ORB von
Iona und dessen Transaktionsservice verwendet. Dieser Transaktionsservice erlaubt in der ver-
wendeten Version 1.0 die Implementation von Servern lediglich in C++, Klienten dieser trans-
aktionalen Server können sowohl in C++ als auch in Java implementiert werden. Da das Proto-
koll in das am Institut implementierte Agentensystem Mole integriert werden sollte, welches in
156 Kapitel 4   Genau-einmal AusführungJava implementiert wurde, war eine Trennung von in C++ implementierten Teilen (transaktio-
nale Ressourcen) und in Java implementierten Teilen unumgänglich. 
Eine erste Implementation des Protokolles erfolgte durch FRIEDEL (1998), eine effiziente trans-
aktionale Nachrichtenwarteschlange wurde von MESSNER (1999) realisiert, der Algorithmus
zur Stufenkonstruktion und die Integration des Protokolles wurden von PAPOULIDIS (1999) vor-
bereitet. Um klarere Schnittstellen zwischen den in Java und C++ implementierten Teilen des
Protokolles zu erhalten und die Leistung zu erhöhen, wurde die Protokollimplementation noch-
mals komplett neu gemacht. Einen groben Überblick über die resultierende Architektur gibt Ab-
bildung 4-34. 
Der Orchestrator und die Nachrichtenwarteschlange (Message Queue) sind in C++ implemen-
tiert und werden auf jedem Knoten in jeweils einem eigenen Prozeß ausgeführt. Der Rest des
Protokolles ist in Java implementiert und wird zusammen mit der Agenten-Ausführungsumge-
bung Mole in einer Java Virtual Machine (in einem Prozeß) ausgeführt. CORBA wird nur dann
zur Kommunikation verwendet, wenn dies zum Austausch von Transaktionskontext-Informa-
tionen notwendig ist, beschränkt sich also auf das Lesen von Agenten aus bzw. das Schreiben
von Agenten in die Nachrichtenwarteschlange und auf die Registrierung der Schritt-Transaktion
beim Orchestrator. Alle andere Kommunikation wird aus Effizienzgründen mittels UDP (User
Datagram Protocol) erledigt. Die Implementierung des blockierungsfreien Protokolles enthält
als Spezialfall das Basisprotokoll.
Abbildung 4-34. Architektur der Implementierung
Java VM O
rc
he
st
ra
to
r
Mole
M
es
sa
ge
 
Qu
eu
e
A
u
sf
üh
re
r
V
ot
ie
re
r
B
eo
ba
ch
te
r
Betriebssystem
Beobachter
Message Queues Votierer
CORBA-Kommunikation UDP-Kommunikation
4.7  Leistungsmessungen 1574.7.2 Messungen
Ziel der Messungen ist es, eine Aussage über den durch das blockierungsfreie Protokoll erzeug-
ten Mehraufwand bei fehlerfreiem System (keine Ausfälle) zu treffen und zu untersuchen, wie
sich dieser auf die verschiedenen Komponenten des Protokolles verteilt. Für die Messungen
wurde der Code des Protokolles instrumentiert, um Messwerte über die zur Verarbeitung eines
Agenten in einer Stufe notwendigen Aktionen zu erhalten.
Für die Messungen wurde ein Meß-Agent geschrieben, welcher zwischen zwei Knoten insge-
samt 50 Migrationen durchführt und hierbei insgesamt 51 Schritte ausführt – 26 Schritte auf
dem Knoten, auf dem der Agent gestartet wurde und 25 Schritte auf dem anderen Knoten. Um
die Transportgröße des Agenten während der Ausführungszeit des Agenten konstant auf 12KB
zu halten, enthält jeder Schritt einige wenige (kurz laufende) Code-Anweisungen, die für einen
Ausgleich der Transportgröße sorgen. Dieser Ausgleich ist notwendig, da sich durch die Ver-
wendung des von BUSCHLE (1999) implementierten Reiseroutenalgorithmus die Größe des
Agenten bei jeder Migration ändert, selbst wenn sonst keinerlei Änderungen an den Daten vor-
genommen werden. Zusätzlich ermittelt der Agent bei der Ausführung des ersten Schrittes die
lokale Zeit Tstart, bei der Ausführung des letzten Schrittes (der ebenfalls auf dem Startknoten
ausgeführt wird) wird die lokale Zeit Tstop genommen. Ansonsten enthalten die Schritte keinen
zusätzlichen Code. Die durchschnittliche Zeit zur Ausführung einer Stufe ergibt sich dann durch
(Tstop-Tstart)/50. Die Division durch 50 und nicht durch 51 ergibt sich deshalb, weil die Zeiten
während des ersten und des letzten Schrittes genommen wurden und nicht vor dem ersten
Schritt und nach dem letzten Schritt
Während der gesamten Ausführung des Meß-Agenten werden durch den instrumentierten Code
des Protokolles jeweils auf dem Start-Knoten die Zeiten der einzelnen Aktionen des Protokolles
gemessen und nach vollständiger Ausführung der statistische Mittelwert und die statistische
Standardabweichung berechnet. Um hierbei die erhaltenen Werte nicht zu verfälschen, werden
die Werte des letzten ausgeführten Schrittes nicht mehr berücksichtigt, da hier keine weitere Mi-
gration durchgeführt wird.
Die Messungen wurden auf 5 Ultra10-Rechnern (440MHz CPU-Taktfrequenz, 256 MB Haupt-
speicher) in einem lokalen Netzwerk durchgeführt. Der Start-Knoten und die drei Rechner, wel-
che nur als Beobachter zum Einsatz kamen, sind mit einem 100Mb-Ethernet (über einen
Switch) verbunden. Der Knoten, welcher neben dem Start-Knoten ebenfalls zur Ausführung des
Meß-Agenten herangezogen wurde, ist über einen Hub mit einem 10Mb-Ethernet an den Switch
angeschlossen, über den die restlichen 4 Knoten verbunden sind. Mit dem Programm ping ge-
messene Rundlaufzeiten (engl.: round-trip-time) liegen zwischen allen Rechnern unter 1ms. So-
wohl die Rechner als auch das Netzwerk waren während den Messungen anderweitig nur un-
wesentlich (durch Systemprozesse und -nachrichten) belastet.
Die Messungen wurden so angelegt, daß der Agent die 51 Schritte jeweils mit Stufengrößen von
158 Kapitel 4   Genau-einmal Ausführung1 Knoten (Basisprotokoll), 2 Knoten, 3 Knoten, 4 Knoten und 5 Knoten ausführt. Diese Mes-
sungen wurden zur Kontrolle insgesamt 3 mal ausgeführt.
Die durch die Messungen mit dem
Meß-Agenten erhaltenen durch-
schnittlichen Ausführungszeiten
für eine Stufe/einen Schritt zeigen
Tabelle 4-4 und Abbildung 4-35
Es zeigt sich, daß die Ausführungszeiten annähernd linear mit der Anzahl der Knoten pro Stufe
ansteigen, wobei die Zunahme pro Knoten (zwischen 63ms und 86 ms) sehr deutlich unter der
Ausführungszeit beim Basisprotokoll (206ms) ist, d.h. doppelte Anzahl Knoten bedeutet nicht
doppelte Zeit. Wie sich diese Zeiten zusammensetzen zeigen Tabelle 4-5 und Abbildung 4-36.
Es zeigt sich, daß bei allen Phasen des Protokolles, in denen der Mehraufwand von der Anzahl
der Knoten in der Stufe abhängig ist, die Ausführungszeiten annähernd linear mit der Anzahl
der Knoten pro Stufe anwachsen. In der Phase “Ausführen & Stufenkonstruktion” geht der Zu-
wachs alleine auf das Konto des Stufenkonstruktionsalgorithmus, hält sich jedoch mit rund 7-
10ms pro zusätzlichem Knoten in Grenzen. Der stärkste Zuwachs erfolgt durch das Schreiben
des Agenten in die Eingangswarteschlangen der Knoten der nachfolgenden Stufe. Dies ist vor
allem darauf zurückzuführen, daß bei der Protokollimplementation auf Portabilität auf andere
Transaktions-Middleware geachtet wurde und deshalb das Schreiben des Agenten in die Ein-
gangswarteschlangen der nächsten Stufe seriell erfolgt (nicht jedes Transaktionssystem erlaubt
parallelen Zugriff auf verschiedene Ressourcen innerhalb derselben Transaktion). Messungen
in der Arbeit von FRIEDEL (1998) zeigen, daß durch paralleles Schreiben in die Eingangswarte-
schlangen der nächsten Stufe diese Zeit nochmals drastisch reduziert werden kann. Die für das
Abbildung 4-35. Durchschnittliche Ausführungszeit pro Stufe
Nr. Knoten 1 2 3 4 5
T [ms] 206 269 347 411 497
Tabelle 4-4. Durchschnittliche Ausführungszeit pro Stufe
0
100
200
300
400
500
600
1 2 3 4 5
K noten pro Stufe
m
s
4.7  Leistungsmessungen 159Commit der Transaktion benötigte Zeit steigt ebenfalls nur leicht mit zunehmender Anzahl an
Knoten pro Stufe (ca. 12ms pro zusätzlichem Knoten). Messungen beim Orchestrator haben ge-
zeigt, daß dieser für das Votieren unabhängig von der Anzahl der Knoten pro Stufe zwischen
3ms und 4 ms benötigt. Der zusätzliche Zeitaufwand beim Commit ist also alleine darauf zu-
rückzuführen, daß zusätzliche Eingangswarteschlangen im 2PC-Protokoll teilnehmen.
Auffällig an den Werten in Tabelle 4-5 sind die teilweise sehr hohen statistischen Standardab-
Anzahl Knoten 1 2 3 4 5
Beginn Transaktion 4.6 (0.74) 4.64 (0.67) 5.52 (1.43) 5.82 (0.58) 7.52 (9.09)
Lesen und Deseriali-
sieren Agent 71.56 (11.20) 67.92 (7.31) 67.92 (5.95) 68.24 (4.37) 72.64 (11.56)
Ausführen & Stufen-
konstruktion
11.16 (7.92) 18.64 (11.57) 25.00 (14.47) 35.88 (18.94) 42.44 (24.97)
Serialisieren und 
Schreiben Agent
65.48 (29.19) 98.88 (40.60) 148.68 (84.75) 183.8 (89.32) 235.52 (126.62)
Registrierung 
Orchestrator
0 7.84 (10.07) 5.92 (3.38) 5.96 (3.58) 6.16 (3.38)
Commit Transaktion 27.12 (3.49) 39.36 (6.15) 52.56 (7.62) 64.96 (8.77) 81.84 (13.88)
Tabelle 4-5. Ausführungszeiten in ms (Standardabweichungen in ms) 
der verschiedenen Abschnitte bei der Ausführung einer Stufe
Abbildung 4-36. Ausführungszeiten der verschiedenen Abschnitte 
bei der Ausführung einer Stufe
0
50
100
150
200
250
300
350
400
450
1 2 3 4 5
Knoten pro Stufe
m
s
Transaktion
beenden
Bei
Orchestrator
registrieren
Serialisieren
und in Queue
schreiben
Ausführung
und Stufen-
konstruktion
Lesen von
Queue und
deserialisieren
Beginn
Transaktion
160 Kapitel 4   Genau-einmal Ausführungweichungen. Diese sind aber leicht nachvollziehbar, wenn man bedenkt, daß die Messungen in
einem Multitaskingsystem und über ein Netzwerk hinweg erfolgen und daher einzelne Mess-
werte je nach aktuellem System- und Netzwerkzustand stark voneinander abweichen können.
Zusammenfassend kann man sagen, daß die Messungen gezeigt haben, daß der Mehraufwand
annähernd linear zur Anzahl der Knoten zunimmt: 
Diese lineare Zunahme der Zeit läßt sich bei allen Phasen des Protokolles, bei denen der Mehr-
aufwand von der Anzahl der Knoten abhängig ist, beobachten. Einen wesentlichen Beitrag zur
benötigten Zeit steuert die Serialisierung des Agenten und (vor allem) der Transport des seria-
lisierten Agenten in die Warteschlangen der nachfolgenden Stufe bei. Die für den Transport des
Agenten in die nächste Stufe benötigte Zeit kann in einer optimierten Implementation durch
paralleles Schreiben in die Warteschlangen der nachfolgenden Stufe reduziert werden.
4.8 Verwandte Arbeiten
Im Bereich der mobilen Agenten existieren bisher nur wenige verwandte Arbeiten. In den klas-
sischen Bereichen der Transaktionsverarbeitung und Fehlertoleranz hingegen gibt es eine Viel-
zahl unterschiedlichster Ansätze zur blockierungsfreien bzw. genau-einmal Ausführung von
Programmen. Im folgenden werden zuerst die klassischen Ansätze dargestellt.
4.8.1 Bereiche Transaktionsverarbeitung und Fehlertoleranz
In den Bereichen der Transaktionsverarbeitung und der Fehlertoleranz reicht die Spanne der
Ansätze vom Aufbau fehlertoleranter Hardware bis zur replizierten Programmausführung auf
mehreren Rechnern.
Die Konstruktion fehlertoleranter Hardware setzt schon auf unterster Ebene im Bereich der
Schaltkreise an. Die hier verwendeten Mechanismen haben zu dieser Arbeit keinen wesentli-
chen Bezug, deshalb sei hierfür auf eine Zusammenfassung in JALOTE (1994) verwiesen. Ein
auf höherer Ebene verwendetes Konzept ist das der schon erwähnten N modular redundancy.
Idee hier ist, ein (beliebiges) Modul n-fach auszulegen. Die replizierten Module bekommen die-
selben Eingaben und die Ausgaben dieser Module werden über (einen oder mehrere) Votierer
zu einer Ausgabe (welche der Mehrzahl der produzierten Ausgaben entspricht) zusammenge-
fasst. Hiermit lassen sich sowohl transiente als auch permanente Hardwaredefekte in einem Mo-
dul maskieren. Eine Abwandlung dieses Konzepts, das N version programming, dient dazu, De-
signfehler auf der Softwareebene zu maskieren. Das Problem der Fehlertoleranz gegen Fehler
Zeit für Stufe mit n Knoten Zeit für Basisprotokoll
n-1( ) Zeit für Stufe mit 2 Knoten Zeit für Basisprotokoll–( )
+≈
4.8  Verwandte Arbeiten 161im Design liegt nicht im Blickpunkt dieser Arbeit liegt und wird deshalb hier nicht weiter aus-
geführt.
Im Bereich der Client/Server-Interaktion stellte SPECTOR (1982) schon sehr früh verschiedene
Fehlersemantiken des entfernten Prozeduraufrufs (engl.: remote procedure call, kurz: RPC) vor.
Die hierin definierte nur-einmal-Typ-2 Ausführung (engl.: only-once-type-2) entspricht laut
SCHILL (1992A) der später weit verbreiteten Definition der genau-einmal Ausführung (engl.:
exactly-once). Diese Fehlersemantik garantiert, daß ein Aufruf einer Server-Prozedur auch bei
Ausfall und Wiederanlauf des Client- oder Server-Rechners genau einmal durchgeführt wird
bzw. daß das System das Resultat genau einer einzigen Ausführung der Prozedur widerspiegelt.
Sowohl SPECTOR (1982) als auch SCHILL (1992B) skizzieren Möglichkeiten zur Implementie-
rung dieser Fehlersemantik – unter anderem mittels Transaktionen.
ACID-Transaktionen (vgl. GRAY UND REUTER (1993) für eine Übersicht) sind ein Konzept im
Bereich der Datenbanken und der fehlertoleranten Systeme. Sie stellen sicher, daß eine Menge
von Operationen atomar ausgeführt wird. Atomare Ausführung bedeutet einerseits, daß entwe-
der alle Operationen erfolgreich ausgeführt werden oder bei einem Abbruch der Transaktion
keinerlei Effekte der in der Transaktion ausgeführten Operationen sichtbar werden. Anderer-
seits bedeutet atomar auch, daß die Ausführung der Operationen, von außerhalb der Transaktion
betrachtet, wie die Ausführung einer einzelnen Operation aussehen - Zwischenzustände sind
nicht sichtbar. In einer Datenbank oder in anderen Ressourcen gespeicherte Ergebnisse von er-
folgreich abgeschlossenen Transaktionen sind dauerhaft und gehen selbst bei einem Systemaus-
fall nicht verloren. Der Programmzustand einer eine Transaktion ausführenden Applikation
wird hingegen bei gängigen Transaktionssystemen bei Transaktionsende nicht auf stabilen
Speicher geschrieben (und geht daher bei einem Rechnerausfall verloren). Daher realisiert das
Konzept der Transaktionen zwar von sich aus noch keine genau-einmal Ausführung, es ist je-
doch bei vielen Mechanismen zur fehlertoleranten Ausführung – auch bei dem in dieser Arbeit
vorgestellten – ein essentieller Bestandteil.
Einen großen Schritt in Richtung der genau-einmal Ausführung von langandauernden Transak-
tionen geht das in GARCIA-MOLINA UND SALEM (1987) vorgestellte Transaktionsmodell für
langandauernde Aktivitäten, die Sagas, auf dem auch der in dieser Arbeit vorgestellte Ansatz
basiert. Um eine langfristige Blockierung von Ressourcen durch eine Transaktion zu verhin-
dern, wird die langandauernde Aktivität in mehrere Teile, die sogenannten Schritte (engl.:
steps), zerlegt. Jeder Schritt wird innerhalb einer ACID-Transaktion ausgeführt. Das Commit-
ment eines Schrittes beginnt automatisch eine Transaktion für den nächsten Schritt. Für jeden
Schritt muß ein Kompensationsschritt spezifiziert werden, der die Auswirkungen eines Schrittes
rückgängig machen kann. Die Laufzeitumgebung einer Saga garantiert, daß letztendlich entwe-
der alle Schritte einer Saga erfolgreich beendet werden oder die Saga abgebrochen wird. Bricht
ein Schritt ab, wird Backward-Recovery durchgeführt, indem für die schon erfolgreich beende-
ten Schritte die Kompensations-Schritte ausgeführt werden, wobei der abgebrochene Schritt die
für einen Transaktionsabbruch übliche Recovery erfährt. Damit nach einem Fehler nicht die
162 Kapitel 4   Genau-einmal Ausführungganze bisher geleistete Arbeit verloren geht, können von der Anwendung zwischen Schritten
Rücksetzpunkte geschrieben werden, auf die bei den genannten Fehlerfällen mittels Backward-
Recovery zurückgesetzt werden kann und bei denen dann die Saga fortgesetzt werden kann
(Forward-Recovery). Bei explizitem Abbruch der Saga durch die Anwendung werden natürlich
immer alle bisher erfolgreich beendeten Schritte kompensiert. Die in GARCIA-MOLINA ET
AL. (1991) vorgestellten Erweiterungen wie geschachtelte Sagas (engl.: nested sagas) und non-
vital Sub-Sagas ermöglichen eine flexiblere Definition des Aufbaus einer Saga. Vor allem durch
die Möglichkeit Rücksetzpunkte zu setzen realisiert das Saga-Konzept die genau-einmal Aus-
führung einer Anwendung (sofern die Anwendung Rücksetzpunkte setzt). Allerdings bietet das
Saga-Konzept keinerlei Vorkehrungen, die auf einem ausgefallenen Rechner zum Ausfallzeit-
punkt ausgeführten Anwendungen auf einem anderen Rechner neu aufzusetzen, d.h. die An-
wendungen sind so lange blockiert, bis der ausgefallene Rechner neu startet und die Recovery
für die laufenden Sagas durchführt.
Zwei Konzepte zur fehlertoleranten Implementierung von Servern, die nach einem Server-
Ausfall möglichst schnell wieder zur Verfügung stehen sollen, sind das Warm-Backup (warmes
Backup) und das Hot-Backup (heißes Backup). BERNSTEIN UND NEWCOMER (1997) bieten ei-
nen guten Überblick über die Konzepte. Bei beiden Konzepten gibt es neben dem eigentlichen
Server, genannt Primär-Server (engl.: primary server), noch den Backup-Server. Solange keine
Fehler auftreten ist der Primär-Server für die Bearbeitung der Client-Anfragen zuständig. Beim
Warm-Backup überwacht der Backup-Server nur den Primär-Server. Sobald der Primär-Server
ausfällt führt der Backup-Server anhand des Logs Recovery durch, d.h. er stellt bei sich einen
Zustand her der dem letzten konsistenten und ins Log geschriebenen Zustand des Primär-Ser-
vers entspricht. Anschließend übernimmt der Backup-Server die Aufgaben des Primärservers.
Beim Hot-Backup – auch Prozeßpaare (engl.: process pairs) genannt, vgl. GRAY UND
REUTER (1993) – wird der Zustand des Backup-Servers konstant mit dem Zustand des Primär-
Servers konsistent gehalten. Dies geschieht entweder, indem der Backup-Server laufend die
neuen Log-Einträge des Primär-Servers mitliest und damit seinen Zustand aktualisiert (andau-
erndes Recovery), oder indem die Client-Anfragen auch an den Backup-Server geschickt wird
und dieser die Anfragen ebenfalls bearbeitet, aber keine Antworten an den Client schickt. So-
wohl Warm-Backup als auch Hot-Backup setzen absolut zuverlässige Kommunikation (ohne
Ausfall) und daher physikalische Nähe zwischen Primär- und Backup-Server voraus. Vorteil des
Warm-Backup ist, daß ein Server als Backup für mehrere Primär-Server verwendet werden
kann, da er nur im Falle eines Ausfalles eines Primärservers dessen Arbeit übernehmen muß.
Um gegen den gleichzeitigen Ausfall mehrerer Primär-Server gewappnet zu sein sind entspre-
chend mehr Backup-Server vorzusehen. Es entsteht also ein relativ geringer Mehraufwand.
Nachteil des Warm-Backup ist, daß der Backup-Server nach Ausfall des Primär-Servers erst ei-
nen konsistenten Zustand herstellen muß und er daher die Bearbeitung von Client-Anfragen nur
mit Verzögerung aufnehmen kann. Beim Hot-Backup hingegen wird, vorausgesetzt daß die Pri-
mär-Server ausgelastet sind, für jeden Primär-Server ein Backup-Server benötigt, da der
4.8  Verwandte Arbeiten 163Backup-Server andauernd damit beschäftigt ist, auf dem gleichen Stand zu sein wie der Primär-
Server. Der hierdurch eingeführte Mehraufwand ist erheblich. Allerdings kann hier der Backup-
Server unverzüglich die Arbeit der Primär-Servers bei dessen Ausfall übernehmen. Bei der Ent-
scheidung Warm-Backup versus Hot-Backup gilt es folglich abzuwägen, ob die schnelle Über-
nahme der Arbeit den durch Hot-Backup eingeführten Mehraufwand für den Einsatzzweck
rechtfertigt. Warm-Backup und Hot-Backup führen jedoch nur Fehlertoleranz für den Server
ein, eine fehlertolerante Ausführung der Client-Anwendungen ist hiermit nicht gegeben. 
Das Prinzip des Hot-Backup findet man in Erweiterungen in einigen Arbeiten vor. YAP, JALOTE
UND TRIPATHI (1988) stellen einen fehlertoleranten RPC vor, bei dem die Anfrage der Clients
an einen Primär-Server und mehrere Backup-Server verschickt wird. Alle Server bearbeiten die
Anfrage, nur der Primär-Server schickt die Antwort an den Client. Fällt der Primär-Server aus,
übernimmt einer der Backup-Server. Eine Übertragung dieses Prinzips auf das modernere Pro-
grammierparadigma der objektorientierten Programmierung führen BEEDUBAIL ET AL. (1995)
durch. Auch hier hat jedes Primär-Objekt mehrere Backup-Objekte. Die Methodenaufrufe auf
das Primär-Objekt werden gleichzeitig an die Backup-Objekte verteilt und von diesen bearbei-
tet. Auch hier ist eine fehlertolerante Ausführung der Client-Anwendungen nicht gegeben.
Eine für den Anwendungsprogrammierer transparente fehlertolerante Ausführung der Anwen-
dung präsentiert der auf dem Konzept des Hot-Backup basierende Ansatz von
BRESSOUD (1998). Die Ausführung einer Anwendung erfolgt repliziert auf mehreren Rechnern,
wobei eine Ausführungsinstanz die Primär-Instanz ist, die anderen Ausführungsinstanzen sind
Backup-Instanzen. Die transparente Replikation wird erreicht, indem einerseits eine Zwischen-
schicht zwischen Applikation und Betriebssystem eingefügt wird und andererseits transparente
Änderungen am Code der Anwendung zur Laufzeit durchgeführt werden. Die Zwischenschicht
zwischen Applikation und Betriebssystem bietet der Applikation dabei dieselbe Schnittstelle
wie das Betriebssystem. Die Zwischenschicht und die Codemodifikationen garantieren, daß Be-
triebssystemaufrufe und die Auslieferung von Ausnahmen (engl.: exceptions) auf allen Replika-
ten in derselben Reihenfolge ausgeführt werden, wobei nichtdeterministische Betriebssystem-
aufrufe (z.B. Uhrzeit auslesen) auf der Primärinstanz ausgeführt und die Ergebnisse den
Replikaten zugeschickt werden. Fällt die Primärinstanz aus, wird eines der anderen Replikate
zur Primärinstanz gewählt. Neben dem bei Hot-Backup typischen hohen Mehraufwand hat der
Ansatz noch die Nachteile, daß die Transparenz im Fehlerfalle nicht garantiert wird und daß der
Mechanismus keine Netzwerkpartitionierungen toleriert.
WÄCHTER UND REUTER (1992) und REUTER, SCHNEIDER UND SCHWENKREIS (1997) stellen mit
dem ConTract Modell einen dem in dieser Arbeit vorgestellten Ansatz im Ziel sehr ähnlichen
Ansatz vor. Das ConTract Modell hat ebenfalls die fehlertolerante genau-einmal Ausführung
langandauernder Berechnungen (z.B. Workflows) in einer verteilten Umgebung zum Ziel. Eine
Anwendung besteht aus einer Menge von Schritten, deren Ablaufreihenfolge sehr flexibel durch
ein Script definiert wird. Im Gegensatz zu unserem Ansatz ist hier auch die parallele Abarbei-
tung von Schritten möglich. Ein Schritt selbst ist ein Programm das einen Teil der Anwendungs-
164 Kapitel 4   Genau-einmal Ausführunglogik implementiert. Es wird im allgemeinen in einer Transaktion ausgeführt. Der Zustand eines
Scripts, welcher den Gesamtzustand der Anwendung repräsentiert, wird in persistenten Varia-
blen, den sogenannten Kontext-Variablen, gehalten. Dies ermöglicht den einfachen Neustart ei-
nes Schrittes im Falle eines (System-)Fehlers während der Ausführung des Schrittes. Schwer-
punkt der Forschung beim ConTract Modell ist vor allem die Wahrung der Konsistenz bei der
Ausführung eines Scripts und weniger die Problematiken der Tolerierung von Netzwerkparti-
tionierungen oder der Weiterführung einer Anwendung bzw. eines Scripts auf anderen Rech-
nern im Falle eines Rechnerausfalles. Beispielsweise wird im Gegensatz zu dem in dieser Arbeit
vorgestellten Ansatz die Koordination der Ausführung eines Scripts von einer stationären Con-
Tract Engine ausgeführt, welche die Ausführung des Scriptes bei Rechnerausfall erst nach
Neustart des Rechners fortsetzt. Einen Überblick über eine prototypische Implementation bie-
ten SCHNEIDER (1997B) und SCHNEIDER (1998).
4.8.2 Mobile Agenten
Bei den Ansätzen aus dem Bereich der mobilen Agenten reicht die Spanne von Algorithmen,
die nur einzelne Teile der Ausführung mobiler Agenten, beispielsweise die Migration, mit mehr
Fehlertoleranz versehen bis zu Algorithmen zur Erkennung bzw. Vermeidung byzantinischer
Fehler bei der Ausführung der Agenten. Alle Ansätze bis auf den zuletzt vorgestellten berück-
sichtigen bei Knoten nur Crash-Fehler, Netzwerkfehler bzw. die Partitionierung von Netzwer-
ken werden oft nicht toleriert.
Ein Ansatz der vor allem die fehlerfreie Migration von Agenten sicherstellt wird sowohl in VOG-
LER, KUNKELMANN UND MOSCHGATH (1997A) als auch in VOGLER, KUNKELMANN UND
MOSCHGATH (1997B) beschrieben. Hierbei wird die Migration eines Agenten – ähnlich wie in
dem in dieser Arbeit entwickelten Ansatz – innerhalb einer verteilten Transaktion durchgeführt.
Dies stellt sicher, daß der Agent entweder erfolgreich auf dem Zielrechner der Migration an-
kommt oder noch auf dem Ursprungsrechner der Migration ist, d.h. daß der Agent bei der Mi-
gration nicht verloren gehen kann. Bricht ein Rechner wegen eines Fehlers zusammen, so wird
ein auf diesem Rechner zum Zeitpunkt des Zusammenbruchs ausgeführter Agent nach Neustart
des Rechners erneut gestartet – im selben Zustand, in dem der Agent direkt nach seiner Ankunft
auf dem Rechner gestartet wurde. Da keine weiteren Maßnahmen getroffen werden, führt der
Agent bei einem Neustart die vor dem Zusammenbruch des Rechners ausgeführten Operationen
erneut aus. Gibt der Agent beispielsweise vor dem Rechnerausfall eine Bestellung von Waren
auf, so macht er dies nach dem Neustart erneut und hat somit zwei Bestellungen aufgegeben,
obwohl nur eine gewünscht ist. Es ist hier also nicht sichergestellt, daß ein Agent die von ihm
zu erledigenden Arbeiten nur einmal ausführt. Ähnliche Ansätze werden in DALMEIJER ET
AL. (1998) und WALSH, PACIOREK UND WONG (1999) beschrieben. Hier haben die Agenten al-
lerdings die Möglichkeit, Rücksetzpunkte (engl.: savepoints) zu schreiben und nach einem
Neustart beim aktuellsten Rücksetzpunkt mit der Ausführung zu beginnen. Bei entsprechender
4.8  Verwandte Arbeiten 165(aufwendiger) Programmierung der Agenten ermöglicht dies eine genau-einmal Ausführung
der Agenten. Defizit aller dieser Verfahren ist, daß die Ausführung eines Agenten blockiert
bleibt, solange sein momentaner Aufenthaltsort (d.h. der ihn momentan ausführende Rechner)
wegen eines Fehlers oder einer Rechnerabschaltung außer Betrieb ist. Ist der ausführende Rech-
ner wegen eines Netzwerkfehlers vom Netzwerk abgeschnitten, kann der Agent erst nach Be-
hebung des Netzwerkfehlers auf einen anderen Rechner migrieren.
Einen Ansatz, in dem die fehlertolerante Ausführung mobiler Agenten durch den Einsatz eines
hochverfügbaren Systems (Tandem Himalaya Server) erreicht wird beschreibt BADER (1998).
Der Ansatz stellt sicher, daß ein Agent seine Aufgaben genau einmal ausführt, verhindert jedoch
nicht, daß Agenten durch eine Netzwerkpartitionierung langfristig blockiert werden.
Die Blockierung von Agenten im Falle von Fehlern durch einen Warm-Backup-Ansatz zu ver-
hindern wird von JOHANSEN, VAN RENESSE UND SCHNEIDER (1995) vorgeschlagen. Eine Nach-
hut (engl.: Rear-Guard), die bei der Migration zurückgelassen wird, soll die Ausführung des
Agenten auf dem Zielrechner der Migration überwachen. In JOHANSEN ET AL. (1999) wird die-
ser Vorschlag konkretisiert. Sobald ein Agent bei der Migration auf dem Zielrechner ankommt,
wird der Agent mittels eines zuverlässigen Broadcast-Protokolls auf eine Menge weiterer Rech-
ner – zum Beispiel einige der Rechner, welche den Agent in der Vergangenheit ausgeführt haben
– zusätzlich versendet. Diese Rechner sind dafür zuständig, die Ausführung des Agenten zu
überwachen. Sobald der Agent auf diesen Überwachungsrechnern angekommen ist, wird auf
dem Zielrechner die ihm zugeordnete Aktion gestartet. Als eine Aktion werden von JOHANSEN
ET AL. (1999) die auf einem einzelnen Rechner auszuführenden Operationen bezeichnet. Für
jede Aktion gibt es eine Wiederherstellungsaktion (engl.: recovery action). Ein in das Broad-
cast-Protokoll integriertes, kombiniertes Auswahl- (engl.: election) und Überwachungs-Proto-
koll (engl.: monitoring protocol) stellt sicher, daß bei Abbruch der Aktion (zum Beispiel durch
Rechnerabsturz) auf genau einem der Überwachungsrechner die der abgebrochenen Aktion zu-
geordnete Wiederherstellungsaktion ausgeführt wird. Hierdurch werden jedoch die auf dem
ausgefallenen Rechner bereits durchgeführten Operationen nicht automatisch zurückgesetzt.
Hat der Agent dort zum Beispiel den Inhalt einer nur lokal zugreifbaren Datenbank geändert, so
bleiben diese Änderungen erhalten, da diese von dem Überwachungsrechner aus gar nicht rück-
gängig gemacht werden können. Es ergibt sich also eine äußerst unklare Semantik der Ausfüh-
rung eines Agenten. Weiterhin toleriert das Protokoll in der vorgestellten Version keine Netz-
werkpartitionierung. 
Mit einem auf dem in diesem Kapitel vorgeschlagenen blockierungsfreien Protokoll aufbauen-
den Protokoll stellen ASSIS SILVA UND POPESCU-ZELETIN (1998) einen weiteren Warm-
Backup-Ansatz vor. Das Protokoll basiert ebenfalls auf einem Stufenkonzept (engl.: stage con-
cept). Bei der Migration wird ein Agent innerhalb einer Transaktion auf mehrere Rechner (die
Stufe) transportiert. Einer der Rechner führt den Agent aus, die anderen überwachen die Aus-
führung. Um die Wiederherstellung eines Agenten nach Rechnerausfall zu unterstützen,
schreibt der Agent regelmäßig Rücksetzpunkte - sowohl in kürzeren Abständen lokal auf dem
166 Kapitel 4   Genau-einmal Ausführungausführenden Rechner als auch in längeren Abständen in einer “Verteilten Datenbank”. Die ver-
teilte Datenbank besteht aus Datenreplikaten auf den Rechnern der aktuellen Stufe. Der Zugriff
auf die Replikate der verteilten Datenbank wird durch Votieren mit Mehrheitsentscheid gere-
gelt. Fällt der einen Agenten ausführende Rechner aus, so wird nach Neustart des Rechners der
Agent beim aktuellsten lokalen oder globalen Rücksetzpunkt aufgesetzt. Fällt der Rechner län-
gerfristig aus, wird dies durch die überwachenden Rechner erkannt. Ein Auswahl-Protokoll
stellt sicher, daß nur einer der überwachenden Rechner den Agenten beim aktuellsten globalen
Rücksetzpunkt aufsetzt. Der Mechanismus stellt sicher, daß immer nur der zuletzt für einen
Agenten ausgewählte Ausführungsrechner auf die verteilte Datenbank schreiben darf. Hier-
durch toleriert das Protokoll einerseits Netzwerkpartitionierungen und kann andererseits damit
umgehen, daß ein nach einem längerfristigen Ausfall neu startender Rechner einen beim Ausfall
des Rechners ausgeführten Agenten neu startet, obwohl dieser Agent zwischenzeitlich längst
auf einem der überwachenden Rechner gestartet wurde. Stellt ein Agent auf einem Rechner fest,
daß es eine “aktuellere” Ausführungsinstanz gibt (d.h. es wurde zwischenzeitlich ein anderer
Rechner als Ausführungsrechner ausgewählt), dann wird der Agent auf den letzten von ihm ge-
schriebenen globalen Rücksetzpunkt zurückgesetzt und die Ausführung auf dem Rechner been-
det. Nachteil des Mechanismus ist, daß eine genau-einmal Ausführung eines Agenten nur durch
aufwendige Programmierung (Rücksetzpunkte setzen, Rücksetzoperationen zur Herstellung
des letzten globalen Rücksetzpunktes) zu erreichen ist. Ein weiterer Nachteil des Protokolls ist
der gegenüber dem in diesem Kapitel vorgestellten Protokoll wesentlich höhere Aufwand. Die-
ser ist einerseits dadurch bedingt, daß bei der Migration relativ zu unserem Protokoll etwa 50%
mehr Rechner in der verteilten Transaktion beteiligt sind und daß zur (recht gering ausfallenden)
Erhöhung der Fehlertoleranz ein 3-Phasen-Commit-Protokoll verwendet wird.
ASSIS SILVA UND KRAUSE (1997) stellen ein dem unseren Modell sehr ähnliches Modell für
verteilte Transaktionen basierend auf mobilen Agenten vor. Ein Agent hat eine Menge von Auf-
gaben (engl.: tasks) zu erledigen. Jede Aufgabe wird auf einem Rechner innerhalb einer Trans-
aktion bearbeitet. Es besteht zusätzlich die Möglichkeit, mehrere Aufgaben hintereinander auf
mehreren Rechnern innerhalb einer Transaktion zu bearbeiten. Die Ausführung von Agenten
wird überwacht, um die sich auf einem längerfristig ausgefallenen Rechner befindlichen Agen-
ten auf anderen Rechnern neu starten zu können. Hierfür wird bei jeder Migration der Zustand
des Agenten in einer zentralen Kontextdatenbank geschrieben. Die Überwachung von Agenten
geschieht zentral. Wird die Bearbeitung eines Agenten abgebrochen, werden die bisherigen Ak-
tionen des Agenten per Kompensation zurückgesetzt. Leider werden in der Veröffentlichung
keinerlei Algorithmen zum Erreichen der beschriebenen Semantik angegeben. Die zentrale
Kontextdatenbank und Überwachung der Agenten deuten darauf hin, daß das dem beschriebe-
nen Modell zugrundeliegende Fehlermodell keine Netzwerkpartitionierung zuläßt.
Einen wesentlich höheren Grad an Fehlertoleranz bietet der von MINSKY ET AL. (1996) und
SCHNEIDER (1997A) vorgestellte Mechanismus. Während die bisher vorgestellten Ansätze da-
von ausgehen, daß Rechner nur unter Crash-Fehlern leiden, umfaßt das diesem Mechanismus
4.9  Diskussion 167zugrundeliegende Fehlermodell auch byzantinische Fehler. Auch dieser Mechanismus basiert
auf einem Stufenkonzept. Im Gegensatz zu den bisherigen Ansätzen führt hier ähnlich einem
Hot-Backup-Ansatz jeder der Rechner einer Stufe den Agent aus. Im Gegensatz zum Hot-
Backup sind hier jedoch alle Rechner gleichberechtigt - es wird nicht zwischen Primärrechner
und Backup-Rechner unterschieden. Nach der Ausführung des Agenten verschickt jeder Rech-
ner den Agent bei der Migration zu allen Rechnern der nächsten Stufe. Die Rechner jeder Stufe
erhalten daher mehrere Agenten (maximal n Agenten wenn die vorhergehende Stufe n Rechner
umfaßte; weniger als n Agenten bei Rechner-/Netzwerkausfällen), aus denen sie mittels einer
Mehrheitsentscheidung den auszuführenden Agenten ermitteln. Hiermit können bei n Rechnern
pro Stufe n/2-1 (Rechner- und Netzwerk-) Fehler maskiert werden. Dieser Ansatz ist dem NMR-
Ansatz (N modular redundancy, vgl. JALOTE (1994)) nachempfunden, welcher erfolgreich in
fehlertoleranter Hardware angewandt wurde. Obwohl dieser Ansatz den bestmöglichen Grad an
Fehlertoleranz bietet, ist er in der Realität aus drei Gründen in nur sehr wenigen Situationen an-
wendbar. Erstens führt der Mechanismus einen extremen Mehraufwand ein. Bei n Rechnern pro
Stufe findet die Berechnung n-fach statt. Zusätzlich muß jeder Rechner noch aus n erhaltenen
Agenten den auszuführenden bestimmen. Zweitens setzt der Algorithmus voraus, daß die durch
den Agenten genutzten Dienste auf allen Rechnern einer Stufe repliziert sind und diese Repli-
kate auch bei Fehlern konsistent gehalten werden. Und schließlich setzt der Algorithmus vor-
aus, daß die Ausführung eines Agenten auf einem Rechner determiniert ist, d.h. daß bei gleicher
Ausgangssituation die gleichen Resultate erzeugt werden. Um dies zu erreichen, müßte zum
Beispiel eine Abfrage der Uhrzeit auf den Rechnern einer Stufe den Replikaten eines Agenten
dieselbe Uhrzeit liefern. Der Mehraufwand des Mechanismus wird wohl nur für sehr wenige
Anwendungsgebiete tolerierbar sein, replizierte Dienste und garantiert determinierte Ausfüh-
rung auf mehreren Rechnern dürfte nur in den seltensten Anwendungen gegeben sein.
4.9 Diskussion
Ergebnisse
In diesem Kapitel wurden Protokolle entwickelt, welche die in Definition 4-1 festgelegte genau-
einmal Ausführung für mobile Agenten implementieren. Der Entwicklung der Protokolle zu-
grundegelegt wurden hierbei das in Abschnitt 2.2 beschriebene Agentenmodell und die in Ab-
schnitt 4.1 beschriebenen System- und Fehlermodelle. Das zuerst entwickelte Basisprotokoll
stellt zwar die genau-einmal Ausführung mobiler Agenten sicher, bietet jedoch keinen Schutz
vor Blockierung bei Knoten- oder Netzwerkausfall. Deshalb wurde das Basisprotokoll zu einem
Protokoll weiterentwickelt, welches bei Systemfehlern die Blockierung der Ausführung der
mobilen Agenten verhindert. 
Abschnitt 4.6 zeigt, daß durch das blockierungsfreie Protokoll eine signifikant geringere
Blockierwahrscheinlichkeit im Vergleich zum Basisprotokoll erreicht wurde. Jedoch zeigen
Abschnitt 4.5 und Abschnitt 4.7, daß diese Verbesserung nur durch einen wesentlichen Mehr-
168 Kapitel 4   Genau-einmal Ausführungaufwand bei der Ausführung der mobilen Agenten erkauft wird. Abschnitt 4.6.5.2 zeigt, daß im
Mittel die für diesen Mehraufwand benötigte Zeit unter realen Bedingungen größer ist als die
durch die Vermeidung von Blockierungen gewonnene Zeit. Durch die Funktionsweise des Pro-
tokolls ist es der Anwendung bzw. dem Anwender allerdings möglich, die Fehlertoleranz und
damit den erforderlichen Mehraufwand an die Erfordernisse der Anwendung zu adaptieren:
Wird ein hoher Grad an Fehlertoleranz erwartet, d.h. ist eine Vermeidung von Blockierungen
notwendig, so wird eine große Stufengröße verwendet welche viel Mehraufwand erzeugt. Für
einen geringen Grad an Fehlertoleranz reicht eine kleine Stufengröße mit entsprechend gerin-
gerem Mehraufwand aus. Hierbei ist das Basisprotokoll der Sonderfall des blockierungsfreien
Protokolls mit einer Stufengröße von 1.
Einschränkungen des Agentenmodells
Zwei Besonderheiten des in Abschnitt 2.2 vorgestellten Agentenmodells stehen in direkter Be-
ziehung mit der Funktionsweise der in diesem Kapitel vorgestellten Protokolle. Sowohl die Ein-
schränkung, daß ein mobiler Agent nicht mit einem anderen mobilen Agent direkt kommuni-
zieren darf als auch die Einschränkung, daß ein mobiler Agent keinen neuen mobilen Agent
starten bzw. einen Klon von sich selbst erzeugen darf, hängt eng damit zusammen, daß die ein-
zelnen Schritte der mobilen Agenten in einer Transaktion ausgeführt werden. Zu den Eigen-
schaften einer Transaktion gehört unter anderem, daß die Ergebnisse der Transaktion für andere
Transaktionen erst nach erfolgreichem Transaktionsabschluß sichtbar sein dürfen. Kommuni-
zieren zwei mobile Agenten direkt, wird diese Eigenschaft der Transaktionen verletzt, wie die
zwei folgenden Beispiele zeigen.
Beispiel 4-1. Zwei Agenten A1 und A2 werden beide jeweils in einer Schritt-Transaktion
ausgeführt. A1 liest den Wert einer Ressource R und teilt diesen Wert dem Agenten A2 mit.
Sowohl A1 als auch A2 berechnen aufgrund dieses Wertes unterschiedliche neue Werte für
R. Da die Ressource von Agent A1 gesperrt ist, schreibt zuerst A1 seinen neuen Wert für
R und schließt die Schritt-Transaktion ab. Erst dann kann A2 seinen Wert in R schreiben –
und überschreibt damit den von A1 geschriebenen Wert. Diese Konstellation in Konflikt
stehender Operationen wird im Bereich der Datenbanken auch “verlorengegangene Ände-
rung” (engl.: lost update) genannt (vgl. HÄRDER UND RAHM (1999)).
Beispiel 4-2. Agent A1 berechnet innerhalb einer Schritt-Transaktion einen Wert und kom-
muniziert diesen Wert noch innerhalb der Transaktion an A2. Agent A2 beendet die
Schritt-Transaktion, in der er den Wert von A1 erhalten hat, und setzt seine Ausführung
mit dem nächsten Schritt fort. A1 bricht danach seine Schritt-Transaktion ab. A2 rechnet
jetzt mit einem Wert, den A1 logisch gesehen nie berechnet hat (auch “Zugriff auf schmut-
zige Daten (engl.: dirty read)” genannt, vgl. ebenfalls HÄRDER UND RAHM (1999)). 
Die beiden Beispiele zeigen, daß eine direkte Kommunikation zwischen zwei Agenten bei der
Funktionalität der in diesem Kapitel vorgestellten Protokolle nicht möglich ist. Indirekte Kom-
munikation mittels einer Kommunikationsressource hingegen, beispielsweise mittels einer
4.9  Diskussion 169transaktionalen Nachrichtenwarteschlange, kann natürlich problemlos realisiert werden. Dies
eignet sich jedoch nicht zur Realisierung von Dialogen, da beispielsweise eine von einem Agent
A1 in eine transaktionale Nachrichtenwarteschlange geschriebene Nachricht erst dann von ei-
nem anderen Agent gelesen werden kann, wenn A1 die Schritt-Transaktion, innerhalb der die
Nachricht geschrieben wurde, erfolgreich beendet hat. Wie jedoch Kapitel 5 zeigen wird, wird
selbst diese Art der Kommunikation problematisch, wenn die Möglichkeit besteht, die Ausfüh-
rung des Agenten teilweise zurückzusetzen.
Ein sehr ähnliches Problem ergibt sich, wenn ein Agent A1 einen weiteren Agenten A2 startet
bzw. einen Klon A2 von sich selbst erzeugt. Bricht nämlich die umgebende Schritt-Transaktion
ab, so muß dafür gesorgt werden, daß A2 auch abgebrochen wird. Hat dieser jedoch zwischen-
zeitlich den Knoten, auf dem er erzeugt wurde, verlassen, ist dies nicht mehr ohne weiteres
möglich. Eine mögliche Lösung ist, A2 innerhalb der Schritt-Transaktion von A1 auf die Knoten
der ersten Stufe von A2 zu verteilen. Somit erscheint A2 auf den Knoten seiner ersten Stufe, so-
bald A1 die Schritt-Transaktion, innerhalb der A2 erzeugt wurde, beendet. Wie Kapitel 5 zeigen
wird, ist auch diese Lösung sehr problematisch, wenn die Möglichkeit besteht, die Ausführung
eines Agenten teilweise zurückzusetzen.
170 Kapitel 4   Genau-einmal Ausführung
Kapitel 5
Partielles Rücksetzen
Die im letzten Kapitel vorgestellten Mechanismen realisieren im Fehlerfall eine strikte Forward
Recovery: Schlägt aus beliebigem Grund die Durchführung einer Schritt-Transaktion fehl, so
werden die bereits ausgeführten Schritte des Agenten nicht zurückgesetzt (Backward Recove-
ry), sondern die Ausführung des Agenten entweder durch eine Wiederholung des abgebroche-
nen Schrittes oder durch die Ausführung eines alternativen Schrittes “nach vorne” fortgesetzt.
Es gibt jedoch Situationen, in denen der Abbruch und der Neustart eines Schrittes nicht zur Be-
handlung einer Fehlersituation ausreichen. Stellt der Agent fest, daß die von ihm bisher verfolg-
te Strategie nicht zum Ziel führt – weil ihm beispielsweise die Zugriffsberechtigung zu einer
Ressource fehlt oder weil das bisherige Vorgehen nicht die gewünschten Ergebnisse liefert – so
kann es notwendig sein, Teile der bisherigen Ausführung des Agenten rückgängig zu machen. 
Das partielle Rücksetzen der Ausführung eines mobilen Agenten kann prinzipiell auf zwei ver-
schiedene Arten realisiert werden. Eine Möglichkeit ist, daß der Entwickler des Agenten die
dazu notwendige Funktionalität in den Agenten direkt integriert. In diesem Fall unterscheidet
sich für die Agentenplattform das Rücksetzen nicht von der normalen Agentenausführung, der
Entwickler eines Agenten muß jedoch – für jeden Agenten erneut – das Rücksetzen des Agenten
vollständig ausprogrammieren. Diese Aufgabe ist schon für normale Programme mit (mehr
oder weniger) feststehendem Programmablauf nicht ganz einfach. Beinahe unmöglich wird die-
se Aufgabe jedoch, wenn durch die Verwendung des in Abschnitt 3.2 vorgestellten Reiserouten-
konzeptes die Schritte des Agenten in sehr unterschiedlicher Reihenfolge ausgeführt werden
können, da das Rücksetzen von Operationen im allgemeinen von deren Ausführungsreihenfolge
abhängt. Die deshalb zu bevorzugende Möglichkeit zum Rücksetzen der Agentenausführung
ist, daß die Agentenplattform Mechanismen zur Verfügung stellt, die auf Anforderung das
Rücksetzen weitestgehend automatisiert durchführen. Die Entwicklung solcher Mechanismen
ist Ziel dieses Kapitels. Erste Versionen der hier entwickelten Mechanismen und Konzepte wur-
den in STRASSER UND ROTHERMEL (2000) publiziert.
172 Kapitel 5   Partielles Rücksetzen5.1 Problemstellung
Die exakte Problemstellung des partiellen Rücksetzens der Ausführung mobiler Agenten eröff-
net sich nur durch die Betrachtung des Ausführungsmechanismus für mobile Agenten. Im Kon-
text dieser Arbeit wird nur betrachtet, wie das partielle Rücksetzen für die im vorherigen Kapitel
vorgestellten Mechanismen zur genau-einmal Ausführung mobiler Agenten realisiert werden
kann. Eine direkte Übertragung der dabei entwickelten Konzepte auf andere Ausführungsme-
chanismen ist nur eingeschränkt möglich.
Es wird im Laufe dieses Kapitels offensichtlich werden, daß das für das partielle Rücksetzen
relevante Grundprinzip – nämlich die Ausführung des Agenten in einer Schritt-Transaktion mit-
tels Lesen des Agenten von stabilem Speicher, Ausführen des Agenten und Schreiben des Agen-
ten auf stabilen Speicher – sowohl beim Basisalgorithmus als auch bei der blockierungsfreien
Erweiterung dasselbe ist. Deshalb wird der Mechanismus zum partiellen Rücksetzen vorerst an-
hand des Basisprotokolls zur genau-einmal Ausführung mobiler Agenten entwickelt und dann
gezeigt, wie dieser Mechanismus in das erweiterte Protokoll integrierbar ist.
Abbildung 5-1 zeigt die Ausführung der Schritte i, i+1 und i+2 des Agenten A, wobei die Schrit-
te i und i+1 schon vollständig abgeschlossen sind und Schritt i+2 sich noch in Ausführung be-
findet. Die Ausführung eines Schrittes erfolgt dabei wie in Abschnitt 4.3 beschrieben: Innerhalb
einer Transaktion, der Schritt-Transaktion, wird der Agent aus der Eingangswarteschlange des
ausführenden Knotens gelesen, ausgeführt und in die Eingangswarteschlange des nachfolgen-
den Knotens geschrieben. Während der Ausführung ändert der Agent hierbei die lokalen Res-
sourcen Rk (k=i, i+1, i+2) der ausführenden Knoten. Im Laufe der Ausführung des Schrittes i+2
stellt der Agent fest, daß ein partielles Rücksetzen notwendig ist. Da die meisten heutzutage ver-
fügbaren Transaktionsmanagementsysteme keine Rücksetzpunkte für Ressourcen innerhalb ei-
ner Transaktion unterstützen, kann nur auf Zustände zwischen (beziehungsweise vor) den
Abbildung 5-1. Ausführung eines Agenten
Ki+2
R
read
access
Ai+2Ki+1
read write
access
Ai Ai+1Ki
read write
access
Ai: Agentenzustand vor Ausführung von Schritt i
Ki: Knoten, welcher Schritt i ausführt
R : Zustand der Ressourcen von Knoten i 
R : Ri nach Ausführung des Schrittes i
Ti Ti+1 Ti+2
Ti: Schritt-Transaktion i
1
i+2R
1
i R
2
i R
1
i+1 R
2
i+1 R
2
i+2
vor Ausführung des Schrittes i
1
i
2
i
execute si execute si+1 execute si+2
5.1 Problemstellung 173Schritt-Transaktionen, d.h. zwischen (beziehungsweise vor) Schritten, zurückgesetzt werden.
Im vorliegenden Beispiel bedeutet dies, daß der Agent nur auf die Zustände Ai+2, Ai+1, Ai,..., A1
zurückgesetzt werden kann. 
Muß der Agent nur auf den Zustand Ai+2 zurückgesetzt werden, ist dies einfach realisierbar, in-
dem die Schritt-Transaktion Ti+2 abgebrochen wird. Das Transaktionsmanagement sorgt in die-
sem Falle automatisch dafür, daß der Agent im Zustand Ai+2 in der Eingangswarteschlange des
Knotens Ki+2 vorliegt und daß die während der Ausführung des Schrittes an den Ressourcen
Ri+2 durchgeführten Änderungen rückgängig gemacht werden. Wesentlich problematischer ist
das Rücksetzen des Agenten auf die Zustände A1, A2, ..., Ai+1. Das Problem hierbei ist, daß nach
Abschluß der Schritt-Transaktionen T1, T2, ..., Ti+1 andere Anwendungen auf die durch den
Agenten geänderten Ressourcen R1, R2, ..., Ri+1 zugreifen können. Somit ist ein einfaches Rück-
setzen der Ressourcen auf den ursprünglichen Zustand durch das Transaktionsmanagement
nicht mehr möglich. Aus diesem Grunde muß das Rücksetzen der Ressourcen in diesem Fall
mittels Kompensationstransaktionen (engl.: compensation transaction) erfolgen (vgl. auch
KORTH, LEVY UND SILBERSCHATZ (1990)). Wie sich in den folgenden Absätzen zeigen wird,
kann nicht einmal der Zustand des Agenten zurückgesetzt werden, indem einfach der alte Da-
tenzustand des Agenten wieder hergestellt wird. Im Gegensatz zu gängigen Ansätzen (z.B.
GARCIA-MOLINA UND SALEM (1987)) muß also zusätzlich zum Zustand der Ressourcen auch
der Zustand des Agenten mittels Kompensation zurückgesetzt werden. Zum Zwecke der Ver-
einheitlichung wird in Anlehnung an KORTH, LEVY UND SILBERSCHATZ (1990) der Begriff des
erweiterten Zustandsraumes eingeführt:
Definition 5-1: Erweiterter Zustandsraum
Der erweiterte Zustandsraum ist die Vereinigung des Zustandes des Agenten mit
dem Zustand der Ressourcen, auf die der Agent zugreift.
Hiermit kann die Ausführung eines Schrittes als Folge von Operationen auf diesem erweiterten
Zustandsraum beschrieben werden. Das Zurücksetzen eines bereits abgeschlossenen Schrittes
geschieht dann mittels Kompensationsoperationen auf dem erweiterten Zustandsraum.
Im Gegensatz zum Rücksetzen der Ausführung eines sich in Ausführung befindlichen Schrittes
durch Abbruch der Schritt-Transaktion werden für Kompensationsoperationen zusätzliche In-
formationen benötigt. Löscht ein Agent beispielsweise während eines Schrittes Daten, welche
er in vorherigen Schritten gesammelt hat, aus seinem Datenzustand, so werden diese verworfe-
nen Daten für die Kompensation dieses Schrittes benötigt. Es ist also notwendig, während der
Ausführung eines Schrittes die für die Kompensation des Schrittes notwendigen Informationen
zu sammeln und im Falle einer Kompensation des Schrittes wieder zur Verfügung zu stellen.
Der folgende Abschnitt diskutiert das Konzept der Kompensation und dessen Einschränkungen.
Anschließend wird das in Abschnitt 2.2 eingeführte Agentenmodell detailliert und um das
Rücksetzen von Agenten erweitert. Abschnitt 5.4 präsentiert einen auf diesem erweiterten Mo-
174 Kapitel 5   Partielles Rücksetzendell basierenden Mechanismus zum Rücksetzen, Abschnitt 5.5 beschreibt mögliche Optimie-
rungen dieses Mechanismus’. Mögliche Erweiterungen des Reiseroutenkonzeptes zur Integra-
tion des Rücksetzmechanismus’ und eine Diskussion der Ergebnisse schließen das Kapitel ab.
5.2 Kompensation
Die Kompensation einer Operation hat zum Ziel, die semantischen Effekte dieser Operation zu
beseitigen. Unglücklicherweise ist dies jedoch nicht immer möglich. Inwieweit die Kompensa-
tion einer Operation möglich ist hängt hierbei sowohl von der Operation als solcher als auch
vom Anwendungsprogramm ab. In diesem Abschnitt wird diese Problematik der Kompensation
näher betrachtet. Eine sehr ausführliche Diskussion findet man in dem Artikel von KORTH,
LEVY UND SILBERSCHATZ (1990). 
Der bei Kompensationsoperationen wünschenswerte Fall ist, daß die Kompensationsoperation
den Effekt der zu kompensierenden Operation komplett eliminiert. Wird die Kompensations-
operation CO1 direkt nach der zu kompensierenden Operation O1 ausgeführt, so wird in diesem
Falle der ursprüngliche, erweiterte Zustandsraum Z wieder hergestellt, d.h. CO1(O1(Z))≡Z.
Wird zwischen der Ausführung von O1 und CO1 eine beliebige andere Operation (oder Menge
von Operationen) O2 auf den ursprünglichen, erweiterten Zustandsraum ausgeführt, dann spie-
gelt in diesem Fall der nach der Kompensationsoperation CO1 resultierende Zustandsraum nur
noch die Auswirkungen der Operation(en) O2 wider, d.h. CO1(O2(O1(Z)))≡O2(Z). Anwendun-
gen, bei denen diese Art der Kompensation möglich ist, sind in der realen Welt nur sehr selten
anzutreffen. Kann auf ein Bankkonto mit unbegrenztem Kredit nur mittels den Operationen
Abheben(Geld) und Einzahlen(Geld) zugegriffen werden, so sind Abheben(..) und Einzahlen(..)
die Kompensationsoperationen der jeweils anderen Operation. Wird von kurzfristig anfallenden
Zinsen abgesehen, so kann in diesem Fall ein Abheben(x) durch ein Einzahlen(x) jederzeit voll-
ständig kompensiert werden und umgekehrt. Dies gilt schon nicht mehr, wenn das Konto keinen
unbegrenzten Kredit erlaubt. Wird nach einem Einzahlen(x) eine Operation Abheben(y) ausge-
führt, welche das Konto bis zum maximalen Kredit leert, dann ist die Kompensationsoperation
Abheben(x) zur Kompensation von Einzahlen(x) nicht erfolgreich, da der Kreditrahmen über-
zogen würde. Besitzt das Konto zwar einen unbegrenzten Kreditrahmen, jedoch eine zusätzli-
che (und durchaus übliche) Operation zum Lesen des Kontostandes, dann ist auch hier die voll-
ständige Kompensation nicht immer möglich, da Operationen abhängig gemacht werden
können von der Höhe des Kontostandes. Beispiel: Anwendung 1 führt Einzahlen(x) aus. Da der
Kontostand eine gewisse Summe übersteigt, führt Anwendung 2 danach Abheben(y) aus. Setzt
danach Anwendung 1 ihre Ausführung zurück, kann man zwei Fälle unterscheiden. Hätte An-
wendung 2 auch ohne das Einzahlen(x) das Abheben(y) ausgeführt, so wird mit Abheben(x) das
Einzahlen(x) vollständig kompensiert. Im anderen Falle müßten jedoch für eine vollständige
Kompensation auch die Operationen der zweiten Anwendung zurückgesetzt werden.
5.2 Kompensation 175Vollständige Kompensation ist also eher selten möglich, jedoch reicht es bei vielen Anwendun-
gen aus, daß durch die Kompensation entweder ein semantisch äquivalenter Zustand oder ein
im Rahmen der Anwendung akzeptabler Zustand hergestellt wird. Verwendet beispielsweise ein
Agent (die Aussagen gelten auch entsprechend für beliebige Programme) digitales Geld (vgl.
z.B. CHAUM (1985)), welches er in seinem Datenzustand mit sich führt, um Waren einzukaufen,
dann bekommt er bei der Kompensation des Einkaufs denselben Geldbetrag vom Händler zu-
rück. Da der Händler die vom Agent erhaltenen elektronischen Münzen jedoch im allgemeinen
nicht mehr besitzt – bei heute gängigen Systemen werden die Münzen beispielsweise sofort bei
der Bank eingelöst – bekommt der Agent andere Münzen zurück, die sich zumindest in der Se-
riennummer unterscheiden. Hierdurch wird zwar ein semantisch äquivalenter Zustand im Agen-
ten hergestellt – der Agent enthält dieselbe Geldsumme wie vor dem Einkauf. Die Repräsenta-
tion des Zustandes jedoch unterscheidet sich vom Original. Es ist jedoch auch denkbar, daß der
Händler für die Kompensation des Einkaufs eine Aufwandsentschädigung erhebt. In diesem
Falle bekommt der Agent weniger Geld zurück, als er beim Einkauf ausgegeben hat, womit der
resultierende Zustand nicht mehr semantisch äquivalent ist – der Agent hat weniger Geld als im
Ausgangszustand. Ob dies für den Agent bzw. den Anwender akzeptabel ist, muß dieser schon
vor dem Einkauf entscheiden – und gegebenenfalls bei einem Händler kaufen, der im Falle einer
Kompensation keine Gebühren erhebt. Noch ungünstiger ist der Fall, wenn der Händler bei ei-
ner Kompensation anstatt von Geld nur eine Gutschrift zurückgibt. In diesem Falle enthält der
Agent nach der Kompensation vom Typ her andere Information als vor dem Einkauf. Unabhän-
gig davon, ob der Agent nun anderes Geld, weniger Geld oder gar nur eine Gutschrift erhält,
muß der Agent nach der Kompensation mit dieser geänderten Situation zurechtkommen, d.h.
die verschiedenen möglichen Resultate einer Kompensation müssen dem Entwickler des Agen-
ten bekannt sein und von ihm bei der Implementation des Agenten berücksichtigt werden.
Wie schon weiter oben erwähnt gibt es Fälle, in denen Kompensation nur bedingt möglich ist.
Beispielsweise ist die Kompensation einer Einzahlung auf ein Bankkonto nur dann möglich,
wenn zwischen der Einzahlung und der Kompensation nicht soviel Geld vom Konto entnommen
wird, daß die Kompensation den Kreditrahmen überzieht. Die Lösung dieses Problems liegt au-
ßerhalb des Rahmens dieser Arbeit. Lösungsansätze werden in GARCIA-MOLINA UND
SALEM (1987) und REUTER, SCHNEIDER UND SCHWENKREIS (1997) diskutiert.
Schließlich gibt es noch Fälle, in denen gar keine Kompensation möglich ist. Klassische Bei-
spiele sind hier Interaktionen mit der realen Welt wie das Bohren eines Loches durch einen pro-
grammgesteuerten Bohrautomat oder die Ausgabe von Bargeld am Bankautomat. Aber auch in-
nerhalb des Rechners gibt es Operationen, bei denen eine Kompensation nicht möglich ist. Ist
beispielsweise ein Händler nicht bereit oder durch Konkurs nicht in der Lage, einen Einkauf
rückgängig zu machen, kann die Kaufoperation nicht im Sinne des Käufers kompensiert wer-
den. Hier muß also im Falle einer “Kompensation” der Verlust der ausgegebenen Summe in
Kauf genommen werden. Ein weiteres Beispiel ist das Löschen einer sehr großen Datenmenge.
Um diese Operation zu kompensieren, müßten die gelöschten Daten bekannt sein – beispiels-
176 Kapitel 5   Partielles Rücksetzenweise durch Logging der gelöschten Daten. Aus Effizienzgründen ist es jedoch nicht sinnvoll,
solch große Datenmengen in ein Log zu schreiben. Ist es notwendig, solch nicht kompensierbare
Operationen zurückzusetzen, ist im allgemeinen ein manueller Eingriff zur Durchführung des
Rücksetzens notwendig.
Da der Schwerpunkt dieses Kapitels auf den Aspekten des verteilten Rücksetzens mobiler
Agenten und möglicher Optimierungen liegt, wird für den Rest des Kapitels davon ausgegan-
gen, daß die in den einzelnen (Agenten-)Schritten ausgeführten Operationen immer kompen-
siert werden können in dem Sinne, daß durch die Kompensation ein aus Sicht der Anwen-
dung(en) akzeptabler Systemzustand entsteht.
5.3 Erweiterung des Agentenmodells
Mit den in den letzten Abschnitten gewonnenen Erkenntnissen ist es nun möglich, das in Ab-
schnitt 2.2 vorgestellte Agentenmodell um das partielle Rücksetzen von Agenten zu erweitern. 
Beim Rücksetzen eines einzelnen Schrittes ändert sich sowohl der Datenzustand des Agenten
als auch der Zustand jener Ressourcen, auf die der Agent während des rückzusetzenden Schrit-
tes zugegriffen hatte. Wie die vorhergehenden Abschnitte zeigten, werden beim Rücksetzen des
Agenten im allgemeinen weder der originale Zustand des Agenten noch die originalen Zustände
der Ressourcen wieder hergestellt. Deshalb sind die folgenden Definitionen notwendig:
Definition 5-2: Agentenzustand Ai
Der Agentenzustand Ai beschreibt den Datenzustand des Agenten A nach dem
Rücksetzen des i-ten Schrittes.
Definition 5-3: Ressourcenzustände 
Die Ressourcenzustände  beschreiben die Zustände der Ressourcen des Kno-
tens Ki vor ( ) beziehungsweise nach ( ) dem Rücksetzen des i-ten Schrittes des
Agenten.
Da zwischen der Ausführung des i-ten Schrittes und seinem Rücksetzen andere Agenten bzw.
Anwendungen auf die Ressourcen zugreifen können ist  im allgemeinen ungleich  (Zu-
stand der Ressourcen nach der Ausführung des Schrittes).
Definition 5-4: Rücksetzinformationen Ii
Die Rücksetzinformationen Ii beschreiben die zusätzlich zu Agenten- und Ressour-
cenzustand notwendigen Daten zum Rücksetzen des Schrittes i.
Ri
3 Ri
4
,
Ri
3 Ri
4
,
Ri
3 Ri
4
Ri
3 Ri
2
5.3 Erweiterung des Agentenmodells 177Zur Gewinnung der Rücksetzinformationen Ii muß die in Abschnitt 2.2 eingeführte Schrittfunk-
tion si erweitert werden:
(5-1)
Die Rücksetzfunktion ri beschreibt die Änderung des Agenten- und Ressourcenzustandes durch
das Rücksetzens eines einzelnen, bereits abgeschlossenen Schrittes i:
(5-2)
Wurde zuvor auch Schritt i+1 schon zurückgesetzt, gilt
(5-3)
Die Ausführung der Rücksetzfunktion ri ist nur dann möglich, wenn sich der Agent momentan
im Zustand Ai+1 (bzw. Ai+1) befindet. Das Rücksetzen der n Schritte i, i-1,..., i-n+1 (n≤i) wird
durch
(5-4)
beziehungsweise
(5-5)
beschrieben. Die Funktion ri,n ist hierbei eine Verkettung 
der Rücksetzfunktionen der einzelnen Schritte, d.h. auf Ai+1,  und Ii wird ri angewendet, auf
das resultierende Ai und die  und Ii-1 wird dann ri-1 angewendet und so weiter.
Wird das Modell in der bis hierher beschriebenen Version in die Praxis umgesetzt, bedeutet dies
für den Entwickler eines Agenten, daß er für jeden Schritt des Agenten Code bereitstellen muß
(nämlich die Rücksetzfunktion), der sämtliche Auswirkungen des Schrittes auf Ressourcen und
auf den Agent selbst kompensiert. Außerdem müssen während der Ausführung eines Schrittes
die Rücksetzinformationen für den Code zur Kompensation manuell gesammelt werden, d.h.
das Sammeln der notwendigen Rücksetzinformationen muß in den Code des Schrittes integriert
werden. Dies ist sowohl sehr unkomfortabel als auch fehleranfällig.
si: Ai Ri
1( , ) | Ai 1+ Ri
2 Ii,( , )→
ri: Ai 1+ Ri
3 Ii,( , ) | Ai Ri
4( , )→
ri: Ai 1+ Ri
3 Ii,( , ) | Ai Ri
4( , )→
ri n, : Ai 1+ Ri
3 Ri 1–
3 Ri 2–
3
… Ri n– 1+
3 Ii Ii 1– … Ii n– 1+,,,,,,,,( , ) |
Ai n– 1+ Ri
4 Ri 1–
4 Ri 2–
4
… Ri n– 1+
4
,,,,( , )
→
ri n, : Ai 1+ Ri
3 Ri 1–
3 Ri 2–
3
… Ri n– 1+
3 Ii Ii 1– … Ii n– 1+,,,,,,,,( , ) |
Ai n– 1+ Ri
4 Ri 1–
4 Ri 2–
4
… Ri n– 1+
4
,,,,( , )
→
ri n, ri n– 1+ ri n– 2+ … rio o o=
Ri
3
Ri 1–
3
178 Kapitel 5   Partielles RücksetzenEine Verfeinerung des Agentenmodelles ermöglicht in gewissem Umfang die Unterstützung des
Agentenentwicklers durch die Agentenplattform. Die Verfeinerung ergibt sich aus der Beobach-
tung, daß man die im Datenzustand des Agenten enthaltenen Daten in zwei Kategorien klassi-
fizieren kann:
Definition 5-5: Stark reversible Objekte (engl.: strongly reversible objects), AS,i
Stark reversible Objekte sind Datenobjekte im (privaten) Datenzustand des Agen-
ten, die nach dem Rücksetzen eines Schrittes immer dieselben Daten enthalten wie
vor der Ausführung des rückzusetzenden Schrittes und daher mittels einer Kopie der
Objekte wiederhergestellt werden können. Der Zustand der stark reversiblen Objek-
te eines Agenten A vor der Ausführung des Schrittes i wird mit AS,i bezeichnet.
Definition 5-6: Schwach reversible Objekte (engl.: weakly reversible objects), AW,i
Schwach reversible Objekte sind Datenobjekte im (privaten) Datenzustand des
Agenten, die nach dem Rücksetzen eines Schrittes Daten enthalten können, welche
sich von den originalen Daten vor der Ausführung des rückzusetzenden Schrittes
unterscheiden. Der Zustand der schwach reversiblen Objekte eines Agenten A vor
der Ausführung des Schrittes i wird mit AW,i bezeichnet. Der Zustand der schwach
reversiblen Objekte eines Agenten A nach dem Rücksetzen des Schrittes i wird mit
AW,i bezeichnet.
Sammelt beispielsweise ein Agent Daten und speichert diese in einem Vektor in seinem Daten-
zustand ab, so kann diese Operation einfach dadurch rückgängig gemacht werden, indem der
originale Zustand des Vektors wiederhergestellt wird. Datenobjekte, für die dies bei jedem
Schritt zutrifft, sind stark reversible Objekte. Deklariert der Agentenentwickler diese Objekte
als stark reversible Objekte, so kann das Rücksetzen dieser Objekte automatisch von der Lauf-
zeitumgebung des Agenten durchgeführt werden, ohne daß der Agentenentwickler hierfür
Kompensationsoperationen bereit stellen muß. Die hierzu notwendige Rücksetzinformation
wird von der Laufzeitumgebung in Form von Kopien – auch bezeichnet als Before Image, vgl.
HÄRDER UND RAHM (1999) – der stark reversiblen Objekte im Rücksetz-Log (vgl. Abschnitt
5.4.2) gespeichert. 
Ein Beispiel für schwach reversible Objekte wurde bereits in Abschnitt 5.2 beschrieben. Bezahlt
ein Agent eingekaufte Ware beim Händler mittels elektronischem Geld welches auf dem in
CHAUM (1985) beschriebenen Algorithmus basiert, so löst der Händler dieses Geld i.a. noch
während des Bezahlvorganges bei der Bank ein. Soll diese Bezahlung später rückgängig ge-
macht werden, so erhält der Agent deshalb vom Händler nicht dieselben digitalen Münzen zu-
rück, die zur Bezahlung verwendet wurden. Erhebt der Händler eine Gebühr für das Rücksetzen
der Kauftransaktion, erhält der Agent weniger Geld zurück. Im Extremfall bekommt der Agent
sogar nur eine Gutschrift anstatt des Geldes. In allen diesen Fällen enthalten jene Datenobjekte
5.3 Erweiterung des Agentenmodells 179im Agent, die die elektronische Geldbörse verwalten, nach dem Rücksetzen der Transaktion
nicht die ursprünglichen Daten. Sie sind somit schwach reversible Objekte. Es liegt in der Ver-
antwortung des Entwicklers eines Agenten, daß er die zum Rücksetzen dieser Objekte notwen-
digen Kompensationsoperationen inklusive Rücksetzinformationen zur Verfügung stellt, wel-
che ebenfalls im Rücksetz-Log gespeichert werden. Details hierzu findet man in den folgenden
Abschnitten.
Um den Agent auf jeden beliebigen Zustand Ai rücksetzen zu können, ist es notwendig, daß die
Laufzeitumgebung bei jeder Migration die zur Wiederherstellung der stark reversiblen Objekte
notwendige Information im Rücksetz-Log abspeichert. Abhängig davon, wie die Rücksetzinfor-
mation im Log gespeichert wird und wieviel stark reversible Objekte im Agent enthalten sind,
können hierbei sehr viele Daten anfallen. Je nach Anwendung ist es jedoch eventuell gar nicht
notwendig, auf jeden Zustand Ai zurücksetzen zu können. Bilden beispielsweise mehrere nach-
einander ausgeführte Schritte eine logische Einheit, so ist möglicherweise nur das vollständige
Rücksetzen aller dieser Schritte sinnvoll; Zustände zwischen diesen Schritten müssen nicht wie-
derhergestellt werden können. Aus diesem Grunde wird zusätzlich noch das Konzept des Agen-
ten-Rücksetzpunktes eingeführt:
Definition 5-7: Agenten-Rücksetzpunkt (engl.: agent savepoint)
Ein Agenten-Rücksetzpunkt ist ein Zustand in der Ausführung eines Agenten, auf
den der Agent zurückgesetzt werden kann. Agenten-Rücksetzpunkte können sich
nur zwischen den Schritten der Agentenausführung befinden (vgl. Abschnitt 5.1).
Soll es möglich sein, einen Agent auf den Zustand Ai (d.h. auf den Zustand vor der Ausführung
des Schrittes i) zurückzusetzen, muß vom Code des Agenten am Schluß des Schrittes i-1 ein
Rücksetzpunkt etabliert werden. Der Rücksetzpunkt befindet sich in diesem Falle dann zwi-
schen Schritt i-1 und Schritt i. Nur wenn ein solcher Agenten-Rücksetzpunkt veranlaßt wird,
muß die zum Rücksetzen der stark reversiblen Objekte notwendige Information ins Rücksetz-
Log geschrieben werden. Umgekehrt heißt dies, daß beim Rücksetzen eines Agenten der Zu-
stand von dessen stark reversiblen Objekten jeweils nur beim Erreichen eines Rücksetzpunktes
wieder hergestellt wird.
Die erweiterte Rücksetzfunktion  berücksichtigt dies, indem sich die stark reversiblen Objek-
te nur dann ändern, wenn ein Rücksetzpunkt erreicht wird. Wird kein Rücksetzpunkt erreicht,
ändern sich die stark reversiblen Objekte des Agenten nicht:
(5-6)
rˆi
rˆi: AW i, 1+ AS i k+, Ri
3
, Ii,( , ) |
AW i, AS i, Ri
4
,( , ) falls Ai Rücksetzpunkt
AW i, AS i k+, Ri
4
,( , ) sonst


→ für k 1≥
180 Kapitel 5   Partielles Rücksetzenbeziehungsweise
(5-7)
wobei Ai+k der “letzte” Rücksetzpunkt (bzw. der Ausgangspunkt des Rücksetzens) ist. Die
Rücksetzfunktion setzt sich hierbei aus der (den) vom Agentenentwickler bereitgestellten Kom-
pensationsoperation(en) zum Rücksetzen der schwach reversiblen Objekte und – falls ein Rück-
setzpunkt erreicht wird – dem Rücksetzen der stark reversiblen Objekte (durch die Laufzeitum-
gebung) zusammen.
Die Funktion  kann nur dann isoliert ausgeführt werden, wenn Ai ein Rücksetzpunkt ist und
der Schritt i der einzige bereits abgeschlossene Schritt ist, der zurückgesetzt werden muß. In
diesem Falle gilt für den Eingabeparameter AS,i+k, daß k=1 ist (d.h. der Zustand der stark rever-
siblen Objekte nach der Ausführung von Schritt i). In allen anderen Fällen wird  nur als Teil
des Rücksetzens mehrerer Schritte ausgeführt:
(5-8)
beziehungsweise
(5-9)
Hierbei beschreibt  das partielle Rücksetzen der vollständig ausgeführten Schritte i, i-1,...,
i-n+1 auf den Rücksetzpunkt zwischen den Schritten i-n und i-n+1. Auch hier ist diese Rück-
setzfunktion eine Verkettung der Rücksetzfunktionen der einzelnen Schritte. Abbildung 5-2 il-
lustriert dies anhand der Ausführung der Schritte i, i+1,..., i+4 eines Agenten mittels der Schritt-
funktion si,5 (Erweiterung der Schrittfunktion si aus Abschnitt 2.2 um die Ausführung mehrerer
Schritte) und dem Rücksetzen dieser Schritte mittels der Rücksetzfunktion  (die bei der
Ausführung des Agenten erzeugten und beim Rücksetzen verwendeten Rücksetzinformationen
rˆi: AW i, 1+ AS i k+, Ri
3
, Ii,( , ) |
AW i, AS i, Ri
4
,( , ) falls Ai Rücksetzpunkt
AW i, AS i k+, Ri
4
,( , ) sonst


→ für k 1≥
rˆi
rˆi
rˆi n, : AW i, 1+ AS i 1+, R, i
3 Ri 1–
3 Ri 2–
3
… Ri n– 1+
3 Ii Ii 1– … Ii n– 1+,,,,,,,,( , ) |
AW i, n– 1+ AS i n– 1+, Ri
4
, Ri 1–
4 Ri 2–
4
… Ri n– 1+
4
,,,,( , )
→
rˆi n, : AW i, 1+ AS i 1+, R, i
3 Ri 1–
3 Ri 2–
3
… Ri n– 1+
3 Ii Ii 1– … Ii n– 1+,,,,,,,,( , ) |
AW i, n– 1+ AS i n– 1+, Ri
4
, Ri 1–
4 Ri 2–
4
… Ri n– 1+
4
,,,,( , )
→
rˆi n,
rˆi 4+ 5,
5.3 Erweiterung des Agentenmodells 181wurden zur Wahrung der Übersichtlichkeit weggelassen). Bei der Ausführung des Agenten wur-
de vor den Schritten i und i+2 jeweils ein Rücksetzpunkt gesetzt. In der Abbildung ist zu erken-
nen, daß, wie oben beschrieben, der Zustand der stark reversiblen Objekte nur beim Erreichen
der Rücksetzpunkte durch die Rücksetzfunktionen der Schritte i+2 und i (  und )aktuali-
siert wird, die Rücksetzfunktionen der anderen Schritte ändern an den stark reversiblen Objek-
ten nichts. Dies hat zur Folge, daß sich die stark reversiblen Objekte des Agenten während der
Ausführung der Rücksetzfunktion von Schritt i+3 noch im selben Zustand befinden wie nach
der Ausführung des Schrittes i+4. Die stark reversiblen Objekte enthalten also während der Aus-
führung von Rücksetzfunktionen, d.h. während der Ausführung der vom Agentenentwickler zur
Verfügung gestellten Kompensationsoperation(en), potentiell “zukünftige” Daten. Aus diesem
Grund können die stark reversiblen Objekte von den vom Agentenentwickler zur Verfügung ge-
stellten Kompensationsoperationen nicht verwendet werden. Da durch das Rücksetzen die stark
Abbildung 5-2. Ausführen und Rücksetzen eines Agenten
AW,i+3
AS,i+5
AW,i+5
AS,i+5
si
R
Ai
1
i R
2
i
si+1
R
Ai+1
1
i+1 R
2
i+1
si+2
R
Ai+2
1
i+2 R
2
i+2
si+3
R
Ai+3
1
i+3 R
2
i+3
si+4
R
Ai+4
1
i+4 R
2
i+4
Ai+5
Rücksetzpunkt j Rücksetzpunkt j+1
ri
R
Ai
4
i R
3
i
ri+1
R
Ai+1
4
i+1 R
3
i+1
ri+2
R
Ai+2
4
i+2 R
3
i+2
ri+3
R
Ai+3
4
i+3 R
3
i+3
ri+4
R
Ai+4
4
i+4 R
3
i+4
AW,i+4
AS,i+5
Ai+5
Ausführung des Agenten mittels si,5:
Rücksetzen mittels ri+4,5:
AW,i
AS,i
AW,i+2
AS,i+2
AW,i+1
AS,i+2
AW,i
AS,i
AW,i+1
AS,i+1
AW,i+2
AS,i+2
AW,i+3
AS,i+3
AW,i+4
AS,i+4
AW,i+5
AS,i+5
Ai: Agentenzustand vor Ausführung von Schritt i
Ai: Agentenzustand nach Rücksetzen von Schritt i
AW,i: schwach reversible Objekte des Agenten vor
Ausführung von Schritt i
AW,i: schwach reversible Objekte des Agenten nach
Rücksetzen von Schritt i
AS,i: stark reversible Objekte des Agenten vor
Ausführung / nach Rücksetzen von Schritt i
si: Schrittfunktion für Schritt i
: Zustand der Ressourcen von Knoten i vor
Ausführung des Schrittes i
: Zustand der Ressourcen von Knoten i nach
Ausführung des Schrittes i
: Zustand der Ressourcen von Knoten i vor
Rücksetzen des Schrittes i
: Zustand der Ressourcen von Knoten i nach
Rücksetzen des Schrittes i
: Rücksetzfunktion für Schritt i
R
 i
1
R
 i
2
R
 i
3
R
 i
4
rˆi
Rücksetzpunkt j
rˆi 2+ rˆi
182 Kapitel 5   Partielles Rücksetzenreversiblen Objekte im Originalzustand wieder hergestellt werden, bleibt der Rücksetzpunkt
(im Beispiel Rücksetzpunkt j), auf welchen die Ausführung des Agenten zurückgesetzt wurde,
erhalten.
Vorausgesetzt der Entwickler eines Agenten stellt korrekte Operationen zur Kompensation der
schwach reversiblen Objekte zur Verfügung, stellt die Funktion  einen Zustand Ai-n+1 her,
welcher ein im Sinne der Anwendung zum Zustand Ai-n+1 semantisch äquivalenter Zustand ist.
Im Idealfall wurden während der Ausführung der Schritte i-n+1, i-n,..., i nur stark reversible Ob-
jekte geändert. In diesem Fall wäre Ai-n+1=Ai-n+1. Ein bisher nicht betrachtetes Problem tritt al-
lerdings dann auf, wenn der Agent nach dem (partiellen) Rücksetzen seine Arbeit basierend auf
dem wiederhergestellten, zum Ausgangszustand äquivalenten Zustand, fortsetzt. Da die Reise-
route des Agenten beim Rücksetzen wieder in ihren ursprünglichen Zustand zurückgesetzt wird,
kann es passieren, daß der Agent nach dem Rücksetzen dieselben Schritte ausführt wie zuvor.
Dies ist kein Problem wenn die Ausführung des Agenten beispielsweise wegen der temporären
Nichtverfügbarkeit einer Ressource zurückgesetzt wurde. Hat jedoch der Agent das Rücksetzen
beispielsweise veranlaßt, weil die von ihm momentan durchgeführte Strategie nicht zum Ziel
führt, dann müssen dem Agent nach dem Rücksetzen Informationen zur Verfügung gestellt wer-
den, die es ihm erlauben, seine Strategie zu ändern – beispielsweise durch Änderungen in sei-
nem Datenzustand oder durch Änderungen in der Reiseroute. Aus diesem Grunde wird zusätz-
lich nach dem Erreichen des Rücksetzpunktes eine Wiederaufnahme-Funktion rpost ausgeführt,
in der die notwendigen Änderungen durchgeführt werden können. 
Da die gewünschte Funktionalität von rpost im allgemeinen von der Situation, in der das Rück-
setzen initiiert wird, abhängt, kann rpost inklusive ihrer Parameter vom Agent bei der Initiierung
des Rücksetzens angegeben werden (vgl. auch nächster Abschnitt). Abbildung 5-3 zeigt, wie
nach dem Rücksetzvorgang aus Abbildung 5-2 die normale Abarbeitung des Agenten wieder
aufgenommen wird, indem zuerst die Funktion rpost ausgeführt wird und erst dann der nächste
Schritt des Agenten ausgeführt wird. Die Funktion rpost kann dabei als eine Art Schritt interpre-
tiert werden, der nach Schritt i-1 in die Reiseroute eingefügt wird, wobei dieser Schritt wieder
aus der Reiseroute entnommen werden muß, falls später auf einen noch früheren Rücksetzpunkt
zurückgesetzt werden soll. Die Ausführung von rpost kann dabei auf einem beliebigen Knoten
erfolgen. Da rpost konzeptionell nur dafür zuständig ist, den Zustand des Agenten, speziell auch
dessen Reiseroute, so zu ändern, daß der Grund des Rücksetzens bei der weiteren Verarbeitung
des Agenten berücksichtigt werden kann, sollte durch rpost kein Ressourcenzustand geändert
werden. Da rpost jedoch sowohl stark reversible als auch schwach reversible Objekte ändern
kann, müssen für den Fall, daß später auf einen noch früheren Rücksetzpunkt zurückgesetzt
werden soll, sowieso Kompensationsoperationen für die Änderungen der schwach reversiblen
Objekte in rpost angegeben werden. Somit stehen aus technischer Sicht Änderungen von Res-
sourcen durch rpost nichts im Wege, solange auch hierfür die entsprechenden Kompensations-
operationen zur Verfügung gestellt werden. Wie schon weiter oben erwähnt, bleibt der Rück-
setzpunkt, auf den ein Agent zurückgesetzt wurde, erhalten – in Abbildung 5-3 beispielsweise
rˆi n,
5.3 Erweiterung des Agentenmodells 183der Rücksetzpunkt j. Da die weitere Ausführung des Agenten jedoch auf dem durch rpost herge-
stellten Zustand basiert, ist es sehr wahrscheinlich, daß im Falle eines Rücksetzens nicht auf den
originalen Rücksetzpunkt j zurückgesetzt werden soll sondern auf den durch rpost hergestellten
Zustand. Um dies zu ermöglichen, wird nach der Ausführung von rpost automatisch ein weiterer
Rücksetzpunkt eingefügt (Rücksetzpunkt j’ in Abbildung 5-3).
Im folgenden Abschnitt wird ein auf dem hier vorgestellten, erweiterten Agentenmodell basie-
render Mechanismus präsentiert, welcher auch für das Rücksetzen von Agenten eine genau-ein-
mal Semantik garantiert. Weitere Verfeinerungen und Erweiterungen des Modells werden an-
schließend verwendet, um den vorgestellten Mechanismus zu optimieren.
Abbildung 5-3. Fortsetzen der Ausführung eines Agenten nach Rücksetzen
Ai: Agentenzustand vor Ausführung von Schritt i
Ai: Agentenzustand nach Rücksetzen von Schritt i
AW,i: schwach reversible Objekte des Agenten vor
Ausführung von Schritt i
AW,i: schwach reversible Objekte des Agenten nach
Rücksetzen von Schritt i
AS,i: stark reversible Objekte des Agenten vor
Ausführung / nach Rücksetzen von Schritt i
si: Schrittfunktion für Schritt i
: Zustand der Ressourcen von Knoten i vor
Ausführung des Schrittes i
: Zustand der Ressourcen von Knoten i nach
Ausführung des Schrittes i
: Zustand der Ressourcen von Knoten i vor
Rücksetzen des Schrittes i
: Zustand der Ressourcen von Knoten i nach
Rücksetzen des Schrittes i
: Rücksetzfunktion für Schritt i
R
 i
1
R
 i
2
R
 i
3
R
 i
4
rˆi
ri
R
Ai
4
i R
3
i
ri+1
R
Ai+1
4
i+1 R
3
i+1
rpost
AW,i+1
AS,i+2
AW,i
AS,i
s’i
A’i
Rücksetzpunkt j’
A’W,i
A’S,i
Rücksetzpunkt j
184 Kapitel 5   Partielles Rücksetzen5.4 Basismechanismus
Der in diesem Abschnitt vorgestellte Mechanismus realisiert das partielle Rücksetzen der Aus-
führung von Agenten, welche mittels des in Abschnitt 4.3 vorgestellten Basisprotokolls zur ge-
nau-einmal Ausführung mobiler Agenten ausgeführt werden. Ziel des Mechanismus ist hierbei,
sowohl die im vorherigen Abschnitt beschriebene Semantik des partiellen Rücksetzens zu bie-
ten als auch – analog zur genau-einmal Ausführung des Agenten – das Rücksetzen des Agenten
ebenfalls genau einmal auszuführen.
5.4.1 Überblick
Die in Abschnitt 4.3 vorgestellte Idee zur Realisierung der genau-einmal Ausführung eines
Agenten läßt sich auf das partielle Rücksetzen von Agenten übertragen. Bei der Ausführung ei-
nes Schrittes eines Agenten werden innerhalb einer Transaktion der Agent aus der Eingangs-
warteschlange des ausführenden Knotens entnommen, die Schrittfunktion auf dem Agenten
(und den Ressourcen) ausgeführt und dann der Agent in die Eingangswarteschlange des Kno-
tens, auf dem der nächste Schritt ausgeführt werden soll, geschrieben. Wie in Abschnitt 4.3 aus-
geführt wird dadurch garantiert, daß der Agent nicht verloren gehen kann und daß alle Aktionen
des Agenten (logisch gesehen) exakt einmal ausgeführt werden. Das Rücksetzen eines Schrittes
S des Agenten unterscheidet sich nicht wesentlich von der Ausführung dieses Schrittes S. Da
beim Rücksetzen auch der Zustand der Ressourcen des Knotens N, auf dem der Schritt S ausge-
führt wurde, zurückgesetzt werden muß, muß auch die Rücksetzfunktion des Agenten auf die-
sem Knoten N ausgeführt werden. Es bietet sich daher an, beim Rücksetzen eines Schrittes des
Agenten ebenso zu verfahren wie bei der Ausführung des Schrittes: Innerhalb einer Rücksetz-
transaktion wird der Agent aus der Eingangswarteschlange des Knotens, auf dem die Rücksetz-
funktion ausgeführt werden muß, entnommen, die Rücksetzfunktion wird ausgeführt und dann
wird der Agent in die Eingangswarteschlange des Knotens geschrieben, auf dem die nächste
Rücksetzfunktion ausgeführt werden muß.
Abbildung 5-4 zeigt die Ausführung der Schritte i, i+1, i+2 und i+3 eines Agenten A und das
Rücksetzen dieser Schritte mittels des Basismechanismus’ zum Rücksetzen. Die Schritte i, i+1
und i+2 werden komplett ausgeführt. Während des Schrittes i+3 beschließt der Agent, seinen
Zustand auf den Rücksetzpunkt j, welcher direkt vor Schritt i gesetzt wurde, zurückzusetzen.
Der Basismechanismus bekommt hierzu als Parameter das Ziel des Rücksetzens (Rücksetz-
punkt j) und die nach dem Rücksetzen auszuführende Funktion rpost übergeben (siehe weiter un-
ten). Um die durch die Ausführung des Schrittes i+3 an Agent und Ressourcen verursachten Än-
derungen zurückzusetzen, reicht es aus, die Schritt-Transaktion Ti+3 abzubrechen. Dies bewirkt,
daß der Ausgangszustand der Ressourcen des Knotens Ki+3 wiederhergestellt wird und
daß sich der Agent wieder im Zustand Ai+3 in der Eingangswarteschlange Qi+3 des Knotens Ki+3
befindet. Um den Schritt i+2 auf dem Knoten Ki+2 zurücksetzen zu können, muß sich der Agent
Ri 3+
1
5.4 Basismechanismus 185in dessen Eingangswarteschlange Qi+2 befinden. Daher wird in einer Transaktion RTinit der
Agent von Qi+3 nach Qi+2 verschoben. Jetzt beginnt erst die eigentliche Kompensation der voll-
ständig ausgeführten Schritte. Innerhalb einer Rücksetztransaktion RTk wird dann jeweils der
Agent aus der Eingangswarteschlange Qk gelesen, der Schritt k mittels zurückgesetzt und der
Agent in Qk-1 (Qi für k=i) geschrieben (in der Reihenfolge k=i+2, i+1, i). Erwähnenswert ist
hierbei nochmal, daß beim Rücksetzen der Schritte i+2 und i+1 nur die schwach reversiblen Ob-
jekte des Agenten und die Ressourcen kompensiert werden. Erst beim Rücksetzen des Schrittes
i (und damit beim Erreichen eines Rücksetzpunktes) werden zusätzlich auch die stark reversi-
blen Objekte des Agenten zurückgesetzt. Sobald der gewünschte Rücksetzpunkt nach Rückset-
zen des Schrittes i erreicht wird, wird der Agent nicht in Qi-1 sondern in Qi geschrieben. Danach
wird in einer weiteren Transaktion die Funktion rpost ausgeführt, mittels der der Agent durch
das Rücksetzen notwendig gewordene Änderungen in seinem Zustand durchführen kann (z.B.
die Reiseroute abändern). Dies geschieht ebenfalls, indem innerhalb einer Transaktion der
Agent aus Qi gelesen wird, die Funktion rpost ausgeführt wird, und schließlich der Agent in die
Eingangswarteschlange jenes Knoten geschrieben wird, auf dem der nächste Schritt auszu-
Abbildung 5-4. Rücksetzen mittels des Basismechanismus’
read write
execute rpost
’
Rücksetzpunkt j’
Ki
Ri
write read
execute ri
compensate
RTi
4
Ai
Qi
Ri
3
AW,i
AS,i
Ai
Ki+1
Ri+1
write read
execute ri+1
compensate
RTi+1
4
Ai+1
Qi
Ri+1
3
AW,i+1
AS,i+3 Ai+1
Ki
Ri
read write
execute si
access
Ti
1
Ai
Qi
Ri
2
Ki+1
Ri+1
read write
execute si+1
access
Ai AW,i
AS,i
Ti+1
abort
Rücksetzpunkt j
e
x
e
c
u
t
i
o
n
r
o
l
l
b
a
c
k
1
AW,i+3
AS,i+3
Ai+3
Rücksetzpunkt j
RTinit
RTfinish
Ai+1
Qi+1
Ri+1
2
Ki+2
Ri+2
read write
execute si+2
access
Ti+2
1
Ai+2
Qi+2
Ri+2
2
Ki+3
Ri+3
read
execute si+3/rollback
access
1
Ai+3
Qi+3
Ri+3
2
Ti+3
Ri+3
1
Ai+3
Qi+3
Ki+2
Ri+2
write read
execute ri+2
compensate
RTi+2
4
Ai+2
Qi+1
Ri+2
3
Ai+3
Qi+2
AW,i+3
AS,i+3
Ai+3
AW,i+2
AS,i+3
Ai+2
Ki Ki
read write
execute si
access
Ti
A
Qi
AW,i
AS,i Ai
’
’
’
’
’
’
’
’
rˆk
Ki’
186 Kapitel 5   Partielles Rücksetzenführen ist. Wurde in rpost die Reiseroute des Agenten geändert, so ist i.a. . Wie in Ab-
schnitt 5.3 ausgeführt wird hierbei auch noch der Rücksetzpunkt j’ geschrieben. Damit ist das
Rücksetzen des Agenten beendet und die reguläre Ausführung des Agenten analog Abschnitt
4.3 kann wieder aufgenommen werden.
5.4.2 Logging
Die für das Rücksetzen der einzelnen Schritte eines Agenten notwendigen Daten werden im
Agenten-Rücksetz-Log (engl.: agent rollback log) abgelegt. Hierzu gehört neben der zum Rück-
setzen von Ressourcen- und Agentenzustand notwendigen Rücksetzinformation I auch die In-
formation, welche Kompensationsoperationen für die Kompensation eines Schrittes ausgeführt
werden müssen. Das Rücksetz-Log wird an den Agenten angehängt und migriert daher mit dem
Agenten von Knoten zu Knoten. Da das Rücksetz-Log nur Daten enthält, welche zum Rückset-
zen von erfolgreich abgeschlossenen (d.h. mit Commit beendeten) Schritten notwendig sind,
reicht es aus, das Rücksetz-Log am Ende einer Transaktion (sowohl Schritt- als auch Rücksetz-
Transaktion) persistent zu machen, d.h. mit dem Agenten in die Eingangswarteschlange des
nächsten Knotens zu schreiben.
Das Anhängen des Rücksetz-Logs an den Agenten hat zwei Vorteile. Erstens ist es nach dem
Beenden der Ausführung eines Agenten nicht notwendig, globale Aktionen zum Löschen des
Rücksetz-Logs auf den durch den Agenten besuchten Knoten durchzuführen. Zweitens ist das
Rücksetz-Log immer genau dann verfügbar, wenn auch der Agent verfügbar ist. Dadurch kann
der Agent immer dann zurückgesetzt werden, wenn die rückzusetzenden Ressourcen verfügbar
sind. Dieser zweite Vorteil ist zwar im Kontext des Basismechanismus nicht relevant, gewinnt
jedoch im Zuge der weiter hinten vorgestellten Optimierungen wesentlich an Bedeutung. Der
Nachteil des Anhängens des Rücksetz-Logs an den Agenten ist offensichtlich, daß die Größe
des Rücksetz-Logs und damit die Menge der zu migrierenden Daten im Verlauf der Ausführung
des Agenten stetig zunimmt. Wie stark der Zuwachs der Größe des Rücksetz-Logs ausfällt,
hängt hierbei vor allem von der Anwendung ab.
Im hier vorgestellten Mechanismus wird eine Mischung aus physischem und logischem Logging
(engl.: physical and logical logging, vgl. auch HÄRDER UND REUTER (1983) bzw. HÄRDER UND
RAHM (1999)) verwendet. Für die stark reversiblen Objekte wird physisches Logging verwen-
det. Hier kann entweder ein komplettes Abbild (engl.: image) dieser Objekte ins Rücksetz-Log
geschrieben werden (Zustands-Logging, engl.: state logging) oder nur die Zustands-Differenzen
dieser Objekte zwischen zwei aufeinanderfolgenden Rücksetzpunkten (Übergangs-Logging,
engl.: transition logging). Diese Informationen werden als Bestandteil eines Rücksetzpunktein-
trages (RP, engl.: savepoint entry) in das Log geschrieben. Ein solcher Rücksetzpunkteintrag
wird genau dann in das Rücksetz-Log geschrieben, wenn vom Agent ein Rücksetzpunkt initiiert
wird. Neben dem Abbild der stark reversiblen Objekte enthält ein Rücksetzpunkteintrag zusätz-
lich noch einen (eindeutigen) Bezeichner. Zur Vereinfachung wird im folgenden davon ausge-
Ki Ki≠ ’
5.4 Basismechanismus 187gangen, daß Zustands-Logging verwendet wird. Das Format, in dem das Abbild der stark rever-
siblen Objekte im Rücksetz-Log gespeichert wird, hängt von der zur Programmierung des
Agenten verwendeten Programmiersprache ab.
Für die Kompensation der schwach reversiblen Objekte und der Ressourcenzustände wird logi-
sches Logging verwendet. Hierbei werden die Kompensationsoperationen und deren Parameter
in das Rücksetz-Log geschrieben. Eine Kompensationsoperation mit den zugehörigen Parame-
tern wird als Operationseintrag (OE, engl.: operation entry) bezeichnet. Die Anzahl der zur
Kompensation eines Schrittes notwendigen Kompensationsoperationen (und damit die Anzahl
der im Rücksetz-Log enthaltenen Operationseinträge für einen Schritt) kann zwischen einer
(komplexen) Operation, welche die Auswirkungen des gesamten Schrittes kompensiert, und be-
liebig vielen Operationen liegen. Die Agenten-Plattform muß Operationen zur Verfügung stel-
len, mit denen Operationseinträge an das Rücksetz-Log angehängt werden können. Existieren
für einen Schritt mehrere Operationseinträge, so werden beim Rücksetzen die Operationseinträ-
ge (genauer: die in den Operationseinträgen spezifizierten Kompensationsoperationen) in um-
gekehrter Reihenfolge, d.h. beginnend mit dem zuletzt angehängten Eintrag, abgearbeitet. Hin-
tergrund ist, daß bei der Kompensation im allgemeinen “von hinten nach vorne” vorgegangen
wird, d.h. die zuletzt ausgeführte Operation muß zuerst kompensiert werden, dann die vorletzte
ausgeführte Operation und so weiter. Wird beispielsweise zuerst ein Betrag von einem Konto A
auf ein Konto B überwiesen und Konto B anschließend zur Bezahlung beim Einkaufen verwen-
det, dann muß zuerst der Einkauf kompensiert werden, bevor die Rücküberweisung erfolgen
kann. Wird nun das Rücksetz-Log wie oben beschrieben abgearbeitet, dann kann dadurch direkt
jeweils nach Ausführung der zu kompensierenden Operation die Kompensationsoperation ins
Rücksetz-Log geschrieben werden.
Das Format, in dem die Kompensationsoperationen
und deren Parameter im Rücksetz-Log abgespei-
chert werden, hängt von der zur Programmierung
des Agenten verwendeten Programmiersprache ab.
Wird eine objektorientierte Sprache wie Java ver-
wendet, so kann beispielsweise der Vererbungsme-
chanismus und die damit einhergehende Polymor-
phie als Lösungsansatz dienen. Die Idee hierbei ist,
die Kompensationsoperation in einem Objekt als
Methode des Objekts und die Parameter der Kom-
pensationsoperation als Attribute des Objektes zu
realisieren. Hierbei dient eine abstrakte Oberklasse
CompensationObject mit einer abstrakten (d.h. nicht implementierten) Methode compensate()
als Grundbaustein. Für jede Kompensationsoperation muß dann eine Unterklasse von Compen-
sationObject implementiert werden, in der die Kompensationsoperation von der compensate()-
Methode realisiert wird und deren Attribute als Parameter der Kompensationsoperation dienen.
Abbildung 5-5. CompensationObject
abstract class CompensationObject{
abstract void compensate();
}
class CompensateTransfer
extends CompensationObject{
Bank theBank;
Account account1, account2;
Amount amount;
void compensate(){
theBank.transfer(account2,
account1,amount)
} }
188 Kapitel 5   Partielles RücksetzenAbbildung 5-5 demonstriert die Idee anhand der Rücksetzoperation für eine Überweisung zwi-
schen zwei Konten, welche in einem Objekt der Klasse CompensateTransfer gekapselt wird.
Die für die Rücksetzoperation notwendigen Parameter Bank (theBank), Ursprungskonto der
Überweisung (account1), Zielkonto der Überweisung (account2) und der überwiesene Betrag
(amount) sind als Attribute der Klasse im Objekt enthalten. Die Methode compensate() imple-
mentiert die Kompensationsoperation – in diesem Falle die Rücküberweisung. Bei dieser Rea-
lisierung enthält ein Operationseintrag des Rücksetz-Logs einfach ein Objekt einer Unterklasse
der Klasse CompensationObject – im Beispiel also ein Objekt der Klasse CompensateTransfer,
welches die zur Kompensation notwendigen Daten und die Kompensationsoperation enthält.
Zur Kompensation muß nur dieses Objekt aus dem Rücksetz-Log gelesen werden und die com-
pensate()-Methode auf diesem Objekt aufgerufen werden.
Zusätzlich zu diesen Eintragstypen enthält das Rücksetz-Log noch Einträge für den Beginn und
das Ende der Abarbeitung eines Schrittes (begin-of-step (BS), end-of-step (ES)). Diese Einträge
enthalten unter anderem den Bezeichner des Knotens, auf dem der Schritt ausgeführt wurde.
Mögliche weitere Inhalte dieser Einträge werden weiter unten diskutiert.
Für den Fall daß ein Schritt nicht rücksetzbar ist, da er, entgegen der in Abschnitt 5.2 getroffenen
Annahme, nicht rücksetzbare Operationen durchführt, können alle bisherigen Einträge des
Rücksetz-Log verworfen und nach der Ausführung des Schrittes ein Rücksetzpunkteintrag ins
Log geschrieben werden. In diesem Falle kann die Ausführung des Agenten nicht mehr auf ei-
nen früheren Zustand zurückgesetzt werden. Dieser Fall wird, da nicht mit den getroffenen An-
nahmen konform, im weiteren Verlauf nicht mehr betrachtet.
Abbildung 5-6 zeigt einen Auszug aus einem Rücksetz-Log. Er enthält die Einträge OEn,1,
OEn,2, ..., OEn,p zur Kompensation des n-ten Schrittes des Agenten inklusive der Einträge für
den Beginn und das Ende der Abarbeitung dieses Schrittes sowie den k-ten Rücksetzpunktein-
trag, welcher sich direkt vor Schritt n befindet. Um den Agenten auf diesen k-ten Rücksetzpunkt
zurückzusetzen, muß das Rücksetz-Log beginnend von seinem aktuellsten (d.h. zuletzt in das
Log geschriebenen) Eintrag bis zum Rücksetzpunkteintrag abgearbeitet werden. Wird bei-
spielsweise das Rücksetzen des Agenten in Schritt n+1 initiiert, dann ist ESn der aktuellste Ein-
trag, da alle Änderungen des Schrittes n+1 inklusive der Änderungen am Rücksetz-Log durch
Abbildung 5-6. Beispiel-Log
... RPk BSn OEn,1 OEn,2 ... OEn,p ESn BSn+1 ...
Eq Eq+1 Eq+2 Eq+3 Eq+p+1 Eq+p+2 Eq+p+3
Ex - Log-Eintrag
RPx - Rücksetzpunkteintrag
BSx - begin-of-step-Eintrag
OEx - Operationseintrag
ESx - end-of-step-Eintrag
abarbeiten anfügen
5.4 Basismechanismus 189den Abbruch der Schritt-Transaktion des Schrittes n+1 verworfen werden. In diesem Falle muß
nur Schritt n kompensiert werden, was durch sukzessive Ausführung der Operationseinträge
von Schritt n in der Reihenfolge OEn,p, OEn,p-1, ..., OEn,1 (genauer: Ausführung der in diesen
Einträgen spezifizierten Kompensationsoperationen) geschieht. Die Details des Rücksetzme-
chanismus zeigt der folgende Abschnitt.
5.4.3 Algorithmus
Nachdem in Abschnitt 5.4.1 bereits die wesentlichen Grundzüge des Algorithmus und in Ab-
schnitt 5.4.2 das Logging vorgestellt wurden, klärt dieser Abschnitt die noch verbleibenden De-
tails und präsentiert in Pseudo-Code-Form den Basismechanismus zum Rücksetzen der Ausfüh-
rung mobiler Agenten.
Wie schon in Abschnitt 5.1 ausgeführt, wird der Rücksetzalgorithmus zuerst als Erweiterung
des Basisprotokolles zur genau-einmal Ausführung mobiler Agenten (Algorithmus 4-1) konzi-
piert, bevor er dann im folgenden Abschnitt in das blockierungsfreie Protokoll integriert wird.
Da zum Rücksetzen des Agenten notwendige Informationen allerdings schon während der Aus-
führung des Agenten erzeugt und im Rücksetz-Log gespeichert werden, müssen auch Änderun-
gen am Basisprotokoll zur Agentenausführung vorgenommen werden. Algorithmus 5-1 zeigt
(in Fettschrift) die notwendigen Modifikationen des Basisprotokolles. Neben der Erweiterung
des Protokolles um Lesen bzw. Schreiben des Logs von der bzw. in die Eingangswarteschlange
der Knoten sind dies vor allem das Schreiben der Einträge für den Beginn und das Ende der Aus-
führung eines Schrittes sowie – falls notwendig – das Schreiben eines Rücksetzpunkteintrages.
Für das Schreiben der Operationseinträge in das Log ist der Agent selbst zuständig. Zusätzlich
ForEach (Agent a, Log log) in localNodeInputQueue q{
Begin Transaction // step transaction
q.ReadAndDestroy(Agent a, Log log)
log.insertBeginOfStepEntry(idOfLocalNodeInputQueue)
safepointId = Execute(Agent a) 
log.insertEndOfStepEntry(idOfLocalNodeInputQueue)
if (savepointID≠null){// agent initiated savepoint
log.writeSavepointEntry(savepointID)
}
nextPossibleSteps = QueryItinerary()
if (nextPossibleSteps≠∅){
// execution not yet finished
nextStep = ChooseOneOf(nextPossibleSteps)
Write(Agent a, Log log) to NodeInputQueue of node on which nextStep takes place
if not successful then Abort Transaction
}
Commit Transaction
}
Algorithmus 5-1. Modifiziertes Basisprotokoll zur 
genau-einmal Ausführung mobiler Agenten
190 Kapitel 5   Partielles Rücksetzenzu den gezeigten Modifikationen muß noch beim Start des Agenten (also vor der Ausführung
der ersten Schritt-Transaktion) ein Rücksetzpunkteintrag geschrieben werden, sodaß der Agent
auch ganz auf den Anfang seiner Ausführung zurückgesetzt werden kann.
Algorithmus 5-2 realisiert den Basisalgorithmus zum Rücksetzen der Agentenausführung. Be-
schließt ein Agent, auf einen früheren Punkt zurückzusetzen, ruft er die in Algorithmus 5-2a
dargestellte rollback(..)-Methode. Diese Methode bekommt als Parameter den Bezeichner spID
des Rücksetzpunktes, auf den zurückgesetzt werden soll, und die Funktion r_post, welche nach
dem Erreichen des Ziel-Rücksetzpunktes ausgeführt wird. 
Algorithmus 5-2. Basisalgorithmus zum Rücksetzen der Agentenausführung
rollback(SpID spID, CompObject r_post){
Abort Transaction // step transaction
Begin Transaction // move to correct queue
localNodeInputQueue.get (Agent a, Log log)
if (savepoint spID reached){ (1)
target=localInputQueue
}else{ (2)
if (last log entry is savepoint){ (3)
log.pop() // remove entry
}
target = determine from last 
end-of-step entry in log
}
Write(a, log, spId, r_post) To target (4)
Commit Transaction
}
a. Start des Rücksetzalgorithmus
ForEach (Agent a, Log log, SpID spID, 
ResumeObject r_post) in
localNodeInputQueue q{ (5)
Begin Transaction
q.ReadAndDestroy(a, log, spID, r_post)
if (savepoint spID not reached){ (6)
rollbackOneStep(a, log, spID, r_post)
}else{ (7)
resumeExecution(a, log, r_post)
}
End Transaction
} // Main Loop
rollbackOneStep(Agent a, Log log, SpID spID, 
ResumeObject r_post){
log.pop() // remove end-of-step (8)
entry=log.pop()
while (entry≠begin-of-step){
entry.compensate() (9)
entry=log.pop()
}
if (last entry in log is savepoint){ (10)
restore strongly reversible objects
if (savepoint spID not reached){ (11)
log.pop() // sp not needed anymore
}
}
if (savepoint spID reached){ (12)
target=localNodeInputQueue
}else{ (13)
target = determine from last
end-of-step entry in log
}
Write(a,log,spID,r_post) To target (14)
}
resumeExecution(Agent a, Log log, 
ResumeObject r_post){
log.insertBeginOfStepEntry()
newSpID = r_post.resume() (15)
log.insertEndOfStepEntry()
log.writeSavepointEntry(newSpID) (16)
nextPossibleSteps = QueryItinerary()
if nextPossibleSteps≠∅ then{ (17)
// execution not yet finished
nextStep = ChooseOneOf(
nextPossibleSteps)
target = GetInputQueue( node 
on which nextStep takes place)
Write(Agent a, Log log) To target
}
}
b. Auf jedem Knoten ausgeführter Rücksetzalgorithmus
5.4 Basismechanismus 191Für die Repräsentation von r_post wurde hier eine Repräsentation analog zu der in Abschnitt
5.4.3 vorgeschlagenen Repräsentation für Operationseinträge angenommen: Es existiert eine
abstrakte Klasse ResumeObject mit der (ebenfalls abstrakten) Methode resume(). Unterklassen
dieser Klasse enthalten in der resume()-Methode dann die auszuführende Funktion r_post, die
Parameter sind als Attribute in der Klasse enthalten. 
In der rollback()-Methode wird zuerst die aktuelle Schritt-Transaktion abgebrochen. Danach
wird der Agent innerhalb einer neuen Transaktion in die Eingangswarteschlange des Knotens
geschrieben, auf dem die nächste Aktion durchzuführen ist. Hierzu wird zuerst der ursprüngli-
che Zustand (d.h. der Zustand vor Ausführung des gerade abgebrochenen Schrittes) inklusive
Log aus der Eingangswarteschlange gelesen. Hat der Agent den gewünschten Rücksetzpunkt
schon erreicht (1)1 – erkennbar dadurch daß der aktuellste Log-Eintrag ein Rücksetzpunkt mit
dem Bezeichner spID ist – dann wird der Agent wieder in die lokale Eingangswarteschlange ge-
schrieben (4). 
Hat der Agent den gewünschten Rücksetzpunkt noch nicht erreicht (2), dann wird aus dem ak-
tuellsten end-of-step-Eintrag des Logs ermittelt, auf welchem Knoten die nächste Rücksetz-
transaktion auszuführen ist. Hierbei wird zuerst ein eventuell am Ende des Logs stehender
Rücksetzpunkteintrag entfernt (3), welcher in diesem Falle nicht abgearbeitet werden muß, da
sich die stark reversiblen Objekte schon in dem Zustand befinden, der in diesem Eintrag enthal-
ten ist. Der Agent wird dann in die Eingangswarteschlange des ermittelten Knotens geschrieben
(4). 
In beiden Fällen (sowohl beim Schreiben in die lokale als auch in die entfernte Warteschlange)
wird zusätzlich zu Agent und Log auch der Bezeichner spID des Rücksetzpunktes, auf den der
Agent zurückgesetzt werden soll, und die Funktion r_post mit Parametern geschrieben. Ist die
Transaktion, in der dies alles ausgeführt wird, erfolgreich, so steht der Agent zur weiteren Be-
arbeitung des Rücksetzens in der Warteschlange des Knotens, auf dem die nächste Aktion er-
folgen muß. Schlägt die Transaktion jedoch beispielsweise wegen Ausfall des Knotens fehl, so
steht immer noch der Agent inklusive Log in der Eingangswarteschlange des lokalen Knotens.
Dies ist äquivalent zu der Situation, daß die Schritt-Transaktion schon vor Aufruf von roll-
back(..) abbricht und ist daher ein akzeptabler Zustand. In diesem Falle wird der (abgebrochene)
Schritt auf dem Knoten erneut gestartet, kommt (eventuell) erneut zu der Erkenntnis daß zu-
rückgesetzt werden muß und ruft erneut rollback(..) auf. Da der Abbruch der Transaktion nur
durch Fehler des lokalen Knotens, des Netzwerkes und des Zielknotens geschehen kann und
diese Fehler laut dem zugrundeliegenden Fehlermodell nur temporär sind, wird dieser Teil des
Rücksetzens letztendlich erfolgreich sein.
Der Hauptteil des Rücksetzens wird von Algorithmus 5-2b durchgeführt. Sobald ein Tupel
(Agent, Log, SpId, ResumeObject) in der Eingangswarteschlange eines Knotens erscheint, wird
dieses innerhalb einer Transaktion aus der Warteschlange entnommen und bearbeitet (5). Hier-
1. Die Zahlen in Klammern beziehen sich auf die Fall-Numerierungen in Algorithmus 5-2
192 Kapitel 5   Partielles Rücksetzenbei sind zwei Fälle zu unterscheiden. Wurde der Ziel-Rücksetzpunkt spID noch nicht erreicht –
auch hier daran erkennbar ob der aktuellste Log-Eintrag ein Rücksetzpunkt mit dem Bezeichner
spID ist – dann muß auf diesem Knoten ein Schritt rückgesetzt werden (6), ansonsten muß die
Ausführung des Agenten wieder aufgenommen werden (7). Das Rücksetzen eines Schrittes
wird von der Methode rollbackOneStep() erledigt, das Wiederaufnehmen der Ausführung ge-
schieht in der Methode resumeExecution(). 
Beim Rücksetzen eines Schrittes in rollbackOneStep() werden nach dem Entfernen des end-of-
step-Eintrages des rückzusetzenden Schrittes (8) sukzessive die Operationseinträge aus dem
Log entnommen und die darin enthaltenen Kompensationsoperationen ausgeführt (9), bis der
begin-of-step-Eintrag des Schrittes dem Log entnommen wurde. Ist nun der aktuellste Eintrag
des Logs ein Rücksetzpunkt (10), dann wird anhand dieses Eintrages der Zustand der stark re-
versiblen Objekte wieder hergestellt und der Rücksetzpunkteintrag wird entfernt, falls er nicht
der Ziel-Rücksetzpunkt des Rücksetzens, d.h. der Rücksetzpunkt mit Bezeichner spID, ist (11).
Ist der gewünschte Rücksetzpunkt erreicht (12), wird der Agent in die lokale Eingangswarte-
schlange geschrieben. Wenn nicht (13), wird aus dem aktuellsten Log-Eintrag, welcher in die-
sem Falle ein end-of-step-Eintrag ist, der Knoten ermittelt, auf dem die nächste Rücksetztrans-
aktion stattfinden muß, und der Agent in die dortige Eingangswarteschlange geschrieben. In
beiden Fällen wird wieder das Tupel (Agent, Log, SpID, ResumeObject) in die Warteschlange
geschrieben (14). 
Ist die Transaktion erfolgreich, dann wurde durch rollbackOneStep() die rückzusetzenden Kom-
pensationsoperationen genau einmal durchgeführt und die Änderungen an Ressourcen (durch
Kompensationsoperationen) und Agent (schwach reversible Objekte: durch Kompensations-
operationen; stark reversible Objekte: durch Info aus Rücksetzpunkt, falls vorhanden) sind per-
manent. Der Agent befindet sich dann in der Eingangsschlange des Knotens, auf dem die näch-
ste Aktion, d.h. entweder eine weitere Kompensation oder die Wiederaufnahme der
Ausführung, stattfinden soll. Bricht die Transaktion wegen eines System-Fehlers ab, dann wer-
den die Änderungen der Transaktion automatisch zurückgesetzt und die Rücksetztransaktion
wird nach Beheben des Fehlers erneut gestartet. Da die Ausführung der Kompensationsopera-
tionen selbst nach Voraussetzung auf jeden Fall erfolgreich sein muß und Systemfehler nach
Voraussetzung nur temporär sind, wird eine Rücksetztransaktion letztendlich erfolgreich durch-
geführt werden.
Um die Ausführung eines Agenten wieder aufzunehmen, wird in resumeExecution() zuerst die
Funktion r_post ausgeführt (15). Da hierfür, wie in Abschnitt 5.3 ausgeführt, auch Kompensa-
tionsoperationen zur Verfügung gestellt werden müssen, werden entsprechend ein begin-of-
step-Eintrag und ein end-of-step-Eintrag geschrieben. Danach wird, wie ebenfalls in Abschnitt
5.3 ausgeführt wurde, ein Rücksetzpunkteintrag geschrieben (16). Den hierzu notwendigen
Rücksetzpunkt-Bezeichner gibt r_post als Ergebnis zurück. Nun ist das Rücksetzen vollständig
beendet und die normale Schrittausführung kann beginnen. Hierzu wird analog zu Algorithmus
5-1 aus der Reiseroute einer der nächsten möglichen Schritte bestimmt, dafür der Zielknoten er-
5.4 Basismechanismus 193mittelt und dann das Tupel (Agent, Log) in die Eingangswarteschlange des Zielknotens ge-
schrieben (17). Die weitere Ausführung des Agenten geschieht dann wieder mittels Algorith-
mus 5-1. 
Auch hier stellt die Transaktion die Atomizität der gesamten Operation (Lesen aus Eingangs-
warteschlange, r_post ausführen, Schreiben in Eingangswarteschlange des Zielknotens) sicher.
Um sicherzustellen, daß die Transaktion erfolgreich ausgeführt wird, muß – analog zu den
Kompensationsoperationen – durch den Entwickler des Agenten sichergestellt werden, daß die
Funktion r_post erfolgreich ausgeführt werden kann.
Unter der Voraussetzung, daß die vom Agentenentwickler implementierten Kompensationsope-
rationen und die Wiederaufnahme-Funktionen r_post korrekt implementiert sind, d.h. die Ope-
rationen schlagen nicht fehl bzw. sind letztendlich erfolgreich, führt der vorgestellte Algorith-
mus das Rücksetzen der Ausführung des Agenten nach dem Modell aus Abschnitt 5.3 durch:
Die schwach reversiblen Objekte und die durch den Agenten geänderten Ressourcen werden
durch vom Entwickler vorgegebene Kompensationsoperationen in der korrekten Reihenfolge
(umgekehrte Ausführungsreihenfolge) kompensiert und die stark reversiblen Objekte werden
durch die in Rücksetzpunkten enthaltenen Informationen zurückgesetzt. Um den Zugriff des
Agenten auf die zu kompensierenden Ressourcen zu gewährleisten, werden die zu einem Schritt
gehörenden Kompensationsoperationen jeweils auf dem Knoten ausgeführt, auf dem der zu
kompensierende Schritt ausgeführt wurde. Nach erfolgreichem Rücksetzen wird vor Wieder-
aufnahme der Ausführung des Agenten noch die Funktion r_post ausgeführt, die es dem Agen-
ten erlaubt, den Grund für das Rücksetzen bei der weiteren Ausführung zu berücksichtigen. Die
Ausführung der Kompensationsoperationen eines Schrittes innerhalb einer Transaktion in Kom-
bination mit dem persistenten Speichern des Agenten innerhalb derselben Transaktion garan-
tiert analog zum in Abschnitt 4.3 vorgestellten Basisprotokoll zur genau-einmal Ausführung
mobiler Agenten, daß das Rücksetzen eines Agenten genau einmal geschieht. 
5.4.4 Integration in den blockierungsfreien Mechanismus
Die Integration des Basismechanismus’ zum Rücksetzen in das in Abschnitt 4.4 vorgestellte
Protokoll zur blockierungsfreien Ausführung ist nicht sehr aufwendig. Analog zu Algorithmus
5-1 muß der Teil des Protokolles, welcher für das Lesen des Agenten aus der Eingangswarte-
schlange, die Ausführung des Agenten und das Schreiben des Agenten in die nächste Stufe zu-
ständig ist (vgl. Algorithmus 4-2), um die Verwaltung des Rücksetz-Logs (Lesen von/Schreiben
in Eingangswarteschlange, Schreiben der begin-of-step-, end-of-step- und savepoint-Einträge in
das Log) erweitert werden. Auch beim Rücksetzalgorithmus selbst sind nur wenige Änderungen
notwendig – und zwar nur beim Übergang von Ausführung auf Rücksetzen und umgekehrt.
Ruft der Agent beim Protokoll zur blockierungsfreien Ausführung rollback(..) auf, wird analog
zu Algorithmus 5-2a die Schritt-Transaktion abgebrochen und der Agent innerhalb einer neuen
194 Kapitel 5   Partielles RücksetzenTransaktion von der lokalen Eingangswarteschlange gelesen und inklusive des Bezeichners des
Ziel-Rücksetzpunktes in die Eingangswarteschlange des Knotens geschrieben, auf dem die
nächste Aktion (Kompensation/r_post) durchgeführt werden soll. Eine möglichst einfache Inte-
gration in das blockierungsfreie Protokoll wird dadurch erreicht, indem dafür gesorgt wird, daß
diese Transaktion für alle anderen Knoten der aktuellen Stufe aussieht wie eine Schritt-Trans-
aktion. Dies erreicht man, indem man einerseits das Monitoringprotokoll nicht abbricht (d.h. es
werden weiterhin I_AM_ALIVE(..)-Nachrichten an die anderen Knoten der Stufe verschickt)
und andererseits den Koordinator des aktuellen Knotens an dieser Transaktion teilnehmen läßt.
Hierdurch wird am Ende der Transaktion analog zu den Schritt-Transaktionen das Votier-Pro-
tokoll durchgeführt. Ist das Votieren erfolgreich, so wird einerseits für die Knoten der Stufe die
Stufe abgeschlossen und andererseits die Transaktion erfolgreich abgeschlossen, sodaß sich der
Agent nun mitsamt Log und Ziel-Rücksetzpunkt in einer Eingangswarteschlange befindet und
von Algorithmus 5-2b weiterverarbeitet werden kann. Hiermit ist der Übergang von der Aus-
führung des Agenten zum Rücksetzalgorithmus abgeschlossen. Ist das Votieren nicht erfolg-
reich, so wird die Transaktion vom Koordinator abgebrochen. In diesem Falle wird ein anderer
Knoten die Stufe beenden und die Entscheidung zum Rücksetzen des Agenten wird hierdurch
obsolet.
Der Übergang von Rücksetzen des Agenten zur weiteren Ausführung geschieht analog der Me-
thode resumeExecution(..) aus Algorithmus 5-2b. Anstatt der Auswahl eines einzelnen Knotens
wird jedoch mittels dem in Abschnitt 4.5.3 vorgestellten Algorithmus zur Stufenkonstruktion
die nächste Stufe zusammengestellt und der Agent in die Eingangswarteschlangen der Knoten
in dieser Stufe geschrieben.
Diese geringfügigen Änderungen integrieren das Protokoll zum Rücksetzen von Agenten in das
blockierungsfreie Protokoll zur Agentenausführung. Die Integration stellt auch hier sicher, daß
der Agent nicht verloren geht und daß das Rücksetzen und anschließend die weitere Ausführung
des Agenten sichergestellt wird. Im Gegensatz zur Ausführung des Agenten im blockierungs-
freien Protokoll ist natürlich das Rücksetzen des Agenten bei dieser Art der Integration nicht
blockierungsfrei: fällt ein Knoten aus, auf dem Kompensationsoperationen ausgeführt werden
sollen, so ist das Rücksetzen solange blockiert, bis der Knoten wieder funktionsbereit ist. 
5.5 Optimierungen
Zwei Möglichkeiten zur Optimierung des vorgestellten Rücksetzmechanismus sind die Vermei-
dung unnötiger Agententransporte und die Reduzierung der Größe des Rücksetz-Log. Die bei-
den folgenden Abschnitte präsentieren Mechanismen für diese Optimierungen.
5.5 Optimierungen 1955.5.1 Vermeidung unnötiger Agententransporte
Der in Abschnitt 5.4 vorgestellte Algorithmus transportiert (bzw. migriert) den Agenten zum
Kompensieren eines Schrittes jeweils auf den Knoten, auf dem der zu kompensierende Schritt
ausgeführt wurde. Häufig ist dies jedoch nicht unbedingt notwendig. Greift der Agent beispiels-
weise bei der Kompensation nicht auf die Ressourcen des Knoten zu oder sind zum Rücksetzen
eines Schrittes gar keine Kompensationsoperationen notwendig, dann ist der Transport des
Agenten auf diesen Knoten überflüssig. Ein Beispiel ist ein Agent, der auf einem Knoten wäh-
rend eines Schrittes nur Informationen sammelt, aber dabei den Zustand der Ressourcen (lo-
gisch) nicht ändert. Beim Rücksetzen dieses Schrittes müssen nur die auf dem Knoten gesam-
melten Informationen aus dem Zustand des Agenten entfernt werden – der Zugriff auf die
Ressourcen des Knotens (und daher ein Transport des Agenten auf den Knoten) ist nicht not-
wendig. Weiterhin gibt es Fälle, bei denen zwar auf die Ressourcen zur Kompensation zugegrif-
fen werden muß, sich der Transport des gesamten Agenten auf den entsprechenden Knoten aber
nicht lohnt. Dieser Abschnitt präsentiert die für diese Optimierungen notwendigen Erweiterun-
gen des Basisalgorithmus’ zum Rücksetzen der Agentenausführung. Eine etwas einfachere, we-
niger mächtige Version dieser Erweiterungen wurde bereits in STRASSER UND
ROTHERMEL (2000) vorgestellt.
5.5.1.1 Typen von Operationseinträgen
Damit entschieden werden kann, ob ein Agent zur Durchführung der Kompensation eines
Schrittes migrieren muß oder nicht, muß das Rücksetz-Log entsprechende Informationen ent-
halten. Da die Notwendigkeit der Migration eng mit den durchzuführenden Kompensationsope-
rationen zusammenhängt, ist es naheliegend, die Operationseinträge des Rücksetz-Logs um die
notwendigen Informationen und/oder Funktionalität zu erweitern. Um ein möglichst flexibles
und effizientes Rücksetzen zu ermöglichen, werden vier verschiedene Typen von Operations-
einträgen im Log unterschieden. 
Definition 5-8: Agentenkompensationseintrag.
Ein Agentenkompensationseintrag enthält eine Kompensationsoperation, welche
nur schwach reversible Objekte des Agentenzustandes kompensiert und keinerlei
Zugriff auf Ressourcen benötigt.
Die für die Ausführung dieser Kompensationsoperation notwendigen Informationen müssen im
Operationseintrag und in den schwach reversiblen Objekten des Agenten enthalten sein. Wie
schon in Abschnitt 5.3 erläutert, haben Kompensationsoperationen keinen Zugriff auf die stark
reversiblen Objekte. Die Kompensationsoperation wird auf dem Knoten ausgeführt, auf dem
sich der Agent befindet. Da kein Zugriff auf Ressourcen erlaubt ist, kann dies ein beliebiger
Knoten sein. Da sich der Begriffs der schwach reversiblen Objekten direkt auf die Abhängigkeit
196 Kapitel 5   Partielles Rücksetzenvon der Kompensation von Ressourcen gründet (vgl. Abschnitt 5.3), wird dieser Typ von Ope-
rationseintrag eher selten benötigt.
Definition 5-9: Ressourcenkompensationseintrag.
Ein Ressourcenkompensationseintrag enthält eine Kompensationsoperation welche
nur den Zustand der durch den Agenten geänderten Ressourcen kompensiert und
keinen Zugriff auf den Datenzustand des Agenten benötigt.
Die für die Ausführung dieser Kompensationsoperation notwendigen Informationen, z.B. Daten
aus den stark reversiblen Objekten, müssen komplett im Operationseintrag und im Zustand der
Ressourcen enthalten sein. Ein Zugriff auf den Datenzustand des Agenten ist nicht erlaubt. Hat
ein Agent beispielsweise auf einem Knoten mehrere Überweisungen zwischen verschiedenen
Bankkonten ausgeführt, dann muß die Kompensationsoperation die entsprechenden Rücküber-
weisungen durchführen. Hierzu müssen die Daten der Überweisungen wie Konten und Über-
weisungsbeträge im Operationseintrag enthalten sein. Ressourcenkompensationseinträge (ge-
nauer: die in ihnen enthaltenen Kompensationsoperationen) müssen auf dem Knoten der zu
kompensierenden Ressourcen, d.h. auf dem Knoten auf dem der zu kompensierende Schritt
ausgeführt wurde, ausgeführt werden. Da die auszuführende Kompensationsoperation keinen
Zugriff auf den Agent benötigt, ist es möglich, den Ressourcenkompensationseintrag ohne
Agent auf den Knoten zu schicken, auf dem die Operation ausgeführt werden muß.
Definition 5-10: Gemischter Kompensationseintrag Typ I.
Ein gemischter Kompensationseintrag Typ I enthält eine Kompensationsoperation,
welche gleichzeitig Zugriff auf die schwach reversiblen Objekte des Agenten und
auf die zu kompensierenden Ressourcen benötigt.
Ein Beispielszenario für diesen Eintragstyp ist ein Schritt, in dem der Agent auf der Bank digi-
tales Geld von US$ in Euro umtauscht. Da digitales Geld nicht in stark reversiblen Objekten ge-
speichert werden kann (dies folgt aus der Diskussion in Abschnitt 5.2), benötigt die zum Um-
tausch gehörende Kompensationsoperation Zugriff auf das schwach reversible Objekt, welches
den Euro-Betrag enthält, auf das schwach reversible Objekt, in dem der US$-Betrag gespeichert
werden soll, und auf die Ressource, die das Geld tauscht. Für die Ausführung eines gemischten
Kompensationseintrages Typ I muß sich der Agent auf dem Knoten der zu kompensierenden
Ressource(n) befinden, damit die Kompensationsoperation sowohl auf den Agent als auch auf
die Ressourcen zugreifen kann. Somit entspricht dieser Eintragstyp den im Basisalgorithmus
verwendeten Operationseinträgen.
Ist im eben skizzierten Währungstausch-Szenario der Rücktausch des Geldes die einzige Kom-
pensationsoperation welche Zugriff auf die Ressourcen des Knotens benötigt, so ist der Trans-
port des Agenten auf den Knoten der zu kompensierenden Ressource ein nicht unerheblicher
5.5 Optimierungen 197Aufwand im Verhältnis zur Aktion des Geldrücktausches. Da jedoch nach dem in Abschnitt 2.2
beschriebenen Agentenmodell der Zugriff auf Ressourcen lokal geschieht, kann nicht einfach
ein entfernter Prozeduraufruf zum Rücktausch des Geldes verwendet werden. Aus diesem
Grund wird noch der nachfolgende Eintragstyp eingeführt.
Definition 5-11: Gemischter Kompensationseintrag Typ II
Ein gemischter Kompensationseintrag Typ II beinhaltet insgesamt drei (Kompensa-
tions-)Operationen: Vor-, Haupt- und Nachoperation. Vor- und Nachoperation ha-
ben nur Zugriff die schwach reversiblen Objekte des Agenten, die Hauptoperation
hat nur Zugriff auf die zu kompensierenden Ressourcen. Die Parameter der Vorope-
ration sind im Kompensationseintrag vollständig enthalten, die Parameter der
Haupt- bzw. Nachoperation sind nur zum Teil im Kompensationseintrag enthalten.
Der fehlende Teil der Parameter wird für die Hauptoperation von der Voroperation
und für die Nachoperation von der Hauptoperation generiert.
Vor- und Nachoperation müssen auf dem Knoten ausgeführt werden, auf dem sich der Agent
befindet, die Hauptoperation auf dem Knoten der zu kompensierenden Ressource(n). Die die-
sem Eintragstyp zugrundeliegende Idee ist, daß mit der Voroperation die für die Hauptoperati-
on notwendigen Daten aus den schwach reversiblen Objekten des Agenten gelesen werden und
diese der Hauptoperation als Parameter übergeben werden. Entstehen bei der Hauptoperation
neue Informationen, welche wieder in die schwach reversiblen Objekte des Agenten integriert
werden müssen, so bekommt die Nachoperation diese Informationen von der Hauptoperation
als Parameter geliefert, welche diese Daten wieder in den Agenten integriert. Für das Szenario
des Geldrücktausches würde dies bedeuten, daß die Voroperation die digitalen Euro-Münzen
aus dem Agent liest und diese der Hauptoperation als Parameter übergibt. Die Hauptoperation
tauscht die Euro-Münzen in US$-Münzen und übergibt die US$-Münzen an die Nachoperation,
welche die US$-Münzen dann in die schwach reversiblen Objekte des Agenten schreibt. Ent-
weder die Voroperation oder die Nachoperation kann eine leere Operation sein – wären beide
Operationen leer, entspräche dies einem Ressourcenkompensationseintrag. Ist die Voroperation
eine leere Operation, dann benötigt die Hauptoperation keine Daten aus den schwach reversi-
blen Objekten. Ist die Nachoperation eine leere Operation, müssen keine bei der Hauptoperation
entstehenden Daten in den Agent integriert werden. 
Wie die verschiedenen Operationseintragstypen realisiert werden, hängt von der zur Program-
mierung des Agenten verwendeten Programmiersprache ab. Eine Möglichkeit der Realisierung
ist die Erweiterung des in Abschnitt 5.4.2 (Abbildung 5-5) vorgestellten Ansatzes. Für jeden
Operationseintragstyp existiert eine Unterklasse von CompensationObject. Abbildung 5-7 zeigt
dies anhand der Klassen für Ressourcenkompensationseinträge und gemischte Kompensations-
einträge Typ II. 
198 Kapitel 5   Partielles RücksetzenFür einen Ressourcenkompensationsein-
trag muß der Agentenentwickler eine Un-
terklasse von ResourceCompensationOb-
ject implementieren. Diese Unterklasse
muß die zur Kompensation notwendigen
Informationen als Attribute enthalten und
die compensate()-Methode implementie-
ren. Wird bei der Ausführung eines Schrit-
tes ein Objekt dieser Unterklasse ins Rück-
setzlog geschrieben, dann reicht es beim
Rücksetzen dieses Schrittes aus, dieses Ob-
jekt auf den Knoten, auf dem der Schritt
ausgeführt wurde, zu schicken und die
compensate()-Methode des Objektes aus-
zuführen. Bei Agentenkompensationsein-
trägen und gemischten Kompensationsein-
trägen Typ I ist das Vorgehen analog, die
Kompensationseinträge werden jedoch di-
rekt beim Agent ausgeführt. Bei einem ge-
mischten Kompensationseintrag Typ II
weicht das Vorgehen etwas von den ande-
ren Eintragsarten ab. Die compensate()-
Methode ist in diesem Falle die Hauptope-
ration des Eintrags, pre()- und post()-Me-
thode stellen die Voroperation und die
Nachoperation dar. Sämtliche Parameter
dieser Methoden sind als Attribute im Ob-
jekt enthalten. Die von pre() für compensate() generierten Parameter werden genauso in Attri-
buten des Objektes abgelegt wie die von compensate() für post() generierten Parameter.
hasPre() bzw. hasPost() geben an, ob eine Voroperation oder eine Nachoperation existiert. Wird
bei der Ausführung eines Schrittes ein solches Objekt ins Rücksetzlog geschrieben, dann wird
beim Rücksetzen dieses Schrittes zuerst pre() beim Agenten ausgeführt (falls hasPre() wahr lie-
fert). Das Objekt wird dann auf den Knoten, auf dem der Schritt ausgeführt wurde, geschickt
und die compensate()-Methode des Objektes wird ausgeführt. Falls hasPost() wahr liefert, wird
das Objekt dann wieder zurückgeschickt und post() ausgeführt. Die Klasse Compensate-
MoneyExchange zeigt die für das oben angeführte Szenario des Rücktausches von digitalem
Geld notwendige Unterklasse von MixedCompensationObjectII. Die Methode pre() liest die zu
tauschenden Dollar aus dem Agent und speichert sie im Attribut forDollars, compensate()
tauscht diese bei der Ressource theChangeMachine in Euro um und speichert das Ergebnis in
Abbildung 5-7. Verschiedene Typen 
von Operationseinträgen
abstract class CompensationObject{
abstract void compensate();
}
abstract class ResourceCompensationObject
extends CompensationObject{};
abstract class MixedCompensationObjectII
extends CompensationObject{
abstract void pre();
abstract void post();
abstract boolean hasPre();
abstract boolean hasPost();
};
class CompensateMoneyExchange
extends MixedCompensationObjectII{
Purse forDollars, for Euros;
MoneyExchange theChangeMachine;
void pre(){
forEuros = getMoneyFromAgent();
}
void compensate(){
forDollars = theChangeMachine.toUSD(forEuros);
}
void post(){
writeMoneyToAgent(forDollars);
}
boolean hasPre(){return true};
boolean hasPost(){return true};
}
5.5 Optimierungen 199forEuros, post() schreibt das Ergebnis schließlich in den Agenten zurück.
5.5.1.2 Möglichkeiten der Optimierung
Die Vermeidung unnötiger Agententransfers als Ziel der Optimierung führt nicht unbedingt zu
einer verbesserten Leistung: Aus der Definition der verschiedenen Typen von Operationseinträ-
gen wird ersichtlich, daß die Migration des Agenten zur Kompensation eines Schrittes nur dann
zwingend notwendig ist, wenn das Rücksetz-Log für diesen Schritt einen gemischten Kompen-
sationseintrag Typ I enthält. Daraus den Schluß zu ziehen, daß bei Nicht-Existenz eines solchen
Kompensationseintrages die Migration nicht notwendig ist, kann bedeuten, daß beim Vorhan-
densein mehrerer gemischter Kompensationseinträge Typ II mit Vor- und Nachoperationen
durch die dadurch notwendige mehrfache Kommunikation ein Vielfaches an Netzwerkband-
breite und Zeit benötigt wird. Für eine Optimierung ist also ein anderes Kostenmaß notwendig,
nach dem optimiert werden kann. Gängige Kostenmaße sind Netzwerklast, die für das Rückset-
zen notwendigen Zeit bzw. eine Kombination von Netzwerklast und Ausführungszeit. Hierfür
werden Leistungsmodelle ähnlich dem in STRASSER UND SCHWEHM (1997) vorgestellten Mo-
dell benötigt. Im folgenden wird darauf eingegangen, welche Möglichkeiten zur Optimierung
sich durch die im letzten Abschnitt eingeführten Operationseinträge ergeben.
Sofern für das Rücksetzen eines Schrittes S, welcher auf Knoten K ausgeführt wurde, kein ge-
mischter Kompensationseintrag Typ I im Rücksetz-Log enthalten ist, besteht grundsätzlich die
Möglichkeit, daß der Agent zum Rücksetzen von S nicht nach K migriert wird, sondern nur die
Ressourcenkompensationseinträge und die gemischten Kompensationseinträge Typ II auf den
Knoten K verschickt werden und der Datenzustand des Agenten auf jenem Knoten rückgesetzt
wird, auf dem sich der Agent momentan befindet. Eine einfache Implementierung, welche die
die rollbackOneStep(..)-Funktion aus Algorithmus 5-2 ersetzt, zeigt Algorithmus 5-3. 
Falls der Agent sich auf dem Knoten befindet, auf dem der zu kompensierende Schritt ausge-
führt wurde, dann können alle Kompensationsoperationen lokal ausgeführt werden (1)1. Ist dies
nicht der Fall, muß für jeden Log-Eintrag anhand des Eintragstyps entschieden werden, wie mit
dem Eintrag zu verfahren ist (8). Agentenkompensationseinträge werden lokal ausgeführt (9). 
Bei Ressourcenkompensationseinträgen wird der Eintrag mitsamt dem Bezeichner der aktuel-
len Rücksetztransaktion auf den Knoten geschickt, auf dem der zu kompensierende Schritt aus-
geführt wurde (10). Dieser Knoten, im folgenden Ressourcenknoten genannt, wurde dem end-
of-step-Eintrag des zu kompensierenden Schrittes entnommen (3). Es wird gewartet, bis die
Vollendung der Ausführung des Ressourcenkompensationseintrages bestätigt wird. Empfängt
ein Knoten einen Ressourcenkompensationseintrag, dann wird die darin enthaltene Kompensa-
tionsoperation im Kontext der Transaktion, deren Bezeichner mit übertragen wurde, ausgeführt
und danach eine Bestätigung zurückgeschickt (14). 
1. Die Zahlen in Klammern beziehen sich auf die Fall-Numerierungen in Algorithmus 5-3
200 Kapitel 5   Partielles RücksetzenAlgorithmus 5-3. Ausführung unterschiedlicher Operationseintragstypen
rollbackOneStep(Agent a, Log log, SpID spID, 
ResumeObject r_post){
entry = log.pop() // end-of-step
if (entry.stepExecutionNode()==nodeId){ (1)
entry=log.pop()
while (entry≠begin-of-step){
entry.compensate()
entry=log.pop()
}
}else{ (2)
remoteCompensation(log, 
entry.stepExecutionNode()) (3)
}
if (last entry in log is savepoint){ (4)
restore strongly reversible objects
if (savepoint spID not reached){
log.pop() // sp not needed anymore
}
}
if (savepoint spID reached){ (5)
target=localNodeInputQueue
}else{
entry = last end-of-step entry in log
if (
entry.stepHasMixedCompensationObjectI()){
target = entry.stepExecutionNode() (6)
}else{
target = localNodeInputQueue (7)
} }
Write(a,log,spID,r_post) To target
}
remoteCompensation(Log log, Node n){ (8)
entry=log.pop()
while (entry≠begin-of-step){
if (entry is AgentCompensationObject){ (9)
entry.compensate()
}elsif(entry is 
ResourceCompensationObject){ (10)
Send (entry, transactionId, nodeId) 
To n
Receive(acknowledgement) From n
}else{ // MixedCompensationObjectII (11)
if (entry.hasPre()){entry.pre()} (12)
Send(entry, transactionId) To n
if (entry.hasPost()){ (13)
Receive(entry) From n
entry.post()
}else{
Receive(acknowledgement)
From n
}
}
entry=log.pop()
} // while
}
a. Ausführung von Einträgen auf dem aktuellen Aufenthaltsknoten des Agenten
Receive(ResourceCompensationObject r,
TransactionId tId, fromNode n){ (14)
register with transaction manager for tId
r.compensate()
Send (acknowledgement) To n
}
Receive(MixedCompensationObjectII r,
TransactionId tId, fromNode n){
register with transaction manager for tId
r.compensate()
if (r.hasPost()){
Send(r) To n (15)
}else{
Send(acknowledgement) To n (16)
}
}
b. Ausführung von Einträgen auf Ressourcenknoten
5.5 Optimierungen 201Die Ausführung gemischter Kompensationseinträge Typ II geschieht analog (11), jedoch wird
vor dem Versenden des Eintrages noch die pre()-Methode ausgeführt (12). Besitzt der Kompen-
sationseintrag eine post()-Methode, schickt der Ressourcenknoten nach der Ausführung der
compensate()-Methode den Kompensationseintrag zurück (15), damit die post()-Methode auf
dem den Kompensationsschritt ausführenden Knoten lokal ausgeführt werden kann (13). Be-
sitzt der Kompensationseintrag keine post()-Methode, schickt der ResourceNode eine Ausfüh-
rungsbestätigung (16). 
Nach der Ausführung der Kompensationsoperationen werden wie in Algorithmus 5-2 eventuell
noch die stark reversiblen Objekte zurückgesetzt (4). Danach muß entschieden werden, ob ein
Transport des Agenten notwendig ist oder ob er in die lokale Eingangswarteschlange geschrie-
ben werden kann. Ist das Ziel des Rücksetzens erreicht, so wird der Agent in die lokale Ein-
gangswarteschlange geschrieben (5). Müssen weitere Schritte zurückgesetzt werden, dann wird
geprüft, ob der nächste zurückzusetzende Schritt einen gemischten Ressourcenkompensations-
eintrag Typ I enthält. Damit dies einfach geprüft werden kann, wird diese Information schon bei
der Ausführung des Schrittes im end-of-step-Eintrag vermerkt. Enthält der nächste Schritt einen
gemischten Kompensationseintrag Typ I, so ist ein Transport notwendig (6), ansonsten nicht (7). 
Das Verschicken einzelner Einträge führt zusätzliche Fehlerquellen ein. Nach dem in Abschnitt
4.1.3 beschriebenen Fehlermodell kann der Knoten, zu dem die Einträge verschickt werden,
ausfallen und es können Netzwerkpartitionierungen (mit unbemerktem Verlust von Nachrich-
ten) auftreten, sodaß sich der Agent und Ressourcen in unterschiedlichen Partition befinden.
Treten diese Fehler auf, erhält der Knoten, auf dem sich der Agent aufhält, keine Bestätigung
über die Ausführung der verschickten Einträge (bzw. das Resultat der Ausführung von gemisch-
ten Kompensationseinträgen Typ II). Eine einfache Lösung, die sicherstellt, daß die Kompensa-
tionsoperationen genau einmal ausgeführt werden, besteht darin, daß während des Wartens auf
eine Ausführungsbestätigung bzw. auf ein Resultat periodisch eine Anfrage verschickt wird, ob
die Einträge gerade noch ausgeführt werden. Im Falle einer negativen Antwort auf diese Anfra-
ge bzw. des Ausbleibens einer Antwort wird einfach die Transaktion, innerhalb der die Kom-
pensationsoperationen ausgeführt werden, abgebrochen und das Rücksetzen des gerade bear-
beiteten Schrittes erneut gestartet.
Die in Algorithmus 5-3 vorgestellte Art der Ausführung nutzt nur einen kleinen Teil des durch
die verschiedenen Eintragstypen vorhandenen Potentials – nämlich die örtliche Trennung der
Kompensation des Agenten und der Ressourcen – und ist deshalb nur in Ausnahmefällen effi-
zient. Nicht ausgenutzt wird die Tatsache, daß die in den verschiedenen Eintragstypen enthalte-
nen Operationen teilweise auf disjunkten Datenräumen arbeiten und daher unabhängig vonein-
ander ausgeführt werden können. Deshalb ist beispielsweise die Ausführungsreihenfolge von
einem Agentenkompensationseintrag und einem Ressourcenkompensationseintrag unabhängig
von der Reihenfolge, in der diese beiden Einträge im Log erscheinen. Für den Fall, daß das
Rücksetz-Log für einen Schritt nur Agenten- und Ressourcenkompensationseinträge enthält,
bedeutet dies, daß beim Rücksetzen des Schrittes nur darauf geachtet werden muß, daß die
202 Kapitel 5   Partielles RücksetzenAgentenkompensationseinträge in der durch das Rücksetz-Log definierten Reihenfolge ausge-
führt werden und ebenso die Ressourcenkompensationseinträge. Dadurch wird es möglich, alle
Ressourcenkompensationseinträge gesammelt auf den Knoten zu schicken, auf dem der zu
kompensierende Schritt ausgeführt wurde. Aus Sicht der Kompensationsoperationen ist es so-
gar möglich, zuerst alle Ressourcenkompensationseinträge zu verschicken und dann die Agen-
tenkompensationseinträge parallel zu den Ressourcenkompensationseinträgen abzuarbeiten. 
Etwas komplexer stellt sich die Situation dar, wenn das Rücksetz-Log für einen Schritt zusätz-
lich gemischte Kompensationseinträge Typ II enthält. Abbildung 5-8 zeigt ein Beispiel für ein
solches Rücksetz-Log. Die Abbildung zeigt die zu einem Schritt gehörenden Operationseinträ-
ge des Rücksetz-Logs in der Reihenfolge, in der die Einträge beim Rücksetzen abzuarbeiten
sind, d.h. E1 muß zuerst abgearbeitet werden. Durch die enthaltenen Kompensationseinträge
Typ II werden zwischen der Kompensation des Agentenzustandes und der Kompensation der
Ressourcen Abhängigkeiten eingeführt. Durch diese Abhängigkeiten ergeben sich für die Ab-
arbeitung der Rücksetz-Log-Einträge eines Schrittes die folgenden Randbedingungen:
• Ein Agentenkompensationseintrag kann dann abgearbeitet werden, wenn alle Operationen,
die den Zustand des Agenten ändern und die laut Rücksetz-Log vor diesem Kompensations-
eintrag ausgeführt werden müssen, bereits ausgeführt sind. Damit ein Agentenkompensati-
onseintrag ausgeführt werden kann, müssen daher die folgenden drei Bedingungen erfüllt
sein:
- Die laut Rücksetz-Log vorher auszuführenden Agentenkompensationseinträge müssen
bereits abgearbeitet worden sein. In Abbildung 5-8 muß beispielsweise der Eintrag E1 ab-
gearbeitet worden sein bevor E2 abgearbeitet wird.
- Die laut Rücksetz-Log vorher auszuführenden gemischten Kompensationseinträge Typ II,
welche eine Nachoperation besitzen müssen bereits abgearbeitet worden sein. Um den
Agentenkompensationseintrag E6 aus Abbildung 5-8 ausführen zu können muß also zu-
vor die Nachoperation von Eintrag E5 und damit der gesamte Eintrag E5 ausgeführt wor-
den sein.
Abbildung 5-8. Beispiel-Log mit verschiedenen Operationseintragstypen
A R GN A VGN GNR AVGN AVG AA A
E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E11 E14E13E12
R
A Agentenkompensationseintrag
R Ressourcenkompensationseintrag
VGN Gemischter Kompensationseintrag Typ II mit 
Voroperation (V) und Nachoperation(N)
abarbeiten
5.5 Optimierungen 203- Von den laut Rücksetz-Log vorher auszuführenden gemischten Kompensationseinträgen
Typ II, welche eine Voroperation besitzen, muß zumindest die Voroperation bereits aus-
geführt worden sein. Für das Beispiel in Abbildung 5-8 bedeutet dies, daß der Agenten-
kompensationseintrag E4 erst ausgeführt werden kann, wenn die Voroperation von E3 be-
reits ausgeführt wurde. Die Hauptoperation von E3 hingegen muß zur Ausführungszeit
von E4 noch nicht ausgeführt worden sein, da diese per Definition den Datenzustand des
Agenten nicht ändert.
• Ein Ressourcenkompensationseintrag kann erst dann auf den Knoten der Ressourcen ge-
schickt werden, wenn die laut Rücksetz-Log vor ihm abzuarbeitenden Ressourcenkompen-
sationseinträge bzw. gemischten Kompensationseinträge Typ II schon verschickt wurden
oder mit ihm zusammen verschickt werden, da auf dem Knoten der Ressourcen diese beiden
Eintragstypen in der durch das Rücksetz-Log definierten Reihenfolge abgearbeitet werden
müssen. Um beispielsweise den Ressourcenkompensationseintrag E10 aus Abbildung 5-8
verschicken zu können, müssen die Einträge E3, E5 und E7 schon verschickt worden sein
bzw. mit ihm verschickt werden, da diese Einträge schon abgearbeitet sein müssen, bevor E10
abgearbeitet werden kann.
• Ein gemischter Kompensationseintrag Typ II kann erst dann auf den Knoten der Ressourcen
geschickt werden, wenn die laut Rücksetz-Log vor ihm abzuarbeitenden Ressourcenkom-
pensationseinträge bzw. gemischten Kompensationseinträge Typ II schon verschickt wurden
oder mit ihm zusammen verschickt werden. Für den Eintrag E11 aus Abbildung 5-8 bedeutet
dies, daß E3, E5, E7 und E10 vor oder mit ihm zusammen verschickt werden müssen. Hat ein
gemischter Kompensationseintrag Typ II eine Voroperation, so müssen vor der Ausführung
der Voroperation (und daher vor dem Verschicken des Eintrages) alle laut Rücksetz-Log vor
ihm abzuarbeitenden Agentenkompensationseinträge (z.B. E1 und E2 vor E3) und gemisch-
ten Kompensationseinträge Typ II, welche eine Nachoperation besitzen, abgearbeitet sein.
Außerdem müssen die Voroperationen aller vor ihm abzuarbeitenden gemischten Kompen-
sationseinträge Typ II bereits abgearbeitet sein (Voroperation von E3 vor Voroperation von
E5). Dies stellt sicher, daß die Voroperation bei der Ausführung den korrekten Zustand des
Agenten vorfindet.
• Auf dem Knoten der Ressourcen müssen Ressourcenkompensationseinträge und gemischte
Kompensationseinträge Typ II in der durch das Rücksetz-Log definierten Reihenfolge abge-
arbeitet werden.
Diese Randbedingungen spannen den Raum der potentiellen Ausführungsmöglichkeiten auf,
innerhalb dem optimiert werden kann. Beim Einsatz dieser Optimierung ändert sich die Seman-
Abbildung 5-8. (Wdh.) Beispiel-Log mit verschiedenen Operationseintragstypen
A R GN A VGN GNR AVGN AVG AA A
E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E11 E14E13E12
R
204 Kapitel 5   Partielles Rücksetzentik des Rücksetzens geringfügig. Während beim ursprünglichen Mechanismus die Funktion
rpost immer auf dem Knoten ausgeführt wird, auf dem der zuletzt kompensierte Schritt ur-
sprünglich ausgeführt wurde, wird sie nun auf dem Knoten ausgeführt, auf dem die letzten
Kompensationsoperationen ausgeführt wurden. Dies entspricht jedoch immer noch dem Mo-
dell, welches aussagt, daß rpost auf einem beliebigen Knoten ausgeführt werden kann.
Unter Berücksichtigung dieser Randbedingungen gibt es viele Möglichkeiten, die Operations-
einträge des Rücksetz-Logs aus Abbildung 5-8 abzuarbeiten. Eine Möglichkeit der Abarbeitung
besteht darin, zuerst die Agentenkompensationseinträge E1 und E2, die Voroperation von E3,
den Agentenkompensationseintrag E4 und die Voroperation von E5 auszuführen. Danach kön-
nen alle Ressourcenkompensationseinträge und gemischten Kompensationseinträge Typ II auf
einmal zum Knoten mit den Ressourcen verschickt und dort in der Reihenfolge E3, E5, E7, E10,
E11, E13, E14 ausgeführt werden. Hierbei werden von den gemischten Kompensationseinträgen
nur die Hauptoperationen ausgeführt. Als Ergebnis werden die gemischten Kompensationsein-
träge E5, E11 und E14 zurückgeschickt. Nachdem das Ergebnis angekommen ist, werden die
Nachoperation von E5, die Agentenkompensationseinträge E6, E8 und E9, die Nachoperation
von E11, der Eintrag E12 und die Nachoperation von E14 ausgeführt. In diesem Fall werden also
nur einmal Operationseinträge zum Knoten mit den Ressourcen verschickt und auch nur eine
Antwort bestehend aus mehreren Operationseinträgen zurückgeschickt. Im Vergleich zur Aus-
führung mit dem einfachen Algorithmus 5-3, bei der jeder Ressourcenkompensationseintrag
und jeder gemischte Kompensationseintrag einzeln verschickt worden wäre, wird hier also
mehrfach die Kommunikationsverzögerung (engl.: delay) zwischen den Knoten eingespart.
Weitere Ausführungsmöglichkeiten ergeben sich, wenn man die Möglichkeit ausnutzt, Kom-
pensationsoperationen auf Ressourcen und Agent parallel auszuführen. Dies ist vor allem dann
sinnvoll, wenn die Agentenkompensationseinträge sehr rechen- und daher zeitintensiv sind. Ab-
bildung 5-9 zeigt eines der möglichen Szenarien der parallelen Abarbeitung des Rücksetz-Logs
aus Abbildung 5-8. Nach der Ausführung der Einträge E1 und E2 und der Ausführung der Vor-
operation von Eintrag E3 wird der Eintrag E3 bereits zum Knoten mit den Ressourcen geschickt.
Dort kann E3 dann schon ausgeführt werden, während lokal der Eintrag E4 und die Voroperation
von E5 ausgeführt werden. Danach können die Einträge E5, E7, E10, E11, E13, E14 zum Knoten
mit den Ressourcen verschickt werden. Diese werden dort abgearbeitet während lokal die rest-
lichen Agentenkompensationseinträge bzw. die Nachoperationen der gemischten Kompensati-
onseinträge ausgeführt werden. Da die Nachoperationen immer erst dann lokal abgearbeitet
werden können, sobald das Ergebnis der jeweiligen Hauptoperation vorliegt, werden die Ergeb-
nisse immer sofort nach Abschluß der Hauptoperation verschickt. Für den Eintrag  E5 heißt dies
Abbildung 5-8. (Wdh.) Beispiel-Log mit verschiedenen Operationseintragstypen
A R GN A VGN GNR AVGN AVG AA A
E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E11 E14E13E12
R
5.5 Optimierungen 205beispielsweise, das nach der Ausführung der Hauptoperation auf dem Knoten mit den Ressour-
cen der Operationseintrag sofort wieder zum den Kompensationsschritt ausführenden Knoten
verschickt wird, damit dort die lokale Verarbeitung mit der Ausführung der Nachoperation von
E5 fortgesetzt werden kann.
Um die optimale Ausführungsstrategie zu ermitteln, müssen anhand der Randbedingungen
prinzipiell sämtliche möglichen Ausführungsmöglichkeiten bestimmt werden, mittels des Ko-
stenmaßes die Kosten für die verschiedenen Möglichkeiten berechnet werden, die gemäß Ko-
stenmaß optimale Möglichkeit ausgewählt und mit der Lösung “Migration zum Knoten, auf
dem die Ressourcen kompensiert werden müssen” verglichen werden. Als Ergebnis erhält man
dann die Entscheidung, ob der Agent migriert werden soll und, wenn diese mit “nein” ausfällt,
auch die Strategie, wie die Operationseinträge auszuführen sind. Diese Optimierung kann sepa-
rat für jeden zu kompensierenden Schritt geschehen, d.h. für jeden Schritt wird separat entschie-
den, ob der Agent für die Kompensation dieses Schrittes migrieren muß. Hierdurch wird ein lo-
kales Optimum erreicht wird. Alternativ kann über alle rückzusetzenden Schritte gemeinsam
optimiert werden, wodurch ein globales Optimum erreicht werden kann.
5.5.1.3 Algorithmus
Die Ermittlung der optimalen Ausführungsstrategie für den allgemeinen Fall ist sehr komplex.
Daher wird in diesem Abschnitt ein optimierter Algorithmus entwickelt dem die Annahme zu-
grunde liegt, daß der Aufwand für die Durchführung der Kompensationsoperationen auf den
Agentenzustand im Vergleich zum Aufwand für globale Kommunikation im allgemeinen ver-
nachlässigt werden kann. Diese Annahme wird durch die sich aus der Definition der schwach
reversiblen Objekte ergebende Vermutung gestützt, daß ein großer Teil der möglichen Anwen-
dungen keine oder nur wenige schwach reversiblen Objekte verwendet und daher wenig Re-
chenaufwand für die lokal beim Agenten durchzuführenden Kompensationsoperationen ent-
steht.
Abbildung 5-9. Parallele Ausführung von Agenten- und Ressourcenkompensation
E1 E2 V(E3) E4 V(E5) N(E5) E6 E8 E9 N(E11) E12 N(E14)
E5, E7, E10E3 E11, E13, E14
E5
E3 E5 E7 E10 E11 E13 E14
E11 E14
t
t
K1
K2
K1: Knoten, der Kompensationsschritt ausführt
K2: Knoten mit den zu kompensierenden Ressourcen
Ex: Ausführung der (Haupt-)Operation von Eintrag Ex 
V(x): Ausführung der Voroperation von Eintrag x
N(x): Ausführung der Nachoperation von Eintrag x
bzw. Transport von Ex auf anderen Knoten
206 Kapitel 5   Partielles RücksetzenAlgorithmus 5-4 zeigt eine auf dieser Annahme basierende optimierte Implementierung der
remoteCompensation(..)-Methode aus Algorithmus 5-3. Diese Methode ist für die Ausführung
der Operationseinträge zuständig, wenn sich Agent und zu kompensierende Ressourcen nicht
auf dem selben Knoten befinden. Ziel der Optimierung ist, möglichst selten mit dem Ressour-
cenknoten zu kommunizieren. Dies wird erreicht, indem immer möglichst viele Ressourcenein-
träge und gemischte Kompensationseinträge Typ II gemeinsam zum Ressourcenknoten ver-
schickt werden.
Die Funktionsweise wird anhand des Logs aus Abbildung 5-10 erläutert. Der dort abgebildete
Ausschnitt des Logs stellt die Operationseinträge eines einzelnen Schrittes in der Reihenfolge
dar, in der sie zur Kompensation des Schrittes ausgeführt werden müssen.
Der Algorithmus besteht aus drei Phasen, die zyklisch durchlaufen werden. In einer ersten Pha-
se des Algorithmus wird versucht, möglichst viel Einträge lokal abzuarbeiten. Dazu wird für je-
den einzelnen Eintrag entschieden, wie mit diesem zu Verfahren ist. Agentenkompensationsein-
träge können sofort lokal abgearbeitet werden (1)1. Eintrag E1 aus Abbildung 5-10 wird also
sofort lokal abgearbeitet. Eintrag E2, der ein Ressourcenkompensationseintrag ist, wird zum
Verschicken auf den Ressourcenknoten vorgemerkt (2) – unter der Voraussetzung, daß er dort
nicht schon ausgeführt worden ist (siehe weiter unten).
Die Behandlung von gemischten Kompensationseinträgen Typ II hängt davon ab, ob deren
Hauptoperation schon auf dem Ressourcenknoten ausgeführt wurde. Wurde die Hauptoperation
schon ausgeführt (7), dann wird, falls vorhanden, noch die Nachoperation des Eintrages ausge-
führt (8).
Wurde die Hauptoperation noch nicht ausgeführt (3), dann wird der Eintrag zum Verschicken
auf den Ressourcenknoten vorgemerkt (5). Zuvor wird jedoch noch, falls vorhanden, die Voro-
peration des Eintrages ausgeführt. Da dies auf Eintrag E3 zutrifft, wird also dessen Voroperation
ausgeführt und der Eintrag zum Verschicken vorgemerkt. Besitzt ein solcher Eintrag noch eine
Nachoperation, dann beendet dies die Phase der lokalen Ausführung (6), da zur Ausführung der
1. Die Zahlen in Klammern beziehen sich auf die Fall-Numerierungen in Algorithmus 5-4
Abbildung 5-10. Beispiel-Log mit verschiedenen Operationseintragstypen
GN A VGN A VGN GNR AA VGNVG AA R
E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E11 E14E13E12
R
A Agentenkompensationseintrag
R Ressourcenkompensationseintrag
VGN Gemischter Kompensationseintrag Typ II mit 
Voroperation (V) und Nachoperation(N)
abarbeiten
5.5 Optimierungen 207Algorithmus 5-4. Optimierte Ausführung unterschiedlicher Operationseintragstypen
remoteCompensation(Log log, Node n){
entries = array of operation entries for this step in
execution order
nrEntries = number of elements in entries
i = 0
do{
toSend = ∅
stop = false
do{
if (entries[i] is 
AgentCompensationObject){ (1)
entries[i].compensate()
i++
}else if (entries[i] is 
ResourceCompensationObject){
if (entries[i] not already executed){
toSend = toSend + entries[i] (2)
}
i++
}else{ // MixedCompensationObjectII
if (main operation of entries[i] not yet
executed){ (3)
if (entries[i].hasPre()){ (4)
entries[i].pre()
}
toSend = toSend + entries[i] (5)
if (not entries[i].hasPost()){
i++
}else{
stop=true (6)
}
}else{// main operation executed (7)
if (entries[i].hasPost()){ (8)
entries[i].post()
}
i++
} }
}while( (i≠nrEntries) and not stop) (9)
j=i+1
stop = false
while ((j<nrEntries) and not stop){ (10)
if (entries[j] is 
ResourceCompensationObject){
toSend = toSend + entries[j] (11)
}else if (entries[j] is 
MixedCompensationObjectII){
if (entries[i].hasPre()){
stop=true (12)
}else{ (13)
toSend = toSend + entries[j] 
} }
j++
}
if (toSend ≠ ∅){
Send (entries in toSend, transactionId,
nodeId) To n (14)
Receive(answers) From n (15)
if (answers≠0){
copy mixed compensation objects II 
from answers to entries(16)
} }
}while (i<nrEntries) (17)
remove all entries of the step from log
}
a. Ausführung von Einträgen auf dem aktuellen Aufenthaltsknoten des Agenten
Receive (OperationEntries e,
TransactionId tId, fromNode n){
register with transaction manager for tId
answers = ∅
for (i=0; i<number entries in e; i++){
e[i].compensate() (18)
if ((e[i] is MixedCompensationObjectII)
and e[i].hasPost()){
answers = answers + e[i] (19)
} }
Send (entries in answers) To n (20)
}
b. Ausführung von Einträgen auf Ressourcenknoten
208 Kapitel 5   Partielles RücksetzenNachoperation eines Eintrages zuerst dessen Hauptoperation abgeschlossen sein muß. Die erste
Phase wird auch abgeschlossen, wenn alle lokal durchzuführenden Kompensationsoperationen
(inklusive aller Nachoperationen) ausgeführt und die noch nicht vollständig ausgeführten Ein-
träge zum Versenden vorgemerkt sind (9).
Für das Log aus Abbildung 5-10 bedeutet dies, daß die Agentenkompensationseinträge E4 und
E5 und dann noch die Voroperation von Eintrag E6 ausgeführt werden und E6 zum Versenden
vorgemerkt wird.
In der zweiten Phase wird nun untersucht, ob zusätzlich zu den schon vorgemerkten Knoten
weitere Einträge mit verschickt werden können (10). Dazu wird das Log weiter linear nach Res-
sourcenkompensationseinträgen und gemischten Kompensationseinträgen Typ II untersucht.
Ressourcenkompensationseinträge werden zum Versenden vorgemerkt (11). Bei gemischten
Kompensationseinträgen muß man unterscheiden. Besitzt der Kompensationseintrag eine Vor-
operation, so kann dieser nicht mit versendet werden, da hierzu zuerst die Voroperation ausge-
führt werden muß. In diesem Fall wird das Durchsuchen des Logs abgebrochen, da die Reihen-
folge der Kompensationsoperationen auf die Ressourcen gewahrt werden muß (12).
Besitzt der gemischte Kompensationseintrag jedoch nur eine Nachoperation, dann kann er
ebenfalls für das Verschicken vorgemerkt werden (13). Die Nachoperation wird dann in der er-
sten Phase des nachfolgenden Zyklus ausgeführt. 
Für das Log aus Abbildung 5-10 bedeutet dies, daß der Ressourceneintrag E7 und der gemischte
Kompensationseintrag E9 zusätzlich zum Versenden vorgemerkt werden. Der Eintrag E11 been-
det die zweite Phase.
In der dritten Phase werden die in den ersten beiden Phasen zum Versenden vorgemerkten Ein-
träge zum Ressourcenknoten verschickt (14). Dort werden die Kompensationsoperationen aus-
geführt (18). Gemischte Kompensationseinträge Typ II mit Nachoperation werden dabei zum
Rücksenden vorgemerkt (19). Nachdem alle Einträge abgearbeitet sind, werden die (ausgeführ-
ten) gemischten Kompensationseinträge Typ II zu dem Knoten zurückgeschickt, der den Kom-
pensationsschritt ausführt (20). Dort angekommen, werden sie an ihre ursprüngliche Stelle im
Log kopiert (16).
Sind jetzt noch nicht alle Einträge des Logs abgearbeitet, wird wieder mit der ersten Phase be-
gonnen. Für das Beispiel aus Abbildung 5-10 bedeutet dies, daß zuerst die Nachoperation des
Eintrages E6 ausgeführt wird. Eintrag E7 wird ignoriert, da die Kompensationsoperation schon
ausgeführt wurde. Eintrag E8 wird ausgeführt, ebenso die Nachoperation des Eintrags E9, des-
sen Hauptoperation schon ausgeführt wurde. Nach Ausführung von E10 wird noch die Vorope-
Abbildung 5-10. (Wdh.) Beispiel-Log mit verschiedenen Operationseintragstypen
GN A VGN A VGN GNR AA VGNVG AA R
E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E11 E14E13E12
R
5.5 Optimierungen 209ration des Eintrages E11 ausgeführt und dieser zum Versenden markiert. Durch die Nachopera-
tion von E11 ist dann auch die erste Phase des zweiten Zyklus beendet. In der zweiten Phase
werden noch E13 und E14 zum Versenden vorgemerkt und alle vorgemerkten Einträge werden
dann in der dritten Phase verschickt und auf dem Ressourcenknoten ausgeführt. Da immer noch
nicht alle Einträge abgearbeitet sind, wird ein dritter Zyklus gestartet. Hier werden nur noch die
restlichen auszuführenden Operationen (Nachoperation von E11, Agentenkompensationseintrag
E12 und Nachoperation von E14) ausgeführt. Danach sind alle Operationseinträge vollständig
abgearbeitet. Abbildung 5-11 zeigt die vom optimierten Algorithmus erzeugte Ausführungsse-
quenz im Überblick.
Die hier vorgestellte Erweiterung von Algorithmus 5-3 stellt nur eine optimierte Ausführung für
den Fall der Ausführung des Kompensationsschrittes auf einem anderen Knoten als dem Res-
sourcenknoten bereit. Ist jedoch trotz dieser Optimierung umfangreiche Kommunikation mit
dem Ressourcenknoten notwendig, wäre es möglicherweise effizienter, den Agenten zum Res-
sourcenknoten zu migrieren und die gesamte Kompensation dort durchzuführen. Dies kann be-
rücksichtigt werden, indem bei der Entscheidung, ob der Agent für den nächsten Kompensati-
onsschritt migriert werden soll, nicht nur die Existenz bzw. Nichtexistenz eines gemischten
Kompensationseintrages Typ I als Kriterium dient (vgl. Algorithmus 5-3). Vielmehr muß mit ei-
ner Abwandlung des vorgestellten Mechanismus eine Ausführungsreihenfolge der Kompensa-
tionsoperationen inklusive der dabei notwendigen Kommunikation bestimmt werden und dafür
mittels eines Kostenmaßes die Kosten berechnet werden. Diese können dann gegen die mit
demselben Kostenmaß errechneten Kosten verglichen werden, welche bei Migration und loka-
ler Ausführung der Kompensation entstehen würden.
Abbildung 5-11. Optimierte Ausführung von Agenten- und Ressourcenkompensation
E1V(E3)E4E5V(E6) N(E6)E8N(E9)E10V(E11) N(E11)E12N(E14)
E2, E3, E6
E7, E9
E6
E2E3E6E7E9 E11E13E14
t
t
K1
K2
K1: Knoten, der Kompensationsschritt ausführt
K2: Knoten mit den zu kompensierenden Ressourcen
Ex: Ausführung der (Haupt-)Operation von Eintrag Ex 
V(x): Ausführung der Voroperation von Eintrag x
N(x): Ausführung der Nachoperation von Eintrag x
bzw. Transport von Ex auf anderen Knoten
E11, E13, E14 E11, E14
210 Kapitel 5   Partielles Rücksetzen5.5.2 Reduzierung der Größe des Rücksetz-Logs
Durch das Anhängen des Rücksetz-Logs an den Agenten wird selbst während der normalen
Ausführung des Agenten Mehraufwand erzeugt. Neben dem Zeitaufwand zum Schreiben der
Logeinträge ergibt sich durch das Log ein erhöhter Speicherbedarf auf dem Rechner und eine
erhöhte Netzwerkbelastung bei der Migration des Agenten. Abhängig von der Anwendung kann
dieser Mehraufwand erheblichen Umfang annehmen. Ziel dieses Abschnitts ist es, durch Redu-
zierung der Größe des Rücksetz-Logs den erzeugten Mehraufwand zu vermindern.
Eine Reduzierung der Größe des Logs kann im wesentlichen nur erreicht werden, indem die An-
zahl der Rücksetz-Zielpunkte eingeschränkt wird. Soll ein Agent auf den Zustand der Ausfüh-
rung nach einem Schritt S zurückgesetzt werden können, so muß nach der Ausführung von
Schritt S ein Rücksetzpunkteintrag ins Log geschrieben werden, welcher den möglicherweise
sehr umfangreichen Zustand der stark reversiblen Objekte enthält. Wird darauf verzichtet, auf
diesen Punkt zurückzusetzen, so entfällt der Rücksetzpunkteintrag. Diese Möglichkeit, den
Umfang des Logs zu beschränken ist schon im in Abschnitt 5.3 vorgestellten Modell enthalten.
Eine einfache Erweiterung dieser Möglichkeit ist, zu einem späteren Zeitpunkt nachträglich ei-
nen Rücksetzpunkteintrag aus dem Log zu entfernen, wenn festgestellt wird, daß dieser Rück-
setzpunkt nicht mehr benötigt wird. Bei der Verwendung von Zustands-Logging ist dies kein
Problem, da jeder Rücksetzpunkt die vollständigen, zum Restaurieren der stark reversiblen Ob-
jekte notwendigen Informationen besitzt. Wird hingegen Übergangs-Logging verwendet, so
muß der zu entfernende Rücksetzpunkt in einen der beiden Nachbar-Rücksetzpunkte eingear-
beitet werden – wodurch im ungünstigsten Fall kein oder nur sehr wenig Speicher eingespart
wird.
Ein Sonderfall des nachträglichen Löschens von Rücksetzpunkteinträgen wird anhand eines
Beispiellogs in Abbildung 5-12 illustriert, welches die Einträge in der Reihenfolge ihres Einfü-
gens darstellt. Stellt die Anwendung fest, daß es auf keinen Fall mehr notwendig sein wird, auf
den zum Start der Anwendung geschriebenen Rücksetzpunkt RP1 zurückzusetzen, kann dieser
gelöscht werden. Da nur auf Rücksetzpunkte zurückgesetzt werden kann, werden durch das Lö-
schen von RP1 alle Log-Einträge bis zum nächsten Rücksetzpunkt, im Beispiel RP2, überflüssig
und können gelöscht werden. Aus Anwendungssicht bedeutet dies, daß die Feststellung getrof-
fen wurde, daß es bei der weiteren Ausführung des Agenten nicht mehr notwendig sein wird,
auf einen Punkt vor Rücksetzpunkt RP2 zurückzusetzen und daß die deshalb nicht mehr benö-
tigten Teile des Rücksetz-Logs verworfen werden können. Hierdurch kann die Größe des Logs
wesentlich reduziert werden.
Unglücklicherweise verkompliziert diese Optimierung die ohnehin schon komplizierte Aufga-
be, die Rücksetzpunkte manuell in der Anwendung zu verwalten. Der folgende Abschnitt stellt
eine komfortablere Lösung zur Verwaltung der Rücksetzpunkte vor, in die sich die vorgestellte
Optimierung einfach integrieren läßt.
5.6 Verwaltung von Rücksetzpunkten 2115.6 Verwaltung von Rücksetzpunkten
Die Verwaltung der Agenten-Rücksetzpunkte durch den Anwendungsentwickler kann bei kom-
plexeren Anwendungen recht kompliziert werden: es muß entschieden werden, wann ein Rück-
setzpunkt zu setzen ist und im Falle des Rücksetzens muß der richtige Rücksetzpunkt gefunden
werden, auf den zurückgesetzt werden soll. Besonders aufwendig kann dies werden, wenn
durch die Verwendung des in Abschnitt 3.2 vorgestellten Reiseroutenkonzeptes die Ausführung
der Schritte des Agenten in vielen verschiedenen Reihenfolgen möglich wird.
Gerade dieses Reiseroutenkonzept bietet jedoch auch die Möglichkeit, die Verwaltung der
Rücksetzpunkte zu vereinfachen. Eine der wesentlichen Eigenschaften des Reiseroutenkonzep-
tes ist es, durch Schachtelung mehrere Teilaufgaben des Agenten zu einer umfangreicheren
Teilaufgabe in Form eines Reiserouten-Eintrages zusammenzufassen und damit eine Hierarchie
von auszuführenden Teilaufgaben aufzubauen. Soll die Ausführung des Agenten partiell zu-
rückgesetzt werden, ist es sehr wahrscheinlich, daß die gesamte gerade ausgeführte Teilaufgabe
oder sogar eine der weiter oben in der Hierarchie angesiedelten Teilaufgaben zurückgesetzt
werden soll. In der in Abschnitt 3.2 eingeführten Terminologie bedeutet dies entweder, daß die
Ausführung des Reiserouten-Eintrags, in dem der momentan ausgeführte Basis-Eintrag direkt
enthalten ist, zurückgesetzt werden soll oder daß die Ausführung eines der weiter oben in der
Hierarchie angesiedelten Reiserouten-Einträge, welcher den momentan ausgeführten Basis-
Eintrag indirekt beinhaltet, zurückgesetzt werden soll. 
Abbildung 5-12. Löschen des ersten Rücksetzpunktes eines Logs
Ex - Log-Eintrag
RPx - Rücksetzpunkteintrag
BSx - begin-of-step-Eintrag
OEx - Operationseintrag
ESx - end-of-step-Eintrag
BS1
E2
OE1,1
E3
OE1,2
E4
BS2
Ep+5
OE2,1
Ep+6
... OE2,q
Ep+q+5
RP2
Ep+4
ES1
Ep+3
OE1,p
Ep+2
...RP1
E1
ES2
Ep+q+6
....
Löschen von RP1
BS2
E2
OE2,1
E3
... OE2,q
Ep+2
RP2
E1
ES2
Ep+3
....
abarbeiten anfügen
212 Kapitel 5   Partielles RücksetzenAbbildung 5-13 zeigt anhand einer Beispiel-Reiseroute ℜ eine durch Reiserouten-Einträge ge-
bildete Hierarchie von Teilaufgaben. Die Vorbedingungen und Prioritäten der Reiseroute wer-
den in der Abbildung nicht dargestellt. Der Agent hat die Aufgabe, ein Fest zu organisieren.
Hierbei stehen mehrere verschiedene Daten zur Auswahl, an denen das Fest stattfinden kann.
Diese Aufgabe ist in zwei größere Teilaufgaben gegliedert. Im Reiserouten-Eintrag R1 werden
die essentiellen Aufgaben wie Festhalle buchen sowie Verpflegung und Getränke bestellen er-
ledigt. Erst nachdem dies erledigt ist und der Termin für das Fest endgültig feststeht, wird der
Rest der Organisation, z.B. das Buchen eines Alleinunterhalters bei einer Künstleragentur, im
Eintrag R4 durchgeführt. Nachdem in Basis-Eintrag B1 die Festhalle gebucht wird, werden in
R2 die Verpflegung und in R3 die Getränke geordert. Da schon im voraus bekannt ist, daß sowohl
keiner der in Frage kommenden Party-Services die gesamte gewünschte Verpflegung als auch
keine der Getränkehandlungen alle gewünschten Getränke liefern kann, werden in den Einträ-
gen B2 und B3 die Verpflegung bei zwei verschiedenen Partyservices und in den Einträgen B4
und B5 die Getränke bei zwei verschiedenen Getränkehandlungen bestellt. Bei der Ausführung
des Agenten kann durch verschiedene Umstände ein Rücksetzen der Ausführung notwendig
werden. Kann beispielsweise einer der Partyservices oder eine der Getränkehandlungen an dem
Datum, für das die Festhalle gebucht wurde, nicht liefern, so muß der Termin für das Fest auf
eines der anderen möglichen Daten gelegt werden, da es leider keine alternativen Partyservices
bzw. Getränkehandlungen gibt, die das gewünschte liefern können. In diesem Falle muß die
Ausführung von R1 zurückgesetzt werden. Stellt sich nach der Abarbeitung von B2 während der
Abarbeitung von B3 heraus, daß der in B3 besuchte Party-Service nicht ausreichend Verpflegung
liefern kann, so reicht es aus, die Ausführung von R2 zurückzusetzen und dann bei der erneuten
Ausführung von B2 bei diesem Party-Service entsprechend mehr zu bestellen. Entsprechendes
gilt für die Getränkehandlung.
Für das gezeigte Szenario reicht es also aus, daß jeweils nur komplette Teilaufgaben-Hierarchi-
en zurückgesetzt werden können. Dies kann vom System unterstützt werden, indem jeweils bei
Abbildung 5-13. Teilaufgaben-Hierarchie in einer Reiseroute ℜ
Reiserouten-Eintrag (R)
Basis-Eintrag (B)
ℜ
R1
B2
B1
R4
B3
B4
B6
B5
B8
B7
R3
R2
R5
5.6 Verwaltung von Rücksetzpunkten 213Beginn der Abarbeitung einer nicht-atomaren Teilaufgabe, d.h. eines Reiserouten-Eintrages, au-
tomatisch ein Rücksetzpunkteintrag ins Log geschrieben wird. Für die Abarbeitung der Reise-
route in der Reihenfolge B1, B2, B3, B4, B5,... heißt dies, daß vor der Abarbeitung von B1, B2
und B4 jeweils ein Rücksetzpunkteintrag ins Log geschrieben wird. Soll die Ausführung des
Agenten zurückgesetzt werden, muß dann als Ziel des Rücksetzens nur noch angegeben wer-
den, wieviele Hierarchien zurückgesetzt werden sollen. Wird bei obiger Ausführungsreihenfol-
ge während der Ausführung von B3 entschieden, daß eine Hierarchie zurückgesetzt werden soll,
so wird die Ausführung von B3 und B2 zurückgesetzt, für zwei Hierarchien muß zusätzlich noch
B1 zurückgesetzt werden. Reichen einer Anwendung die auf diese Weise vom System automa-
tisch gesetzten Rücksetzpunkte nicht aus, so kann die Anwendung manuell zusätzliche Rück-
setzpunkte setzen.
Das in Abschnitt 3.2 vorgestellte Reiseroutenkonzept unterscheidet bei Reiserouten-Einträgen
zwischen geschlossenen und offenen Reiserouten-Einträgen. Werden die Einträge R2 und R3
aus Abbildung 5-13 als offene Reiserouten-Einträge spezifiziert, so wäre beispielsweise auch
eine Ausführungsreihenfolge B2, B4, B3, B5 möglich. Da das Rücksetzen der Agentenausfüh-
rung nur in umgekehrter Ausführungsreihenfolge möglich ist, ist es in diesem Fall nicht mög-
lich, daß während der Ausführung von B5 das Rücksetzen einer Hierarchie, d.h. von B5 und B4,
beschlossen wird, da dafür auch B3 zurückgesetzt werden müßte. Für dieses Problem gibt es
zwei verschiedene Lösungen. Eine Möglichkeit ist, die offenen Reiserouten-Einträge komplett
aus dem Reiseroutenkonzept zu entfernen. Dadurch entfällt ein wesentlicher Teil der Flexibilität
des Reiseroutenkonzeptes. Die andere Möglichkeit ist, daß das Rücksetzen auf die geschlosse-
nen Reiserouten-Einträge beschränkt wird, d.h. Rücksetzpunkteinträge werden nur bei Beginn
der Ausführung eines geschlossenen Reiserouten-Eintrages ins Log geschrieben. Wie in Abbil-
dung 5-14 zu sehen ist, ergibt sich hierdurch neben der Hierarchie der Teilaufgaben, welche
durch geschlossene und offene Reiserouten-Einträge gebildet wird, eine weitere, nur durch ge-
schlossene Reiserouten-Einträge gebildete Hierarchie der rücksetzbaren Teilaufgaben. Diese
Abbildung 5-14. Teilaufgaben versus rücksetzbare Teilaufgaben
Geschlossener Reiserouten-Eintrag
R1
R2
R4
R3
R7
R6R5
Offener Reiserouten-Eintrag
Teilaufgaben:
R1
R2
R3 R4
R5
R7R6
Rücksetzbare Teilaufgaben:
R1
R2
R3 R4
R6 R7
214 Kapitel 5   Partielles RücksetzenAsymmetrie zwischen Teilaufgaben und rücksetzbaren Teilaufgaben macht die grundlegende
Idee, daß einfach nur die gerade durchgeführte bzw. eine weiter oben in der Hierarchie angesie-
delte Teilaufgabe, zurückgesetzt wird, zunichte und vermindert dadurch den praktischen Nutzen
der Integration von Rücksetzpunkten in die Reiseroute erheblich. Wird die extreme Flexibilität
der Reiseroute nicht unbedingt benötigt, dann ist deshalb der Ansatz, keine offenen Reiserou-
teneinträge zu erlauben, auf jeden Fall die sinnvollere Lösung.
Neben der einfacheren Verwaltung von Rücksetzpunkten bringt dieses Konzept einen weiteren
Vorteil mit sich. Rücksetzpunkteinträge, welche bei Beginn der Ausführung eines geschlosse-
nen Reiserouten-Eintrages ins Log geschrieben wurden, werden nur so lange benötigt, bis dieser
Reiserouten-Eintrag vollständig abgeschlossen wird. Wird beispielsweise die Reiseroute aus
Abbildung 5-13 in der Reihenfolge B1, B2, B3, B4, B5 ausgeführt, dann kann während der Aus-
führung von B5 nur beschlossen werden, daß entweder R3 oder R1 zurückgesetzt wird. Der im
Kontext der Ausführung von R2 vor Ausführung von B2 gesetzte Rücksetzpunkt ist daher nicht
mehr notwendig. Solchermaßen überflüssig gewordene Rücksetzpunkte können vom System
automatisch aus dem Rücksetz-Log entfernt werden. Dies ist jedoch nur dann möglich, wenn
während der Ausführung eines Reiserouten-Eintrages von der Anwendung kein manueller
Rücksetzpunkt gesetzt wird. Die Integration von Rücksetzpunkten in die Reiseroute erlaubt so-
mit also die automatische Reduzierung der Größe des Rücksetz-Logs.
Die zweite Möglichkeit zur Reduzierung der Größe des Rücksetz-Logs, nämlich das Verwerfen
nicht mehr benötigter Kompensationsoperationen, läßt sich durch eine Erweiterung des hier
vorgestellten Konzepts zur Verwaltung von Rücksetzpunkten erreichen. Wie schon in Abschnitt
5.5.2 beschrieben, können Operationseinträge inklusive der dazugehörigen begin-of-step- und
end-of-step-Einträge nur dann aus dem Log entfernt werden, wenn vor ihnen kein Rücksetz-
punkteintrag mehr im Log steht. Damit dies geschehen kann, muß die Anwendung den ersten
Rücksetzpunkteintrag im Log, der bei der Erzeugung des Agenten ins Log geschrieben wird,
löschen. Die Anwendung entscheidet in diesem Falle, daß sie garantiert nie wieder soweit rück-
setzen möchte. Diese Entscheidung wird mit hoher Sicherheit nur dann getroffen, wenn eine der
Abbildung 5-13. (Wdh.) Teilaufgaben-Hierarchie in einer Reiseroute ℜ
ℜ
R1
B2
B1
R4
B3
B4
B6
B5
B8
B7
R3
R2
R5
5.6 Verwaltung von Rücksetzpunkten 215Haupt-Teilaufgaben des Agenten erledigt ist. Dies kann im vorgestellten Konzept dadurch un-
terstützt werden, indem die Hauptreiseroute nur geschlossene Reiserouten-Einträge enthalten
darf. Diese werden dann als abgeschlossene Teilaufgaben interpretiert, die nach Abschluß ihrer
Durchführung garantiert nicht mehr zurückgesetzt werden müssen. 
Die technische Realisierung ist dann einfach: Bei der Erzeugung des Agenten wird kein Rück-
setzpunkteintrag ins Log geschrieben. Solange die Anwendung keine zusätzlichen manuellen
Rücksetzpunkteinträge schreibt, ist der erste Eintrag des Rücksetz-Logs immer der Rücksetz-
punkteintrag jenes Reiserouten-Eintrages aus der Reiseroute, der gerade ausgeführt wird. So-
bald die Ausführung eines solchen Reiserouten-Eintrages beendet ist, kann dieser Rücksetz-
punkteintrag gelöscht werden. Wurde kein zusätzlicher Rücksetzpunkteintrag manuell
geschrieben, bedeutet dies, daß alle Log-Einträge gelöscht werden können, da die während der
Ausführung des Reiserouten-Eintrages automatisch erzeugten Rücksetzpunkteinträge auch alle
automatisch wieder gelöscht wurden. Dies läßt sich auch an der in Abbildung 5-13 abgebildeten
Reiseroute demonstrieren, welche in der Reihenfolge B1, B2, B3, B4, B5, ... ausgeführt wird. Die
Entwicklung des Logs während der Ausführung zeigt Abbildung 5-15. Sobald die Ausführung
des Reiserouten-Eintrages R1 mit der Ausführung von B1 begonnen wird, wird der erste Rück-
setzpunkteintrag RP1 ins Log geschrieben. Bei Beginn der Ausführung von R2 wird ein weiterer
Rücksetzpunkteintrag RP2 geschrieben, der nach Ausführung von B3 wieder entfernt werden
kann, da R2 vollständig ausgeführt ist. Dasselbe gilt für die Ausführung von R3. Nach Ausfüh-
rung von R3 ist R1 vollständig abgearbeitet. Somit kann der zu Beginn geschriebene Rücksetz-
punkteintrag RP1 gelöscht werden. Da dieser der einzige Rücksetzpunkteintrag im Log ist, kön-
nen somit alle Logeinträge von B1, B2, B3, B4 und B5 gelöscht werden. Würde die Anwendung
nach der Ausführung von B2 einen manuellen Rücksetzpunkt RPm setzen, dann würde sich ein
komplett anderes Bild ergeben: da sowohl RP1 als auch RP2 nicht gelöscht werden könnten,
könnten in diesem Fall gar keine Einträge aus dem Log entfernt werden.In diesem Falle müßte
das Log nach manuellem Löschen von RPm auf dann nicht mehr benötigte Rücksetzpunkte un-
tersucht werden. 
Abbildung 5-13. (Wdh.) Teilaufgaben-Hierarchie in einer Reiseroute ℜ
ℜ
R1
B2
B1
R4
B3
B4
B6
B5
B8
B7
R3
R2
R5
216 Kapitel 5   Partielles Rücksetzen5.7 Verwandte Arbeiten
Im Bereich der mobilen Agenten existiert bisher nur in dem von ASSIS SILVA UND
KRAUSE (1997) vorgestellten, auf mobilen Agenten basierenden Modell für verteilte Transak-
tionen (vgl. auch Abschnitt 4.8.2) die nicht detailliert beschriebene Idee, der Applikation die
Möglichkeit des partiellen Zurücksetzens mittels Kompensationsoperationen zu bieten. Im Be-
reich der Transaktionsverarbeitung hingegen existieren mehrere verwandte Arbeiten, von denen
im folgenden nur die wichtigsten kurz vorgestellt werden.
Wie schon in Abschnitt 4.8.1 beschrieben, schlagen GARCIA-MOLINA UND SALEM (1987) die
Verwendung von Kompensationsschritten zur Kompensation schon erfolgreich abgeschlossener
Schritte bei Abbruch einer Saga und zur Backward-Recovery bei Fehlern vor. Bei der Back-
ward-Recovery werden hierbei nur die Kompensationsschritte der seit dem letzten geschriebe-
nen Rücksetzpunkt ausgeführten Schritte durchgeführt. Die Kompensationsschritte kompensie-
ren nur den Zustand der an der Ausführung der Saga beteiligten Ressourcen (z.B. der
Datenbank). Der Zustand der Anwendung selbst, d.h. Programmzähler, Stapel und lokale Varia-
blen, werden mittels der beim Rücksetzpunkt gespeicherten Daten restauriert. Wie dieses Kapi-
tel gezeigt hat, ist dies nur für sehr wenige Anwendungsfälle ausreichend. Weiterhin sieht das
Saga-Konzept ein durch die Anwendung initiiertes partielles Zurücksetzen der Programmaus-
führung auf einen spezifizierten Rücksetzpunkt nicht vor.
Eine formale Betrachtung der Kompensation findet man in KORTH, LEVY UND
SILBERSCHATZ (1990). Richtungsweisend ist hier vor allem die Erkenntnis, daß zum Rückset-
zen einer Programmausführung das alleinige Rücksetzen der Ressourcen mittels Kompensation
und die Wiederherstellung des Programmzustandes mittels bei einem Rücksetzpunkt gespei-
Abbildung 5-15. Automatisches Löschen von Rücksetzpunkten
leeres
Log
leeres
Log
SPR1
SPR2
SPR2
SPR1
B5
B4
B3
B2
B1
SPR1
B1
SPR2
SPR1
B1
B2
SPR2
SPR1
B1
B3
B2
SPR1
B1
B3
B2
SPR1
B1
SPR2
B3
B2
SPR1
B1
B4
SPR2
B3
B2
SPR1
B1
B5
B4
B3
B2
SPR1
B1
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12)
5.8 Diskussion 217cherter Daten nicht ausreicht, sondern daß auch der Programmzustand mittels Kompensations-
operationen restauriert werden muß.
Sehr ausführlich beschäftigt sich das ConTract Modell von REUTER, SCHNEIDER UND
SCHWENKREIS (1997) mit dem partiellen Zurücksetzen der Programmausführung mittels Kom-
pensation. Äußerst interessant ist hier vor allem der Ansatz, die Ausführbarkeit von Kompensa-
tionsoperationen während der Ausführung eines Scripts mittels den Schritten zugeordneten Ein-
gangs- und Ausgangs-Invarianten zu garantieren. Hierbei wird verhindert, daß andere
Anwendungen Ressourcenzustände so abändern, daß die Durchführbarkeit der Kompensations-
operationen eines gerade ablaufenden Scripts nicht mehr sichergestellt ist.
5.8 Diskussion
Aufbauend auf einer Analyse der in Kapitel 4 entwickelten zuverlässigen Ausführungsmecha-
nismen für mobile Agenten wurde in diesem Kapitel ein zuverlässiger Mechanismus zum par-
tiellen Rücksetzen der Ausführung mobiler Agenten entwickelt. In der Basisversion dieses Me-
chanismus migriert der Agent hierbei in zur Ausführung des Agenten umgekehrter Reihenfolge
auf die Knoten, auf denen er Schritte ausgeführt hat und setzt den dort ausgeführten Schritt mit-
tels Kompensationsoperationen zurück. Diese Kompensationsoperationen müssen vom Ent-
wickler des Agenten zur Verfügung gestellt werden. Um den Entwickler hierbei zu unterstützen,
wurden die im Datenzustand des Agenten enthaltenen Daten in zwei verschiedene Datentypen
klassifiziert: stark reversible Objekte und schwach reversible Objekte. Der Entwickler selbst ist
nur für die Kompensation der schwach reversiblen Objekte zuständig, für das Rücksetzen der
stark reversiblen Objekte ist keine Unterstützung durch den Entwickler notwendig. Da in vielen
Anwendungen der Agent hauptsächlich stark reversible Objekte enthält, schränkt dies den Auf-
wand des Entwicklers wesentlich ein, da er in diesem Fall vor allem nur für die Kompensation
der durch den Agenten geänderten lokalen Ressourcen der besuchten Knoten zuständig ist.
Die für das Rücksetzen eines Agenten notwendigen Informationen (inklusive Kompensations-
operationen) werden in einem Rücksetz-Log abgelegt, das mit dem Agent migriert. Dies hat den
Vorteil, daß einerseits am Ende der Ausführung des Agenten das Log sehr einfach gelöscht wer-
den kann und andererseits das Log immer dann verfügbar ist, wenn auch der Agent verfügbar
ist.
Das Ziel, das Rücksetzen des Agenten zuverlässig durchzuführen, wird erreicht, indem – analog
zum Ausführungsmechanismus – das Rücksetzen eines Schrittes inklusive Migration auf den
nächsten Knoten in einer Transaktion durchgeführt wird. Hierdurch wird sichergestellt, daß der
Agent nicht verloren geht und jeder Schritt genau einmal zurückgesetzt wird. Unter der Voraus-
setzung, daß Systemfehler nur von kurzer Dauer sind und daß die vom Agentenentwickler zur
Verfügung gestellten Kompensationsoperationen letztendlich immer erfolgreich ausgeführt
werden, ist das Rücksetzen des Agenten erfolgreich.
218 Kapitel 5   Partielles RücksetzenIm Anschluß wurden zwei Möglichkeiten zur Optimierung des Rücksetzmechanismus disku-
tiert: die Vermeidung unnötiger Agententransporte und die Reduzierung der Größe des Rück-
setz-Logs. Die Möglichkeit zur Vermeidung unnötiger Agententransporte ergibt sich, indem die
Kompensationsoperationen danach klassifiziert werden, inwiefern sie auf den Agentenzustand
bzw. den Ressourcenzustand zugreifen müssen. Kann die Kompensation von Agentenzustand
und Ressourcen in getrennte Operationen gelegt werden, so ist es eventuell ausreichend, nur die
entsprechenden Kompensationsoperationen der Ressourcen auf die Knoten zu verschicken, auf
denen die Ressourcen kompensiert werden müssen. Wurden bei der Ausführung eines Schrittes
keine Ressourcen geändert, kann die Kompensation des Agentenzustandes prinzipiell auf jedem
Knoten ausgeführt werden. Die Reduzierung der Größe des Logs kann nur erreicht werden,
wenn der Agent bewußt (d.h. aktiv) darauf verzichtet, auf bestimmte Zustände in der Vergan-
genheit zurücksetzen zu können. Die Integration der Verwaltung von Rücksetzpunkten in das
Reiseroutenkonzept erlaubt dem Agentenentwickler, dies auf elegante Weise zu spezifizieren.
Kapitel 6
Resümee
6.1 Zusammenfassung
Mobile Agenten sind eine neue, vielversprechende Technologie zur Entwicklung verteilter An-
wendungen in weitverteilten, heterogenen und offenen Netzwerken. Für den sinnvollen Einsatz
dieser Technologie ist neben der Lösung von Sicherheitsfragen und der Problematik der Agen-
tenkontrolle vor allem die zuverlässige Ausführung der mobilen Agenten von äußerster Wich-
tigkeit. Abschnitt 4.8 zeigt, daß bisher verfügbare Lösungen in diesem Bereich jeweils nur Teile
der Gesamtproblematik angehen.
In der vorliegenden Arbeit wurden Mechanismen erarbeitet, welche die zuverlässige Ausfüh-
rung von Agenten für das in Abschnitt 2.2 vorgestellte Agentenmodell lösen. Schwerpunkte wa-
ren die Entwicklung von Algorithmen zur genau-einmal Ausführung mobiler Agenten in Kapi-
tel 4 und die Entwicklungen von Algorithmen zum partiellen Rücksetzen der Ausführung eines
Agenten in Kapitel 5. Die Entwicklung eines Reiseroutenkonzeptes für mobile Agenten in Ka-
pitel 3 erlaubt die Definition flexibler Reisepläne, welche von den Algorithmen zur genau-ein-
mal Ausführung dazu benutzt werden können, die Auswahl der als nächstes zu besuchenden
Knoten zu optimieren.
Ziel der genau-einmal Ausführung eines Agenten ist es, daß alle von einem Agent auszuführen-
den Aktionen exakt einmal ausgeführt werden, auch wenn während der Ausführung Systemfeh-
ler auftreten. Das in Abschnitt 4.3 entwickelte Basisprotokoll löst das Problem dadurch, daß der
Agent zwischen den auszuführenden Teilaufgaben auf stabilem Speicher zwischengespeichert
wird und die Ausführung einer Teilaufgabe im Kontext einer ACID-Transaktion erfolgt, die im
Fehlerfalle einfach wiederholt werden kann.
Um zu verhindern, daß ein Agent durch einen lange andauernden Knotenausfall in seiner Aus-
führung blockiert wird, wurde das Basisprotokoll in Abschnitt 4.4 um weitere fehlertolerante
Elemente erweitert. In diesem erweiterten Protokoll wird die Ausführung auf einem “Arbeiter”-
Knoten durch “Beobachter”-Knoten überwacht. Im Falle eines Systemfehlers übernimmt einer
220 Kapitel 6   Resümeeder Beobachter die Ausführung des mobilen Agenten. Da im allgemeinen nicht zwischen Kno-
tenausfall und Netzwerkfehler unterschieden werden kann, wurde zur Sicherstellung der genau-
einmal Eigenschaft ein Votier-Protokoll integriert, welches sicherstellt, daß die eine Teilaufgabe
ausführende Transaktion nur auf einem Knoten erfolgreich beendet werden kann.
Das Basisprotokoll und seine Erweiterungen wurden analytisch hinsichtlich gewonnener Feh-
lertoleranz und zu erwartender Leistung untersucht. Es zeigte sich, daß sich die Wahrscheinlich-
keit der Blockierung eines Agenten durch einen Systemfehler bei Verwendung der blockie-
rungsfreien Variante zwar drastisch verringert, die durchschnittliche Gesamtausführungszeit für
einen Agenten jedoch zunimmt. Messungen an einer prototypischen Implementierung der Pro-
tokolle zeigten, daß sich bei der Verwendung der blockierungsfreien Version des Protokolles die
Ausführungszeit eines Agenten mit zunehmender Anzahl an Beobachtern linear erhöht.Der
Einsatz dieser Variante lohnt sich also nur dann, wenn für einen mobilen Agent eine längerfri-
stige Blockierung auf jeden Fall vermieden werden muß.
Um die Möglichkeit eines partiellen Rücksetzens für mobile Agenten zur Verfügung stellen zu
können, wurden in Kapitel 5 Mechanismen entwickelt, die – analog zum Basisprotokoll – si-
cherstellen, daß auch für das Rücksetzen die genau-einmal Eigenschaft gewahrt bleibt. Da für
das Rücksetzen im allgemeinen schon abgeschlossene Transaktionen zurückgesetzt werden
müssen, mußte hierfür ein Ansatz verwendet werden, in dem schon abgeschlossene Operatio-
nen durch Kompensationsoperationen zurückgesetzt werden. Um den Anwendungsentwickler
zu entlasten wurde vorgeschlagen, die im Agent rückzusetzenden Daten in zwei Typen zu un-
tergliedern: Stark reversible Objekte sind Daten, die von der Ausführungsumgebung der Agen-
ten ohne Unterstützung durch den Anwendungsentwickler zurückgesetzt werden können. Für
das Rücksetzen der schwach reversiblen Objekte muß der Entwickler Kompensationsoperatio-
nen zur Verfügung stellen.
Der Rücksetzmechanismus ähnelt in der Ausführung dem Basisprotokoll, nur daß hier anstatt
von Teilaufgaben die Kompensationsoperationen ausgeführt werden und daß sich der Agent
dazu “rückwärts” bewegt, d.h. sich für die Kompensation einer Teilaufgabe auf den Knoten be-
gibt, auf dem diese Teilaufgabe ausgeführt wurde. Eine Unterteilung der Kompensationsopera-
tionen in verschiedene Typen erlaubt es, hierbei nicht notwendige Migrationen zu eliminieren.
Ein Vorschlag zur Integration von Reiseroute und Verwaltung von Rücksetzpunkten erlaubt eine
substantielle Reduktion des durch die Verwaltung des Rücksetz-Log eingeführten Mehraufwan-
des.
Insgesamt bieten die in dieser Arbeit vorgestellten Algorithmen zur genau-einmal Ausführung
eine im Bereich mobile Agenten bisher so nicht verfügbare Zuverlässigkeit bei der Ausführung
von Agenten, die nicht nur den Verlust eines Agenten durch Fehler ausschließt, sondern auch
die längerfristige Blockierung eines Agenten durch Systemfehler (Knotenausfälle, Netzwerk-
partitionierungen) verhindert. Die vorgestellten Rücksetzmechanismen schlagen für Agenten
erstmalig konkrete Mechanismen zum partiellen Rücksetzen der Agenten-Ausführung vor.
6.2 Allgemeinheit der Ergebnisse 2216.2 Allgemeinheit der Ergebnisse
Die Übertragbarkeit der Ergebnisse auf andere Gebiete ist nicht ohne weiteres gegeben, da die
entwickelten Mechanismen stark vom gewählten Ausführungsmodell für mobilen Agenten ab-
hängen, welches schwache Migration verwendet.
Die Verwendung der Protokolle zur genau-einmal Ausführung ist ohne größere Probleme auch
bei Agentenplattformen möglich, welche starke Migration (d.h. Migration inklusive Ausfüh-
rungszustand, sodaß auf dem Zielsystem direkt nach dem Migrationsbefehl weitergearbeitet
wird) verwenden. Es muß sich hier lediglich der Programmierer der Anwendung darüber klar
sein, daß der Migrationsbefehl die aktuelle Transaktion beendet und eine neue Transaktion be-
ginnt. Sollen die Protokolle außerhalb der Welt der mobilen Agenten Anwendung finden, so ist
dies sicher nicht ohne Einschränkung und entsprechende Abänderungen möglich. Recht gut in-
tegrieren lassen sich die Ideen der Protokolle in alle Arten von Anwendungen, in denen einzel-
ne, abgeschlossene Teilaufgaben nach einem irgendwie gearteten Ablaufplan abgearbeitet wer-
den. Ein Beispiel für solche Anwendungen sind Workflow-Management-Systeme, für die
LEYMANN UND ROLLER (1998) ein dem hier vorgestellten Basisprotokoll sehr ähnliches Proto-
koll vorschlagen. Die Anwendung der Protokolle für allgemeine Anwendungen ist eher schwie-
rig, da die Protokolle voraussetzen, daß “zwischen” den Transaktionen ein Rücksetzpunkt auf
stabilen Speicher geschrieben wird, mit dem die Verarbeitung wieder aufgesetzt werden kann.
Existiert ein solcher Mechanismus, ist der Einsatz des Basisprotokolles relativ einfach möglich.
Für den Einsatz der blockierungsfreien Erweiterung muß sichergestellt sein, daß ein auf stabilen
Speicher geschriebener Rücksetzpunkt auf einem beliebigen Rechner (genauer: auf jedem der
gewählten Beobachter) zum Wiederaufsetzen der Verarbeitung verwendet werden kann.
Wesentlich schwieriger gestaltet sich die allgemeine Verwendung des entwickelten Rücksetz-
mechanismus. Während in Anwendungen, in denen das Ausführungsmodell dem in dieser Ar-
beit zugrunde liegenden Agentenausführungsmodell ähnelt, z.B. Workflow-Management-Sy-
steme, die Adaption des Rücksetzprotokolles keine größeren Schwierigkeiten bereiten sollte ist
eine direkte Adaption auf Systeme, deren Rücksetzpunkte den Ausführungszustand, d.h. den
Stack der Anwendung enthalten, beinahe nicht möglich. Der Grund hierfür ist die Trennung des
Anwendungszustandes in stark und schwach reversible Objekte. Liegt ein schwach reversibles
Objekt auf dem Stack, so müßten die Kompensationsoperationen auf dem Stack arbeiten, was
im allgemeinen nicht möglich ist.
6.3 Ausblick
Die in dieser Arbeit vorgestellten Mechanismen haben die Technologie der mobilen Agenten
ein ganzes Stück näher an die Anwendbarkeit dieser Technologie bei der Realisierung verteilter
Anwendungen herangebracht. Das den Mechanismen unterliegende Agenten-Ausführungsmo-
dell unterstützt hierbei die wichtigsten Anwendungsklassen. Um die fehlertolerante Agenten-
222 Kapitel 6   Resümeeausführung für beliebige Anwendungen zu ermöglichen kann das Ausführungsmodell erweitert
und die Mechanismen daran adaptiert werden.
Eine für die fehlertolerante Ausführung relativ einfach durchzuführende Erweiterung ist die
Möglichkeit, daß Agenten selbst wieder neue Agenten starten. Hier muß nur sichergestellt wer-
den, daß die (Kind-)Agenten erst nach dem erfolgreichen Commit der Schritt-Transaktion aus-
geführt werden, in der sie gestartet wurden. Kritischer ist diese Erweiterung für das partielle
Rücksetzen, da beim Rücksetzen über den Startpunkt eines Kind-Agenten hinweg dieser Kind-
Agent ebenfalls zurückgesetzt und dazu sein aktueller Aufenthaltsort bestimmt werden muß.
Eine weitere Erweiterungsmöglichkeit ist, den Kontext einer Transaktion bei der Ausführung
des Agenten nicht nur über jeweils einen Schritt zu erstrecken, sondern über mehrere Schritte
hinweg. Für das Basisprotokoll ist diese Erweiterung ziemlich einfach zu realisieren, für die
blockierungsfreie Erweiterung hingegen gibt es mehrere mögliche Ansätze – unter anderem die
Verwendung von geschachtelten Transaktionen – die im einzelnen untersucht werden müßten.
Die am schwierigsten umzusetzende Erweiterung ist die Unterstützung von direkter Kommuni-
kation zwischen Agenten – entweder nur innerhalb einer geschlossenen Gruppe von Agenten
oder allgemein zwischen beliebigen mobilen Agenten. Diese Erweiterung ist deshalb problema-
tisch, weil durch die Kommunikation zwischen den Agenten Abhängigkeiten entstehen, die im
Falle des Abbruches einer Schritt-Transaktion oder im Falle des partiellen Rücksetzens der Aus-
führung eines Agenten das (partielle) Rücksetzen aller Kommunikationspartner nach sich zieht.
Effiziente Mechanismen zur Lösung dieser Problematik sind weiterhin Gegenstand der aktuel-
len Forschung.
Literaturverzeichnis
ABU-AMARA (1988)
Abu-Amara, H. (1988), “Fault-Tolerant Distributed Algorithm for Election in
Complete Networks”, IEEE Transactions on Computers 37, 4, Seiten 449-453
AGUILERA, CHEN UND TOUEG (1998)
Aguilera, M. K. und Chen, W. und Toueg, S. (1998), “Failure detection and
consensus in the crash-recovery model”, Technischer Bericht TR98-1676,
Cornell University, Computer Science Department.
ARNOLD UND GOSLING (1997)
Arnold, K. und Gosling, J. (1997), The Java(tm) Programming Language,
Second Edition, Addison-Wesley
ASSIS SILVA UND KRAUSE (1997)
De Assis Silva, F.M. und Krause, S. (1997), "A Distributed Transaction Model
Based on Mobile Agents", in ROTHERMEL UND POPESCU-ZELETIN (1997), Seiten
198-209
ASSIS SILVA UND POPESCU-ZELETIN (1998)
De Assis Silva, F.M. und Popescu-Zeletin, R. (1998), “An Approach for
Providing Mobile Agent Fault Tolerance”, in ROTHERMEL UND HOHL (1998),
Seiten 14-25
BADER (1998)
Bader, M. (1998), “Konzeption und Implementation eines zuverlässigen und
skalierbaren Agentenservers”, Diplomarbeit 1624, Fakultät Informatik,
Universität Stuttgart
BARBARA, GARCIA-MOLINA UND SPAUSTER (1989)
Barbara, D. und Garcia-Molina, H. und Spauster, A. (1989), “Increasing
Availability under Mutual Exclusion Constraints with Dynamic Vote
Reassignments”, ACM Transactions on Computer Systems 7, 4, Seiten 394-426
BAUMANN ET AL. (1997)
Baumann, J. und Hohl, F. und Radouniklis, N. und Rothermel, R. und Straßer,
M. (1997), “Communication Concepts for Mobile Agent Systems”, in
ROTHERMEL UND POPESCU-ZELETIN (1997), Seiten 123-135
BAUMANN ET AL. (1998A)
Baumann, J. und Hohl, F. und Rothermel, K. und Straßer, M. (1998): “Mole -
Concepts of a Mobile Agent System”, World Wide Web Journal 1, 3, Baltzer
Science Publishers, Niederlande, Seiten 123-137
224 LiteraturverzeichnisBAUMANN ET AL. (1998B)
Baumann, J. und Hohl, F. und Rothermel, K. und Schwehm, M. und Straßer, M.
(1998), “Mole 3.0: A middleware for java-based mobile software agents”, in
Proceedings Middleware ’98, N. Davies, K. Raymond, J. Seitz, Eds., Springer-
Verlag London, Seiten 355 - 370
BAUMANN (1999)
Baumann, J. (1999), “Control Algorithms for Mobile Agents”, Dissertation,
Fakultät Informatik, Universität Stuttgart, 
URL: http://elib.uni-stuttgart.de/opus/volltexte/2000/616
BAUMANN (2000)
Baumann J. (2000), Mobile Agents: Control Algorithms, Lecture Notes in
Computer Science 1658, Springer Verlag
BEEDUBAIL ET AL. (1995)
Beedubail, G. und Karmarkar, A. und Gurijala, A. und Marti, W. und Pooch, U.
(1995), "Fault Tolerant Objects in Distributed Systems Using Hot Replication",
Technischer Bericht TR_95-023, Department of Computer Science, Texas A&M
University
BERNSTEIN UND NEWCOMER (1997)
Bernstein, P.A. und Newcomer, E. (1997), Principles of Transaction Processing,
Morgan Kaufmann Publishers Inc., San Francisco, California
BRADSHAW (1997)
Bradshaw, J., Ed. (1997), Software Agents, MIT Press
BRESSOUD (1998)
Bressoud, T.C. (1998), “TFT: A Software System for Application-Transparent
Fault Tolerance", in Proceedings of the 28th Annual International Symposium on
Fault-Tolerant Computing (FTCS-28), IEEE Computer Society, Seiten 128-137
BUSCHLE (1999)
Buschle, J. (1999), “Reiserouten-Konzepte für Mobile Agenten”, Studienarbeit
Nr. 1754, Fakultät Informatik, Universität Stuttgart
CABRI, LEONARDI UND ZAMBONELLI (1998)
Cabri, G. und Leonardi, L. und Zambonelli, F. (1998), “Reactive Tuple Spaces
for Mobile Agent Coordination”, in ROTHERMEL UND HOHL (1998), Seiten 237-
248
CARZANIGA, PICCO UND VIGNA (1997)
Carzaniga, A. und Picco, G.P. und Vigna, G. (1997), “Designing Distributed
Applications with Mobile Code Paradigms”, in Proceedings of the 19th
International Conference on Software Engineering ICSE 97, ACM, Seiten 22-32
CHAUM (1985)
Chaum, D. (1985), “Security Witout Identification: Transaction Systems to
Make Big Brother Obsolete”, Communications of the ACM, 28(10), October
1985, Seiten 1030-1040
Literaturverzeichnis 225CHESS ET AL. (1997)
Chess, D. und Harrison, C. und Kershenbaum, A. (1997), ”Mobile agents: are
they a good idea?”, in Mobile Object Systems, Towards the Programmable
Internet, Second International Workshop, MO’96, Selected Presentations and
Invited Papers, Vitek, J. und Tschudin, C., Eds., Springer, Berlin, Germany,
Seiten 25-47
CRISTIAN, AGHILI UND STRONG (1986)
Cristian, F. und Aghili, H. und Strong, R. (1986), “Clock Synchronization in the
Presence of Omission and Performance Faults, and Processor Joins”, in
Proceedings of the 16th International Symposium on Fault Tolerant Computing
Systems (FTCS-16), Seiten 218-223
CUGOLA ET AL. (1996)
Cugola, G. und Ghezzi, C. und Picco, G.P. und Vigna, G. (1996), “A
Characterization of Mobility and State Distribution in Mobile Code Languages”,
in Special Issues in Object-Oriented Programming, Workshop Reader
ECOOP’96, dpunkt.verlag, Seiten 309-318
DALMEIJER ET AL. (1998)
Dalmeijer, M. und Rietjens, E. und Soede, M. und Hammer, D.K. und Aerts,
A.T. (1998), "A Reliable Mobile Agents Architecture", in Proceedings of the 1st
International Symposium on Object-oriented Real-Time Distributed Computing,
IEEE Computer Society, Seiten 64-72
FIPA (1999)
FIPA (1999), “Foundation for Intelligent Physical Agents”, Webseite, 
URL: http://www.fipa.org/
FRIEDEL (1998)
Friedel, K. (1998), “Fehlertolerantes Protokoll zur Exactly-Once-Ausführung
von Agenten”, Diplomarbeit 1652, Fakultät Informatik, Universität Stuttgart
FÜNFROCKEN UND MATTERN (1999)
Fünfrocken, S. und Mattern, F. (1999), “Mobile agents as an architectural
concept for Internet-based distributed applications”, in Proceedings KiVS ’99,
Kommunikation in Verteilten Systemen, R. Steinmetz, Ed., Informatik aktuell,
Springer-Verlag, Seiten 32 - 43.
GAEDE (1977)
Gaede, K.-W. (1977), Zuverlässigkeit, mathematische Modelle, Carl Hanser
Verlag München Wien
GARCIA-MOLINA (1982)
Garcia-Molina, H. (1982), “Elections in a distributed Computing System”, IEEE
Transactions on Computers 31, 1, Seiten 48-59
GARCIA-MOLINA UND BARBARA (1985)
Garcia-Molina, H. und Barbara, D. (1985) “How to Assign Votes in a
Distributed System”, Journal of the ACM 32, 4, Seiten 841-860
226 LiteraturverzeichnisGARCIA-MOLINA ET AL. (1991)
Garcia-Molina, H. und Gawlick, D. und Klein, J. und Kleissner, K. und Salem,
K. (1991), "Modeling Long-Running Activities as Nested Sagas", IEEE Data
Engineering Bulletin 14, 1, Seiten 14-18
GARCIA-MOLINA UND SALEM (1987)
Garcia-Molina, H. und Salem, K. (1987), "SAGAS", in Proceedings ACM
SIGMOD International Conference on Management of Data, Seiten 249-259
GIFFORD (1979)
Gifford, D.K. (1979), “Weighted Voting for Replicated Data”, in Proceedings of
the 7th Symposium on Operating System Principles 1979 (SOSP’79), ACM
Press, New York, 1979, Seiten 150-162
GRASSHOPPER (2000)
IKV++ GmbH (2000), “GRASSHOPPER - THE AGENT PLATFORM”,
Web-Seite, URL: http://www.grasshopper.de
GRAY UND REUTER (1993)
Gray, J. und Reuter, A. (1993), Transaction Processing: Concepts and
Techniques, Morgan Kaufmann Publishers, San Francisco, California
GRAY ET AL. (1998)
Gray, R.S. und Kotz, D. und Cybenko, G. und Rus, D. (1998), “D'Agents:
Security in a multiple-language, mobile-agent system”, in VIGNA (1998), Seiten
154-187
HÄRDER UND RAHM (1999)
Härder, T. und Rahm, E. (1999), Datenbanksysteme, Konzepte und Techniken
der Implementierung, Springer-Verlag Berlin
HÄRDER UND REUTER (1983)
Härder, T. und Reuter, A. (1983), “Principles of Transaction-Oriented Database
Recovery”, ACM Computing Surveys 15, 4, Seiten 287-317
HÖFLE-ISPHORDING (1978)
Höfle-Isphording, U. (1978), Zuverlässigkeitsrechnung, Springer Verlag
HOHL (2000)
Hohl, F., Ed. (2000), “The Mobile Agent List”, 
Web-Seite, URL: http://mole.informatik.uni-stuttgart.de/mal/mal.html
HOHL (2001)
Hohl, F. (2001), “Sicherheit in Mobile-Agenten-Systemen“, Dissertation,
Fakultät Informatik, Universität Stuttgart, 
URL: http://elib.uni-stuttgart.de/opus/volltexte/2001/893
HUGHES UND GRAWOIG (1971)
Hughes, A. und Grawoig, D. (1971), Statistics: A Foundation for Analysis,
Addison-Wesley Publishing Company
HYLTON ET AL. (1996)
Hylton, J. und Manheimer, K. und Drake F.L. Jr. und Warsaw, B. und Masse, R.
Literaturverzeichnis 227und van Rossum, G. (1996), “Knowbot programming: System support for
mobile agents”, in Proceedings of the 5th International Workshop on Object
Orientation in Operating Systems (IWOOOS ’96), Seiten 8-13
JALOTE (1994)
Jalote, P. (1994), Fault Tolerance in Distributed Systems, Prentice Hall,
Englewood Cliffs, New Jersey
JOHANSEN, VAN RENESSE UND SCHNEIDER (1995)
Johansen, D. und van Renesse, R. und Schneider, F.B. (1995), “Operating
system support for mobile agents”, in Proceedings of the 5th. IEEE Workshop on
Hot Topics in Operating Systems, IEEE Computer Society, NY, Seiten 42-45
JOHANSEN ET AL. (1999)
Johansen, D. und Marzullo, K. und Schneider, F.B. und Jacobsen K. und
Zagorodnov, D. (1999), "NAP: Practical Fault-Tolerance for Itinerant
Computations", in Proceedings of the 19th International Conference on
Distributed Computing Systems (ICDCS’99), Seiten 180-189
KORTH, LEVY UND SILBERSCHATZ (1990)
Korth, H.F. und Levy, E. und Silberschatz, A. (1990), "A Formal Approach to
Recovery by Compensating Transactions", in Proceedings of the 16th
Conference on Very Large Databases", Morgan Kaufman, Los Altos CA, Seiten
95-106
LAHRES (1964)
Lahres, H. (1964), Einführung in die diskreten Markoff-Prozesse und ihre
Anwendungen, Vieweg-Verlag Braunschweig
LANGE UND OSHIMA (1998)
Lange, D. B. und Oshima, M. (1998), Programming and Deploying Java Mobile
Agents with Aglets, Addison-Wesley, Reading, Massachusetts
LANGE UND OSHIMA (1999)
Lange, D. B. und Oshima, M. (1999), “Seven good reasons for mobile agents”,
Communications of the ACM 42, 3, Seiten 88 - 89
LAMPSON (1981)
Lampson, B. (1981), “Atomic transaction”, Distributed Systems - Architecture
and Implementation, Goos, G. und Hartmanis, J., Eds., Lecture Notes in
Computer Science 105, Springer-Verlag, Seiten 246-265
LEYMANN UND ROLLER (1998)
Leymann, F. und Roller, D. (1998), “Building A Robust Workflow Management
System With Persistent Queues and Stored Procedures”, in Proceedings of the
14th International Conference on Data Engineering, IEEE Computer Society,
Seiten 254-258
MAIHÖFER (1997)
Maihöfer, C. (1997), “Ein Protokoll zur Wahrung der Exactly-Once-Eigenschaft
Mobiler Agenten”, Diplomarbeit 1565, Fakultät Informatik, Universität Stuttgart
228 LiteraturverzeichnisMASUZAWA ET AL. (1989)
Masuzawa, T. und Nishikawa, N. und Hagihara, K. und Tokura, N. (1989),
“Optimal Fault-Tolerant Distributed Algorithms for Election in Complete
Networks with a Global Sense of Direction”, in Proceedings of the 3rd
International Workshop on Distributed Algorithms, Seiten 171-182
MESSNER (1999)
Messner, A. (1999), “Neuimplementierung einer transaktionalen Message
Queue”, Studienarbeit Nr. 1750, Fakultät Informatik, Universität Stuttgart
MILOJICIC ET AL. (1998)
Milojicic, D. und Breugst, M. und Busse, I. und Campbell, J. und Covaci, S. und
Friedman, B. und Kosaka, K. und Lange, D. und Ono, K. und Oshima, M. und
Tham, C. und Virdhagriswaran, S. und White, J. (1998), “MASIF: the OMG
mobile agent system interoperability facility”, in ROTHERMEL UND
HOHL (1998), Seiten 50 - 67
MINSKY ET AL. (1996)
Minsky, Y. und van Renesse, R. und Schneider, F.B. und Stoller, S.D. (1996),
"Cryptographic Support for Fault-Tolerant Distributed Computing", in
Distributed Computing , Proceedings of the Seventh ACM SIGOPS European
Workshop, Seiten 109-114
OUSTERHOUT (1994)
Ousterhout, J.K. (1994), Tcl and the Tk Toolkit, Addison-Wesley Professional
Computing
PAPOULIDIS (1999)
Papoulidis, K. (1999), “Fehlertoleranz in Mole”, Diplomarbeit 1770, Fakultät
Informatik, Universität Stuttgart
PEINE UND STOLPMANN (1997)
Peine, H. und Stolpmann, T. (1997), “The Architecture of the Ara Platform for
Mobile Agents”, in ROTHERMEL UND POPESCU-ZELETIN (1997), Seiten 50-61
PINDONIS (1996)
Pindonis, I. (1996), “Kooperative Informationsbeschaffung mittels Mobiler
Agenten am Beispiel Reiseroutenplanung”, Diplomarbeit 1368, Fakultät
Informatik, Universität Stuttgart
PITOURA (1998)
Pitoura, E. (1998), "Transaction-Based Coordination of Software Agents", in
Proceedings of the 19th International Conference on Database and Expert
Systems Applications (DEXA), Lecture Notes in Computer Science 1460,
Springer Verlag, Seiten 460-469
PULIAFITO, RICCOBENE UND SCARPA (1999)
Puliafito, A. und Riccobene, S. und Scarpa, M. (1999), “An Analytical
Comparison of the Client-Server, Remote Evaluation and Mobile Agents
Paradigms”, in Proceedings of the first International Symposium on Agent
Systems and Applications and third International Symposium on Mobile Agents
(ASA/MA 99), IEEE computer society, Seiten 278-292
Literaturverzeichnis 229REUTER, SCHNEIDER UND SCHWENKREIS (1997)
Reuter, A. und Schneider, K. und Schwenkreis, F. (1997), “ConTracts
Revisited”, Advanced Transaction Models and Architectures, Jajodia, S. und
Kerschberg, L., Eds., Kluwer Academic Publisher, Seiten 127-151
ROTHERMEL UND HOHL (1998)
Rothermel, K. und Hohl, F., Eds. (1998), Mobile Agents, Second International
Workshop, MA’98, Lecture Notes in Computer Science 1477, Springer-Verlag,
Berlin,
ROTHERMEL UND POPESCU-ZELETIN (1997)
Rothermel, K. und Popescu-Zeletin, R., Eds. (1997), Mobile Agents, First
International Workshop, MA’97, Lecture Notes in Computer Science 1219,
Springer-Verlag, Berlin
ROTHERMEL UND SCHWEHM (1998)
Rothermel, K. und Schwehm, M. (1998), “Mobile agents”, in Encyclopedia for
Computer Science and Technology, A. Kent, J. G. Williams, Eds., M. Dekker
Inc., New York
ROTHERMEL UND STRASSER (1997)
Rothermel, K. und Straßer, M. (1997), “A Protocol for Preserving the Exactly-
Once Property of Mobile Agents”, Technischer Bericht 1997/18, Fakultät
Informatik, Universität Stuttgart
ROTHERMEL UND STRASSER (1998)
Rothermel, K. und Straßer, M. (1998), “A Fault-Tolerant Protocol for Providing
the Exactly-Once Property of Mobile Agents”, in Proceedings of the 17th IEEE
Symposium on Reliable Distributed Systems 1998 (SRDS’98), IEEE Computer
Society, Seiten100-108
SANDER UND TSCHUDIN (1998)
Sander, T. und Tschudin, C.F. (1998), “Protecting Mobile Agents Against
Malicious Hosts”, in VIGNA (1998), Seiten 44-60
SCHILL (1992A)
Schill, A. (1992), "Remote Procedure Call: Fortgeschrittene Konzepte und
Systeme - ein Überblick. Teil 1: Grundlagen", Informatik-Spektrum 15, 4, Seiten
79-87
SCHILL (1992B)
Schill, A. (1992), "Remote Procedure Call: Fortgeschrittene Konzepte und
Systeme - ein Überblick. Teil 2: Erweiterte RPC-Ansätze", Informatik-Spektrum
15, 6, Seiten 145-155
SCHNEEWEISS (1973)
Schneeweiss, W.G. (1973), Zuverlässigkeitstheorie, Springer Verlag
SCHNEEWEISS (1992)
Schneeweiss, W.G. (1992), Zuverlässigkeitstechnik - von den Komponenten zum
System, Datakontext-Verlag
230 LiteraturverzeichnisSCHNEIDER (1984)
Schneider, F. B. (1984), “Byzantine generals in action: implementing fail-stop
processors”, ACM Transactions on Computer Systems 2, 2, Seiten 145 - 154
SCHNEIDER (1997A)
Schneider, F.B. (1997), "Towards Fault-tolerant and Secure Agentry", in
Distributed Algorithms, 11th International Workshop, WDAG ’97,
Mavronicolas, M. und Tsigas, P., Eds. , Lecture Notes in Computer Science
1320, Springer Verlag, Seiten 1-14
SCHNEIDER (1997B)
Schneider, K. (1997), “APRICOTS - A PRototype Implementation of a
COnTract System - Ein transaktionales System zur zuverlässigen Ausführung
von Workflows”, APRICOTS-Projektbericht im Rahmen von SunTREC,
SCHNEIDER (1998)
Schneider, K. (1998), “APRICOTS - ein verteiltes, transaktionales Workflow-
System auf der Basis von CORBA”, Extended Abstract, in: Datenbank
Rundbrief der Gesellschaft für Informatik, Mai 98 
SINGH (1996)
Singh, G. (1996), “Leader Election in the Presence of Link Failures”, IEEE
Transactions on Parallel and Distributed Computing 7, 3, Seiten 231-236
SPECTOR (1982)
Spector, A.Z. (1982), "Performing Remote Operations Efficiently on a Local
Compter Network", Communications of the ACM 25, 4, Seiten 246-260
STRASSER, BAUMANN UND HOHL (1996)
Straßer, M. und Baumann, J. und Hohl, F. (1996), “Mole - A Java Based Mobile
Agent System”, in: Special Issues in Object-Oriented Programming, Workshop
Reader ECOOP’96, dpunkt.verlag, Seiten 327-334
STRASSER UND SCHWEHM (1997)
Straßer, M. und Schwehm, M. (1997), “A Performance Model for Mobile Agent
Systems”, in Proceedings of the International Conference on Parallel and
Distributed Processing Techniques and Applications (PDPTA’97), Vol II,
Arabnia, H., Ed.,CSREA, Seiten 1132-1140 
STRASSER UND ROTHERMEL (1998)
Straßer, M. und Rothermel, K. (1998), “Reliability Concepts for Mobile
Agents”, International Journal of Cooperative Information Systems (IJCIS) 7, 4,
Seiten 355-382 
STRASSER UND ROTHERMEL (2000)
Straßer, M. und Rothermel, K. (2000), “System Mechanisms for Partial Rollback
of Mobile Agent Execution”, in Proceedings of the 20th International
Conference on Distributed Computing Systems (ICDCS 2000), IEEE Computer
Society, Seiten 20-28
Literaturverzeichnis 231STRASSER, ROTHERMEL UND MAIHÖFER (1998)
Straßer, M. und Rothermel, K. und Maihöfer, C. (2000), “Providing Reliable
Agents for Electronic Commerce”, in Trends in Distributed Systems for
Electronic Commerce (TREC'98), Lamersdorf, W. und Merz, M., Eds., Lecture
Notes in Computer Science1402, Springer-Verlag, Seiten 241-253 
STRASSER, BAUMANN UND SCHWEHM (1999)
Straßer, M. und Baumann, J. und Schwehm, M. (1999), “An Agent-based
Framework for the Transparent Distribution of Computations”, in Proceedings
of the 1999 International Conference on Parallel and Distributed Processing
Techniques and Applications (PDPTA’99), Vol I, Arabnia, H., Ed., CSREA,
Seiten 376-382
TANG (90)
Tang, J. (1990), “Voting Class - an Approach to Achieving High Availability for
Replicated Data.” in Proceedings of the 2nd International Symposium on
Databases in Parallel and Distributed Systems (DPDS’90), Agrawal, R. und
D.A. Bell, Eds., IEEE Computer Society, Seiten 146-154
TEL (1994)
Tel G. (1994), Introduction to Distributed Algorithms, Cambridge University
Press
THEILMANN UND ROTHERMEL (1999)
Theilmann, W. und Rothermel, K. (1999), “Disseminating Mobile Agents for
Distributed Information Filtering”, in Proceedings of the first International
Symposium on Agent Systems and Applications and third International
Symposium on Mobile Agents (ASA/MA 99), IEEE computer society, Seiten 152-
161 
THEILMANN (2000)
Theilmann, W. (2000), “Themenspezifische Informationssuche im Internet mit
Hilfe mobiler Programme”, Dissertation, Fakultät Informatik, Universität
Stuttgart, URL: http://elib.uni-stuttgart.de/opus/volltexte/2000/703
THOMAS (1979)
Thomas, R.H. (1979), “A Majority Consensus Approach to Concurrency Control
for Multiple Copy Databases”, ACM Transactions on Database Systems 4, 2,
Seiten 180-209
TSCHUDIN (1997)
Tschudin, C. (1997), "The Messenger Environment M0 - A Condensed
Description", in Mobile Object Systems, Vitek, J. und Tschudin, C., Eds., Lecture
Notes in Computer Science1222, Seiten 149-156
VIGNA (1998)
Vigna, G., Ed. (1998), Mobile Agents and Security, Lecture Notes in Computer
Science 1419, Springer-Verlag
232 LiteraturverzeichnisVOGLER, KUNKELMANN UND MOSCHGATH (1997A)
Vogler, H. und Kunkelmann, T. und Moschgath, M.-L. (1997), ”Distributed
Transaction Processing as a Reliability Concept for Mobile Agents", in
Proceedings of the 6th IEEE Workshop on Future Trends of Distributed
Computing Systems (FTDCS’97), IEEE Computer Society, Seiten 59-64
VOGLER, KUNKELMANN UND MOSCHGATH (1997B)
Vogler, H. und Kunkelmann, T. und Moschgath, M.-L. (1997), “An Approach
for Mobile Agent Security and Fault Tolerance using Distributed Transactions”,
in Proceedings of the 1997 International Conference on Parallel and Distributed
Systems (ICPADS’97), IEEE Computer Society, Seiten 268-274
VOIGT (1996)
Voigt, T. (1996), “Entwicklung und Implementation eines Modells zur
Quantitativen Beurteilung der Implementation und der Anwendung von Remote-
Execution-Mechanismen”, Diplomarbeit 1436, Fakultät Informatik, Universität
Stuttgart
WALSH, PACIOREK UND WONG (1999)
Walsh, T. und Paciorek, N. und Wong, D. (1999), “Security and reliability in
Concordia”, in Proceedings of the Thirty-First Hawaii International Conference
on System Sciences Band 7, IEEE Computer Society, Seiten 44-53
WÄCHTER UND REUTER (1992)
Wächter, H. und Reuter, A. (1992), “The ConTract Model”, Database
Transaction Models for Advanced Applications, Elmagarmid, A.K., Ed., Morgan
Kaufmann Publishers, San Mateo, California, Seiten 219-263
WHITE (1997)
White, J.E. (1997), “Telescript”, In Mobile Agents: Explanations and Examples
with CD-ROM, W. Cockayne, M. Zyda, Ed., Manning Publishing, Greenwich,
CT, USA, Seiten 37-57
WONG ET AL. (1997)
Wong, D. und Paciorek, N. und Walsh, T. und DiCelie, J. und Young, M. und
Peet, B. (1997), “Concordia: An Infrastructure for Collaborating Mobile
Agents”, in ROTHERMEL UND POPESCU-ZELETIN (1997), Seiten 86-97
WONG ET AL. (1999)
Wong, D. und Paciorek, N. und Moore, D. (1999), “Java-based mobile agents”,
Communications of the ACM 42, 3, Seiten 92-102
XOPEN (1991)
X/Open DTP (1991), “X/Open Common Application Environment”,
“Distributed Transaction Processing:Reference Model”, “Distributed
Transaction Processing: The XA Specification”, Reading, Berkshire, X/open Ltd
YAP, JALOTE UND TRIPATHI (1988)
Yap, K.S. und Jalote,P. und Tripathi, S. (1988), "Fault Tolerant Remote
Procedure Call", in Proceedings of the 8th International Conference on
Distributed Computing Systems (ICDCS’88), IEEE Computer Society, Seiten
48-54