]> xenbits.xensource.com Git - people/pauldu/xenbus.git/log
people/pauldu/xenbus.git
22 months agoAvoid unnecessary check for non-NULL Processor->Interrupt in EvtchnRelease() fixes
Paul Durrant [Tue, 4 Jul 2023 17:26:41 +0000 (18:26 +0100)]
Avoid unnecessary check for non-NULL Processor->Interrupt in EvtchnRelease()

If EvtchnIsProcessorEnabled() is TRUE then Processor->Interrupt should be
valid. Hence use an ASSERTion instead. Also replicate the check of
EvtchnIsProcessorEnabled() in the error path in EvtchnAcquire().
While we're at it, let's also use EvtchnIsProcessorEnabled() in
EvtchnInterruptEnable() and EvtchnInterruptDisable().

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
22 months agoOnly call EvtchnFlush on valid Cpus
Owen Smith [Tue, 20 Jun 2023 14:33:19 +0000 (15:33 +0100)]
Only call EvtchnFlush on valid Cpus

The Evtchn processor array is created using KeQueryMaximumProcessorCountEx, which
can include processors that do not get initialized.
Skip cleanup and flushing uninitialized event channels

Signed-off-by: Owen Smith <owen.smith@cloud.com>
Use EvtchnIsProcessorEnabled() rather than SystemProcessorVcpuId() as the test.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
22 months agoFix EvtchnTwoLevelIsProcessorEnabled()
Paul Durrant [Tue, 4 Jul 2023 17:21:29 +0000 (18:21 +0100)]
Fix EvtchnTwoLevelIsProcessorEnabled()

It should take account of whether the vCPU is enabled, as
EvtchnFifoIsProcessorEnabled() already does.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
22 months agoAdd logging for Active/Maximum Processors
Owen Smith [Thu, 25 May 2023 15:14:10 +0000 (16:14 +0100)]
Add logging for Active/Maximum Processors

Server 2022 can report Active = 32, Maximum = 64

Signed-off-by: Owen Smith <owen.smith@cloud.com>
22 months agoFix buffer overrun when suspending VMs with many vCPUs
Owen Smith [Thu, 25 May 2023 15:14:09 +0000 (16:14 +0100)]
Fix buffer overrun when suspending VMs with many vCPUs

Dynamically allocate the KDPC array. __Section is defined as a PAGE_SIZE
region, which can only contain a limited number of KDPC objects in addition
to the SYNC_CONTEXT header. Dynamic allocation of the KDPC objects will
remove this restriction.

Signed-off-by: Owen Smith <owen.smith@cloud.com>
Always dynamically allocate KDPC objects, allowing us to get rid of
__Section and define SyncContext as a simple static global. Hence amend
the original commit comment.

Also use __AllocatePoolWithTag() and __FreePoolWithTag() rather than
open-coding them.

Signed-off-by: Paul Durrant <paul@xen.org>
23 months agoRebuild CodeQL builds
Owen Smith [Tue, 18 Apr 2023 08:50:45 +0000 (09:50 +0100)]
Rebuild CodeQL builds

CodeQL can sometimes fail to detect any source code if the codebase is
not rebuilt. Use the Rebuild target to force all intermediate build artifacts
to be cleaned beforehand.

Signed-off-by: Owen Smith <owen.smith@cloud.com>
23 months agoCheck for zero byte allocations
Owen Smith [Mon, 17 Apr 2023 14:05:45 +0000 (15:05 +0100)]
Check for zero byte allocations

Avoid attempting to allocate zero byte buffers, which can lead to
inefficiencies in pool memory usage.

Suggested-by: Matthew Sykes <matthew.sykes@citrix.com>
Signed-off-by: Owen Smith <owen.smith@cloud.com>
2 years agoRemove trailing blank lines
Paul Durrant [Thu, 23 Mar 2023 15:03:18 +0000 (15:03 +0000)]
Remove trailing blank lines

Use the following bit of shell to remove a trailing blank line from each
file where such exists.

echo "$(echo "$(tac $file)" | tac)" > $file

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
2 years agoScripted replacement of Copyright notices in source
Owen Smith [Fri, 10 Feb 2023 08:44:38 +0000 (08:44 +0000)]
Scripted replacement of Copyright notices in source

Due to a transfer of copyright ownership from Citrix to Cloud Software Group,
the copyright notices in all source files should be updated.

Using the powershell script below replace "Copyright (c) Citrix Systems, Inc."
with "Copyright (c) Xen Project." and "Copyright (c) Cloud Software Group, Inc."

NOTE: src/xen/vcpu.c was not changed, as copyright is assigned to Amazon.com, Inc.

Function Multiline-Replace {
    param(
        [string]$Filename,
        [string]$ToReplace,
        [array]$ReplaceWith
    )

    $content = Get-Content $Filename
    $replace = $false
    $output = ""
    $content | ForEach {
        $line = $_
        if ($line.Contains($ToReplace)) {
            $replace = $true
            $ReplaceWith | ForEach {
                $output += $line.Replace($ToReplace, $_) + "`n"
            }
        } else {
            $output += $line + "`n"
        }
    }
    if ($replace) {
        Write-Host "Replacing: " $Filename
        $output | Set-Content $Filename
    } else {
        Write-Host "Ignoring:  " $Filename
    }
}

Function Replace-Filestrings {
    param(
        [array]$FilleTypes,
        [string]$ToReplace,
        [array]$Replacements,
        [array]$ExcludeList
    )

    $FileTypes | ForEach {
        Get-ChildItem $_ -Recurse | ForEach-Object {
            $filename = $_
            if (($ExcludeList | %{ $filename -Like $_ }) -Contains $True) {
                Write-Host "Excluding: " $filename
            } else {
                Multiline-Replace $_ $ToReplace $Replacements
            }
        }
    }
}

$ExcludeList = @("*include\xen\*", "*\obj\*")
$Replace = "Copyright (c) Citrix Systems Inc."

$Replacements = @("/* Copyright (c) Xen Project.", " * Copyright (c) Cloud Software Group, Inc.")
$FileTypes = @("*.c", "*.h", "*.rc")
Replace-Filestrings $FileTypes ('/* ' + $Replace) $Replacements $ExcludeList

$Replacements = @("; // Copyright (c) Xen Project.", "; // Copyright (c) Cloud Software Group, Inc.")
$FileTypes = @("*.mc")
Replace-Filestrings $FileTypes ('; // ' + $Replace) $Replacements $ExcludeList

$Replacements = @("; Copyright (c) Xen Project.", "; Copyright (c) Cloud Software Group, Inc.")
$FileTypes = @("*.inf", "*.def")
Replace-Filestrings $FileTypes ('; ' + $Replace) $Replacements $ExcludeList

$Replacements = @("Copyright (c) Xen Project.", "Copyright (c) Cloud Software Group, Inc.")
$FileTypes = @("LICENSE")
Replace-Filestrings $FileTypes $Replace $Replacements $ExcludeList

Signed-off-by: Owen Smith <owen.smith@citrix.com>
Amended commit comment. Fixed whitespace.

Signed-off-by: Paul Durrant <paul@xen.org>
2 years agoSkip uninitialized CPUs
Owen Smith [Thu, 16 Feb 2023 11:55:45 +0000 (11:55 +0000)]
Skip uninitialized CPUs

EvtchnFifoAcquire() will loop through all CPUs to call EVTCHNOP_init_control.
Skip any CPUs that are not initialized, which is indicated by
SystemProcessorVcpuId() failing, instead of failing the Acquire operation.

This is primarily an issue when KeQueryMaximumProcessorCountEx() returns
a different value to KeQueryActiveProcessorCountEx(), or the system
processor callback has not been called with KeProcessorAddCompleteNotify
for that CPU.

Signed-off-by: Owen Smith <owen.smith@citrix.com>
Fix up error path that also calls SystemProcessorVcpuId().

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
2 years agoAvoid race when checking for an active transaction
Paul Durrant [Tue, 14 Feb 2023 17:36:48 +0000 (17:36 +0000)]
Avoid race when checking for an active transaction

The code in StoreTransactionEnd() checks, under the protection of Context->Lock,
that the transaction is active. It then drops the lock and calls
StorePrepareRequest(), which also tests whether the transaction is active but
*not* under the protection of the lock. If the domain is suspended and resumed
in between the two checks then this will cause StorePrepareRequest() to fail
for non-NULL transactions.
This patch makes sure that Context->Lock is held across all calls to
StorePrepareRequest(), along with any prior tests for whether transactions or
watches are active, and drops the internal acquisition of the lock (which was
done to protect the increment of Context->RequestId).

Reported-by: Owen Smith <owen.smith@citrix.com>
Signed-off-by: Paul Durrant <pdurrant@amazon.com>
2 years agoAdd resource file to coinstaller
Owen Smith [Fri, 10 Feb 2023 08:44:37 +0000 (08:44 +0000)]
Add resource file to coinstaller

Signed-off-by: Owen Smith <owen.smith@citrix.com>
2 years agoAllow rebranding file copyright string
Owen Smith [Fri, 10 Feb 2023 08:44:36 +0000 (08:44 +0000)]
Allow rebranding file copyright string

Pass COPYRIGHT string from environment to override the copyright string
that is embedded in the output binaries.

Signed-off-by: Owen Smith <owen.smith@citrix.com>
2 years agoCorrect return codes during racy destruction.
Martin Harvey [Mon, 14 Nov 2022 11:32:26 +0000 (11:32 +0000)]
Correct return codes during racy destruction.

Errors in PnP retun codes found when testing under driver
verifier with mixed VM lifecycle operations. Under some
rare cases, it is possible to get more than one PnP
"remove-like" operation. This results in a PnP remove
operation being processed whilst the device is already
in the deleted state.

This patch fixes the immediate cause of the bugfixes,
by fixing the return code. Device destruction is
unchanged. Investigation into the root cause is still
ongoing.

Signed-off-by: Martin Harvey <martin.harvey@citrix.com>
Cosmetic fixes.

Signed-off-by: Paul Durrant <paul@xen.org>
2 years agoPass SignMode to MSBuild
Owen Smith [Fri, 18 Nov 2022 10:06:10 +0000 (10:06 +0000)]
Pass SignMode to MSBuild

Allows overriding of SignMode to "Off" to prevent signing binaries with the PFX
file. This is useful if wrapper builds sign binaries with alternative signatures
or when signing is not required.

Signed-off-by: Owen Smith <owen.smith@citrix.com>
Small whitespace fix.

Signed-off-by: Paul Durrant <paul@xen.org>
2 years agoAdd build options for EWDK 22621
Owen Smith [Wed, 12 Oct 2022 10:21:34 +0000 (11:21 +0100)]
Add build options for EWDK 22621

VisualStudioVersion = 17.0 maps to Visual Studio 2022
* Adds project files for vs2022
* Adds mapping from VisualStudioVersion 17.0 to "vs2022" project folder
* Adds mapping from VisualStudioVersion 17.0 to "Windows 10" build target
* Adds guard to build.ps1 - EWDK 22621 does not build x86 binaries
* Adds include directive where compiler intrinsics are used

Signed-off-by: Owen Smith <owen.smith@citrix.com>
2 years agoLazily construct slab objects
Paul Durrant [Wed, 31 Aug 2022 15:14:27 +0000 (16:14 +0100)]
Lazily construct slab objects

To avoid a large overhead in both time and potemtially space when a new slab
is created, only construct objects as they are allocated. When they are freed
we keep them constructed to increase the chance of finding an already-
constructed object during subsequent allocations.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
2 years agoRename the XENBUS_CACHE_SLAB 'Mask' field
Paul Durrant [Wed, 31 Aug 2022 15:14:04 +0000 (16:14 +0100)]
Rename the XENBUS_CACHE_SLAB 'Mask' field

Change the field name to 'Allocated' to reflect its purpose. A subsequent
patch will add another mask.

No functional change.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
2 years agoTrack slab occupancy using the mask
Paul Durrant [Wed, 31 Aug 2022 14:39:56 +0000 (15:39 +0100)]
Track slab occupancy using the mask

This further shortens the slab pre-amble and allows the occupancy to be
amended directly in __CacheMaskSet/Clear().

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
2 years agoAdd a new XENBUS_CACHE_MASK absraction
Paul Durrant [Tue, 30 Aug 2022 08:45:40 +0000 (09:45 +0100)]
Add a new XENBUS_CACHE_MASK absraction

This abstracts away the current array along with the size of the mask. This
slightly shortens the slab pre-amble, potentially allowing more objects per
slab.

The __CacheMaskScan() is also dropped in favour of a simple loop implemented
directly in CacheGetObjectFromSlab(). This is done to simplify subsequent
patches.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
2 years agoAdd an explicit type parameter to the P2ROUNDUP() macro
Paul Durrant [Wed, 31 Aug 2022 13:11:36 +0000 (14:11 +0100)]
Add an explicit type parameter to the P2ROUNDUP() macro

Because it uses signed logic internally it is currently quite vulnerable to
mismatched argument types leading to weird evaluations. Therefore it's safer
to give it an explicit type parameter and have it cast its other arguments to
that type.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
2 years agoAdd Svr2019, Svr2022 and Win11 to Inf2Cat
Owen Smith [Thu, 30 Jun 2022 14:24:03 +0000 (15:24 +0100)]
Add Svr2019, Svr2022 and Win11 to Inf2Cat

Signed-off-by: Owen Smith <owen.smith@citrix.com>
2 years agoFix error path cleanup
Owen Smith [Thu, 19 May 2022 10:17:36 +0000 (11:17 +0100)]
Fix error path cleanup

Signed-off-by: Owen Smith <owen.smith@citrix.com>
2 years agoFix compiler options
Owen Smith [Thu, 5 May 2022 07:02:45 +0000 (08:02 +0100)]
Fix compiler options

Adds '/ZH:SHA_256' '/CETCOMPAT' '/sdl' to compiler and '/SafeSEH' to x86 linker
command lines
These changes were prompted by binskim https://github.com/microsoft/binskim

Note: Rule BA2004 (Warning_NativeWithInsecureStaticLibraryCompilands) is still
      reported for xenbus_coinst.dll and xenbus_monitor.exe
      Rule BA2007 (Error_WarningsDisabled) is still reported for all drivers
      Rule BA2018 (Error, SSE table is empty) is still reported for x86 xen.sys

Signed-off-by: Owen Smith <owen.smith@citrix.com>
3 years agoRemove the 'Success' field from SUSPEND_CONTEXT
Paul Durrant [Fri, 6 May 2022 11:03:58 +0000 (12:03 +0100)]
Remove the 'Success' field from SUSPEND_CONTEXT

Now that there are dedicated SyncRunEarly() and SyncRunLate() functions there
is no need for this value; we can simply make the function invocations
contingent on the success of the hypercall (which tells us whether we are
doing fast-resume or not).

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
3 years agoReplace if-else-if sequence in SyncWorker() with switch
Paul Durrant [Fri, 6 May 2022 11:29:54 +0000 (12:29 +0100)]
Replace if-else-if sequence in SyncWorker() with switch

Now that the set of requests and other re-factoring is complete, tidy up the
code in SyncWorker().

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
3 years agoSeparate running the 'late' SYNC_CALLBACKs from exitting the DPC
Paul Durrant [Thu, 5 May 2022 18:12:40 +0000 (19:12 +0100)]
Separate running the 'late' SYNC_CALLBACKs from exitting the DPC

This patch introduces a new dedicated request to ensure that *all* callbacks
have been completed before *any* CPU exits the DPC, thereby allowing threads
to be scheduled or other DPCs to run.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
3 years agoSeparate running the 'early' SYNC_CALLBACKs from the interrupt enable request
Paul Durrant [Thu, 5 May 2022 17:57:52 +0000 (18:57 +0100)]
Separate running the 'early' SYNC_CALLBACKs from the interrupt enable request

This patch introduces a new dedicated request to ensure that *all* callbacks
have been completed before *any* CPU re-enables interrupts.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
3 years agoRemove the SYNC_PROCESSOR structure
Paul Durrant [Thu, 5 May 2022 17:29:17 +0000 (18:29 +0100)]
Remove the SYNC_PROCESSOR structure

A previous commit left this structure with only a single remaining field:
the KDPC structure. This patch simply replaces the SYNC_PROCESSOR array in
SYNC_CONTEXT with a KDPC array. The now-unused 'Processor' pointer in
SyncWorker() is also cleaned up.

NOTE: There is a little re-formatting done in the definition of SYNC_CONEXT:
      The field names were excessively indented.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
3 years agoMove 'Request' from SYNC_PROCESSOR to SYNC_CONTEXT
Paul Durrant [Thu, 5 May 2022 17:19:17 +0000 (18:19 +0100)]
Move 'Request' from SYNC_PROCESSOR to SYNC_CONTEXT

By keeping a local 'Request' value on stack in SyncWorker() to track the last
completed request, we can avoid the need to initiate operations using a per-
processor value and simply use a global one. This means we no longer need
the loops iterating over all SYNC_PROCESSORs in SyncDisableInterrupts(),
SyncEnableInterrupts() and SyncRelease().

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
3 years agoReplace the 'DisableInterrupts' and 'Exit' BOOLEANs in SYNC_PROCESSOR...
Paul Durrant [Thu, 5 May 2022 15:38:50 +0000 (16:38 +0100)]
Replace the 'DisableInterrupts' and 'Exit' BOOLEANs in SYNC_PROCESSOR...

... with a single SYNC_REQUEST enumeration.

NOTE: The consequential changes in SyncWorker() are deliberately naive to keep
      the patch concise. Subsequent patches will re-structure the code.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
3 years agoReduce code duplication
Paul Durrant [Thu, 5 May 2022 14:56:21 +0000 (15:56 +0100)]
Reduce code duplication

Introduce helper functions for disabling/enabling interrupts and waiting for
completion. The functions are then used in place of the current open-coding of
these operations.

NOTE: To avoid compiler/prefast noise, some warnings are disabled. The static
      analysis can't cope with the IRQL manipulation.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
3 years agoRemove unnecessary wait when enabling interrupts
Paul Durrant [Thu, 5 May 2022 13:57:41 +0000 (14:57 +0100)]
Remove unnecessary wait when enabling interrupts

There is no need for DPCs to wait: Only the main thread needs to do so.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
3 years agoRemove 'Sequence' from SYNC_CONTEXT
Paul Durrant [Thu, 5 May 2022 13:30:29 +0000 (14:30 +0100)]
Remove 'Sequence' from SYNC_CONTEXT

It is not actually needed because enable/disable interrupt operations will
always wait indefinitely.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
3 years agoClear 'Success' in SUSPEND_CONTEXT after it has been used
Paul Durrant [Thu, 5 May 2022 13:57:07 +0000 (14:57 +0100)]
Clear 'Success' in SUSPEND_CONTEXT after it has been used

Leaving it set to TRUE causes an ASSERTion failure in a checked build if it is
disabled/unloaded after a resume-from-suspend.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
3 years agoUse List macros to manipulate lists
Owen Smith [Thu, 3 Mar 2022 15:06:21 +0000 (15:06 +0000)]
Use List macros to manipulate lists

Signed-off-by: Owen Smith <owen.smith@citrix.com>
Added comment to note when list removal occurs

Signed-off-by: Paul Durrant <paul@xen.org>
3 years agoAll items in SYSTEM_PROCESSOR array may not be initialized
Owen Smith [Mon, 28 Feb 2022 11:47:01 +0000 (11:47 +0000)]
All items in SYSTEM_PROCESSOR array may not be initialized

The SYSTEM_PROCESSOR array is allocated to fit the maximum number of supported
CPUs, but elements are only initialized when the SystemProcessorChangeCallback
callback is called with KeProcessorAddCompleteNotify.
Check if the SYSTEM_PROCESSOR structure is initialized before accessing any
other members, and fail SystemProcessorVcpuId with STATUS_NOT_SUPPORTED for any
uninitialized CPUs

Signed-off-by: Owen Smith <owen.smith@citrix.com>
3 years agoSDV: RemoveLock rule violations
Owen Smith [Mon, 7 Feb 2022 13:15:03 +0000 (13:15 +0000)]
SDV: RemoveLock rule violations

Calls to IoAcquireRemoveLock and IoReleaseRemoveLock should be paired within
the same dispatch entry point, unless the IoCompletionRoutine does some work.
Remove completion routines that are not required and call IoReleaseRemoveLock
after the IRP has been passed to IoCallDriver.

Signed-off-by: Owen Smith <owen.smith@citrix.com>
3 years agoSDV: ZwRegistryOpen rule violations
Owen Smith [Mon, 7 Feb 2022 13:15:02 +0000 (13:15 +0000)]
SDV: ZwRegistryOpen rule violations

Dont hold the ParametersKey open, SDV treats this as a mismatched
ZwRegistryOpen and ZwClose pair.
Open the registry key when required, and close it once its no longer
required.

Signed-off-by: Owen Smith <owen.smith@citrix.com>
Remove DriverGetParametersKey() from xenfilt/driver.h and don't add the
implementation of DriverOpenParametersKey() in xenfilt/driver.c.

Signed-off-by: Paul Durrant <paul@xen.org>
3 years agoSDV: NullCheck rule
Owen Smith [Mon, 7 Feb 2022 13:15:01 +0000 (13:15 +0000)]
SDV: NullCheck rule

Check memory allocation succeeds.
Also check RtlUnicodeStringToAnsiString succeeds, though this failure is
unlikely when the buffer is pre-allocated.

Signed-off-by: Owen Smith <owen.smith@citrix.com>
3 years agoFix Use-After-Free
Owen Smith [Mon, 7 Feb 2022 13:15:00 +0000 (13:15 +0000)]
Fix Use-After-Free

Stash the underlying buffer pointer before freeing the MDL, so that
MmGetSystemAddressForMdlSafe doesn't attempt to access already-freed
memory.

Signed-off-by: Owen Smith <owen.smith@citrix.com>
3 years agoAdd /CETCOMPAT to linker flags
Owen Smith [Mon, 29 Nov 2021 09:53:00 +0000 (09:53 +0000)]
Add /CETCOMPAT to linker flags

The "Hardware-enforced Stack Protection Compatibility Test" requires drivers
to be compiled with the /CETCOMPAT flag

Signed-off-by: Owen Smith <owen.smith@citrix.com>
3 years agoThe PV console may not always be available
Paul Durrant [Thu, 18 Nov 2021 21:05:45 +0000 (21:05 +0000)]
The PV console may not always be available

In some Xen deployments the tool-stack may not allocate a PV console ring
and event channel to the guest, so XENBUS should deal with this situation
gracefully.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
3 years agoIntroduce an alternative hole type using the platorm PCI device BAR
Paul Durrant [Tue, 16 Nov 2021 16:35:42 +0000 (16:35 +0000)]
Introduce an alternative hole type using the platorm PCI device BAR

Using a memory hole burns 2M of RAM and is only helpful in the case where
the guest has pass-through devices causing Xen to make accesses to all PCI
BARs uncacheable. In the case where guest-visible devices are all emulated
this will not be the case and so we can save the 2M of RAM by using the
platform PCI device BAR as the hole.

This patch adds the necessary code to do that, defaulted off but enabled
by setting the XENBUS registry parameter DWORD:UseMemoryHole to 0.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
3 years agoSeparate the code that creates and destroys the memory hole...
Paul Durrant [Tue, 16 Nov 2021 15:01:36 +0000 (15:01 +0000)]
Separate the code that creates and destroys the memory hole...

... into sub-functions called from FdoCreateHole() and FdoDestroyHole().

This is in preparation for a subsequent patch that will introduce an
alternative hole type.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
3 years agoSeparate parameters associated with the memory hole from XENBUS_FDO...
Paul Durrant [Tue, 16 Nov 2021 14:34:36 +0000 (14:34 +0000)]
Separate parameters associated with the memory hole from XENBUS_FDO...

... into a new XENBUS_HOLE structure.

Also, zero-base the range set used in the allocator. It actually makes the
code more complicated to have the range based on the first PFN of the hole.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
3 years agoxenfilt: Move list pointer to next entry when pdo is missing
Richard Turner [Fri, 8 Oct 2021 13:22:44 +0000 (09:22 -0400)]
xenfilt: Move list pointer to next entry when pdo is missing

The pointer to the list of fdo entries is never advanced
when the pdo is missing, causing a BSOD. When a device
is missing, advance the list pointer to the next entry.

Signed-off-by: Richard Turner <turnerr@ainfosec.com>
3 years agoFix issues raised by CodeQL (part 2)
Paul Durrant [Mon, 20 Sep 2021 08:26:29 +0000 (09:26 +0100)]
Fix issues raised by CodeQL (part 2)

Swap strtol() for strtoul() in emulated.c (since we're not interested in
negative values anyway) and then check the returned value *before* checking
the end pointer.

Reported-by: Owen Smith <owen.smith@citrix.com>
Signed-off-by: Paul Durrant <pdurrant@amazon.com>
3 years agoFix issues raised by CodeQL (part 1)
Owen Smith [Tue, 10 Aug 2021 15:40:48 +0000 (16:40 +0100)]
Fix issues raised by CodeQL (part 1)

- ExAllocatePoolWithTag is deprecated in Windows 10 2004 and replaced with
    ExAllocatePool2. Use ExAllocatePoolUninitialized to maintain support for
    earlier versions of Windows.

Signed-off-by: Owen Smith <owen.smith@citrix.com>
Split up original patch.

Signed-off-by: Paul Durrant <paul@xen.org>
3 years agoFix SDV/CodeQL log generation
Owen Smith [Tue, 10 Aug 2021 15:40:47 +0000 (16:40 +0100)]
Fix SDV/CodeQL log generation

- sarif files need to be stored with SDV logs when generating the DVL file
- Disable PREFast and CodeAnalysis by default
- Run a seperate CodeAnalysis build after SDV, but before generating DVL file
    DVL file should contain multiple summary lines for SDV, at least 1 line
    for CodeAnalysis and at least 1 line for Semmle (CodeQL)

Signed-off-by: Owen Smith <owen.smith@citrix.com>
3 years agoDocument CodeQL build requirements
Owen Smith [Tue, 7 Sep 2021 08:10:46 +0000 (09:10 +0100)]
Document CodeQL build requirements

CodeQL requires an additional tool and rule set which are seperate from the
EWDK ISOs, and require manual installation and configuration

Signed-off-by: Owen Smith <owen.smith@citrix.com>
3 years agoFix build with later WDKs:
Paul Durrant [Mon, 6 Sep 2021 07:46:50 +0000 (08:46 +0100)]
Fix build with later WDKs:

- Adds alias for GetProjectInfoForReference target to version.vcxproj
  Later kits seemed to have renamed the build target, and will fail without
  this alias target.
- Adds "/fd sha256" to signtool command line
  WDK 20344 and later require binaries signed with a SHA256 file digest, or
  the build outputs are deleted.

Signed-off-by: Owen Smith <owen.smith@citrix.com>
Re-worked from Owen's original patch:

- Squashes warnings 4061 and 26052.
- Casts XENBUS_STORE_PERMISSION_MASK to ULONG in switch statement to avoid
  complaint about case using '|'.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
3 years agoRemove MINIMUM_OBJECT_SIZE
Owen Smith [Mon, 19 Jul 2021 10:03:34 +0000 (11:03 +0100)]
Remove MINIMUM_OBJECT_SIZE

MINIMUM_OBJECT_SIZE would make all cached objects at least 0x80 bytes, which
would limit the number of objects in each slab to 31 objects.

This limitation is not needed, as the slab's mask is dynamically allocated to
cope with the correct number of objects that can fit into a single slab.
Cache object's sizes are rounded up to the nearest pointer boundary to maintain
object alignment. Removing the minimum size allows more objects per cache slab,
reducing the memory overhead of caches.

Signed-off-by: Owen Smith <owen.smith@citrix.com>
3 years agoTrack additional Cache stats
Owen Smith [Mon, 19 Jul 2021 10:03:32 +0000 (11:03 +0100)]
Track additional Cache stats

Track Current/Maximum number of slabs, and Current/Maximum number of objects in
use.

Signed-off-by: Owen Smith <owen.smith@citrix.com>
3 years agoDisable CONS debug logging
Martin Harvey [Thu, 15 Jul 2021 13:15:02 +0000 (14:15 +0100)]
Disable CONS debug logging

In some cases, third party antivirus products may send many
PnP query IRP's down the stack. This tends to fill the logfiles up
with unnecessary repeated lines, making debugging of other
failures difficult.

Previous loglevel was (INFO|WARNING|ERROR|CRITICAL)

Signed-Off-By: Martin Harvey <martin.harvey@citrix.com>
3 years agoAdd logging for XenFilt AddDevice.
Martin Harvey [Thu, 15 Jul 2021 13:15:01 +0000 (14:15 +0100)]
Add logging for XenFilt AddDevice.

Recent releases of Windows (10 and 11 in particular) allow
online edition updates which involve a driver migration step,
which occurs in SAFEBOOT mode.

In some rare cases, this step may fail (for a variety of reasons).
This additional logging added to debug such upgrade cases.

Signed-Off-By: Martin Harvey <martin.harvey@citrix.com>
3 years agoAdditional logging for module loading.
Martin Harvey [Thu, 15 Jul 2021 13:15:00 +0000 (14:15 +0100)]
Additional logging for module loading.

Recent releases of Windows (10 and 11 in particular) allow
online edition updates which involve a driver migration step,
which occurs in SAFEBOOT mode.

In some rare cases, this step may fail (for a variety of reasons).
This additional logging added to debug such upgrade cases.

Signed-Off-By: Martin Harvey <martin.harvey@citrix.com>
3 years agoReduce logging of Fdo->NotDisableable
Owen Smith [Wed, 7 Jul 2021 08:54:56 +0000 (09:54 +0100)]
Reduce logging of Fdo->NotDisableable

Signed-off-by: Owen Smith <owen.smith@citrix.com>
3 years agoAdd emulated NVMe to IsDiskPresent results
Owen Smith [Mon, 28 Jun 2021 12:58:39 +0000 (13:58 +0100)]
Add emulated NVMe to IsDiskPresent results

IsDiskPresent currently only reports the presence of emulated IDE disks. When
using emulated NVMe disks, its possible to start booting off the emulated disk,
but have XenVbd 'take over' resulting in storage requests to the emulated NVMe
disk timing out and failing. This results in a Windows error on boot
"Status 0xc000000e. A required device isnt connected or can't be accessed"

Query the CompatibleIDs and, if present, add the last CompatibleID to emulated
objects of type PCI. When querying if a disk is preset, also check for PCI
devices which match the CompatibleID "PCI\CC_0108". This will prevent XenVbd
enumerating a PV disk which is has a matching emulated NVMe device.

Signed-off-by: Owen Smith <owen.smith@citrix.com>
3 years agoAvoid potential race with FiltersInstall
Owen Smith [Mon, 28 Jun 2021 12:58:38 +0000 (13:58 +0100)]
Avoid potential race with FiltersInstall

Is certain situations, a race between XENFILT and XENBUS can lead to XENFILT
not being loaded on the root PCI device node. This is due to XENBUS!DriverEntry
removing the registry value just before the PnP manager determines what filters
to load, and fails to load XENFILT on the root PCI node. This leads to XENBUS
being unable to determine the correct ActiveDevice. Without an ActiveDevice,
no Unplugs are issued, and emulated devices are used for boot, leading to a
reboot prompt before XENVBD can be used as the boot device. The race appears to
be reliable once triggered, and a reboot will follow the same sequence. This
appears to be caused by OS upgrades which affect the order the PnP manager
starts different driver stacks.

This contains a reversion to 9d28a9e9b79, which fixed an upgrade issue that
triggered multiple reboot requirements to reload XENFILT correctly.
If an incompatibility is detected, which can be resolved by a reboot to
complete the driver installation, XENFILT is inserted into the UpperFilters so
that XENFILT is loaded on this reboot. This avoids requiring a second reboot so
that XENFILT can load and determine the ActiveDevice.

Signed-off-by: Owen Smith <owen.smith@citrix.com>
3 years agoSkip stale device config when checking child compatibility
Owen Smith [Thu, 17 Jun 2021 12:33:52 +0000 (13:33 +0100)]
Skip stale device config when checking child compatibility

When a device is updated, the Enum key for the old binding is not deleted.
This can lead to a device binding that is not in use (has been replaced by
a later binding) triggering the coinstaller to fail the upgrade to a newer
version. This is especially prevelent when the older stale information was
bound to a revision that is not present in the new driver INF file.

This fix ignores the stale entries under the Enum key when performing the
compatibility checks.

e.g.
tag 8.2.1 has 0x08000009 to 0x08000009 for its bindings
tag 9.0.0 has 0x08000009 to 0x09000007 for its bindings
commit a9631142d0be removed v8 revisions, leaving only 0x0900000x revisions
It should be possible to upgrade from tag 8.2.1 to tag 9.0.0 and then to
commits after a9631142d0be. At each stage of this upgrade, the revisions
overlap, even if the initial and end revisions do not have an overlap.
It is not possible to upgrade directly from tag 8.2.1 to commit a9631142d0be,
as there is no common revision that can be used.

Signed-off-by: Owen Smith <owen.smith@citrix.com>
3 years agoClear unplug keys if Active device is not the Vendor device
Owen Smith [Thu, 17 Jun 2021 12:33:51 +0000 (13:33 +0100)]
Clear unplug keys if Active device is not the Vendor device

When a VM has both Vendor device and the standard device, upgrades can be made
for XenBus on the inactive device. In this case, the driver binaries are
replaced but the coinstaller is not executed for the Active device, leading to
the unplug keys remaining. When the VM is rebooted to complete the driver
installation, both the Active and Inactive devices will use the new driver
binaries, but the Active device will require the child devices rebinding to the
potentially new hardware IDs exposed by the newer binary. This is not possible
during early boot, and the absence of an emulated disk and not being able to
enumerate the PV disk will result in a 0x7B bugcheck.
The Vendor device is designed to be the prefered device, but is not required
to be the active device (this is the case if the VMs configuration is changed
after the drivers have been installed).
It is possible to detect if the Active device is not the Vendor device during
the Active device coinstaller, and clear the Unplug keys to avoid the problem
where the VM will attempt to boot with unplugged emulated disks and PV disks
that require rebinding, which results in a 0x7B bugcheck.

Signed-off-by: Owen Smith <owen.smith@citrix.com>
4 years agoAvoid ASSERT in SystemTeardown
Owen Smith [Fri, 19 Mar 2021 14:16:25 +0000 (14:16 +0000)]
Avoid ASSERT in SystemTeardown

Signed-off-by: Owen Smith <owen.smith@citrix.com>
4 years agoAdd CodeQL build stage
Owen Smith [Wed, 24 Feb 2021 08:19:57 +0000 (08:19 +0000)]
Add CodeQL build stage

CodeQL logs will be required for future WHQL submissions. Add a stage
that generates the required SARIF files. CodeQL is a semantic code
analysis engine, which will highlight vunerabilities that will need
fixing.

In order to use CodeQL, the CodeQL binaries must be on the path and the
Windows-Driver-Developer-Supplemental-Tools must be on the path defined
by the CODEQL_QUERY_SUITE environment variable (if defined), or under
the parent folder (if CODEQL_QUERY_SUITE variable is not defined)

Note: Due to the way the codeql command line is built, using quotes in a
MSBuild command line is not possible, so generate a batch file to wrap
the command line.

Signed-off-by: Owen Smith <owen.smith@citrix.com>
4 years agoFix PDO revision
Paul Durrant [Mon, 22 Feb 2021 09:45:11 +0000 (09:45 +0000)]
Fix PDO revision

Commit 58760cc3dd94 ("Add XENBUS_SHARED_INFO method to check whether event
upcalls are supported") added a new version of the XENBUS_SHARED_INFO
interface but there was a typo in the line added into revisions.h and hence
the XENBUS PDO revision was left as 0x09000008 rather then being increased to
0x09000009. This patch rectifies the situation.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoMake sure StoreSubmitRequest() cannot fail...
Paul Durrant [Wed, 17 Feb 2021 18:25:39 +0000 (18:25 +0000)]
Make sure StoreSubmitRequest() cannot fail...

... after a request completes successfully in xenstored.

Currently a failure is possible if a request completes successfully but
StoreCopyResponse() fails to allocate memory. This has a particularly nasty
side effect in StoreTransactionStart() where is can return a failure status
to its caller but a new transaction was, in fact, initialized in xenstored.
This then leads to a transaction 'leak'.

This patch makes sure that memory is allocated up-front in
StoreSubmitRequest() so it cannot fail after communicating with xenstored.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoAvoid ASSERTion failure on migrate/resume
Paul Durrant [Wed, 17 Feb 2021 17:27:19 +0000 (17:27 +0000)]
Avoid ASSERTion failure on migrate/resume

After commit ed57f5f6367f ("Make vcpu_info registration conditional on number
of vCPUs") it is no longer certain that SystemProcessorRegisterVcpuInfo()
will be called during boot and indeed it was modified to ASSERT that the
'RegisterVcpuInfo' flag in SYSTEM_CONTEXT is TRUE. Unfortunately this means
that the (now erroneously) unconditional call to
SystemProcessorRegisterVcpuInfo() in SuspendEarly() may fail the ASSERTion.

This patch fixes the problem by allowing SystemProcessorRegisterVcpuInfo() to
be called unconditionally and simply having it exit early if the
'RegisterVcpuInfo' flag is not set. SystemProcessorDeregisterVcpuInfo() is
also similarly modified for consistency.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoFix Active Device Present logging
Owen Smith [Mon, 15 Feb 2021 12:02:48 +0000 (12:02 +0000)]
Fix Active Device Present logging

Log active device presence from DriverIsActiveDevicePresent, rather than
the caller when DriverIsActiveDevicePresent reported its present. This
move fixes the non-functional conditional in the logging.

Signed-off-by: Owen Smith <owen.smith@citrix.com>
Signed-off-by: Paul Durrant <paul@xen.org>
4 years agoAdd XENBUS_SHARED_INFO method to check whether event upcalls are supported
Paul Durrant [Sat, 30 Jan 2021 18:08:34 +0000 (18:08 +0000)]
Add XENBUS_SHARED_INFO method to check whether event upcalls are supported

Upcalls can only be supported on a vCPU that has a vcpu_info structure
available to Xen; that is one with a vcpu_id < XEN_LEGACY_MAX_VCPUS (32) or
one that has explicitly registered a vcpu_info. This is determined during
SharedInfoAcquire() but the information needs to be avalable to the code in
evtchn.c. Hence this patch adds a new 'UpcallSupported' method to
XENBUS_SHARED_INFO (consequently bumping the interface version to 3).

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoRetire PDO versions 08000009 thru 0800000B
Paul Durrant [Sat, 30 Jan 2021 14:55:01 +0000 (14:55 +0000)]
Retire PDO versions 08000009 thru 0800000B

These are the last of the v8 PDO versions. The v9 drivers have been available
for a long time now so these versions can be retired. This allows support for
XENBUS_EVTCHN v4, XENBUS_STORE v1 and XENBUS_GNTTAB v1 interfaces to be
removed.

NOTE: Without this patch then adding new interface versions is essentially
      blocked, as a single extra PDO revision will trigger an assertion in
      PdoQueryId() in XENBUS because the length of the buffer for
      'BusQueryCompatibleIDs' will exceed REGSTR_VAL_MAX_HCID_LEN (1024).

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoMake vcpu_info registration conditional on number of vCPUs
Paul Durrant [Sat, 30 Jan 2021 14:35:56 +0000 (14:35 +0000)]
Make vcpu_info registration conditional on number of vCPUs

It is unnecessary to explicitly register vcpu_info structures for VMs with
XEN_LEGACY_MAX_VCPUS (32) vCPUs or fewer as the array embedded in the
shared_info structure can be used instead, saving a small amount of memory and
speeding up boot slightly. NOTE: events may only be delivered to a vCPU with a
vcpu_info structure that is available to Xen.

This patch adds a registry override in the form of a registry parameter of
the XEN driver, 'RegisterVcpuInfo'. If this parameter is present and set
to zero then vcpu_info structures are not registered (regardless of vCPU
count), meaning that event channel binding may fail for some vCPUs in the
system (i.e. those with vcpu_id >= 32). If the parameter is present and set
to a non-zero value then vcpu_info structures are always registered (as is
the case without this patch). However, if the parameter is missing (which is
the default case) then vcpu_info structures will be registered only if the
vCPU count exceeds 32.

NOTE: The logic checking XEN_LEGACY_MAX_VCPUS in EvtchnIsProcessorEnabled()
      doesn't really belong there. The code in shared_info.c knows whether
      a vcpu_info is available but querying this will require a new version
      of XENBUS_SHARED_INFO. This will be addressed in a subsequent patch.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoCreate interface to retrieve XEN driver 'Parameters' key
Paul Durrant [Sat, 30 Jan 2021 14:33:35 +0000 (14:33 +0000)]
Create interface to retrieve XEN driver 'Parameters' key

Subsequent patches will need to query a parameter. This patch simply adds the
interface.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoAllocate SYSTEM_PROCESSOR array up-front
Paul Durrant [Sat, 30 Jan 2021 14:29:22 +0000 (14:29 +0000)]
Allocate SYSTEM_PROCESSOR array up-front

Most code uses KeQueryMaximumProcessorCountEx() to determine the number of
CPUs in the system, so remove the one and only caller of
SystemProcessorCount(), remove it from the XEN_API and allocate the array
up-front (also using KeQueryMaximumProcessorCountEx()) rather than growing
it in response to each processor callback.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoIntroduce XENBUS_SHARED_INFO_PROCESSOR to hold per-CPU state
Paul Durrant [Fri, 29 Jan 2021 18:51:02 +0000 (18:51 +0000)]
Introduce XENBUS_SHARED_INFO_PROCESSOR to hold per-CPU state

This allows the vcpu_info pointer and vcpu_id to be retrieved once for each
vCPU during SharedInfoAcquire(). It also provides a convenient place to
save the event port that terminated the previous poll (which, for fairness, is
where the next poll starts from).

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoFix ASSERTion failure in FdoDisconnectInterrupt()
Paul Durrant [Fri, 29 Jan 2021 18:41:21 +0000 (18:41 +0000)]
Fix ASSERTion failure in FdoDisconnectInterrupt()

Currently the ASSERT(IsZeroMemory(...)) will fail because nothing zeroes
the interrupt count added in commit 162545540cb9 ("Make sure the interrupt
handler for each vCPU is run..."). This patch sets it to zero just after
calling IoDisconnectInterruptEx() (which unhooks FdoInterruptCallback(), where
the count is incremented).

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoRemove bogus ASSERTion
Paul Durrant [Fri, 29 Jan 2021 18:35:32 +0000 (18:35 +0000)]
Remove bogus ASSERTion

The ASSERT(Index > 0) in DriverQueryId() in XENFILT appears to have started
to fail in Windows 10 2004. It is bogus as it will fail if an underlying
driver passes back an empty buffer from either BusQueryHardwareIDs or
BusQueryCompatibleIDs, yet DriverQueryId() will cope perfectly will in these
circimstances, passing back en empty string to its caller. This patch simply
removes the ASSERT().

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoAdd AutoRebootTimeout configuration
Owen Smith [Thu, 28 Jan 2021 11:51:20 +0000 (11:51 +0000)]
Add AutoRebootTimeout configuration

Add registry value AutoRebootTimeout, which if set, is used as the
Timeout value passed to InitiateSystemShutdownEx. If not set, use the
default value of 60 seconds.

Signed-off-by: Owen Smith <owen.smith@citrix.com>
4 years agoFail XS_DIRECTORY for paths with no children
Owen Smith [Wed, 6 Jan 2021 16:17:50 +0000 (16:17 +0000)]
Fail XS_DIRECTORY for paths with no children

When a xenstore path has no children, a response is generated which
contains only the double null terminator. Detect a 0-length response
payload and return STATUS_OBJECT_PATH_NOT_FOUND to indicate that this
path does not have any children

Signed-off-by: Owen Smith <owen.smith@citrix.com>
4 years agoAdd AutoReboot capability
Owen Smith [Tue, 15 Dec 2020 16:29:07 +0000 (16:29 +0000)]
Add AutoReboot capability

Setting HKLM\System\CCS\Services\xenbus_monitor\AutoReboot to non-zero
will allow xenbus_monitor to trigger a reboot when another driver
requests a reboot. AutoReboot is set to the maximum number of reboots
to perform. Auto reboots display a message with a 60 second timeout.

This setting can be used to allow headless/unmonitored VMs to complete
the neccessary number of reboots to return to PV disks/networks. Without
this capability its possible to update the driver on a parent device,
which may prompt for a reboot. After this reboot, its likely that
emulated devices are used whilst drivers are rebound to the device
nodes. This can leave headless/unmonitored VMs in a state where emulated
devices are in use with a pending reboot. If network settings have been
changed for PV devices (e.g. static IP addressing), then the VM may not
be accessible over RDP or similar connections.

RebootCount is cleared when no pending required reboots are detected.

Signed-off-by: Owen Smith <owen.smith@citrix.com>
4 years agoRefactor monitor.c
Owen Smith [Wed, 9 Dec 2020 13:28:46 +0000 (13:28 +0000)]
Refactor monitor.c

- Split reboot question from statement
- Move GetDisplayName to seperate function call

Signed-off-by: Owen Smith <owen.smith@citrix.com>
4 years agoMake sure the interrupt handler for each vCPU is run...
Paul Durrant [Fri, 4 Dec 2020 20:01:41 +0000 (20:01 +0000)]
Make sure the interrupt handler for each vCPU is run...

... after enabling event channel delivery.

New versions of Xen have this sequence in their map_vcpu_info() function:

    /*
     * Mark everything as being pending just to make sure nothing gets
     * lost.  The domain will get a spurious event, but it can cope.
     */
    if ( !has_32bit_shinfo(d) )
        write_atomic(&new_info->native.evtchn_pending_sel, ~0);
    else
        write_atomic(&vcpu_info(v, evtchn_pending_sel), ~0);
    vcpu_mark_events_pending(v);

whereas older versions code this differently:

    /*
     * Mark everything as being pending just to make sure nothing gets
     * lost.  The domain will get a spurious event, but it can cope.
     */
    vcpu_info(v, evtchn_upcall_pending) = 1;
    for ( i = 0; i < BITS_PER_EVTCHN_WORD(d); i++ )
        set_bit(i, &vcpu_info(v, evtchn_pending_sel));

The crucial difference is that in the older variant there is no call to
vcpu_mark_events_pending() which means that, for an HVM guest at least,
the upcall function that clears 'evtchn_upcall_pending' does not get
run and hence no events will be received on that vCPU.

This patch makes sure the upcall function for each vCPU is run at least once
thereby ensuring that 'evtchn_upcall_pending' is cleared.

NOTE: The patch also adds a 'Count' to each XENBUS_INTERRUPT object,
      incremented each time the interrupt is triggred, and emits a log line
      when the value transitions from zero.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoRegister memory for struct vcpu_info
Paul Durrant [Fri, 27 Nov 2020 09:47:53 +0000 (09:47 +0000)]
Register memory for struct vcpu_info

This must only be done once for each vCPU in the lifetime of the VM. The
PFNs of the allocated memory are therefore saved in the registry such that
they can be recovered if XEN.SYS is unloaded and re-loaded.

A new VM is created to resume a suspended image loaded from storage or
migrated in, so a call to the new SystemProcessorRegisterVcpuInfo() is also
added into the 'sync' early callback for each vCPU. This invocation specifies
a 'force' flag, since the state of the VM's memory will show that the
vcpu_info has already been registered.

References to the legacy vcpu_info structures embedded in the shared_info are
replaced and the limit of XEN_LEGACY_MAX_VCPUS is removed from the 2-level
event channel implementation.

NOTE: SystemVirtualCpuIndex() is also renamed to SystemProcessorVcpuId()
      for consistency, and it is co-located with the new
      SystemProcessorVcpuInfo() function.
      It is also necessary to disable warning C4146 (unary minus operator
      applied to unsigned type) in xen.vcxproj as this is done by the
      P2ROUNDUP() macro.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoAdd a new helper function to make VCPUOP_register_vcpu_info hypercalls
Paul Durrant [Fri, 27 Nov 2020 08:41:33 +0000 (08:41 +0000)]
Add a new helper function to make VCPUOP_register_vcpu_info hypercalls

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoRe-work the code in sync.c to provide per-CPU 'early' and 'late' callbacks...
Paul Durrant [Mon, 30 Nov 2020 13:52:09 +0000 (13:52 +0000)]
Re-work the code in sync.c to provide per-CPU 'early' and 'late' callbacks...

... and then use these to drive the XENBUS_SUSPEND callbacks, rather than them
being called directly from SuspendTrigger().

Since the clients of the XENBUS_SUSPEND interface only expect one invocation
of each callback, rather then one per-CPU, they are only invoked from the
sync.c callback for CPU 0. A subsequent patch will introduce a function that
must be called from the 'early' callback for each CPU.

NOTE: The call to KeGetCurrentProcessorNumberEx() made in SyncRelease() is
      relocated to __SyncRelease(), as that is the place where the CPU index
      is actually used.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoIntroduce DriverGet/PutNamedPages()
Paul Durrant [Sat, 28 Nov 2020 17:38:29 +0000 (17:38 +0000)]
Introduce DriverGet/PutNamedPages()

A subsequent patch will need a mechanism to allocate memory that persists
for the lifetime of the VM. Because it is possible for the XEN.SYS module
can be unloaded, references to the PFNs of the allocated buffer are stored
under a volatile registry key such that they can be re-discovered if XEN.SYS
is re-loaded.

DriverGetNamedPages() will either allocate or discover PFNs and wrap them in
an MDL which is then mapped and passed back to the caller.
DriverPutNamedPages() will unmap the PFNs but not free them (since they
will have been written into the registry by DriverGetNamedPages()).

NOTE: There is also a whitespace fix in the call to RegistryCreateSubKey()
      for the 'ParametersKey' in driver.c.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoGeneralize per-processor DPC in SYSTEM
Paul Durrant [Fri, 27 Nov 2020 09:06:37 +0000 (09:06 +0000)]
Generalize per-processor DPC in SYSTEM

The DPC is currently used only for acquiring and display per-processor
information but a subsequent patch will also use the DPC for another purpose.
Hence this patch creates a general SystemProcessorDpc() call-back that then
calls a slightly modified SystemProcessorInformation() (which is renamed
SystemProcessorInitialize()) to fulfil the original purpose.

This patch also adds a mechanism for the per-processor DPCs to pass back
a status code to the main initialization code such that it can be aborted if
any of them fail. A new SystemProcessorTeardown() function is added to do
cleanup, and hence we can verify the SYSTEM_PROCESSOR structures are zeroed
in SystemDeregisterProcessorChangeCallback().

Currently no failure is possible during SystemProcessorDpc() but this will
change with the addition of a subsequent patch.

NOTE: __SystemProcessorCount() is relocated earlier in system.c as it now
      needs to be called by SystemDeregisterProcessorChangeCallback(). It
      is relocated earlier than strictly necessary for this, but
      subsequent patches will do further function relocation and add additonal
      funcrtions that also rely on __SystemProcessorCount() being in its new
      position.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agos/Index/Cpu in the SYSTEM code where 'Index' relates to a processor
Paul Durrant [Fri, 27 Nov 2020 10:06:36 +0000 (10:06 +0000)]
s/Index/Cpu in the SYSTEM code where 'Index' relates to a processor

This is a purely cosmetic patch. No functional change.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoMove HypercallInitialize() earlier
Paul Durrant [Fri, 27 Nov 2020 16:38:52 +0000 (16:38 +0000)]
Move HypercallInitialize() earlier

A subsequent patch will add code called from SystemInitialize() that will need
to make hypercalls.

NOTE: There is a missing code to AcpiTeardown() in DllUnload() which is
      also fixed by this patch.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoRe-work ASSERTion to avoid issues with VERIFIER list checks
Paul Durrant [Sat, 28 Nov 2020 17:44:01 +0000 (17:44 +0000)]
Re-work ASSERTion to avoid issues with VERIFIER list checks

The current mechanism of ASSERTing that there is a single item on the list
seems to fail when list checking is turned on in VERIFIER. Avoid going round
the back of the list macros by instead ASSERTing that the list is empty, once
the entry is removed.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoDon't restrict event channels to vCPU 0...
Paul Durrant [Wed, 25 Nov 2020 19:57:36 +0000 (19:57 +0000)]
Don't restrict event channels to vCPU 0...

... when using the 2-level event channel ABI.

With a small modification to track port numbers per-vcpu, the 2-level polling
code will happily deal with event channels bound to any vCPU up to
XEN_LEGACY_MAX_VCPUS. We just need to be careful to only process events on the
correct vCPU, to avoid list corruption. Hence, the newly introduced 'Pending'
flag needs to be set atomically in case we re-bind an event channel whilst a
poll is in progress.

The XEN_LEGACY_MAX_VCPUS limit is because the 2-level poll currently relies
on using the vcpu_info array embedded in the shared_info. This limit will be
removed in a subsequent patch.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoFix typo in SharedInfoDebugCallback()
Paul Durrant [Wed, 25 Nov 2020 19:55:46 +0000 (19:55 +0000)]
Fix typo in SharedInfoDebugCallback()

A missing '%' in a format specifier means we don't get the correct information
for the per-vcpu selector masks in the debug output.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoUse XENBUS_EVTCHN_PROCESSOR in callback functions
Paul Durrant [Thu, 26 Nov 2020 12:31:07 +0000 (12:31 +0000)]
Use XENBUS_EVTCHN_PROCESSOR in callback functions

This avoids the need for a few KeGetCurrentProcessorEx() calls

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoUse a Cpu index in XENBUS_EVTCHN_CHANNEL rather than a PROCESSOR_NUMBER
Paul Durrant [Thu, 26 Nov 2020 10:50:51 +0000 (10:50 +0000)]
Use a Cpu index in XENBUS_EVTCHN_CHANNEL rather than a PROCESSOR_NUMBER

It makes the code a bit simpler removing the need for some double
Group/Number comparisons.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoProvide a registry override to disable use of per-vcpu event channel upcalls
Paul Durrant [Wed, 25 Nov 2020 19:24:05 +0000 (19:24 +0000)]
Provide a registry override to disable use of per-vcpu event channel upcalls

There is already a REG_DWORD (UseEvtchnFifoAbi) to disable use of FIFO event
channels and force a fall-back to 2-level. This patch adds another
(UseEvtchnUpcall) to disable use of per-vcpu upcalls and force a fall-back to
the callback via.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoTolerate any failure of __FdoVirqCreate() in the VIRQ_TIMER case
Paul Durrant [Wed, 25 Nov 2020 18:58:58 +0000 (18:58 +0000)]
Tolerate any failure of __FdoVirqCreate() in the VIRQ_TIMER case

In pratice __FdoVirqCreate() won't return STATUS_NOT_SUPPORTED since the
XENBUS_EVTCHN(Open, ...) doesn't return a status code and ERRNO_TO_STATUS()
(inside VcpuSetPeriodicTimer()) doesn't translate any Xen errno to that
status code, therefore the check in FdoVirqInitialize() is actually bogus.

This patch simply tolerates any status code returned by __FdoVirqCreate()
when creating a VIRQ_TIMER and then gates enabling the watchdog on there
being at least one VIRQ_TIMER successfully created.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoDon't veto event channel binding if it's not necessary
Paul Durrant [Wed, 25 Nov 2020 18:07:01 +0000 (18:07 +0000)]
Don't veto event channel binding if it's not necessary

Currently binding is vetoed if 'UpcallEnabled' is not set, but this is not
necessary if the selected processor is 0, as the callback via will also
interrupt that CPU.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoAvoid non-zero memory ASSERTion if FdoVirqInitialize() fails
Paul Durrant [Wed, 25 Nov 2020 17:55:55 +0000 (17:55 +0000)]
Avoid non-zero memory ASSERTion if FdoVirqInitialize() fails

FdoVirqTeardown() should also be called from the 'fail1' label to clean up
'VirqList'. This patch also modifies FdoVirqTeardown() to make sure 'VirqLock'
is properly zeroed.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoDocument system start options...
Paul Durrant [Thu, 19 Nov 2020 12:49:23 +0000 (12:49 +0000)]
Document system start options...

... and warn if bad values are specified.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoRemove documention for python helpers that are no longer present
Paul Durrant [Thu, 19 Nov 2020 12:01:37 +0000 (12:01 +0000)]
Remove documention for python helpers that are no longer present

kdfiles.py and clean.py were removed some time ago but are still documented
in README.md. This patch rectifies the situation.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>
4 years agoAdd "XEN:WATCHDOG=" system start option to specify a watchdog time-out
Paul Durrant [Thu, 19 Nov 2020 10:11:07 +0000 (10:11 +0000)]
Add "XEN:WATCHDOG=" system start option to specify a watchdog time-out

When this option supplies a non-zero value (in seconds) for the time-out,
XENBUS will open a VIRQ_TIMER channel bound to each active processor (unless
prevent from doing so by the lack of a FIFO Xen event channel ABI, in which
case there will only be one VIRQ_TIMER on vCPU 0). The Xen domain watchdog
will be programmed to shut the domain down after the time-out period has
elapsed and each VIRQ_TIMER will be programmed to fire at intervals of half
the watchdog period in order that the last vCPU to receive the event
notification will pat the watchdog.

This option will therefore cause lengthy event delivery or processing stalls
to be fatal to the domain, which can be useful for debugging and in some I/O
fail-over cluster scenarios.

Signed-off-by: Paul Durrant <pdurrant@amazon.com>