Below is the uncorrected machine-read text of this chapter, intended to provide our own search engines and external engines with highly rich, chapter-representative searchable text of each book. Because it is UNCORRECTED material, please consider the following text as a useful but insufficient proxy for the authoritative book pages.
3 2 ANALYSIS APPROACHES 2.1 SCOPE OF REPORT We report here two types of crash frequency models by crash type and crash severity. Base condition models are estimated using only sites that meet the âbase conditionâ and include only traffic volume as an explanatory variable; these models support the HSM Part C predictive methodology. Average condition models are estimated using all sites and contain exposureârelated variables, such as average annual daily traffic (AADT) and driveways; they apply for average conditions of nonâexposure variables.  For most facility types, we report base condition models to keep these models compatible with the methodology of the current HSM. For a few facility types, we needed to relax some of the base condition definitions to achieve a large enough sample size to estimate significant models. For a few facility types, the total sample size was much smaller, so we had to use all cases to estimate significant models; we report average condition models for these facility types, as well as for the rest of the facility types in Appendix A.  This report does not contain probabilistic crash severity models or models that include both exposure and nonâexposure covariates. As will be discussed later, our efforts to estimate these types of models were unsuccessful. This section of the report documents our crash type definitions, our estimation approach for crash count models, our exploration of probabilistic crash severity models, and our exploration of improvements for the model calibration procedure.   2.2 CRASH TYPE DEFINITIONS Crash Types The selection of crash types for which models would be developed was based on several criteria: 1. The crash types included in the current HSM chapters for which proportions of total crashes are provided 2. The crash types identifiable from electronic crash records in the datasets used for the project 3. The crash types represented in the estimation and validation datasets 4. The crash types to which available CMFs in the HSM apply for each site type While we tried to maintain consistency of the crash types estimated among all facility types, consideration of these criteria did result in some differences in the final array of crash type models from one facility type to another.  Note that models for pedestrian and bicycle crashes have not been estimated due to very small sample sizes in the available data. These crash types may still be analyzed using the existing HSM approach.  Note also that animal collisions are not included in any of the crash types (they are most likely to be identified as singleâvehicle crashes). Our rationale for the omission is that animal crashes have more to do with environmental factors than road characteristics. Since the HSM predictive methods are focused more on providing guidance for selecting safety treatments or predicting expected crash counts related to roadÂ
4 characteristics, it is not clear how models predicting animal collisions would fit into the model framework. We note the existence of a large body of research into animalâvehicle collisions and suggest that body of work be consulted for consideration of this collision type in safety management procedures.  We have defined the crash types shown in Figure 2â1 to estimate models:  Figure 2â1: General Taxonomy of Crash Types  The taxonomy shown in Figure 2â1 provides for several levels of disaggregation of the crash types according to the number of vehicles involved, their direction of travel, and the manner of the collision. The justification for creating these categories is as follows:Â ï· Each crash type within each category involves vehicles colliding in the same wayâthat is, front to front, front to rear, front to side, and so on. This results in similar crash severity profiles, as confirmed by Zhang et al. (2007).Â ï· Each crash type within each category is associated with a similar distribution of contributing factors, as assigned by investigating officers (Zhang et al. 2007). This suggests common covariates and exposure functions for these associated collision types.Â Â ï· Singleâvehicle and oppositeâdirection crashes have very different relationships with exposure (Ivan 2004), so while their collision patterns and contributing factors are similar, they could have very different model forms.Â Â ï· Experience with crash type prediction suggests that splitting the crash count into too many categories cripples the estimation process, as the crash count for each type gets smaller and smaller. The aggregation categories defined here permit finding a balance that maximizes differences in crash severity and likely causal factors between groups and minimizes them within groups.  The data did not support successful estimation of models for all of these crash types for each facility type, such that coefficients on the AADT variables were not significant or received negative coefficients, there were insufficient numbers of observed crashes or the models did not converge. Also, for the urban/suburban segment models, multipleâvehicle crashes were classified as âdriveway relatedâ (MVD) and âmultipleâvehicle nonâdriveway otherâ (MVN). In these cases, MVD included the following subtypes: Same Direction (SD) ⢠Rear End (RE) ⢠Sideswipe Same Direction (SSD) ⢠Turning Same Direction (TSD) Intersecting Direction (ID) ⢠Angle (ANG) ⢠Turning Intersecting Direction (TID) Opposite Direction (OD) ⢠Head On (HO) ⢠Sideswipe Opposite Direction (SOD) ⢠Turning Opposite Direction (TOD) Single Vehicle (SV) ⢠Overturn or Roll Over (RO) ⢠Fixed Object (FO) ⢠Moving Object (MO)
5 turning same direction (TSD), all intersecting direction (ID) types, and turning opposite direction (TOD). MVN included rear end (RE), headâon (HO), sideswipe same direction (SSD), sideswipe opposite direction (SOD), and MVN other (that is, crashes coded as parked vehicle or angle, though not at driveways or intersections). In addition to the above taxonomy, we estimated nighttime crashes (Night) for some facility types (Urban/suburban segments). Table 2â1 lists the base condition crash type models that were estimated for each facility type.  Table 2â1: Base Condition Crash Type Models Estimated for Each Facility Type   Facility Type MVD MVN MVN OTHER SD RE SSD ID OD HO HO + SOD SV NIGHT Twoâlane rural 2U    X    X   X  3ST    X   X X   X  4ST    X   X X   X  4SG    X   X X   X  Multilane rural 4U    X   X X   X  4D    X   X X   X  3ST    X   X X   X  4ST    X   X X   X  4SG    X   X X   X  Urban/Suburban arterials 2U X X X  X X    X  X 3T X X X  X X    X X X 4U X X X  X X    X X X 4D X X X  X X    X X X 5T X X X  X X    X X X 3ST    X   X X   X  4ST    X   X X   X  3SG    X   X X   X  4SG    X   X X   X  Notes: Facility type codesâ2U = twoâlane undivided segments; 3T = twoâlane segments with twoâway leftâturn lane; 4U = fourâlane undivided segments; 4D = fourâlane divided segments; 5T = fourâlane segments with twoâway leftâturn lane; 3ST = 3 leg stopâcontrolled intersections; 4ST = fourâleg stopâcontrolled intersections; 3SG = threeâ leg signalâcontrolled intersections; 4SG = fourâleg signalâcontrolled intersections. Crash type codesâMVD = multipleâvehicle driveway related; MVN = multipleâvehicle nonâdriveway related; MVN OTHER = multipleâvehicle other; SD = same direction (all severity levels); RE = rear end; SSD = sideswipe same direction; ID = intersecting direction; OD = opposite direction (all severity levels); HO = headâon; HO+SOD = sideswipe + opposite direction; SV = single vehicle (all severity levels); NIGHT = nighttime.      Â
6 Delineation of Intersection Versus Segment Crashes In the HSM methodology, roadway segment models are used to predict all crashes that occur on portions of roadway segments that are more than 250 feet from an intersection and nonâintersectionârelated crashes that occur on portions of roadway segments that are within 250 feet of an intersection. Intersection models are used to predict all intersection and intersectionârelated crashes that occur within 250 feet of the intersection. The models for twoâlane rural roads and for urban and suburban and suburban arterials apparently were developed to facilitate this application directly.  For multilane rural roads in states where the crash records do not indicate âintersectionâ or âintersectionâ related,â all crashes occurring within 250 feet of the middle of an intersection are assigned to that intersection. The calibration procedure is expected to allow models developed for such cases to be applied to cases specified in the HSM methodology, and vice versa. These models were developed to be as consistent with the HSM methodology as possible. In the Ohio database used for urban and suburban arterials and the California database used for multilane rural roads, however, crashes cannot reliably be identified as intersection or intersectionârelated. Thus, the intersection models being developed for those two databases and facility types will pertain to all crashes occurring within 250 feet of the center of an intersection, and the segment models will apply to crashes occurring outside this boundary. As noted previously, the calibration procedure will allow these models to apply to cases where intersection and intersectionârelated crashes can be identified in accordance with the HSM methodology. 2.3 MODEL ESTIMATION APPROACH Crash Count Models Because crash frequency is a count phenomenon, negative binomial (NB) regression models, or other count distribution estimation methods, are commonly used to build crash prediction models. Even though the NB model has some limitations (for example, it cannot overcome potential underdispersion problems, and the dispersion parameter may be biased for small sample sizes), this model is still the one most commonly used in univariate crash frequency data analysis. The NB model also provides the dispersion parameter that is required for the empirical Bayes weighting of model predictions and observed crashes in the HSM. In this research, the NB model has been applied for all count models developed.   The NB model, also called the PoissonâGamma model, is well known to be able handle the issue of overdispersion in count data, where the variance exceeds the mean in violation of the definition of the Poisson distribution. In the NB model, the mean parameter for each site, i, is ð ð ð½ð exp ð   (2â1) where εi is a gammaâdistributed disturbance term, Xi is a vector of explanatory variables, and ð½Â is a vector of estimable parameters (coefficients on Xi). The most common relationship between the explanatory variables and λi is ð ð½ð exp ð½ð  or ln ð ð½ð ð½ð .  (2â2) With this form, the relationship is also called a logâlinear model. One reason the logâlinear model is popular for counts is that it ensures the dependent variable (that is, the expected number of crashesÂ
7 during a certain time period) is always positive or zero. Another reason is that taking the log of both sides of the equation results in a linear combination of the predictor variables (that is, the Xâs) on the rightâhand side. This model form belongs to a category called generalized linear models (GLMs). In a GLM, the regression coefficients and their standard errors are typically estimated by maximizing the likelihood or log likelihood of the parameters for the data observed.  The variance of the NB model can be estimated as VAR ð¦ E ð¦ ð¼ E ð¦ ,  (2â3) where y is the crash frequency data and α is the dispersion parameter.  Alternatives for Model Form SPFs for roadway segments are formulated as  ð ðð¥ð ð ð ln ð´ð´ð·ð ln ð¿    (2â4) where N = expected average crash frequency per year for a roadway segment; AADT = annual average daily traffic (vehicles per day) on a roadway segment; L = length of roadway segment (miles); and b0, b1 = regression coefficients. The value of the overdispersion parameter associated with N is determined as a function of segment length for twoâlane and multilane rural facility segments as follows: ð 1 ðð¥ð ð ln ð¿ (2â5) The following function was used for the overdispersion parameter for urban/suburban facility segments (except as noted for individual models):  ð ð ð¿   (2â6) For intersections, two alternative functional forms were considered: ð ðð¥ð ð ð ln ð´ð´ð·ð ð ln ð´ð´ð·ð (2â7) and ð ðð¥ð ð ð ln ð´ð´ð·ð ,  (2â8) where N = base total expected average crash frequency per year for an intersection; AADTmaj = AADT (vehicles per day) for majorâroad approaches; AADTmin = AADT (vehicles per day) for minorâroad approaches; AADTtotal = AADT (vehicles per day) for minorâ and majorâroad approaches combined; and b0, b1, b2, b3 = regression coefficients. In this research, only AADTmaj, AADTmin or AADTtotal were used for exposure for the SPFs, to be consistent with the HSM. Nevertheless, it is possible that different combinations of exposure variables can betterÂ
8 explain the number of crashes (Wang et al. 2017). For some facility types, other model forms were used; this is explained in detail in the relevant sections below.  Model Estimation and Fit Statistics SPFs for all facility types and crash categories were estimated using standard statistical packages, such as SAS®. As indicated above, the negative binomial distribution was used to start. When the negative binomial overdispersion parameter estimated by maximum likelihood (k) is found to be 0, which happened for several intersection models, this indicates a Poisson distribution is more appropriate (IDREâ UCLA, SAS User Guide). We reâestimated the models with a Poisson distribution in those cases and report both models.  In addition to the parameter estimates and standard errors and the overdispersion parameter, the tables also provide the Akaikeâs Information Criterion (AIC) and the Bayesian Information Criterion (BIC).  Both consist of a goodnessâofâfit term (log likelihood), along with a penalty to control for overfitting, and this penalty is a function of the number of parameters estimated.  With both the AIC and BIC, lower is better. For a discussion of AIC and BIC, readers are referred to Dziak et al. (2012); suffice to say here that BIC provides a larger penalty for the number of parameters. Dziak et al. (2012) indicate that, while the BIC is more likely to lead to a more parsimonious model with some risk of underfitting, the AIC could lead to a model with good future prediction with some risk of overfitting, and the use of AIC versus BIC may depend on the application. The mean absolute deviation (MAD) gives a measure of the average magnitude of variability of prediction. Smaller values are preferred to larger in comparing two or more competing SPFs. The MAD is the sum of the absolute value of predicted crashes minus observed crashes, divided by the number of sites. The values of predicted and observed crashes are from the calibration data: ðð´ð· â | |, (2â9) where ð¦  = observed counts; ð¦  = predicted values from the SPF; and n = validation data sample size. The mean squared prediction error (MSPE) is the sum of squared differences between observed and predicted crash frequencies, divided by sample size. MSPE is typically used to assess error associated with a validation or external data set:  ðððð¸ â , (2â10) where ð¦  = observed counts; ð¦  = predicted values from the SPF; and n = validation data sample size.Â
9 Washington et al. (2005) gives guidelines for interpreting fit statistics and evaluating the suitability of crash prediction models.  Crash Severity Modeling In general, crashes are classified into five severity levels: fatal injury (K); incapacitating injury (A); nonâ incapacitating injury (B); possible injury (C); and no injury or property damage only (O). Cumulative values of these levels are commonly defined, building from the highest level, e.g., KA indicates K and A level crashes, KAB indicates K, A and B crashes, etc. For analyzing crash severities, the research team considered several methodologies. First, we considered ordered logit and probit models, using each crash as an observation. These models would have been used to split crash counts into categories of severity. In the preliminary results, some roadway geometric characteristics were found to be statistically significant. They showed that higher maximum speed limits and paved shoulders decrease the severity of a crash, whereas wider lanes increase it, which is clearly counterintuitive. Consequently, we suspected omitted variable bias occurred in the models causing these erroneous results, as they did not include individual or crash characteristics (such as driver, passenger, vehicle, and so on), which are usually found most valuable for predicting the severity of individual crashes.  Consequently, we considered an alternative approach to investigating crashes by severity on an aggregate basis. This better suited the available data as well as the implementation context for the HSM, in which prediction by road segment or intersection is required, and demographic information about travelers is not available. Specifically, we considered a fractional split modeling approach, in which the proportion of crashes by severity level is predicted for each segment or intersection. The methodology and modeling results are excerpted from Yasmin et al. (2016) and summarized in Appendix B. The rest of this section summarizes the fractional split approach and our findings and recommendations regarding crash severity prediction.  Traditionally, the transportation safety literature has evolved along two major streams: crash frequency analysis and crash severity analysis. In crash frequency analysis, the focus is on identifying attributes that result in traffic crashes and effective countermeasures to improve the roadway design, and operational attributes are proposed. Crash severity analysis, on the other hand, is focused on examining crash events, identifying factors that affect the outcome, and providing solutions to reduce the consequencesâinjuries and fatalitiesâin the unfortunate event of traffic crashes. Recently, research in transportation safety has begun to bridge the gap between crash frequency and crash severity models. Specifically, researchers are examining crash frequency levels by severity while recognizing that, for the same observation record, crash frequencies by different levels of severity are likely to be dependent. Hence, as opposed to adopting the earlier univariate crash frequency models, researchers have developed multivariate models.  In multivariate approaches that are aimed at studying frequency and severity, the impact of exogenous variables is quantified through the propensity component of count models. The main interaction across different severityâlevel variables is sought through unobserved effectsâthat is, no interaction of observed effects occurs across the multiple count models. While this might not be a limitation per se, it might be beneficial to evaluate the impact of exogenous variables in a framework that directly relates a single exogenous variable to all severity count variables simultaneously. It is a framework where the observed propensities of crashes by severity level are modeled directly, while also recognizing the inherent ordering of crash severity outcomes.Â
10 The fractional split approach is not without limitations. In field data, there are often no crashes for some specific crash severities in a given caseâfor example, fatal injury crashes. When this happens, such a segment cannot be used for modeling. To avoid cases with zero crashes for any of the severity levels, the research team aggregated roadway segments into extended superâsegments (or arterials). To do this, the severity proportions had to be assumed to be consistent over all segments and intersections included in each superâsegment, which was not very practical. In addition, once we aggregated the segments, information specific to them was lost. For these reasons, the research team decided not to adopt the fractional split model for predicting crash severity. Instead, we recommend predicting crash severity using count models, as we do for crash type. 2.4 ESTIMATION AND VALIDATION DATA Estimating crash prediction models for the HSM requires datasets with adequate size, quality and scope of variables. Very few highway agencies have such data readily available. In order to limit the extent of the project budget expended on data collection, existing data sources were acquired to the extent possible for each facility type. It was also considered to be desirable to use data from the same states as were used to estimate models for the First Edition of the HSM for consistency. Two sources of readily available data were considered:Â ï· The Highway Safety Information System (HSIS). HSIS is a multistate database that contains crash, roadway inventory, and traffic volume data for a select group of states.  When HSIS was initially established, participating states were selected based on the quality and quantity of data available, and their ability to merge data from various files. For estimating the prediction models, HSIS data from Washington (twoâlane rural segments), Minnesota (twoâlane, multilane rural intersections and urban and suburban segments) and California (multilane fourâlane divided segments) were used.Â ï· Ohio Department of Transportation (ODOT). Ohio is part of HSIS.  However, in addition to the Ohio data that is part of HSIS, Ohio embarked upon a comprehensive project to collect data for implementation of the HSM and graciously provided the data they have assembled.  In order to validate the estimated models it was necessary to have data from at least one more jurisdiction. The above datasets were sufficient for twoâlane rural highways, but additional data sources had to be identified and in most cases data elements collected in order to form validation datasets. Table 2â2 lists the source of the data for estimation and validation for segments and intersections for each facility type. The subsequent chapters discuss the datasets in more detail, but a few overall notes about the selection of data are in order at this stage:Â ï· For 4âleg signalized (4SG) intersections on twoâlane and multilane rural highways, the Ohio dataset is used for model estimation because it has more cases than the Minnesota dataset. In the First Edition of the HSM, Minnesota data were used to estimate those models. Consequently, the base predictions for these models will be quite different from those made by the First Edition models.Â Â ï· For fourâlane undivided segments on multilane rural highways, only one state (Texas) could provide a useful dataset. Consequently, three years of the data were used for estimation and the fourth year used for validation.Â
11Â ï· For fourâlane divided segments on multilane rural highways, data from two states are used for validation as all none of the three state databases were as large as would have been preferred, and having two states to validate against helped to better test the resulting models.  Table 2â2: Data Used for Estimation and Validation Facility Type Segments Estimation Segments Validation Intersections Estimation Intersections Validation Twoâlane rural highways Washington Ohio 3ST: Minnesota 4ST: Minnesota 4SG: Ohio 3ST: Ohio 4ST: Ohio 4SG: Minnesota Multilane rural highways 4U: Texas (2009â11)  4D: California 4U: Texas (2012) 4D: Illinois & Washington 3ST: Minnesota 4ST: Minnesota 4SG: Ohio 3ST: Ohio 4ST: Ohio 4SG: Minnesota Urban/suburban arterials Ohio Minnesota Ohio North Carolina Notes: Facility type codesâ2U = twoâlane undivided segments; 3T = twoâlane segments with twoâway leftâturn lane; 4U = fourâlane undivided segments; 4D = fourâlane divided segments; 5T = fourâlane segments with twoâway leftâturn lane; 3ST = 3 leg stopâcontrolled intersections; 4ST = fourâleg stopâcontrolled intersections; 3SG = threeâ leg signalâcontrolled intersections; 4SG = fourâleg signalâcontrolled intersections. Â