Below is the uncorrected machine-read text of this chapter, intended to provide our own search engines and external engines with highly rich, chapter-representative searchable text of each book. Because it is UNCORRECTED material, please consider the following text as a useful but insufficient proxy for the authoritative book pages.
102 6 REVISITING THE HSM CALIBRATION APPROACH 6.1 APPROACHES CONSIDERED Background on HSM Approach The development of new models for the HSM, taken together with research conducted since its release in 2010 on key issues pertaining to the calibration procedure, provided the need and the opportunity to revisit that procedure in this research project with a view to updating it. The key issues, which are interrelated with others, pertain to the sample size for calibration data and to whether and how to capture the variation of the calibration factor with site characteristics. To address the latter issue, we investigated a procedure based on calibration functions. A review of the research on establishing minimum sample sizes and estimating calibration functions, along with the results of an empirical investigation in this project, led to the proposed calibration procedure update documented here. The research review suggested that required samples will, indeed, vary across site types, jurisdictions, and crash types and severities. In particular, a consensus seemed apparent that the desirable minimum suggested in the HSM of 30â50 sites with at least 100 crashes a year might not be universally applicable. The research carried out since 2010 has not, however, provided any consistent guidance on what does constitute an appropriate sample. In some cases, recommended sample sizes are so large that a jurisdiction may be better off acquiring (or hiring) personnel with the skill sets required to estimate their own models directly rather than calibrate an external one. The sample size guidance in the procedure recommended here is based on a report by Bahar et al. (2014); even so, sample sizes based on that guidance are not directly estimated but, rather, are determined through an iterative assessment of the accuracy of the calibration factor. The empirical investigation pursued in this project, in essence, evaluates the guidance in Bahar et al. (2014) by using various sample sizes in assessing and comparing combinations of the following three options that include exploration of calibration functions: A) Estimating a single calibration factor (C) B) Estimating a calibration function C) Directly estimating a model using the calibration data  We performed different sets of analyses pertaining to these assessments and comparisons for four representative site types. For all analyses, we estimated a constant calibration factor using the HSM methodology as the sum of the model predictions divided by the sum of the observed crashes for the calibration data. We also estimated a calibration function in the following form, based on research by Srinivasan et al. (2016): N a Unadjusted Prediction  (6â1) This function, in effect, allows the calibration factor to vary from site to site, depending on site characteristics that affect the crash prediction, most notably traffic volume.  We applied two alternative approaches for this investigation, as described below.Â
103 Approach 1 We used three representative site types for this investigation: urban fourâlane divided segments; urban twoâlane divided segments; and rural twoâlane, threeâleg stopâcontrolled intersections. The final models estimated and presented in earlier chapters were calibrated to randomly selected sites from another jurisdiction to increase sample sizes. We also directly estimated models with model forms identical to those being calibrated, with the exception that we used a constant overdispersion parameter.   The logic behind this âiterativeâ approach was that, at small sample sizes, applying either a calibration factor or function to an original model would prove superior to using a directly estimated model. As sample sizes increased, there would be a point at which a directly calibrated model would perform better. At the other end of the spectrum, there would also be a point at which the sample size would be too small even to estimate a reliable calibration factor. We evaluated the performance of a calibrated model using several criteria provided by the FHWA Calibrator spreadsheet tool (Lyon et al. 2016). The guidance this tool provided indicated a calibrated model is reasonable if either the coefficient of variation (CV) of the estimated calibration factor is 0.15 or less or if a cumulative residuals (CURE) plot for the fitted values has fewer than 5 percent of the data points outside of the two standard deviation limits. Other goodnessâofâfit measures provided by the tool include the mean absolute deviation (MAD), modified R2, a calibrated constant overdispersion parameter, and the maximum deviation from zero of the CURE plot for the fitted values. Approach 2 This investigation assessed the temporal and spatial transferability and calibration of the models. In this case, all of the data available for the calibration were used rather than samples of various sizes. The site type investigated was multilane rural highways. 6.2 APPROACH 1 RESULTS Urban FourâLane Divided Segments We calibrated the model we developed for total crashes and average conditions using data from Ohio to randomly selected sites from Minnesota for increasing sample sizes.  Table 6.1 presents the results of the investigation for urban fourâlane divided segments. It shows the number of sites and total crashes used and includes a number of measures, among them the calculated calibration factor (C) and its coefficient of variation (CV), the parameter estimates of the calibration function (a and b in Equation 6.1), and the goodnessâofâfit measures, and it compares the three options as provided by the Calibrator tool. A number of observations can be made from the results in Table 6â1: 1. For the three sample sizes investigated, the goodnessâofâfit statistics are reasonably similar.  2. The maximum calibration factor CV value of 0.15 recommended in the Calibrator tool guidance is not reached until a sample size of 100 sites and 271 crashes. Most interesting is that, at smaller sample sizes, a model directly estimated for the Minnesota data was successful, and the goodnessâofâfit statistics for all three options were comparable. This would seem to indicate that even if the CV is higher than 0.15, a directly estimated model may still be feasible.Â
104 3. The calibration function does perform better in general than a calibration factor, although the differences are not very large for these data. 4. The percentage of data points beyond the two standard deviation limits of the CURE plot for fitted values increases as the sample size increases. This may indicate that at small sample sizes the percentage outside these limits may be small simply due to the small sample. Urban TwoâLane Undivided Segments The model for total crashes and average conditions developed using data from Ohio was calibrated to randomly selected sites from Minnesota.  Table 6â2 shows the results of the investigation for urban twoâlane undivided segments. From them, the following observations can be made: 1. With 25 sites, the directly estimated model and calibration function models did not converge. Surprisingly, however, the calibration factor of 0.14 had a lower CV than the 50âsite sample and would be considered acceptable per the Calibrator tool guidance. All of the goodnessâofâfit statistics look impressive at first glance, but this is deceptive, as the sample size is only 59 crashes. A modified R2 of 0.96, for example, is unrealistically high. 2. With 50 sites, although the CV is greater than the 0.15 threshold, the calibration function measures are slightly better than those for the directly estimated model, except for the CURE plot measure of data points outside the two standard deviation limits for the predicted values, for which there is a tie. 3. With 75 sites, the calibration factor and function perform better than the directly estimated model, with the exception of the overdispersion parameter measure. The goodnessâofâfit statistics are worse than for the 50âsite sample, and the CV of 0.16 is just over the 0.15 threshold. 4. The results for 100 sites are similar to those for 75 sites. 5. As was seen for urban fourâlane divided segments, the percentage of data points outside the two standard deviation limits of the CURE plot for the fitted values increases as the sample size increases. Rural TwoâLane, ThreeâLeg StopâControlled Intersections We calibrated the model for total crashes and base conditions developed using data from Minnesota (a total of seven years of crash data) to randomly selected sites from Ohio (a total of five years of crash data). Table 6â3 shows the results of the investigation for rural twoâlane, threeâleg stopâcontrolled intersections.  A number of observations can be made from these results: 1. For all four sample sizes, the goodnessâofâfit statistics are reasonably similar.  2. The maximum calibration factor CV value of 0.15 recommended in the Calibrator tool guidance is not reached until a sample size of 125 sites and 247 crashes is reached. Most interesting is that a model directly estimated for the Ohio data was successful at smaller sample sizes, and the goodnessâofâfit statistics for all three options were comparable. This would seem to indicate that even if the CV is higher than the 0.15 threshold, a directly estimated model may still be feasible even with smaller sample sizes. 3. The calibration function does perform better in general than a calibration factor, although the differences are not very large for these data. 4. The percentage of data points beyond the two standard deviation limits of the CURE plot for fitted values increases as the sample size increases for the calibration factor option (Option A). This mayÂ
105 indicate that at small sample sizes the percentage outside these limits may be small simply due to the small sample. 6.3 APPROACH 2 RESULTS The investigation for this approach and site type involved an assessment of the temporal and spatial transferability and calibration of the models based on the CV of the calibration factor. In this case, we used all of the data available for the calibration rather than samples of various sizes.  First, we applied Texas 2012 data for calibration of the SPFs, using Texas 2009â11 data for undivided highway segments. Table 6â4 shows the results. Then, we used Ohio 2009â11, Washington 2009â11, and Illinois 2009â10 data for calibration of the California SPFs for divided highway segments. The results are shown in Table 6.5. The results in Table 6â5 indicate that, for Ohio and Illinois, the calibration function would provide predictions similar to those provided by a single calibration factor, since parameter b (Equation 6.1) was close to 1.0. No insights could be obtained on sample sizes of sites and crashes, as the results were not only inconsistent but very jurisdictionâspecific. The lowest MAD value, for example, was for the data with the largest number of sites but the fewest crashes and the highest value of the CV of the calibration factor. The temporal calibration results in Table 6â4 show parameter b of the calibration function was also close to 1.0, but even with a relatively large sample of sites and crashes for the same state, the CV of the calibration factor was beyond the threshold of 0.15 recommended for a successful calibration.   Â
106 Table 6â1: Results for Urban FourâLane Divided Segments No. Sites Observed Crashes C (CV) Calibration Function Parameters MAD Modified R2 overdispersion parameter CURE max dev CURE % dev Option* Option Option Option Option a (s.e.) b (s.e.) A B C A B C A B C A B C A B C 50 140 1.48 (0.24) 0.4296 (0.2277) 0.9859 (0.2735) 2.28 2.28 2.10 0.16 0.16 0.26 0.97 0.97 0.96 19.02 18.61 20.57 4 4 2 75 161 1.11 (0.17) 0.0222 (0.1811) 1.1183 (0.1974) 1.63 1.66 1.66 0.32 0.29 0.29 0.56 0.57 0.56 9.99 14.38 18.75 17 7 5 100 271 1.25 (0.15) 0.4178 (0.1324) 0.8995 (0.1415) 2.22 2.13 2.20 0.00 0.12 0.00 0.66 0.63 0.64 52.83 41.28 50.13 21 15 20 *A) Estimating a single calibration factor (C); B) Estimating a calibration function; C) Directly estimating a model using the calibration data Table 6â2: Results for Urban TwoâLane Undivided Segments No. Sites Observed Crashes C (CV) Calibration Function Parameters MAD Modified R2 overdispersion parameter CURE max dev CURE % dev Option* Option Option Option Option a (s.e.) b (s.e.) A B C A B C A B C A B C A B C 25 59 1.39 (0.14) n/a n/a 1.20 n/a n/a 0.96 n/a n/a 0.02 n/a n/a 3.95 n/a n/a 4 n/a n/a 50 137 1.15 (0.20) 0.3374 (0.2004) 0.8394 (0.1949) 1.96 1.92 1.97 0.43 0.48 0.43 0.60 0.57 0.60 21.13 13.68 21.25 4 2 2 75 186 1.15 (0.16) 0.3786 (0.1641) 0.7642 (0.1740) 1.82 1.74 1.85 0.35 0.44 0.14 0.68 0.63 0.59 17.76 11.57 31.24 9 3 31 100 232 1.15 (0.16) 0.1846 (0.1513) 0.9945 (0.1749) 1.69 1.69 1.73 0.31 0.31 0.18 0.69 0.69 0.62 22.86 22.44 38.74 16 16 26 *A) Estimating a single calibration factor (C); B) Estimating a calibration function; C) Directly estimating a model using the calibration data  Â
107 Table 6â3: Results for Rural TwoâLane ThreeâLeg Stopâcontrolled Intersections No. Sites Observed Crashes C (CV) Calibration Function Parameters MAD Modified R2 overdispersion parameter CURE max dev CURE % dev Option* Option Option Option Option a (s.e.) b (s.e.) A B C A B C A B C A B C A B C 50 97 1.31 (0.23) 1.7636 (0.1637) 0.4575 (0.1848) 1.71 1.63 1.64 0.00 0.19 0.18 0.94 0.71 0.72 19.93 4.73 4.71 46 1 2 75 145 1.22 (0.21) 1.5785 (0.1452) 0.5806 (0.16) 1.74 1.68 1.69 0.22 0.22 0.24 0.88 0.79 0.79 21.45 41.28 16.53 46 1 1 100 194 1.23 (0.18) 1.63 (0.123) 0.5482 (0.1413) 1.77 1.67 1.67 0.11 0.19 0.26 0.91 0.77 0.72 37.17 15.33 13.63 49 1 2 125 247 1.29 (0.15) 1.6714 (0.1051) 0.5797 (0.1249) 1.74 1.65 1.65 0.09 0.22 0.24 0.80 0.68 0.66 44.67 16.09 17.74 58 1 1 *A) Estimating a single calibration factor (C); B) Estimating a calibration function; C) Directly estimating a model using the calibration data Table 6â4: Calibration results using Texas 2012 data for calibration of SPFs using Texas 2009â2011 data for undivided highway segments Data Crash Type Observed Crashes HSM Pred. MAD Calibration Factor (C) (HSM, 2010) Calibration Function ðð©ð«ððð¢ðððð ð ðð§ððð£ð®ð¬ððð ðð«ððð¢ððð¢ð¨ð§ ð C (CV) N Fitted MAD a (SE) b (SE) N Fitted MAD TX 2012 (n=402) Total KABCO 195 233.28 0.583 0.836 (0.211) 195 0.542 0.825 (0.089) 0.838 (0.084) 188.964 0.554  Table 6â5: Calibration results using Ohio, Washington, and Illinois data for calibration of California SPFs for divided highway segments. Data Crash Type Observed Crashes HSM Pred. MAD Calibration Factor (C) (HSM, 2010) Calibration Function ðð©ð«ððð¢ðððð ð ðð§ððð£ð®ð¬ððð ðð«ððð¢ððð¢ð¨ð§ ð C (CV) N Fitted MAD a (SE) b (SE) N Fitted MAD OH (n=407) Total KABCO 856 866.12 1.348 0.988 (0.100) 856 1.345 0.991  (0.066) 1.003 (0.058) 861.064 1.346 WA (n=216) Total KABCO 730 441.15 2.007 1.655 (0.144) 730 1.978 1.969 (0.141) 0.848 (0.065) 733.060 1.939 IL (n=592) Total KABCO 170 233.75 0.463 0.727 (0.210) 170 0.413 0.747 (0.102) 1.046 (0.131) 169.461 0.411Â
108 6.4 CONCLUSIONS ON CALIBRATION EXERCISE Summary of Findings The results of the analyses indicate no consistency with regard to which option (calibration factor, calibration function, or directly estimated model) will perform best for a given sample size. For some cases, a small sample that is estimated using some criterion (for example, maximum CV of the calibration factor) may work; for others, it may not. What sample size will work is also highly variable, and dependent on factors including the average crash rate and amount of variation of site characteristics in the data. It is concluded that, at present, the required sample size for any of the calibration options can only be determined by trial and error, and the current HSM sample size guidance and subsequently developed resources (Bahar et al. 2014) can provide reasonable practical limits for the amount of data that may practically be collected for the start of a calibration exercise. Other key calibration issues were investigated but could not be resolved in this research. They included the following: 1) Should the calibration factor be estimated for the base models rather than for the HSM algorithm as a whole (that is, applying CMFs to the base models), as is the case at the moment? The recommendation is to maintain the status quo for site types, crash types, and crash severities for which there are enough CMFs to apply the algorithm, and to conduct further research on this topic. For situations in which there are few or no CMFs, the recommendation is to estimate the calibration factor from the base models.   2) Should the overdispersion parameter be calibrated? The current HSM methodology does not suggest this. It is recommended that future research consider basing this decision on an estimate of the standard deviation of the calibrated overdispersion parameter. Future research will also need to consider how the overdispersion parameter should be calibrated for a calibration function. Recommended Calibration Procedure Update On the basis of these conclusions, the following is recommended as an updated calibration procedure as depicted in Figure 6â1. 1. For site types, crash types, and crash severities for which there are enough CMFs to apply the HSM algorithm, perform the calibration for the algorithm as a whole (that is, by applying CMFs to the base models). For other situations, perform the calibration for the base models. 2. Start with an available sample that is desirably random and at least as large as that recommended in the HSM. 3. Perform the calibration first with a constant calibration factor. The FHWA Calibrator tool can be used. 4. Assess the success of the calibration. The user guide for the FHWA Calibrator tool provides guidance on how success can be assessed with CURE plots and the CV of the calibration factor. The latter measure is estimated and assessed in the Calibrator tool based on guidance provided in Bahar et al. (2014), Appendix B. That guidance can be used instead of the tool. 5. If the sample is insufficient, then incrementally assemble additional data for additional sites and assess until a successful calibration is achieved. Â
109 o If a successful calibration cannot be achieved with the entire sample available for total crashes, then the calibration results for a similar site type (from which a successful calibration was achieved) may be assumed to apply.  o If a successful calibration cannot be achieved with the entire sample available for a specific crash type or severity, then the calibration results for total crashes, however obtained, may be assumed to apply. 6. Estimate a calibration function using the approach in Srinivasan et al. (2016), and adopt it in preference to the calibration factor, if it is successfully estimated and performs better. 7. If appropriate skills are available or could be acquired, it is recommended to try to estimate directly a model with the final calibration dataset and adopt it if it is successfully estimated and performs better than the calibration factor and calibration function. The FHWA Calibrator tool can be used in this performance assessment.  Â
110  Figure 6â1: Suggested Calibration Process  Â